Spaces:

MiniMaxAI
/

MiniMax-Speech-Tech-Report

Running

App Files Files Community

sriting commited on May 13

Commit

ee03a71

1 Parent(s): 31600f6

feat: update tech report

Browse files

Files changed (1) hide show

index.html +15 -27

index.html CHANGED Viewed

@@ -57,10 +57,9 @@
 			control
 			via LoRA; text to voice (T2V) by synthesizing timbre features directly from text description; and professional
 			voice
-			cloning (PVC) by fine-tuning timbre features with additional data. We encourage readers to visit
-			<a
-				href="https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report">https://minimax-ai.github.io/tts_tech_report</a>
-			for more examples.
 		</p>
 	</div>
@@ -233,23 +232,21 @@
 					features based
 					on the text content, whereas OneShot adheres more strictly to the speaker characteristics (prosody, speech
 					rate,
-					emotions, etc.) demonstrated in the audio prompt.
 				</p>
 				<div class="scroll-wrapper" style="margin-top: 2rem;">
 					<table style="width: 100%;">
 						<tbody>
 							<tr class="border-bottom-thin">
 								<th scope="col">Source Audio</th>
-								<th scope="col">Prompt</th>
 								<th scope="col">Text</th>
 								<th scope="col">Zero-Shot Version</th>
 								<th scope="col">One-Shot Version</th>
 								<th scope="col">Elevenlabs Multilingual_v2</th>
 							</tr>
 							<tr class="border-bottom-thin">
-								<th>
-									<audio class="audio-sm" src="assets/audios/Lyrical%20Cantonese_Source.WAV" controls></audio>
-								</th>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Lyrical%20Cantonese_Prompt.WAV" controls></audio>
 								</td>
@@ -280,9 +277,6 @@
 								</td>
 							</tr>
 							<tr class="border-bottom-thin">
-								<th>
-									<audio class="audio-sm" src="assets/audios/Breaking%20Down%20Mandarin_Source.WAV" controls></audio>
-								</th>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Breaking%20Down%20Mandarin_Prompt.WAV" controls></audio>
 								</td>
@@ -317,9 +311,6 @@
 								</td>
 							</tr>
 							<tr class="border-bottom-thin">
-								<th>
-									<audio class="audio-sm" src="assets/audios/Quirky%20Female%20English.MP3" controls></audio>
-								</th>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Quirky%20Female%20English_Prompt.MP3" controls></audio>
 								</td>
@@ -346,9 +337,6 @@
 								</td>
 							</tr>
 							<tr>
-								<th>
-									<audio class="audio-sm" src="assets/audios/Neurotic%20Teenage%20English.MP3" controls></audio>
-								</th>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Neurotic%20Teenage%20English_Prompt.MP3" controls></audio>
 								</td>
@@ -398,7 +386,7 @@
 								<th scope="col">Languages</th>
 								<th scope="col">Source Audio</th>
 								<th scope="col">Text</th>
-								<th scope="col">Minimax<br>Speech_02_HD</th>
 								<th scope="col">ElevenLabs<br>Multilingual_v2</th>
 								<th scope="col">OpenAI<br>TTS_1_HD<br>(*not cloned voice)</th>
 							</tr>
@@ -519,19 +507,19 @@
 						<tbody>
 							<tr class="border-bottom-thin">
 								<th scope="col">Original Language</th>
-								<th scope="col">Mixed Language</th>
 								<th scope="col">Source Audio</th>
 								<th scope="col">Text</th>
-								<th scope="col">Minimax<br>Speech_02_HD</th>
 								<th scope="col">ElevenLabs<br>Multilingual_v2</th>
 								<th scope="col">OpenAI<br>TTS_1_HD<br>(*not cloned voice)</th>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>English</td>
-								<td>English + Mandarin</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Wong_Sourse.mp3" controls></audio>
 								</td>
 								<td>
 									Kiddo! Come come come, 学如逆水行舟，不进则退。<br>
 									I see you're using AI tools already - so smart!<br>
@@ -551,10 +539,10 @@
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>Mandarin</td>
-								<td>Mandarin + Cantonese</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/ShiBanYu_Sourse.mp3" controls></audio>
 								</td>
 								<td>
 									老铁啊，多谢晒你送我呢本，广州话正音字典，咁好嘢喎！<br>
 									我呢个大老爷们儿学广州话真系好难㗎！成日都分唔清声调啊。<br>
@@ -572,10 +560,10 @@
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>Mandarin</td>
-								<td>Mandarin + English</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/ShuanQ_Sourse.mp3" controls></audio>
 								</td>
 								<td>
 									The people said, 桂林's scenery is the first under heaven.<br>
 									Yet in my opinion, 阳朔 scenery is better than ��林。<br>
@@ -593,10 +581,10 @@
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>English</td>
-								<td>English + Spanish</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/CoCo_Sourse.mp3" controls></audio>
 								</td>
 								<td>
 									Mi abuelita always told me "el que persevera, alcanza".<br>
 									If you persevere, you'll achieve your dreams!<br>
@@ -614,10 +602,10 @@
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>Japanese</td>
-								<td>Japanese + Korean</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Powerful_Girl_Sourse.mp3" controls></audio>
 								</td>
 								<td>
 									最近の天気予報によりますと、今週末は桜の開花に最適<br>
 									な気温になる予定です。<br>
@@ -996,7 +984,7 @@
 						<tbody>
 							<tr class="border-bottom-thin">
 								<th scope="col">Text</th>
-								<th scope="col" style="text-align: center;">Mnimax<br>Speech_02_HD</th>
 								<th scope="col" style="text-align: center;">Microsoft<br>Azure TTS</th>
 								<th scope="col" style="text-align: center;">AWS<br>Polly</th>
 							</tr>

 			control
 			via LoRA; text to voice (T2V) by synthesizing timbre features directly from text description; and professional
 			voice
+			cloning (PVC) by fine-tuning timbre features with additional data. Welcome to visit
+			<a href="https://www.minimax.io/audio">MiniMax Audio</a> and
+			explore our powerful TTS features.
 		</p>
 	</div>
 					features based
 					on the text content, whereas OneShot adheres more strictly to the speaker characteristics (prosody, speech
 					rate,
+					emotions, etc.) demonstrated in the audio prompt (The additional input that OneShot has compared to ZeroShot,
+					see
+					technical report for details).
 				</p>
 				<div class="scroll-wrapper" style="margin-top: 2rem;">
 					<table style="width: 100%;">
 						<tbody>
 							<tr class="border-bottom-thin">
 								<th scope="col">Source Audio</th>
 								<th scope="col">Text</th>
 								<th scope="col">Zero-Shot Version</th>
 								<th scope="col">One-Shot Version</th>
 								<th scope="col">Elevenlabs Multilingual_v2</th>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>
 									<audio class="audio-sm" src="assets/audios/Lyrical%20Cantonese_Prompt.WAV" controls></audio>
 								</td>
 								</td>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>
 									<audio class="audio-sm" src="assets/audios/Breaking%20Down%20Mandarin_Prompt.WAV" controls></audio>
 								</td>
 								</td>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>
 									<audio class="audio-sm" src="assets/audios/Quirky%20Female%20English_Prompt.MP3" controls></audio>
 								</td>
 								</td>
 							</tr>
 							<tr>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Neurotic%20Teenage%20English_Prompt.MP3" controls></audio>
 								</td>
 								<th scope="col">Languages</th>
 								<th scope="col">Source Audio</th>
 								<th scope="col">Text</th>
+								<th scope="col">MiniMax<br>Speech_02_HD</th>
 								<th scope="col">ElevenLabs<br>Multilingual_v2</th>
 								<th scope="col">OpenAI<br>TTS_1_HD<br>(*not cloned voice)</th>
 							</tr>
 						<tbody>
 							<tr class="border-bottom-thin">
 								<th scope="col">Original Language</th>
 								<th scope="col">Source Audio</th>
+								<th scope="col">Mixed Language</th>
 								<th scope="col">Text</th>
+								<th scope="col">MiniMax<br>Speech_02_HD</th>
 								<th scope="col">ElevenLabs<br>Multilingual_v2</th>
 								<th scope="col">OpenAI<br>TTS_1_HD<br>(*not cloned voice)</th>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>English</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Wong_Sourse.mp3" controls></audio>
 								</td>
+								<td>English + Mandarin</td>
 								<td>
 									Kiddo! Come come come, 学如逆水行舟，不进则退。<br>
 									I see you're using AI tools already - so smart!<br>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>Mandarin</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/ShiBanYu_Sourse.mp3" controls></audio>
 								</td>
+								<td>Mandarin + Cantonese</td>
 								<td>
 									老铁啊，多谢晒你送我呢本，广州话正音字典，咁好嘢喎！<br>
 									我呢个大老爷们儿学广州话真系好难㗎！成日都分唔清声调啊。<br>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>Mandarin</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/ShuanQ_Sourse.mp3" controls></audio>
 								</td>
+								<td>Mandarin + English</td>
 								<td>
 									The people said, 桂林's scenery is the first under heaven.<br>
 									Yet in my opinion, 阳朔 scenery is better than ��林。<br>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>English</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/CoCo_Sourse.mp3" controls></audio>
 								</td>
+								<td>English + Spanish</td>
 								<td>
 									Mi abuelita always told me "el que persevera, alcanza".<br>
 									If you persevere, you'll achieve your dreams!<br>
 							</tr>
 							<tr class="border-bottom-thin">
 								<td>Japanese</td>
 								<td>
 									<audio class="audio-sm" src="assets/audios/Powerful_Girl_Sourse.mp3" controls></audio>
 								</td>
+								<td>Japanese + Korean</td>
 								<td>
 									最近の天気予報によりますと、今週末は桜の開花に最適<br>
 									な気温になる予定です。<br>
 						<tbody>
 							<tr class="border-bottom-thin">
 								<th scope="col">Text</th>
+								<th scope="col" style="text-align: center;">MiniMax<br>Speech_02_HD</th>
 								<th scope="col" style="text-align: center;">Microsoft<br>Azure TTS</th>
 								<th scope="col" style="text-align: center;">AWS<br>Polly</th>
 							</tr>