Spaces:

zhouzhou363
/

f5-tts

Configuration error

App Files Files Community

SWivid commited on Oct 14, 2024

Commit

1cec6dd

1 Parent(s): b648e8b

minor fix

Browse files

Files changed (3) hide show

README.md +1 -1
gradio_app.py +4 -6
inference-cli.py +7 -8

README.md CHANGED Viewed

@@ -87,7 +87,7 @@ python inference-cli.py \
 --model "E2-TTS" \
 --ref_audio "tests/ref_audio/test_zh_1_ref_short.wav" \
 --ref_text "对，这就是我，万人敬仰的太乙真人。" \
---gen_text "突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩那稍显肉感的双臂，轻笑道：\"我身上的肉，是为了掩饰我爆棚的魅力，否则，岂不吓坏了你们呢？\""
 ```
 ### Gradio App

 --model "E2-TTS" \
 --ref_audio "tests/ref_audio/test_zh_1_ref_short.wav" \
 --ref_text "对，这就是我，万人敬仰的太乙真人。" \
+--gen_text "突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩那稍显肉感的双臂，轻笑道，我身上的肉，是为了掩饰我爆棚的魅力，否则，岂不吓坏了你们呢？"
 ```
 ### Gradio App

gradio_app.py CHANGED Viewed

@@ -201,7 +201,7 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     elif exp_name == "E2-TTS":
         ema_model = E2TTS_ema_model
-    audio, sr = torchaudio.load(ref_audio)
     if audio.shape[0] > 1:
         audio = torch.mean(audio, dim=0, keepdim=True)
@@ -320,17 +320,15 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, custom_s
         gr.Info("Using custom reference text...")
     # Split the input text into batches
-    if len(ref_text.encode('utf-8')) == len(ref_text) and len(gen_text.encode('utf-8')) == len(gen_text):
-        max_chars = 400-len(ref_text.encode('utf-8'))
-    else:
-        max_chars = 300-len(ref_text.encode('utf-8'))
     gen_text_batches = split_text_into_batches(gen_text, max_chars=max_chars)
     print('ref_text', ref_text)
     for i, gen_text in enumerate(gen_text_batches):
         print(f'gen_text {i}', gen_text)
     gr.Info(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
-    return infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence)
 def generate_podcast(script, speaker1_name, ref_audio1, ref_text1, speaker2_name, ref_audio2, ref_text2, exp_name, remove_silence):
     # Split the script into speaker blocks

     elif exp_name == "E2-TTS":
         ema_model = E2TTS_ema_model
+    audio, sr = ref_audio
     if audio.shape[0] > 1:
         audio = torch.mean(audio, dim=0, keepdim=True)
         gr.Info("Using custom reference text...")
     # Split the input text into batches
+    audio, sr = torchaudio.load(ref_audio)
+    max_chars = int(len(ref_text.encode('utf-8')) / (audio.shape[-1] / 24000) * (30 - audio.shape[-1] / 24000))
     gen_text_batches = split_text_into_batches(gen_text, max_chars=max_chars)
     print('ref_text', ref_text)
     for i, gen_text in enumerate(gen_text_batches):
         print(f'gen_text {i}', gen_text)
     gr.Info(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
+    return infer_batch((audio, sr), ref_text, gen_text_batches, exp_name, remove_silence)
 def generate_podcast(script, speaker1_name, ref_audio1, ref_text1, speaker2_name, ref_audio2, ref_text2, exp_name, remove_silence):
     # Split the script into speaker blocks

inference-cli.py CHANGED Viewed

@@ -47,6 +47,7 @@ parser.add_argument(
     "-s",
     "--ref_text",
     type=str,
     help="Subtitle for the reference audio."
 )
 parser.add_argument(
@@ -70,7 +71,7 @@ args = parser.parse_args()
 config = tomli.load(open(args.config, "rb"))
 ref_audio = args.ref_audio if args.ref_audio else config["ref_audio"]
-ref_text = args.ref_text if args.ref_text else config["ref_text"]
 gen_text = args.gen_text if args.gen_text else config["gen_text"]
 output_dir = args.output_dir if args.output_dir else config["output_dir"]
 exp_name = args.model if args.model else config["model"]
@@ -243,7 +244,7 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence)
     elif exp_name == "E2-TTS":
         ema_model = load_model("E2TTS_Base", UNetT, E2TTS_model_cfg, 1200000)
-    audio, sr = torchaudio.load(ref_audio)
     if audio.shape[0] > 1:
         audio = torch.mean(audio, dim=0, keepdim=True)
@@ -364,17 +365,15 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, custom_s
         print("Using custom reference text...")
     # Split the input text into batches
-    if len(ref_text.encode('utf-8')) == len(ref_text) and len(gen_text.encode('utf-8')) == len(gen_text):
-        max_chars = 400-len(ref_text.encode('utf-8'))
-    else:
-        max_chars = 300-len(ref_text.encode('utf-8'))
     gen_text_batches = split_text_into_batches(gen_text, max_chars=max_chars)
     print('ref_text', ref_text)
     for i, gen_text in enumerate(gen_text_batches):
         print(f'gen_text {i}', gen_text)
-    print(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
-    return infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence)
 infer(ref_audio, ref_text, gen_text, exp_name, remove_silence, ",".join(SPLIT_WORDS))

     "-s",
     "--ref_text",
     type=str,
+    default="666",
     help="Subtitle for the reference audio."
 )
 parser.add_argument(
 config = tomli.load(open(args.config, "rb"))
 ref_audio = args.ref_audio if args.ref_audio else config["ref_audio"]
+ref_text = args.ref_text if args.ref_text != "666" else config["ref_text"]
 gen_text = args.gen_text if args.gen_text else config["gen_text"]
 output_dir = args.output_dir if args.output_dir else config["output_dir"]
 exp_name = args.model if args.model else config["model"]
     elif exp_name == "E2-TTS":
         ema_model = load_model("E2TTS_Base", UNetT, E2TTS_model_cfg, 1200000)
+    audio, sr = ref_audio
     if audio.shape[0] > 1:
         audio = torch.mean(audio, dim=0, keepdim=True)
         print("Using custom reference text...")
     # Split the input text into batches
+    audio, sr = torchaudio.load(ref_audio)
+    max_chars = int(len(ref_text.encode('utf-8')) / (audio.shape[-1] / 24000) * (30 - audio.shape[-1] / 24000))
     gen_text_batches = split_text_into_batches(gen_text, max_chars=max_chars)
     print('ref_text', ref_text)
     for i, gen_text in enumerate(gen_text_batches):
         print(f'gen_text {i}', gen_text)
+    print(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches, loading models...")
+    return infer_batch((audio, sr), ref_text, gen_text_batches, exp_name, remove_silence)
 infer(ref_audio, ref_text, gen_text, exp_name, remove_silence, ",".join(SPLIT_WORDS))