Spaces:

zhouzhou363
/

f5-tts

Configuration error

AWAS666 commited on Oct 14, 2024

Commit

664533a

2 Parent(s): ff4e797 f2b892a

Merge branch 'main' of https://github.com/SWivid/F5-TTS

Files changed (2) hide show

gradio_app.py CHANGED Viewed

@@ -46,6 +46,7 @@ pipe = pipeline(
     torch_dtype=torch.float16,
     device=device,
 )
 # --------------------- Settings -------------------- #
@@ -243,8 +244,6 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
         generated = generated[:, ref_audio_len:, :]
         generated_mel_spec = rearrange(generated, "1 n d -> 1 d n")
-        vocos = Vocos.from_pretrained("charactr/vocos-mel-24khz")
         generated_wave = vocos.decode(generated_mel_spec.cpu())
         if rms < target_rms:
             generated_wave = generated_wave * rms / target_rms

     torch_dtype=torch.float16,
     device=device,
 )
+vocos = Vocos.from_pretrained("charactr/vocos-mel-24khz")
 # --------------------- Settings -------------------- #
         generated = generated[:, ref_audio_len:, :]
         generated_mel_spec = rearrange(generated, "1 n d -> 1 d n")
         generated_wave = vocos.decode(generated_mel_spec.cpu())
         if rms < target_rms:
             generated_wave = generated_wave * rms / target_rms

inference-cli.py CHANGED Viewed

@@ -95,6 +95,7 @@ device = (
     if torch.cuda.is_available()
     else "mps" if torch.backends.mps.is_available() else "cpu"
 )
 print(f"Using {device} device")
@@ -286,8 +287,6 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, model, remove_silence):
         generated = generated[:, ref_audio_len:, :]
         generated_mel_spec = rearrange(generated, "1 n d -> 1 d n")
-        vocos = Vocos.from_pretrained("charactr/vocos-mel-24khz")
         generated_wave = vocos.decode(generated_mel_spec.cpu())
         if rms < target_rms:
             generated_wave = generated_wave * rms / target_rms

     if torch.cuda.is_available()
     else "mps" if torch.backends.mps.is_available() else "cpu"
 )
+vocos = Vocos.from_pretrained("charactr/vocos-mel-24khz")
 print(f"Using {device} device")
         generated = generated[:, ref_audio_len:, :]
         generated_mel_spec = rearrange(generated, "1 n d -> 1 d n")
         generated_wave = vocos.decode(generated_mel_spec.cpu())
         if rms < target_rms:
             generated_wave = generated_wave * rms / target_rms