Spaces:

SohomToom
/

TextToVoiceUsingOpenVoice

Running

App Files Files Community

SohomToom commited on May 9

Commit

5e9b992

verified ·

1 Parent(s): 905b4c7

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -12

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ os.environ["NUMBA_DISABLE_CACHE"] = "1"
 # import english_patch
 #from melo.api import TTS
 from MeloTTS.melo.api import TTS
 from openvoice.api import ToneColorConverter
 #from meloTTS import english
@@ -33,46 +34,51 @@ output_dir = "/tmp/outputs"
 os.makedirs(output_dir, exist_ok=True)
 # Initialize tone converter
-ckpt_converter = "checkpoints/converter/config.json"
-tone_color_converter = ToneColorConverter(ckpt_converter)
 # Device setting
 device = "cuda" if torch.cuda.is_available() else "cpu"
 def clone_and_speak(text, speaker_wav):
     if not speaker_wav:
         return "Please upload a reference .wav file."
     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
-    final_output_path = f"{output_dir}/{base_name}_converted.wav"
     # Use English speaker model
     model = TTS(language="EN", device=device)
     speaker_ids = model.hps.data.spk2id
     default_speaker_id = next(iter(speaker_ids.values()))
     for speaker_key in speaker_ids.keys():
         speaker_id = speaker_ids[speaker_key]
         speaker_key = speaker_key.lower().replace('_', '-')
-    # Generate base TTS voice
-    speed = 1.0
-        #source_se = torch.load(f'checkpoints/base_speakers/EN/{speaker_key}.pth', map_location=device)
     # Use speaker_wav as reference to extract style embedding
-    from openvoice import se_extractor
-    torch.hub.load('snakers4/silero-vad', 'silero_vad', force_reload=False)
-    ref_se, _ = se_extractor.get_se(speaker_wav, tone_color_converter, vad=True)
     if torch.backends.mps.is_available() and device == 'cpu':
             torch.backends.mps.is_available = lambda: False
     model.tts_to_file(text, speaker_id, tmp_melo_path,speed=speed)
     # Run the tone conversion
     tone_color_converter.convert(
         audio_src_path=tmp_melo_path,
-        src_se=ref_se,
         tgt_se=ref_se,
         output_path=final_output_path,
         message="@HuggingFace",

 # import english_patch
 #from melo.api import TTS
 from MeloTTS.melo.api import TTS
+from openvoice import se_extractor
 from openvoice.api import ToneColorConverter
 #from meloTTS import english
 os.makedirs(output_dir, exist_ok=True)
 # Initialize tone converter
+ckpt_converter = "checkpoints/converter"
 # Device setting
 device = "cuda" if torch.cuda.is_available() else "cpu"
+tone_color_converter = ToneColorConverter(f'{ckpt_converter}/config.json', device=device)
+tone_color_converter.load_ckpt(f'{ckpt_converter}/checkpoint.pth')
 def clone_and_speak(text, speaker_wav):
     if not speaker_wav:
         return "Please upload a reference .wav file."
     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
+    ref_se, _ = se_extractor.get_se(speaker_wav, tone_color_converter, vad=True)
     # Use English speaker model
     model = TTS(language="EN", device=device)
     speaker_ids = model.hps.data.spk2id
     default_speaker_id = next(iter(speaker_ids.values()))
     for speaker_key in speaker_ids.keys():
         speaker_id = speaker_ids[speaker_key]
         speaker_key = speaker_key.lower().replace('_', '-')
+        source_se = torch.load(f'checkpoint/base_speakers/ses/{speaker_key}.pth', map_location=device)
+    speed = 1.0
     # Use speaker_wav as reference to extract style embedding
+    #torch.hub.load('snakers4/silero-vad', 'silero_vad', force_reload=False)
     if torch.backends.mps.is_available() and device == 'cpu':
             torch.backends.mps.is_available = lambda: False
     model.tts_to_file(text, speaker_id, tmp_melo_path,speed=speed)
+    final_output_path = f"{output_dir}/{base_name}_converted.wav"
     # Run the tone conversion
     tone_color_converter.convert(
         audio_src_path=tmp_melo_path,
+        src_se=source_se,
         tgt_se=ref_se,
         output_path=final_output_path,
         message="@HuggingFace",