Spaces:

SohomToom
/

TextToVoiceUsingOpenVoice

Running

App Files Files Community

SohomToom commited on May 8

Commit

ed1a5ad

verified ·

1 Parent(s): 428e60f

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -33

app.py CHANGED Viewed

@@ -1,16 +1,13 @@
 import os
-import torch
-import time
 import uuid
 import gradio as gr
-from openvoice import se_extractor
 from openvoice.api import ToneColorConverter
-# Set writable cache directory for torch
 os.environ["TORCH_HOME"] = "/tmp/torch"
-os.makedirs("/tmp/torch", exist_ok=True)
-# Environment fixes for HF Spaces
 os.environ["HF_HOME"] = "/tmp/huggingface"
 os.environ["HF_HUB_CACHE"] = "/tmp/huggingface"
 os.environ["TRANSFORMERS_CACHE"] = "/tmp/huggingface"
@@ -18,48 +15,53 @@ os.environ["MPLCONFIGDIR"] = "/tmp"
 os.environ["XDG_CACHE_HOME"] = "/tmp"
 os.environ["XDG_CONFIG_HOME"] = "/tmp"
 os.environ["NUMBA_DISABLE_CACHE"] = "1"
 os.makedirs("/tmp/huggingface", exist_ok=True)
 os.makedirs("/tmp/flagged", exist_ok=True)
-# Set model paths
-ckpt_converter = "checkpoints/converter/config.json"
 output_dir = "/tmp/outputs"
 os.makedirs(output_dir, exist_ok=True)
-# Initialize OpenVoice converter
 tone_color_converter = ToneColorConverter(ckpt_converter)
-# Speaker embedding cache
-ref_speaker_embed = None
 def clone_and_speak(text, speaker_wav):
     if not speaker_wav:
         return "Please upload a reference .wav file."
-    # Generate a unique filename
-    timestamp = str(int(time.time()))
-    base_name = f"output_{timestamp}_{uuid.uuid4().hex[:6]}"
-    output_wav = os.path.join(output_dir, f"{base_name}.wav")
-    # Extract style from uploaded speaker voice
-    global ref_speaker_embed
-    ref_speaker_embed = se_extractor.get_se(speaker_wav, tone_color_converter, vad=False)
-    # Generate speech using base model
     tone_color_converter.convert(
-        text=text,
-        speaker_id="openvoice",
-        language="en",
-        ref_speaker=speaker_wav,
-        ref_embed=ref_speaker_embed,
-        output_path=output_wav,
-        top_k=10,
-        temperature=0.3
     )
-    return output_wav
-# Gradio interface (exposed as global `demo` for HF Spaces)
 gr.Interface(
     fn=clone_and_speak,
     inputs=[
@@ -67,7 +69,7 @@ gr.Interface(
         gr.Audio(type="filepath", label="Upload a Reference Voice (.wav)")
     ],
     outputs=gr.Audio(label="Synthesized Output"),
-    flagging_dir="/tmp/flagged",  # safe temporary dir
-    title="Text to Voice using OpenVoice",
-    description="Clone any voice (English) and generate speech using OpenVoice on CPU.",
 ).launch()

 import os
 import uuid
+import time
+import torch
 import gradio as gr
+from melo.api import TTS
 from openvoice.api import ToneColorConverter
+# Set temporary cache locations for Hugging Face Spaces
 os.environ["TORCH_HOME"] = "/tmp/torch"
 os.environ["HF_HOME"] = "/tmp/huggingface"
 os.environ["HF_HUB_CACHE"] = "/tmp/huggingface"
 os.environ["TRANSFORMERS_CACHE"] = "/tmp/huggingface"
 os.environ["XDG_CACHE_HOME"] = "/tmp"
 os.environ["XDG_CONFIG_HOME"] = "/tmp"
 os.environ["NUMBA_DISABLE_CACHE"] = "1"
+os.makedirs("/tmp/torch", exist_ok=True)
 os.makedirs("/tmp/huggingface", exist_ok=True)
 os.makedirs("/tmp/flagged", exist_ok=True)
+# Output folder
 output_dir = "/tmp/outputs"
 os.makedirs(output_dir, exist_ok=True)
+# Initialize tone converter
+ckpt_converter = "checkpoints/converter/config.json"
 tone_color_converter = ToneColorConverter(ckpt_converter)
+# Device setting
+device = "cuda" if torch.cuda.is_available() else "cpu"
 def clone_and_speak(text, speaker_wav):
     if not speaker_wav:
         return "Please upload a reference .wav file."
+    base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
+    tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
+    final_output_path = f"{output_dir}/{base_name}_converted.wav"
+    # Use English speaker model
+    model = TTS(language="EN", device=device)
+    speaker_ids = model.hps.data.spk2id
+    default_speaker_id = next(iter(speaker_ids.values()))
+    # Generate base TTS voice
+    model.tts_to_file(text, default_speaker_id, tmp_melo_path,language="en")
+    # Use speaker_wav as reference to extract style embedding
+    from openvoice import se_extractor
+    ref_se, _ = se_extractor.get_se(speaker_wav, tone_color_converter, vad=False)
+    # Run the tone conversion
     tone_color_converter.convert(
+        audio_src_path=tmp_melo_path,
+        src_se=ref_se,
+        tgt_se=ref_se,
+        output_path=final_output_path,
+        message="@HuggingFace",
     )
+    return final_output_path
+# Gradio interface
 gr.Interface(
     fn=clone_and_speak,
     inputs=[
         gr.Audio(type="filepath", label="Upload a Reference Voice (.wav)")
     ],
     outputs=gr.Audio(label="Synthesized Output"),
+    flagging_dir="/tmp/flagged",
+    title="Text to Voice using Melo TTS + OpenVoice",
+    description="Use Melo TTS for base synthesis and OpenVoice to apply a reference speaker's tone.",
 ).launch()