Spaces:

SohomToom
/

DocToAudioConverted

Sleeping

App Files Files Community

SohomToom commited on May 6

Commit

bebc496

verified ·

1 Parent(s): 14d8745

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -48

app.py CHANGED Viewed

@@ -1,65 +1,87 @@
 import os
-import tempfile
-import zipfile
 from docx import Document
 from TTS.api import TTS
-from pydub import AudioSegment
-import gradio as gr
-# Available TTS models with voice descriptions
 VOICE_MODELS = {
-    "Jenny (Expressive Female)": "tts_models/en/jenny/jenny",
-    "LJSpeech (Standard Female)": "tts_models/en/ljspeech/vits",
-    "VCTK (Multiple Speakers)": "tts_models/en/vctk/vits"
 }
-# Function to update speaker choices based on the selected model
-def update_speaker_choices(selected_voice):
-    if selected_voice == "VCTK (Multiple Speakers)":
-        return ["Speaker 1", "Speaker 2", "Speaker 3"]  # Modify with actual speaker names or indices
-    return ["Default Speaker"]
-def docx_to_wav_zip(doc_file, selected_voice, speaker_name):
-    # Load the selected TTS model
-    tts = TTS(model_name=VOICE_MODELS[selected_voice], progress_bar=False, gpu=False)
-    # Extract text from .docx
     document = Document(doc_file.name)
     full_text = "\n".join([para.text for para in document.paragraphs if para.text.strip()])
-    # Generate temporary paths
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_wav:
         wav_path = tmp_wav.name
-    zip_path = wav_path.replace(".wav", ".zip")
-    # Get speaker index (this part assumes speaker names are like 'Speaker 1', 'Speaker 2', etc.)
-    speaker_idx = int(speaker_name.split()[-1]) - 1 if speaker_name.startswith("Speaker") else 0
-    # Generate speech with the selected speaker index
-    tts.tts_to_file(text=full_text, speaker_idx=speaker_idx, file_path=wav_path)
-    # Convert wav to mp3 and zip the result
-    sound = AudioSegment.from_wav(wav_path)
-    sound.export(wav_path, format="wav")  # keeping the wav format
-    # Zip the files
-    with zipfile.ZipFile(zip_path, 'w') as zipf:
-        zipf.write(wav_path, os.path.basename(wav_path))
-    return zip_path
-# Gradio interface
-interface = gr.Interface(
-    fn=docx_to_wav_zip,
-    inputs=[
-        gr.File(label="Upload .docx File"),
-        gr.Dropdown(choices=list(VOICE_MODELS.keys()), label="Choose Voice", value="Jenny (Expressive Female)"),
-        gr.Dropdown(choices=update_speaker_choices("VCTK (Multiple Speakers)"), label="Choose Speaker", value="Speaker 1")  # Example
-    ],
-    outputs=gr.File(label="Download Zip File"),
-    title="Realistic Voiceover from DOCX (Multiple Voices)",
-    description="Upload a .docx file, choose a realistic voice, and pick a speaker to generate a voiceover in WAV format."
-)
 if __name__ == "__main__":
     interface.launch()

 import os
+os.environ["NUMBA_DISABLE_CACHE"] = "1"
+import gradio as gr
 from docx import Document
 from TTS.api import TTS
+import tempfile
+# Available TTS models with descriptions
 VOICE_MODELS = {
+    "Jenny (Expressive Female)": {
+        "model_name": "tts_models/en/jenny/jenny",
+        "multi_speaker": False
+    },
+    "LJSpeech (Standard Female)": {
+        "model_name": "tts_models/en/ljspeech/vits",
+        "multi_speaker": False
+    },
+    "VCTK (Multiple Speakers)": {
+        "model_name": "tts_models/en/vctk/vits",
+        "multi_speaker": True
+    }
 }
+# Cache to avoid reloading models
+MODEL_CACHE = {}
+def load_tts_model(model_key):
+    if model_key in MODEL_CACHE:
+        return MODEL_CACHE[model_key]
+    info = VOICE_MODELS[model_key]
+    tts = TTS(model_name=info["model_name"], progress_bar=False, gpu=False)
+    MODEL_CACHE[model_key] = tts
+    return tts
+def extract_speakers(model_key):
+    info = VOICE_MODELS[model_key]
+    if info["multi_speaker"]:
+        tts = load_tts_model(model_key)
+        return list(tts.speakers)
+    return []
+def docx_to_wav(doc_file, selected_voice, selected_speaker=None):
+    info = VOICE_MODELS[selected_voice]
+    tts = load_tts_model(selected_voice)
+    # Extract text from docx
     document = Document(doc_file.name)
     full_text = "\n".join([para.text for para in document.paragraphs if para.text.strip()])
+    # Save to WAV
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_wav:
         wav_path = tmp_wav.name
+    kwargs = {}
+    if info["multi_speaker"]:
+        kwargs["speaker"] = selected_speaker
+    tts.tts_to_file(text=full_text, file_path=wav_path, **kwargs)
+    return wav_path
+def update_speaker_dropdown(voice_selection):
+    speakers = extract_speakers(voice_selection)
+    return gr.Dropdown.update(choices=speakers, visible=bool(speakers), value=speakers[0] if speakers else None)
+with gr.Blocks() as interface:
+    gr.Markdown("# Realistic Voiceover from DOCX\nUpload a .docx and choose a voice to generate a WAV audio.")
+    with gr.Row():
+        docx_input = gr.File(label="Upload .docx File", type="file")
+        voice_dropdown = gr.Dropdown(choices=list(VOICE_MODELS.keys()), value="Jenny (Expressive Female)", label="Voice")
+        speaker_dropdown = gr.Dropdown(choices=[], label="Speaker", visible=False)
+    generate_button = gr.Button("Generate Speech")
+    audio_output = gr.Audio(label="Download WAV", type="filepath")
+    voice_dropdown.change(fn=update_speaker_dropdown, inputs=voice_dropdown, outputs=speaker_dropdown)
+    generate_button.click(
+        fn=docx_to_wav,
+        inputs=[docx_input, voice_dropdown, speaker_dropdown],
+        outputs=audio_output
+    )
 if __name__ == "__main__":
     interface.launch()