Edge-TTS-Text-to-Speech

Sleeping

App Files Files Community

EmRa228 commited on May 8

Commit

25681f6

verified ·

1 Parent(s): d524564

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -63

app.py CHANGED Viewed

@@ -1,70 +1,44 @@
-import os
-import gradio as gr
 import asyncio
 import edge_tts
-import tempfile
-# Load voices once
-def load_voices():
-    loop = asyncio.get_event_loop()
-    voices = loop.run_until_complete(edge_tts.list_voices())
-    return {f"{v['ShortName']} - {v['Locale']} ({v['Gender']})": v['ShortName']
-            for v in voices}
-VOICES = load_voices()
-# Async TTS
-async def _tts(text, short_name, rate_str, pitch_str):
-    comm = edge_tts.Communicate(text, short_name, rate=rate_str, pitch=pitch_str)
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
-        await comm.save(tmp.name)
-        return tmp.name
-# Sync wrapper
-def tts_interface(text, voice, rate, pitch):
-    if not text.strip():
-        return None, "🚨 Enter some text."
-    if not voice:
-        return None, "🚨 Select a voice."
-    name = voice.split(" - ")[0]
-    rate_s = f"{rate:+d}%"
-    pitch_s = f"{pitch:+d}Hz"
-    try:
-        path = asyncio.get_event_loop().run_until_complete(
-            _tts(text, name, rate_s, pitch_s)
-        )
-        return path, ""
-    except Exception as e:
-        return None, f"❌ TTS failed: {e}"
-# Build UI
-def create_app():
-    with gr.Blocks(analytics_enabled=False) as demo:
-        gr.Markdown("# 🎙️ Edge TTS in Hugging Face Space")
-        gr.Markdown("Convert text to speech with Microsoft Edge voices.")
         with gr.Row():
-            txt  = gr.Textbox(lines=5, label="Input Text")
-            vox  = gr.Dropdown(list(VOICES.keys()), label="Voice")
-            rate = gr.Slider(-50, 50, value=0, label="Rate (%)")
-            pit  = gr.Slider(-20, 20, value=0, label="Pitch (Hz)")
-        btn = gr.Button("Generate")
-        out_audio = gr.Audio(type="filepath", label="Audio")
-        warn = gr.Markdown("", label="Warning")
-        btn.click(
-            fn=tts_interface,
-            inputs=[txt, vox, rate, pit],
-            outputs=[out_audio, warn]
-        )
-        demo.queue()  # Register /api endpoints
     return demo
 if __name__ == "__main__":
-    demo = create_app()
-    port = int(os.environ.get("PORT", 7860))
-    demo.launch(
-        server_name="0.0.0.0",
-        server_port=port,
-        ssr_mode=False  # disable SSR introspection errors
-    )

 import asyncio
 import edge_tts
+ing import GradioComponent to match huggingface space conventions
+import gradio as gr
+# Fetch available voices once at startup
+df_voices = asyncio.run(edge_tts.list_voices())
+voice_names = [v["Name"] for v in df_voices]
+async def generate_tts(text: str, voice: str, rate: int, pitch: int):
+    # Edge TTS parameters expect strings
+    rate_str = f"{rate}%"
+    pitch_str = f"{pitch}Hz"
+    communicate = edge_tts.Communicate(text, voice, rate=rate_str, pitch=pitch_str)
+    # Stream audio to memory
+    audio_chunks = []
+    async for chunk in communicate.stream():
+        audio_chunks.append(chunk)
+    return b"".join(audio_chunks)
+# Synchronous wrapper for Gradio
+def tts(text, voice, rate, pitch):
+    audio = asyncio.run(generate_tts(text, voice, rate, pitch))
+    return ("output.mp3", audio)
+# Gradio UI
+def main():
+    with gr.Blocks() as demo:
+        gr.Markdown("## Edge TTS Text-to-Speech Converter")
         with gr.Row():
+            text_input = gr.Textbox(label="Input Text", lines=4, placeholder="Enter text to convert...")
+            voice_selector = gr.Dropdown(label="Voice Model", choices=voice_names, value=voice_names[0])
+        with gr.Row():
+            rate_slider = gr.Slider(label="Speaking Rate (%)", minimum=10, maximum=200, step=1, value=100)
+            pitch_slider = gr.Slider(label="Pitch (Hz)", minimum=-20, maximum=20, step=1, value=0)
+        output_audio = gr.Audio(label="Generated Audio", type="file")
+        generate_btn = gr.Button("Convert to Speech")
+        generate_btn.click(fn=tts,
+                            inputs=[text_input, voice_selector, rate_slider, pitch_slider],
+                            outputs=output_audio)
     return demo
 if __name__ == "__main__":
+    main().launch()