Edge-TTS-Text-to-Speech

Sleeping

App Files Files Community

EmRa228 commited on May 8

Commit

6d598f3

verified ·

1 Parent(s): dd4fe56

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -14

app.py CHANGED Viewed

@@ -3,44 +3,47 @@ from transformers import pipeline
 import edge_tts
 import numpy as np
-# بارگذاری مدل تبدیل گفتار به متن (Whisper small برای فارسی)
 stt = pipeline("automatic-speech-recognition", model="openai/whisper-small")
-# بارگذاری مدل چت‌بات (GPT2 تنظیم‌شده برای فارسی)
 chatbot = pipeline("text-generation", model="HooshvareLab/gpt2-fa")
-# تابع تبدیل متن به گفتار با استفاده از edge-tts
-def tts(text, voice="fa-IR-FaridNeural"):
     communicate = edge_tts.Communicate(text, voice)
-    audio_data = b"".join([chunk["data"] for chunk in communicate.stream() if chunk["type"] == "audio"])
     audio_array = np.frombuffer(audio_data, dtype=np.int16)
-    sample_rate = 24000  # طبق مستندات edge-tts
     return sample_rate, audio_array
-# تابع اصلی: خط لوله صوتی به صوتی
 def audio_to_audio(audio_input):
     sample_rate_in, data_in = audio_input
     audio = {"array": data_in, "sampling_rate": sample_rate_in}
-    # مرحله 1: تبدیل گفتار به متن
     text = stt(audio)["text"]
-    # مرحله 2: تولید پاسخ چت‌بات
     response = chatbot(text, max_length=50, num_return_sequences=1)[0]["generated_text"]
-    # مرحله 3: تبدیل متن به گفتار
     sample_rate_out, data_out = tts(response)
     return (sample_rate_out, data_out)
-# رابط کاربری Gradio
 demo = gr.Interface(
     fn=audio_to_audio,
     inputs=gr.Audio(source="microphone", type="numpy"),
     outputs=gr.Audio(type="numpy"),
-    title="چت‌بات صوتی فارسی",
-    description="به فارسی صحبت کنید و برنامه به فارسی پاسخ می‌دهد."
 )
-# اجرای برنامه
 demo.launch()

 import edge_tts
 import numpy as np
+# Load speech-to-text model (Whisper small for Farsi)
 stt = pipeline("automatic-speech-recognition", model="openai/whisper-small")
+# Load chatbot model (GPT2 fine-tuned for Farsi)
 chatbot = pipeline("text-generation", model="HooshvareLab/gpt2-fa")
+# Function to convert text to speech using edge-tts
+async def tts(text, voice="fa-IR-FaridNeural"):
     communicate = edge_tts.Communicate(text, voice)
+    audio_data = b""
+    async for chunk in communicate.stream():
+        if chunk["type"] == "audio":
+            audio_data += chunk["data"]
     audio_array = np.frombuffer(audio_data, dtype=np.int16)
+    sample_rate = 24000  # As per edge-tts documentation
     return sample_rate, audio_array
+# Main function: Audio-to-audio pipeline
 def audio_to_audio(audio_input):
     sample_rate_in, data_in = audio_input
     audio = {"array": data_in, "sampling_rate": sample_rate_in}
+    # Step 1: Convert speech to text
     text = stt(audio)["text"]
+    # Step 2: Generate chatbot response
     response = chatbot(text, max_length=50, num_return_sequences=1)[0]["generated_text"]
+    # Step 3: Convert text to speech
     sample_rate_out, data_out = tts(response)
     return (sample_rate_out, data_out)
+# Gradio interface
 demo = gr.Interface(
     fn=audio_to_audio,
     inputs=gr.Audio(source="microphone", type="numpy"),
     outputs=gr.Audio(type="numpy"),
+    title="Farsi Audio Chatbot",
+    description="Speak in Farsi, and the app will respond in Farsi."
 )
+# Launch the app
 demo.launch()