Spaces:

argodinho
/

hinglish-tts

Build error

App Files Files Community

argodinho commited on Apr 9

Commit

5fc45d8

1 Parent(s): fc8c0c3

Updated app.py

Browse files

Files changed (1) hide show

app.py +26 -25

app.py CHANGED Viewed

@@ -1,32 +1,34 @@
 import torch
 from parler_tts import ParlerTTSForConditionalGeneration
 from transformers import AutoTokenizer
 import soundfile as sf
-from google.generativeai import GenerativeModel
 import gradio as gr
-# Initialize models
-device = "cuda" if torch.cuda.is_available() else "cpu"
-# 1. Load Indic-TTS
 tts_model = ParlerTTSForConditionalGeneration.from_pretrained("ai4bharat/indic-parler-tts").to(device)
 tts_tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
 desc_tokenizer = AutoTokenizer.from_pretrained(tts_model.config.text_encoder._name_or_path)
-# 2. Load Gemini (API key via Secrets)
-gemini = GenerativeModel('gemini-pro')
 def hinglish_to_devnagri(text):
-    response = gemini.generate_content(
-        f"Convert this Hinglish to Devnagri Hindi you can retain complex words like compiler -> कंपाइलर:\n{text}\n\nOutput only the translation."
-    )
-    return response.text
 def generate_speech(text):
-    # Convert to Devnagri
     hindi_text = hinglish_to_devnagri(text)
-    # Generate speech
     desc = "एक महिला वक्ता स्पष्ट हिंदी में बोल रही हैं"
     desc_inputs = desc_tokenizer(desc, return_tensors="pt").to(device)
     text_inputs = tts_tokenizer(hindi_text, return_tensors="pt").to(device)
@@ -38,20 +40,19 @@ def generate_speech(text):
         prompt_attention_mask=text_inputs.attention_mask
     )
-    # Save as WAV
     sf.write("output.wav", audio.cpu().numpy().squeeze(), tts_model.config.sampling_rate)
     return "output.wav", hindi_text
 # Gradio UI
-interface = gr.Interface(
-    fn=generate_speech,
-    inputs=gr.Textbox(label="Enter Hinglish Text"),
-    outputs=[
-        gr.Audio(label="Generated Speech"),
-        gr.Textbox(label="Devnagri Translation")
-    ],
-    title="🚀 Hinglish-to-Speech",
-    description="Gemini (Hinglish→Hindi) + Indic-TTS (Hindi→Speech)"
-)
-interface.launch()

+import os
 import torch
 from parler_tts import ParlerTTSForConditionalGeneration
 from transformers import AutoTokenizer
 import soundfile as sf
+from google.generativeai import GenerativeModel, configure
 import gradio as gr
+# 1. Load Gemini (API key from environment variables)
+GEMINI_KEY = os.environ.get('GEMINI_API_KEY')  # Will read from HF Secrets
+configure(api_key=GEMINI_KEY)  # Initialize Gemini
+gemini = GenerativeModel('gemini-pro')
+# 2. Load Indic-TTS
+device = "cuda" if torch.cuda.is_available() else "cpu"
 tts_model = ParlerTTSForConditionalGeneration.from_pretrained("ai4bharat/indic-parler-tts").to(device)
 tts_tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
 desc_tokenizer = AutoTokenizer.from_pretrained(tts_model.config.text_encoder._name_or_path)
 def hinglish_to_devnagri(text):
+    try:
+        response = gemini.generate_content(
+            f"Convert this Hinglish to Devnagri Hindi while complex words are translated like (ex: compiler -> कंपाइलर) :\n{text}\n\nOutput only the translation."
+        )
+        return response.text
+    except Exception as e:
+        raise gr.Error(f"Gemini error: {str(e)}")
 def generate_speech(text):
     hindi_text = hinglish_to_devnagri(text)
     desc = "एक महिला वक्ता स्पष्ट हिंदी में बोल रही हैं"
     desc_inputs = desc_tokenizer(desc, return_tensors="pt").to(device)
     text_inputs = tts_tokenizer(hindi_text, return_tensors="pt").to(device)
         prompt_attention_mask=text_inputs.attention_mask
     )
     sf.write("output.wav", audio.cpu().numpy().squeeze(), tts_model.config.sampling_rate)
     return "output.wav", hindi_text
 # Gradio UI
+with gr.Blocks() as app:
+    gr.Markdown("## 🚀 Hinglish-to-Speech (Gemini + Indic-TTS)")
+    with gr.Row():
+        inp = gr.Textbox(label="Enter Hinglish Text", placeholder="Aaj mood nahi hai...")
+        btn = gr.Button("Generate")
+    with gr.Row():
+        audio_out = gr.Audio(label="Speech Output")
+        text_out = gr.Textbox(label="Devnagri Translation")
+    btn.click(fn=generate_speech, inputs=inp, outputs=[audio_out, text_out])
+app.launch()