Spaces:

argodinho
/

hinglish-tts

Build error

App Files Files Community

argodinho commited on Apr 9

Commit

fc8c0c3

1 Parent(s): de8a4ec

added app.py and requirments.txt

Browse files

Files changed (2) hide show

app.py +57 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,57 @@

+import torch
+from parler_tts import ParlerTTSForConditionalGeneration
+from transformers import AutoTokenizer
+import soundfile as sf
+from google.generativeai import GenerativeModel
+import gradio as gr
+# Initialize models
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# 1. Load Indic-TTS
+tts_model = ParlerTTSForConditionalGeneration.from_pretrained("ai4bharat/indic-parler-tts").to(device)
+tts_tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
+desc_tokenizer = AutoTokenizer.from_pretrained(tts_model.config.text_encoder._name_or_path)
+# 2. Load Gemini (API key via Secrets)
+gemini = GenerativeModel('gemini-pro')
+def hinglish_to_devnagri(text):
+    response = gemini.generate_content(
+        f"Convert this Hinglish to Devnagri Hindi you can retain complex words like compiler -> कंपाइलर:\n{text}\n\nOutput only the translation."
+    )
+    return response.text
+def generate_speech(text):
+    # Convert to Devnagri
+    hindi_text = hinglish_to_devnagri(text)
+    # Generate speech
+    desc = "एक महिला वक्ता स्पष्ट हिंदी में बोल रही हैं"
+    desc_inputs = desc_tokenizer(desc, return_tensors="pt").to(device)
+    text_inputs = tts_tokenizer(hindi_text, return_tensors="pt").to(device)
+    audio = tts_model.generate(
+        input_ids=desc_inputs.input_ids,
+        attention_mask=desc_inputs.attention_mask,
+        prompt_input_ids=text_inputs.input_ids,
+        prompt_attention_mask=text_inputs.attention_mask
+    )
+    # Save as WAV
+    sf.write("output.wav", audio.cpu().numpy().squeeze(), tts_model.config.sampling_rate)
+    return "output.wav", hindi_text
+# Gradio UI
+interface = gr.Interface(
+    fn=generate_speech,
+    inputs=gr.Textbox(label="Enter Hinglish Text"),
+    outputs=[
+        gr.Audio(label="Generated Speech"),
+        gr.Textbox(label="Devnagri Translation")
+    ],
+    title="🚀 Hinglish-to-Speech",
+    description="Gemini (Hinglish→Hindi) + Indic-TTS (Hindi→Speech)"
+)
+interface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+torch>=2.0.0
+transformers>=4.30.0
+parler-tts>=0.1.0
+soundfile>=0.12.0
+google-generativeai>=0.3.0
+gradio>=3.40.0