Spaces:

sudhanm
/

whisper-largev2-raw-ta-ml

Running on Zero

App Files Files Community

sudhanm commited on 11 days ago

Commit

12e638e

verified ·

1 Parent(s): e82b46f

Update app.py

Browse files

Files changed (1) hide show

app.py +83 -50

app.py CHANGED Viewed

@@ -3,18 +3,24 @@ import random
 import difflib
 import re
 import jiwer
 from faster_whisper import WhisperModel
 from indic_transliteration import sanscript
 from indic_transliteration.sanscript import transliterate
-from transformers import pipeline  # only pipeline is needed for TTS
 # ---------------- CONFIG ---------------- #
 MODEL_NAME = "large-v2"
-DEVICE = "cpu"  # change to "cuda" if GPU available in Space
 LANG_CODES = {
-    "English": "en", "Tamil": "ta", "Malayalam": "ml",
-    "Hindi": "hi", "Sanskrit": "sa"
 }
 LANG_PRIMERS = {
@@ -22,7 +28,7 @@ LANG_PRIMERS = {
                 "Write only in English without translation. Example: This is an English sentence."),
     "Tamil": ("நகல் தமிழ் எழுத்துக்களில் மட்டும் இருக்க வேண்டும்.",
               "தமிழ் எழுத்துக்களில் மட்டும் எழுதவும், மொழிபெயர்ப்பு செய்யக்கூடாது. உதாரணம்: இது ஒரு தமிழ் வாக்கியம்."),
-    "Malayalam": ("ട്രാൻസ്ക്രിപ്റ്റ് മലയാള ലിപിയിൽ ആയിരിക്കണം.",
                   "മലയാള ലിപിയിൽ മാത്രം എഴുതുക, വിവർത്തനം ചെയ്യരുത്. ഉദാഹരണം: ഇതൊരു മലയാള വാക്യമാണ്. എനിക്ക് മലയാളം അറിയാം."),
     "Hindi": ("प्रतिलिपि केवल देवनागरी लिपि में होनी चाहिए।",
               "केवल देवनागरी लिपि में लिखें, अनुवाद न करें। उदाहरण: यह एक हिंदी वाक्य है।"),
@@ -31,29 +37,39 @@ LANG_PRIMERS = {
 }
 SCRIPT_PATTERNS = {
-    "Tamil": re.compile(r"[\u0B80-\u0BFF]"),
-    "Malayalam": re.compile(r"[\u0D00-\u0D7F]"),
-    "Hindi": re.compile(r"[\u0900-\u097F]"),
-    "Sanskrit": re.compile(r"[\u0900-\u097F]"),
     "English": re.compile(r"[A-Za-z]")
 }
 SENTENCE_BANK = {
-    "English": ["The sun sets over the horizon.",
-                "Learning languages is fun.",
-                "I like to drink coffee in the morning."],
-    "Tamil": ["இன்று நல்ல வானிலை உள்ளது.",
-              "நான் தமிழ் கற்றுக்கொண்டு இருக்கிறேன்.",
-              "எனக்கு புத்தகம் படிக்க விருப்பம்."],
-    "Malayalam": ["എനിക്ക് മലയാളം വളരെ ഇഷ്ടമാണ്.",
-                  "ഇന്ന് മഴപെയ്യുന്നു.",
-                  "ഞാൻ പുസ്തകം വായിക്കുന്നു."],
-    "Hindi": ["आज मौसम अच्छा है।",
-              "मुझे हिंदी बोलना पसंद है।",
-              "मैं किताब पढ़ रहा हूँ।"],
-    "Sanskrit": ["अहं ग्रन्थं पठामि।",
-                 "अद्य सूर्यः तेजस्वी अस्ति।",
-                 "मम नाम रामः।"]
 }
 VOICE_STYLE = {
@@ -68,31 +84,38 @@ VOICE_STYLE = {
 print("Loading Whisper model...")
 whisper_model = WhisperModel(MODEL_NAME, device=DEVICE)
-print("Loading IndicParler-TTS via pipeline...")
-TTS_MODEL_ID = "ai4bharat/indic-parler-tts"
-tts_pipe = pipeline("text-to-speech", model=TTS_MODEL_ID)
 # ---------------- HELPERS ---------------- #
 def get_random_sentence(language_choice):
     return random.choice(SENTENCE_BANK[language_choice])
 def is_script(text, lang_name):
-    pat = SCRIPT_PATTERNS.get(lang_name)
-    return bool(pat.search(text)) if pat else True
 def transliterate_to_hk(text, lang_choice):
     mapping = {
-        "Tamil": sanscript.TAMIL, "Malayalam": sanscript.MALAYALAM,
-        "Hindi": sanscript.DEVANAGARI, "Sanskrit": sanscript.DEVANAGARI,
         "English": None
     }
     return transliterate(text, mapping[lang_choice], sanscript.HK) if mapping[lang_choice] else text
 def transcribe_once(audio_path, lang_code, initial_prompt, beam_size, temperature, condition_on_previous_text):
     segments, _ = whisper_model.transcribe(
-        audio_path, language=lang_code, task="transcribe",
-        initial_prompt=initial_prompt, beam_size=beam_size,
-        temperature=temperature, condition_on_previous_text=condition_on_previous_text,
         word_timestamps=False
     )
     return "".join(s.text for s in segments).strip()
@@ -128,50 +151,59 @@ def char_level_highlight(ref, hyp):
 def synthesize_tts(text, lang_choice):
     if not text.strip():
         return None
-    prompt_style = VOICE_STYLE.get(lang_choice, "")
-    audio_out = tts_pipe(text, forward_params={"description": prompt_style})
-    return (audio_out["sampling_rate"], audio_out["audio"])
 # ---------------- MAIN ---------------- #
 def compare_pronunciation(audio, language_choice, intended_sentence,
-                           pass1_beam, pass1_temp, pass1_condition):
     if audio is None or not intended_sentence.strip():
-        return "No audio or intended sentence.", "", "", "", "", "", None, None, "", ""
     lang_code = LANG_CODES[language_choice]
     primer_weak, primer_strong = LANG_PRIMERS[language_choice]
-    # Pass 1
     actual_text = transcribe_once(audio, lang_code, primer_weak,
                                   pass1_beam, pass1_temp, pass1_condition)
-    # Pass 2 (fixed best-known defaults)
     strict_prompt = f"{primer_strong}\nTarget: {intended_sentence}"
     corrected_text = transcribe_once(audio, lang_code, strict_prompt,
                                      beam_size=5, temperature=0.0, condition_on_previous_text=False)
-    # Scores
     wer_val = jiwer.wer(intended_sentence, actual_text)
     cer_val = jiwer.cer(intended_sentence, actual_text)
-    # Transliteration
-    hk_translit = transliterate_to_hk(actual_text, language_choice) \
-                  if is_script(actual_text, language_choice) \
-                  else f"[Script mismatch: expected {language_choice}]"
-    # Highlights
     diff_html = highlight_differences(intended_sentence, actual_text)
     char_html = char_level_highlight(intended_sentence, actual_text)
-    # TTS
     tts_intended = synthesize_tts(intended_sentence, language_choice)
     tts_pass1 = synthesize_tts(actual_text, language_choice)
-    return actual_text, corrected_text, hk_translit, f"{wer_val:.2f}", f"{cer_val:.2f}", diff_html, tts_intended, tts_pass1, char_html, intended_sentence
 # ---------------- UI ---------------- #
 with gr.Blocks() as demo:
-    gr.Markdown("## 🎙 Pronunciation Comparator + IndicParler‑TTS + Error Highlighting")
     with gr.Row():
         lang_choice = gr.Dropdown(choices=list(LANG_CODES.keys()), value="Malayalam", label="Language")
@@ -204,6 +236,7 @@ with gr.Blocks() as demo:
     gen_btn.click(fn=get_random_sentence, inputs=[lang_choice], outputs=[intended_display])
     submit_btn = gr.Button("Analyze Pronunciation")
     submit_btn.click(
         fn=compare_pronunciation,
         inputs=[audio_input, lang_choice, intended_display, pass1_beam, pass1_temp, pass1_condition],

 import difflib
 import re
 import jiwer
+import torch
+from parler_tts import ParlerTTSForConditionalGeneration
+from transformers import AutoTokenizer
 from faster_whisper import WhisperModel
 from indic_transliteration import sanscript
 from indic_transliteration.sanscript import transliterate
+import soundfile as sf
 # ---------------- CONFIG ---------------- #
 MODEL_NAME = "large-v2"
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 LANG_CODES = {
+    "English": "en",
+    "Tamil": "ta",
+    "Malayalam": "ml",
+    "Hindi": "hi",
+    "Sanskrit": "sa"
 }
 LANG_PRIMERS = {
                 "Write only in English without translation. Example: This is an English sentence."),
     "Tamil": ("நகல் தமிழ் எழுத்துக்களில் மட்டும் இருக்க வேண்டும்.",
               "தமிழ் எழுத்துக்களில் மட்டும் எழுதவும், மொழிபெயர்ப்பு செய்யக்கூடாது. உதாரணம்: இது ஒரு தமிழ் வாக்கியம்."),
+    "Malayalam": ("ട്രാൻസ്ഖ്രിപ്റ്റ് മലയാള ലിപിയിൽ ആയിരിക്കണം.",
                   "മലയാള ലിപിയിൽ മാത്രം എഴുതുക, വിവർത്തനം ചെയ്യരുത്. ഉദാഹരണം: ഇതൊരു മലയാള വാക്യമാണ്. എനിക്ക് മലയാളം അറിയാം."),
     "Hindi": ("प्रतिलिपि केवल देवनागरी लिपि में होनी चाहिए।",
               "केवल देवनागरी लिपि में लिखें, अनुवाद न करें। उदाहरण: यह एक हिंदी वाक्य है।"),
 }
 SCRIPT_PATTERNS = {
+    "Tamil": re.compile(r"[஀-௿]"),
+    "Malayalam": re.compile(r"[ഀ-ൿ]"),
+    "Hindi": re.compile(r"[ऀ-ॿ]"),
+    "Sanskrit": re.compile(r"[ऀ-ॿ]"),
     "English": re.compile(r"[A-Za-z]")
 }
 SENTENCE_BANK = {
+    "English": [
+        "The sun sets over the horizon.",
+        "Learning languages is fun.",
+        "I like to drink coffee in the morning."
+    ],
+    "Tamil": [
+        "இன்று நல்ல வானிலை உள்ளது.",
+        "நான் தமிழ் கற்றுக்கொண்டு இருக்கிறேன்.",
+        "எனக்கு புத்தகம் படிக்க விருப்பம்."
+    ],
+    "Malayalam": [
+        "എനിക്ക് മലയാളം വളരെ ഇഷ്ടമാണ്.",
+        "ഇന്ന് മഴപെയ്യുന്നു.",
+        "ഞാൻ പുസ്തകം വായിക്കുന്നു."
+    ],
+    "Hindi": [
+        "आज मौसम अच्छा है।",
+        "मुझे हिंदी बोलना पसंद है।",
+        "मैं किताब पढ़ रहा हूँ।"
+    ],
+    "Sanskrit": [
+        "अहं ग्रन्थं पठा���ि।",
+        "अद्य सूर्यः तेजस्वी अस्ति।",
+        "मम नाम रामः।"
+    ]
 }
 VOICE_STYLE = {
 print("Loading Whisper model...")
 whisper_model = WhisperModel(MODEL_NAME, device=DEVICE)
+print("Loading Parler-TTS model...")
+parler_model_id = "parler-tts/parler-tts-mini-v1"  # You may switch to larger models if desired
+parler_tts_model = ParlerTTSForConditionalGeneration.from_pretrained(parler_model_id).to(DEVICE)
+parler_tts_tokenizer = AutoTokenizer.from_pretrained(parler_model_id)
 # ---------------- HELPERS ---------------- #
 def get_random_sentence(language_choice):
     return random.choice(SENTENCE_BANK[language_choice])
 def is_script(text, lang_name):
+    pattern = SCRIPT_PATTERNS.get(lang_name)
+    return bool(pattern.search(text)) if pattern else True
 def transliterate_to_hk(text, lang_choice):
     mapping = {
+        "Tamil": sanscript.TAMIL,
+        "Malayalam": sanscript.MALAYALAM,
+        "Hindi": sanscript.DEVANAGARI,
+        "Sanskrit": sanscript.DEVANAGARI,
         "English": None
     }
     return transliterate(text, mapping[lang_choice], sanscript.HK) if mapping[lang_choice] else text
 def transcribe_once(audio_path, lang_code, initial_prompt, beam_size, temperature, condition_on_previous_text):
     segments, _ = whisper_model.transcribe(
+        audio_path,
+        language=lang_code,
+        task="transcribe",
+        initial_prompt=initial_prompt,
+        beam_size=beam_size,
+        temperature=temperature,
+        condition_on_previous_text=condition_on_previous_text,
         word_timestamps=False
     )
     return "".join(s.text for s in segments).strip()
 def synthesize_tts(text, lang_choice):
     if not text.strip():
         return None
+    description = VOICE_STYLE.get(lang_choice, "")
+    description_input = parler_tts_tokenizer(description, return_tensors='pt').to(DEVICE)
+    prompt_input = parler_tts_tokenizer(text, return_tensors='pt').to(DEVICE)
+    generation = parler_tts_model.generate(
+        input_ids=description_input.input_ids,
+        attention_mask=description_input.attention_mask,
+        prompt_input_ids=prompt_input.input_ids,
+        prompt_attention_mask=prompt_input.attention_mask
+    )
+    audio_arr = generation.cpu().numpy().squeeze()
+    # Parler-TTS default sample rate is 24000
+    return 24000, audio_arr
 # ---------------- MAIN ---------------- #
 def compare_pronunciation(audio, language_choice, intended_sentence,
+                          pass1_beam, pass1_temp, pass1_condition):
     if audio is None or not intended_sentence.strip():
+        return ("No audio or intended sentence.", "", "", "", "", "",
+                None, None, "", "")
     lang_code = LANG_CODES[language_choice]
     primer_weak, primer_strong = LANG_PRIMERS[language_choice]
+    # Pass 1: raw transcription with user-configured decoding parameters
     actual_text = transcribe_once(audio, lang_code, primer_weak,
                                   pass1_beam, pass1_temp, pass1_condition)
+    # Pass 2: strict transcription biased by intended sentence (fixed decoding params)
     strict_prompt = f"{primer_strong}\nTarget: {intended_sentence}"
     corrected_text = transcribe_once(audio, lang_code, strict_prompt,
                                      beam_size=5, temperature=0.0, condition_on_previous_text=False)
+    # Compute WER and CER
     wer_val = jiwer.wer(intended_sentence, actual_text)
     cer_val = jiwer.cer(intended_sentence, actual_text)
+    # Transliteration of Pass 1 output
+    hk_translit = transliterate_to_hk(actual_text, language_choice) if is_script(actual_text, language_choice) else f"[Script mismatch: expected {language_choice}]"
+    # Highlight word-level and character-level differences
     diff_html = highlight_differences(intended_sentence, actual_text)
     char_html = char_level_highlight(intended_sentence, actual_text)
+    # Synthesized TTS audios for intended and Pass 1 text
     tts_intended = synthesize_tts(intended_sentence, language_choice)
     tts_pass1 = synthesize_tts(actual_text, language_choice)
+    return (actual_text, corrected_text, hk_translit, f"{wer_val:.2f}", f"{cer_val:.2f}",
+            diff_html, tts_intended, tts_pass1, char_html, intended_sentence)
 # ---------------- UI ---------------- #
 with gr.Blocks() as demo:
+    gr.Markdown("## 🎙 Pronunciation Comparator + Parler-TTS + Highlights")
     with gr.Row():
         lang_choice = gr.Dropdown(choices=list(LANG_CODES.keys()), value="Malayalam", label="Language")
     gen_btn.click(fn=get_random_sentence, inputs=[lang_choice], outputs=[intended_display])
     submit_btn = gr.Button("Analyze Pronunciation")
     submit_btn.click(
         fn=compare_pronunciation,
         inputs=[audio_input, lang_choice, intended_display, pass1_beam, pass1_temp, pass1_condition],