Spaces:

sudhanm
/

whisper-largev2-raw-ta-ml

Sleeping

App Files Files Community

sudhanm commited on 20 days ago

Commit

386695f

verified ·

1 Parent(s): 663c2a0

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -14

app.py CHANGED Viewed

@@ -253,27 +253,47 @@ def transcribe_audio(audio_path, language, initial_prompt="", force_language=Tru
         # Generate transcription
         with torch.no_grad():
-            # Set generation parameters
             generate_kwargs = {
                 "input_features": input_features,
                 "max_length": 200,
-                "num_beams": 5,
-                "temperature": 0.0,
                 "do_sample": False
             }
-            # Add language forcing if supported
-            if hasattr(model.config, 'forced_decoder_ids') and force_language:
                 lang_code = LANG_CODES.get(language, "en")
                 try:
-                    forced_decoder_ids = processor.get_decoder_prompt_ids(
-                        language=lang_code,
-                        task="transcribe"
-                    )
-                    generate_kwargs["forced_decoder_ids"] = forced_decoder_ids
-                except:
-                    pass  # Skip if not supported
             predicted_ids = model.generate(**generate_kwargs)
         # Decode
@@ -283,11 +303,29 @@ def transcribe_audio(audio_path, language, initial_prompt="", force_language=Tru
             clean_up_tokenization_spaces=True
         )[0]
-        return transcription.strip()
     except Exception as e:
         print(f"Transcription error for {language}: {e}")
-        return f"Error: Transcription failed - {str(e)[:100]}"
 def highlight_differences(ref, hyp):
     """Highlight word-level differences with better styling"""

         # Generate transcription
         with torch.no_grad():
+            # Basic generation parameters
             generate_kwargs = {
                 "input_features": input_features,
                 "max_length": 200,
+                "num_beams": 3,  # Reduced for better compatibility
                 "do_sample": False
             }
+            # Try different approaches for language forcing
+            if force_language and language != "English":
                 lang_code = LANG_CODES.get(language, "en")
+                # Method 1: Try forced_decoder_ids (OpenAI Whisper style)
+                try:
+                    if hasattr(processor, 'get_decoder_prompt_ids'):
+                        forced_decoder_ids = processor.get_decoder_prompt_ids(
+                            language=lang_code,
+                            task="transcribe"
+                        )
+                        # Test if model accepts this parameter
+                        test_kwargs = generate_kwargs.copy()
+                        test_kwargs["max_length"] = 10
+                        test_kwargs["forced_decoder_ids"] = forced_decoder_ids
+                        _ = model.generate(**test_kwargs)  # Test run
+                        generate_kwargs["forced_decoder_ids"] = forced_decoder_ids
+                        print(f"✅ Using forced_decoder_ids for {language}")
+                except Exception as e:
+                    print(f"⚠️ forced_decoder_ids not supported: {e}")
+                # Method 2: Try language parameter
                 try:
+                    test_kwargs = generate_kwargs.copy()
+                    test_kwargs["max_length"] = 10
+                    test_kwargs["language"] = lang_code
+                    _ = model.generate(**test_kwargs)  # Test run
+                    generate_kwargs["language"] = lang_code
+                    print(f"✅ Using language parameter for {language}")
+                except Exception as e:
+                    print(f"⚠️ language parameter not supported: {e}")
+            # Generate with whatever parameters work
             predicted_ids = model.generate(**generate_kwargs)
         # Decode
             clean_up_tokenization_spaces=True
         )[0]
+        # Post-process transcription
+        transcription = transcription.strip()
+        # If we get empty transcription, try again with simpler parameters
+        if not transcription and generate_kwargs.get("num_beams", 1) > 1:
+            print("🔄 Retrying with greedy decoding...")
+            simple_kwargs = {
+                "input_features": input_features,
+                "max_length": 200,
+                "do_sample": False
+            }
+            predicted_ids = model.generate(**simple_kwargs)
+            transcription = processor.batch_decode(
+                predicted_ids,
+                skip_special_tokens=True,
+                clean_up_tokenization_spaces=True
+            )[0].strip()
+        return transcription or "(No transcription generated)"
     except Exception as e:
         print(f"Transcription error for {language}: {e}")
+        return f"Error: {str(e)[:150]}..."
 def highlight_differences(ref, hyp):
     """Highlight word-level differences with better styling"""