Spaces:

nareauow
/

speaker-recognition

Sleeping

nareauow commited on May 1

Commit

c0bdacc

verified ·

1 Parent(s): 8c217ec

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -128,29 +128,27 @@ def recognize_speech(audio_path):
         return "Speech recognition model not available"
     try:
         audio_data, sr = sf.read(audio_path)
-        inputs = speech_processor(
-            audio_data,
-            sampling_rate=sr,
-            return_tensors="pt"
-        ).to(device)
-        generated_ids = speech_recognizer.generate(
-            input_features=inputs["input_features"],
-            max_length=100,
-            num_beams=5,  # Changed from 1 to 5 for better results
-            early_stopping=True,
-            no_repeat_ngram_size=2
-        )
-        transcription = speech_processor.batch_decode(
-            generated_ids,
-            skip_special_tokens=True
-        )[0]
-        return transcription.strip()
     except Exception as e:
         return f"Speech recognition error: {str(e)}"
@@ -210,7 +208,7 @@ def predict_speaker(audio, model, processor):
         return result, probs_dict, recognized_text,predicted_speaker
     except Exception as e:
-        return f"Erreur : {str(e)}", None, None,None
 # Charger modèle
 def load_model(model_id="nareauow/my_speech_recognition", model_filename="model_3.pth"):
@@ -277,7 +275,7 @@ def create_interface():
         gr.Markdown("""### Comment utiliser ?
         - Choisissez le modèle.
-        - Cliquez sur 🎙️ pour enregistrer votre voix.
         - Cliquez sur **Reconnaître** pour obtenir la prédiction.
         """)

         return "Speech recognition model not available"
     try:
+        # Read audio file
         audio_data, sr = sf.read(audio_path)
+        # Resample to 16kHz if needed
+        if sr != 16000:
+            audio_data = np.interp(
+                np.linspace(0, len(audio_data), int(16000 * len(audio_data) / sr)),
+                np.arange(len(audio_data)),
+                audio_data
+            )
+            sr = 16000
+        # Process audio
+        inputs = speech_processor(audio_data, sampling_rate=sr, return_tensors="pt")
+        inputs = {k: v.to(device) for k, v in inputs.items()}
+        # Generate transcription
+        generated_ids = speech_recognizer.generate(**inputs)
+        transcription = speech_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        return transcription
     except Exception as e:
         return f"Speech recognition error: {str(e)}"
         return result, probs_dict, recognized_text,predicted_speaker
     except Exception as e:
+        return f"Erreur : {str(e)}", None, None
 # Charger modèle
 def load_model(model_id="nareauow/my_speech_recognition", model_filename="model_3.pth"):
         gr.Markdown("""### Comment utiliser ?
         - Choisissez le modèle.
+        - Cliquez sur  pour enregistrer votre voix.
         - Cliquez sur **Reconnaître** pour obtenir la prédiction.
         """)