Spaces:

nareauow
/

speaker-recognition

Sleeping

nareauow commited on May 1

Commit

b2a6006

verified ·

1 Parent(s): a52cf03

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -144,11 +144,23 @@ def recognize_speech(audio_path):
         inputs = speech_processor(audio_data, sampling_rate=sr, return_tensors="pt")
         inputs = {k: v.to(device) for k, v in inputs.items()}
-        # Generate transcription
-        generated_ids = speech_recognizer.generate(**inputs)
-        transcription = speech_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-        return transcription
     except Exception as e:
         return f"Speech recognition error: {str(e)}"

         inputs = speech_processor(audio_data, sampling_rate=sr, return_tensors="pt")
         inputs = {k: v.to(device) for k, v in inputs.items()}
+        # Generate transcription with specific parameters to prevent repetition
+        generated_ids = speech_recognizer.generate(
+            **inputs,
+            max_length=100,  # Limit output length
+            num_beams=1,      # Use greedy search instead of beam search
+            no_repeat_ngram_size=2,  # Prevent repeating n-grams
+        )
+        # Decode with skip special tokens
+        transcription = speech_processor.batch_decode(
+            generated_ids,
+            skip_special_tokens=True,
+            clean_up_tokenization_spaces=True
+        )[0]
+        return transcription.strip()  # Remove any extra whitespace
     except Exception as e:
         return f"Speech recognition error: {str(e)}"