Spaces:

DroolingPanda
/

teachingAssistant

Sleeping

Michael Hu commited on Oct 1

Commit

22eccbb

1 Parent(s): b10a453

chore: remove unused dependencies and update model selection in Whisper provider

- Remove unused dependencies from requirements.txt
- Update Whisper provider to use the correct model name when loading models

Files changed (2) hide show

requirements.txt +0 -2
src/infrastructure/stt/whisper_provider.py +32 -6

requirements.txt CHANGED Viewed

@@ -9,7 +9,5 @@ scipy>=1.11
 munch>=2.5
 accelerate>=1.2.0
 soundfile>=0.13.0
-ordered-set>=4.1.0
-phonemizer-fork>=3.3.2
 faster-whisper
 chatterbox-tts

 munch>=2.5
 accelerate>=1.2.0
 soundfile>=0.13.0
 faster-whisper
 chatterbox-tts

src/infrastructure/stt/whisper_provider.py CHANGED Viewed

@@ -46,10 +46,15 @@ class WhisperSTTProvider(STTProviderBase):
         Args:
             audio_path: Path to the preprocessed audio file
         Returns:
             str: The transcribed text
         """
         try:
             # Perform transcription
             segments, info = self.model.transcribe(
                 str(audio_path),
@@ -73,27 +78,48 @@ class WhisperSTTProvider(STTProviderBase):
         except Exception as e:
             self._handle_provider_error(e, "transcription")
-    def _load_model(self):
         """
-        Load the Whisper model.
         """
         try:
             from faster_whisper import WhisperModel as FasterWhisperModel
             logger.info(f"Using device: {self._device}, compute_type: {self._compute_type}")
             self.model = FasterWhisperModel(
-                'large-v3',
                 device=self._device,
                 compute_type=self._compute_type
             )
         except ImportError as e:
             raise SpeechRecognitionException(
-                "faster-whisper not available. Please install with: pip install faster-whisper"
             ) from e
         except Exception as e:
-            raise SpeechRecognitionException(f"Failed to load Whisper model 'large-v3'") from e
     def is_available(self) -> bool:
         """
@@ -137,4 +163,4 @@ class WhisperSTTProvider(STTProviderBase):
         Returns:
             str: Default model name
         """
-        return "large-v3"

         Args:
             audio_path: Path to the preprocessed audio file
+            model: The model name to use
         Returns:
             str: The transcribed text
         """
         try:
+            # Lazy load model if not already loaded
+            if self.model is None:
+                self._load_model(model)
             # Perform transcription
             segments, info = self.model.transcribe(
                 str(audio_path),
         except Exception as e:
             self._handle_provider_error(e, "transcription")
+    def _load_model(self, model_name: str):
         """
+        Load the Whisper model based on the requested model name.
+        Args:
+            model_name: The requested model name (e.g., "whisper-large")
         """
         try:
             from faster_whisper import WhisperModel as FasterWhisperModel
+            # Map requested model to actual faster-whisper model
+            model_mapping = {
+                "whisper-large": "large-v3",
+                "whisper-large-v1": "large-v1",
+                "whisper-large-v2": "large-v2",
+                "whisper-large-v3": "large-v3",
+                "whisper-medium": "medium",
+                "whisper-medium.en": "medium.en",
+                "whisper-small": "small",
+                "whisper-small.en": "small.en",
+                "whisper-base": "base",
+                "whisper-base.en": "base.en",
+                "whisper-tiny": "tiny",
+                "whisper-tiny.en": "tiny.en",
+            }
+            actual_model = model_mapping.get(model_name.lower(), "large-v3")
+            logger.info(f"Loading Whisper model: {actual_model} (requested: {model_name})")
             logger.info(f"Using device: {self._device}, compute_type: {self._compute_type}")
             self.model = FasterWhisperModel(
+                actual_model,
                 device=self._device,
                 compute_type=self._compute_type
             )
         except ImportError as e:
             raise SpeechRecognitionException(
+                "faster-whisper not available. Please install with: uv add faster-whisper"
             ) from e
         except Exception as e:
+            raise SpeechRecognitionException(f"Failed to load Whisper model '{actual_model}' (requested: {model_name})") from e
     def is_available(self) -> bool:
         """
         Returns:
             str: Default model name
         """
+        return "whisper-large"