whisper-webui-translate

Running

App Files Files Community

aadnk commited on Oct 22, 2022

Commit

f1fe464

1 Parent(s): 31ba778

Ensure VAD supports detect language

Browse files

Files changed (2) hide show

app.py +3 -2
src/vad.py +12 -7

app.py CHANGED Viewed

@@ -90,7 +90,8 @@ class WhisperTranscriber:
     def transcribe_file(self, model: whisper.Whisper, audio_path: str, language: str, task: str = None, vad: str = None,
                         vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1, **decodeOptions: dict):
         # Callable for processing an audio file
-        whisperCallable = lambda audio, prompt : model.transcribe(audio, language=language, task=task, initial_prompt=prompt, **decodeOptions)
         # The results
         if (vad == 'silero-vad'):
@@ -112,7 +113,7 @@ class WhisperTranscriber:
             result = periodic_vad.transcribe(audio_path, whisperCallable)
         else:
             # Default VAD
-            result = whisperCallable(audio_path, None)
         return result

     def transcribe_file(self, model: whisper.Whisper, audio_path: str, language: str, task: str = None, vad: str = None,
                         vadMergeWindow: float = 5, vadMaxMergeSize: float = 150, vadPadding: float = 1, vadPromptWindow: float = 1, **decodeOptions: dict):
         # Callable for processing an audio file
+        whisperCallable = lambda audio, prompt, detected_language : model.transcribe(audio, \
+                 language=language if language else detected_language, task=task, initial_prompt=prompt, **decodeOptions)
         # The results
         if (vad == 'silero-vad'):
             result = periodic_vad.transcribe(audio_path, whisperCallable)
         else:
             # Default VAD
+            result = whisperCallable(audio_path, None, None)
         return result

src/vad.py CHANGED Viewed

@@ -100,9 +100,9 @@ class AbstractTranscription(ABC):
         audio: str
             The audio file.
-        whisperCallable: Callable[[Union[str, np.ndarray, torch.Tensor], str], dict[str, Union[dict, Any]]]
             The callback that is used to invoke Whisper on an audio file/buffer. The first parameter is the audio file/buffer,
-            and the second parameter is an optional text prompt. The return value is the result of the Whisper call.
         Returns
         -------
@@ -145,6 +145,7 @@ class AbstractTranscription(ABC):
             'language': ""
         }
         languageCounter = Counter()
         # For each time segment, run whisper
         for segment in merged:
@@ -163,9 +164,12 @@ class AbstractTranscription(ABC):
             # Previous segments to use as a prompt
             segment_prompt = ' '.join([segment['text'] for segment in prompt_window]) if len(prompt_window) > 0 else None
             print("Running whisper from ", format_timestamp(segment_start), " to ", format_timestamp(segment_end), ", duration: ",
-                  segment_duration, "expanded: ", segment_expand_amount, "prompt: ", segment_prompt)
-            segment_result = whisperCallable(segment_audio, segment_prompt)
             adjusted_segments = self.adjust_timestamp(segment_result["segments"], adjust_seconds=segment_start, max_source_time=segment_duration)
@@ -185,13 +189,14 @@ class AbstractTranscription(ABC):
             result['segments'].extend(adjusted_segments)
             # Increment detected language
-            languageCounter[segment_result['language']] += 1
             # Update prompt window
             self.__update_prompt_window(prompt_window, adjusted_segments, segment_end, segment_gap)
-        if len(languageCounter) > 0:
-            result['language'] = languageCounter.most_common(1)[0][0]
         return result

         audio: str
             The audio file.
+        whisperCallable: Callable[[Union[str, np.ndarray, torch.Tensor], str, str], dict[str, Union[dict, Any]]]
             The callback that is used to invoke Whisper on an audio file/buffer. The first parameter is the audio file/buffer,
+            the second parameter is an optional text prompt, and the last is the current detected language. The return value is the result of the Whisper call.
         Returns
         -------
             'language': ""
         }
         languageCounter = Counter()
+        detected_language = None
         # For each time segment, run whisper
         for segment in merged:
             # Previous segments to use as a prompt
             segment_prompt = ' '.join([segment['text'] for segment in prompt_window]) if len(prompt_window) > 0 else None
+            # Detected language
+            detected_language = languageCounter.most_common(1)[0][0] if len(languageCounter) > 0 else None
             print("Running whisper from ", format_timestamp(segment_start), " to ", format_timestamp(segment_end), ", duration: ",
+                  segment_duration, "expanded: ", segment_expand_amount, "prompt: ", segment_prompt, "language: ", detected_language)
+            segment_result = whisperCallable(segment_audio, segment_prompt, detected_language)
             adjusted_segments = self.adjust_timestamp(segment_result["segments"], adjust_seconds=segment_start, max_source_time=segment_duration)
             result['segments'].extend(adjusted_segments)
             # Increment detected language
+            if not segment_gap:
+                languageCounter[segment_result['language']] += 1
             # Update prompt window
             self.__update_prompt_window(prompt_window, adjusted_segments, segment_end, segment_gap)
+        if detected_language is not None:
+            result['language'] = detected_language
         return result