whisper-webui-translate

Running

aadnk commited on Dec 7, 2022

Commit

530547e

1 Parent(s): de77829

Do not parallelize period vad

Files changed (2) hide show

src/vad.py CHANGED Viewed

@@ -77,6 +77,12 @@ class AbstractTranscription(ABC):
     def get_audio_segment(self, str, start_time: str = None, duration: str = None):
         return load_audio(str, self.sampling_rate, start_time, duration)
     @abstractmethod
     def get_transcribe_timestamps(self, audio: str, config: TranscriptionConfig, start_time: float, end_time: float):
         """
@@ -462,6 +468,10 @@ class VadPeriodicTranscription(AbstractTranscription):
     def __init__(self, sampling_rate: int = 16000):
         super().__init__(sampling_rate=sampling_rate)
     def get_transcribe_timestamps(self, audio: str, config: PeriodicTranscriptionConfig, start_time: float, end_time: float):
         result = []

     def get_audio_segment(self, str, start_time: str = None, duration: str = None):
         return load_audio(str, self.sampling_rate, start_time, duration)
+    def is_transcribe_timestamps_fast(self):
+        """
+        Determine if get_transcribe_timestamps is fast enough to not need parallelization.
+        """
+        return False
     @abstractmethod
     def get_transcribe_timestamps(self, audio: str, config: TranscriptionConfig, start_time: float, end_time: float):
         """
     def __init__(self, sampling_rate: int = 16000):
         super().__init__(sampling_rate=sampling_rate)
+    def is_transcribe_timestamps_fast(self):
+        # This is a very fast VAD - no need to parallelize it
+        return True
     def get_transcribe_timestamps(self, audio: str, config: PeriodicTranscriptionConfig, start_time: float, end_time: float):
         result = []

src/vadParallel.py CHANGED Viewed

@@ -90,7 +90,7 @@ class ParallelTranscription(AbstractTranscription):
         total_duration = get_audio_duration(audio)
         # First, get the timestamps for the original audio
-        if (cpu_device_count > 1):
             merged = self._get_merged_timestamps_parallel(transcription, audio, config, total_duration, cpu_device_count, cpu_parallel_context)
         else:
             timestamp_segments = transcription.get_transcribe_timestamps(audio, config, 0, total_duration)

         total_duration = get_audio_duration(audio)
         # First, get the timestamps for the original audio
+        if (cpu_device_count > 1 and not transcription.is_transcribe_timestamps_fast()):
             merged = self._get_merged_timestamps_parallel(transcription, audio, config, total_duration, cpu_device_count, cpu_parallel_context)
         else:
             timestamp_segments = transcription.get_transcribe_timestamps(audio, config, 0, total_duration)