Spaces:

langtech-innovation
/

WhisperLiveKitDiarization

Paused

Dominik Macháček commited on Jun 5, 2023

Commit

2625be1

1 Parent(s): 260b1f8

Ukrainian tokenizer support

Files changed (2) hide show

whisper_online.py CHANGED Viewed

@@ -4,7 +4,7 @@ import numpy as np
 import librosa
 from functools import lru_cache
 import time
-from mosestokenizer import MosesTokenizer
 @lru_cache
@@ -207,14 +207,12 @@ class OnlineASRProcessor:
     SAMPLING_RATE = 16000
-    def __init__(self, language, asr):
-        """language: lang. code that MosesTokenizer uses for sentence segmentation
-        asr: WhisperASR object
-        chunk: number of seconds for intended size of audio interval that is inserted and looped
         """
-        self.language = language
         self.asr = asr
-        self.tokenizer = MosesTokenizer(self.language)
         self.init()
@@ -369,7 +367,7 @@ class OnlineASRProcessor:
         self.last_chunked_at = time
     def words_to_sentences(self, words):
-        """Uses mosestokenizer for sentence segmentation of words.
         Returns: [(beg,end,"sentence 1"),...]
         """
@@ -419,6 +417,15 @@ class OnlineASRProcessor:
         return (b,e,t)
 ## main:
@@ -482,8 +489,9 @@ if __name__ == "__main__":
         print("setting VAD filter",file=sys.stderr)
         asr.use_vad()
     min_chunk = args.min_chunk_size
-    online = OnlineASRProcessor(tgt_language,asr)
     # load the audio into the LRU cache before we start the timer

 import librosa
 from functools import lru_cache
 import time
 @lru_cache
     SAMPLING_RATE = 16000
+    def __init__(self, asr, tokenizer):
+        """asr: WhisperASR object
+        tokenizer: sentence tokenizer object for the target language. Must have a method *split* that behaves like the one of MosesTokenizer.
         """
         self.asr = asr
+        self.tokenizer = tokenizer
         self.init()
         self.last_chunked_at = time
     def words_to_sentences(self, words):
+        """Uses self.tokenizer for sentence segmentation of words.
         Returns: [(beg,end,"sentence 1"),...]
         """
         return (b,e,t)
+def create_tokenizer(lan):
+    if lan == "uk":
+        import tokenize_uk
+        class UkrainianTokenizer:
+            def split(self, text):
+                return tokenize_uk.tokenize_sents(text)
+        return UkrainianTokenizer()
+    from mosestokenizer import MosesTokenizer
+    return MosesTokenizer(lan)
 ## main:
         print("setting VAD filter",file=sys.stderr)
         asr.use_vad()
     min_chunk = args.min_chunk_size
+    online = OnlineASRProcessor(asr,create_tokenizer(tgt_language))
     # load the audio into the LRU cache before we start the timer

whisper_online_server.py CHANGED Viewed

@@ -48,6 +48,9 @@ asr = asr_cls(modelsize=size, lan=language, cache_dir=args.model_cache_dir, mode
 if args.task == "translate":
     asr.set_translate_task()
 e = time.time()
 print(f"done. It took {round(e-t,2)} seconds.",file=sys.stderr)
@@ -58,7 +61,7 @@ if args.vad:
 min_chunk = args.min_chunk_size
-online = OnlineASRProcessor(language,asr)

 if args.task == "translate":
     asr.set_translate_task()
+    tgt_language = "en"
+else:
+    tgt_language = language
 e = time.time()
 print(f"done. It took {round(e-t,2)} seconds.",file=sys.stderr)
 min_chunk = args.min_chunk_size
+online = OnlineASRProcessor(asr,create_tokenizer(tgt_language))