kotoba_whisper

Runtime error

aka7774 commited on Jan 16, 2024

Commit

99f2b87

verified ·

1 Parent(s): f91092b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,18 +1,9 @@
 import gradio as gr
-import whisper
-#from faster_whisper import WhisperModel
-#model_size = 'aka7774/whisper-large-v3-ct2'
 model_size = 'large-v3'
-model = whisper.load_model(model_size, device="cpu")
-#_ = model.half()
-#_ = model.cuda()
-#for m in model.modules():
-#    if isinstance(m, whisper.model.LayerNorm):
-#        m.float()
-# model = WhisperModel(model_size, device="cuda", compute_type="float16")
 # or run on GPU with INT8
 # model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
 # or run on CPU with INT8
@@ -22,26 +13,26 @@ def speech_to_text(audio_file, _model_size):
     global model_size, model
     if model_size != _model_size:
         model_size = _model_size
-        model = whisper.load_model(model_size)
     with torch.no_grad():
-        result = model.transcribe(
             audio_file,
             verbose=True,
             language='japanese',
             beam_size=5,
-            #fp16=True,
-            without_timestamps=False
         )
-    #segments, info = model.transcribe(audio_file, beam_size=5)
-    return result["text"]
-    #return "".join([segment.text for segment in segments])
 gr.Interface(
     fn=speech_to_text,
     inputs=[
         gr.Audio(source="upload", type="filepath"),
-        gr.Dropdown(value=model_size, choices=["tiny", "base", "small", "medium", "large", "large-v2", "large-v3", "aka7774/whisper-large-v3-ct2"]),
         ],
     outputs="text").launch()

 import gradio as gr
+from faster_whisper import WhisperModel
 model_size = 'large-v3'
+model = whisper.load_model(model_size, device="auto", compute_type="float16")
 # or run on GPU with INT8
 # model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
 # or run on CPU with INT8
     global model_size, model
     if model_size != _model_size:
         model_size = _model_size
+        model = whisper.load_model(model_size, device="auto", compute_type="float16")
     with torch.no_grad():
+        segments, info = model.transcribe(
             audio_file,
             verbose=True,
             language='japanese',
             beam_size=5,
+            vad_filter=True,
+            without_timestamps=False,
         )
+    text = ''
+    for segment in segments:
+        text += "{segment.start:.2f}\t{segment.end:.2f}\t{segment.text}\n"
 gr.Interface(
     fn=speech_to_text,
     inputs=[
         gr.Audio(source="upload", type="filepath"),
+        gr.Dropdown(value=model_size, choices=["tiny", "base", "small", "medium", "large", "large-v2", "large-v3"]),
         ],
     outputs="text").launch()