kotoba_whisper

Runtime error

aka7774 commited on Nov 17, 2023

Commit

f91092b

1 Parent(s): 62e6f5b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,7 +4,13 @@ import whisper
 #model_size = 'aka7774/whisper-large-v3-ct2'
 model_size = 'large-v3'
-model = whisper.load_model(model_size)
 # model = WhisperModel(model_size, device="cuda", compute_type="float16")
 # or run on GPU with INT8
@@ -17,9 +23,16 @@ def speech_to_text(audio_file, _model_size):
     if model_size != _model_size:
         model_size = _model_size
         model = whisper.load_model(model_size)
-        #model = WhisperModel(model_size, compute_type="float16")
-    result = model.transcribe(audio_file)
     #segments, info = model.transcribe(audio_file, beam_size=5)
     return result["text"]

 #model_size = 'aka7774/whisper-large-v3-ct2'
 model_size = 'large-v3'
+model = whisper.load_model(model_size, device="cpu")
+#_ = model.half()
+#_ = model.cuda()
+#for m in model.modules():
+#    if isinstance(m, whisper.model.LayerNorm):
+#        m.float()
 # model = WhisperModel(model_size, device="cuda", compute_type="float16")
 # or run on GPU with INT8
     if model_size != _model_size:
         model_size = _model_size
         model = whisper.load_model(model_size)
+    with torch.no_grad():
+        result = model.transcribe(
+            audio_file,
+            verbose=True,
+            language='japanese',
+            beam_size=5,
+            #fp16=True,
+            without_timestamps=False
+        )
     #segments, info = model.transcribe(audio_file, beam_size=5)
     return result["text"]