Spaces:

ahmedghani
/

svoice_demo

Build error

App Files Files Community

ahmedghani commited on Nov 29, 2022

Commit

39e4af1

1 Parent(s): c65d563

added clean whisper asr implementation

Browse files

Files changed (2) hide show

app.py +28 -24
requirements.txt +1 -5

app.py CHANGED Viewed

@@ -4,7 +4,8 @@ from scipy.io.wavfile import write
 import gradio as gr
 import os
 from transformers import AutoProcessor, pipeline
-from optimum.onnxruntime import ORTModelForSpeechSeq2Seq
 from glob import glob
 load_model()
@@ -12,27 +13,29 @@ BASE_PATH = os.path.dirname(os.path.abspath(__file__))
 os.makedirs('input', exist_ok=True)
 os.makedirs('separated', exist_ok=True)
-print("Loading ASR model...")
-processor = AutoProcessor.from_pretrained("openai/whisper-small")
-if not os.path.exists("whisper_checkpoint"):
-    model = ORTModelForSpeechSeq2Seq.from_pretrained("openai/whisper-small", from_transformers=True)
-    speech_recognition_pipeline = pipeline(
-    "automatic-speech-recognition",
-        model=model,
-        feature_extractor=processor.feature_extractor,
-        tokenizer=processor.tokenizer,
-    )
-    os.makedirs('whisper_checkpoint', exist_ok=True)
-    model.save_pretrained("whisper_checkpoint")
-else:
-    model = ORTModelForSpeechSeq2Seq.from_pretrained("whisper_checkpoint", from_transformers=False)
-    speech_recognition_pipeline = pipeline(
-    "automatic-speech-recognition",
-        model=model,
-        feature_extractor=processor.feature_extractor,
-        tokenizer=processor.tokenizer,
-    )
-print("Whisper ASR model loaded.")
 def separator(audio, rec_audio, example):
     outputs= {}
@@ -51,8 +54,9 @@ def separator(audio, rec_audio, example):
     separated_files = [f for f in separated_files if "original.wav" not in f]
     outputs['transcripts'] = []
     for file in sorted(separated_files):
-        separated_audio = sio.wavfile.read(file)
-        outputs['transcripts'].append(speech_recognition_pipeline(separated_audio[1])['text'])
     return sorted(separated_files) + outputs['transcripts']
 def set_example_audio(example: list) -> dict:

 import gradio as gr
 import os
 from transformers import AutoProcessor, pipeline
+# from optimum.onnxruntime import ORTModelForSpeechSeq2Seq
+import whisper
 from glob import glob
 load_model()
 os.makedirs('input', exist_ok=True)
 os.makedirs('separated', exist_ok=True)
+# print("Loading ASR model...")
+# processor = AutoProcessor.from_pretrained("openai/whisper-small")
+# if not os.path.exists("whisper_checkpoint"):
+#     model = ORTModelForSpeechSeq2Seq.from_pretrained("openai/whisper-small", from_transformers=True)
+#     speech_recognition_pipeline = pipeline(
+#     "automatic-speech-recognition",
+#         model=model,
+#         feature_extractor=processor.feature_extractor,
+#         tokenizer=processor.tokenizer,
+#     )
+#     os.makedirs('whisper_checkpoint', exist_ok=True)
+#     model.save_pretrained("whisper_checkpoint")
+# else:
+#     model = ORTModelForSpeechSeq2Seq.from_pretrained("whisper_checkpoint", from_transformers=False)
+#     speech_recognition_pipeline = pipeline(
+#     "automatic-speech-recognition",
+#         model=model,
+#         feature_extractor=processor.feature_extractor,
+#         tokenizer=processor.tokenizer,
+#     )
+# print("Whisper ASR model loaded.")
+model = whisper.load_model("base")
 def separator(audio, rec_audio, example):
     outputs= {}
     separated_files = [f for f in separated_files if "original.wav" not in f]
     outputs['transcripts'] = []
     for file in sorted(separated_files):
+        # separated_audio = sio.wavfile.read(file)
+        # outputs['transcripts'].append(speech_recognition_pipeline(separated_audio[1])['text'])
+        outputs['transcripts'].append(whisper.transcribe(file)["text"])
     return sorted(separated_files) + outputs['transcripts']
 def set_example_audio(example: list) -> dict:

requirements.txt CHANGED Viewed

@@ -6,13 +6,9 @@ pystoi==0.3.3
 librosa==0.7.1
 numba==0.48
 numpy
-flask
-flask-cors
-uvicorn[standard]
 asgiref
 gradio
-transformers==4.24.0
 torch
 torchvision
 torchaudio
-optimum[onnxruntime]==1.5.0

 librosa==0.7.1
 numba==0.48
 numpy
 asgiref
 gradio
 torch
 torchvision
 torchaudio
+whisper