Spaces:

MusIre
/

practiceAI

Sleeping

MusIre commited on Nov 28, 2023

Commit

78cc121

1 Parent(s): 038e82c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ subprocess.run(["pip", "install", "torch", "torchvision", "torchaudio", "-f", "h
 import gradio as gr
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 # Load model and processor
 processor = WhisperProcessor.from_pretrained("openai/whisper-large")
@@ -13,8 +14,16 @@ model.config.forced_decoder_ids = None
 # Function to perform ASR on audio data
 def transcribe_audio(audio_data):
     # Apply custom preprocessing to the audio data if needed
-    processed_input = processor(audio_data, return_tensors="pt").input_features
     # Generate token ids
     predicted_ids = model.generate(processed_input)

 import gradio as gr
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
+import torchaudio
 # Load model and processor
 processor = WhisperProcessor.from_pretrained("openai/whisper-large")
 # Function to perform ASR on audio data
 def transcribe_audio(audio_data):
+    # Convert audio data to mono and normalize
+    audio_data = torchaudio.functional.to_mono(audio_data)
+    audio_data = torchaudio.functional.gain(audio_data, gain_db=5.0)
+    # Resample if needed (Whisper model requires 16 kHz sampling rate)
+    if audio_data[1] != 16000:
+        audio_data = torchaudio.transforms.Resample(audio_data[1], 16000)(audio_data[0])
     # Apply custom preprocessing to the audio data if needed
+    processed_input = processor(audio_data[0].numpy(), return_tensors="pt").input_features
     # Generate token ids
     predicted_ids = model.generate(processed_input)