Spaces:

GavinHuang
/

asr-whisper

Sleeping

App Files Files Community

GavinHuang commited on May 5

Commit

0a928fe

1 Parent(s): 51c343c

Enhance audio processing by ensuring correct numpy array conversion and adding error handling during transcription

Browse files

Files changed (1) hide show

app.py +21 -9

app.py CHANGED Viewed

@@ -29,8 +29,12 @@ def process_audio_chunk(audio_chunk):
     """Process a single audio chunk and update buffer."""
     global audio_buffer, buffer_duration
-    # Convert audio chunk to numpy array
-    audio_array = np.array(audio_chunk, dtype=np.float32)
     audio_buffer.append(audio_array)
     buffer_duration += len(audio_array) / RATE
@@ -48,13 +52,18 @@ def transcribe_audio():
         # Concatenate buffer into a window
         audio_window = np.concatenate(list(audio_buffer))
         audio_window = audio_window[:window_samples]  # Trim to window size
-        # Process audio with Whisper
-        audio_window, _ = librosa.load(audio_window, sr=RATE, mono=True)
-        inputs = processor(audio_window, sampling_rate=RATE, return_tensors="pt").to(DEVICE)
-        with torch.no_grad():
-            predicted_ids = model.generate(inputs["input_features"])
-        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0].strip()
         # Yield transcription if different from the last one
         if transcription and transcription != last_transcription:
@@ -79,6 +88,9 @@ def audio_stream(audio):
     # Audio is a tuple (sample_rate, data) from Gradio
     sample_rate, audio_data = audio
     # Resample audio to 16kHz if needed
     if sample_rate != RATE:
         audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=RATE)

     """Process a single audio chunk and update buffer."""
     global audio_buffer, buffer_duration
+    # Convert audio chunk to numpy array if not already
+    if not isinstance(audio_chunk, np.ndarray):
+        audio_array = np.array(audio_chunk, dtype=np.float32)
+    else:
+        audio_array = audio_chunk  # Already a numpy array with correct type
     audio_buffer.append(audio_array)
     buffer_duration += len(audio_array) / RATE
         # Concatenate buffer into a window
         audio_window = np.concatenate(list(audio_buffer))
         audio_window = audio_window[:window_samples]  # Trim to window size
+          # Process audio with Whisper
+        try:
+            # Ensure audio is in the correct format for librosa
+            audio_window = audio_window.astype(np.float32)
+            audio_input, _ = librosa.load(audio_window, sr=RATE, mono=True)
+            inputs = processor(audio_input, sampling_rate=RATE, return_tensors="pt").to(DEVICE)
+            with torch.no_grad():
+                predicted_ids = model.generate(inputs["input_features"])
+            transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0].strip()
+        except Exception as e:
+            print(f"Error during transcription: {e}")
+            continue
         # Yield transcription if different from the last one
         if transcription and transcription != last_transcription:
     # Audio is a tuple (sample_rate, data) from Gradio
     sample_rate, audio_data = audio
+    # Ensure audio data is floating-point for librosa
+    audio_data = np.array(audio_data, dtype=np.float32)
     # Resample audio to 16kHz if needed
     if sample_rate != RATE:
         audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=RATE)