Spaces:

Luigi
/

Streaming-Zipformer

Running

Luigi commited on Jun 6

Commit

2a8a9a5

1 Parent(s): 2318eae

resample mic audio to 16kHz

Files changed (2) hide show

app/asr_worker.py CHANGED Viewed

@@ -1,6 +1,10 @@
 import numpy as np
 import sherpa_onnx
 from pathlib import Path
 MODEL_DIR = Path("models/zipformer_bilingual")
@@ -19,8 +23,13 @@ def create_recognizer():
 def stream_audio(raw_pcm_bytes, stream, recognizer):
     audio = np.frombuffer(raw_pcm_bytes, dtype=np.float32)
-    rms = float(np.sqrt(np.mean(audio ** 2)))
-    stream.accept_waveform(16000, audio)
     if recognizer.is_ready(stream):
         recognizer.decode_streams([stream])
     result = recognizer.get_result(stream)

 import numpy as np
 import sherpa_onnx
 from pathlib import Path
+import scipy.signal
+def resample_audio(audio, orig_sr, target_sr):
+    return scipy.signal.resample_poly(audio, target_sr, orig_sr)
 MODEL_DIR = Path("models/zipformer_bilingual")
 def stream_audio(raw_pcm_bytes, stream, recognizer):
     audio = np.frombuffer(raw_pcm_bytes, dtype=np.float32)
+    if audio.size == 0:
+        return "", 0.0
+    resampled = resample_audio(audio, 48000, 16000)
+    rms = float(np.sqrt(np.mean(resampled ** 2)))
+    stream.accept_waveform(16000, resampled)
     if recognizer.is_ready(stream):
         recognizer.decode_streams([stream])
     result = recognizer.get_result(stream)

requirements.txt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a7c3c10c8ec533e73405e503c3004146a36153ae701934132aecbe689e9e666
-size 44

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc3163f789b3e2232c85fe9ae6ae0dd70869dd6bdc217b55353e5e34bfe24e48
+size 49