Spaces:

Futuresony
/

Swahili-speech-recognition

Running

App Files Files Community

Futuresony commited on Feb 24

Commit

b4119c8

verified ·

1 Parent(s): f75518e

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -43

app.py CHANGED Viewed

@@ -1,47 +1,28 @@
-import gradio as gr
-import torch
-import torchaudio
-import numpy as np
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-# Load your trained Swahili ASR model
-model_name = "Futuresony/Future-sw_ASR-24-02-2025"
-processor = Wav2Vec2Processor.from_pretrained(model_name)
-model = Wav2Vec2ForCTC.from_pretrained(model_name)
-# Process microphone input in real-time
-def transcribe_live(audio):
-    if audio is None:
-        return ""
-    # Convert NumPy array to PyTorch tensor
-    speech_array = torch.from_numpy(audio).float()
-    # Resample audio to 16kHz (if needed)
-    sample_rate = 16000  # Since streaming provides 16kHz by default
-    # Process input
-    input_values = processor(speech_array, sampling_rate=sample_rate, return_tensors="pt").input_values
-    # Predict transcription
-    with torch.no_grad():
-        logits = model(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    # Decode text
-    transcription = processor.batch_decode(predicted_ids)[0]
-    return transcription
-# Create Gradio interface with real-time streaming
-interface = gr.Interface(
-    fn=transcribe_live,
-    inputs=gr.Audio(streaming=True, type="numpy"),  # Live streaming input
-    outputs=gr.Textbox(label="Live Transcription"),
-    live=True,
-    title="Live Swahili ASR Streaming",
-    description="Talk and see real-time Swahili subtitles appear below!",
-)
-# Launch the live streaming ASR app
-if __name__ == "__main__":
-    interface.launch()

+import queue
+import sounddevice as sd
+from vosk import Model, KaldiRecognizer
+import json
+# Load Vosk Model (Download from https://alphacephei.com/vosk/models)
+model = Model("model")
+recognizer = KaldiRecognizer(model, 16000)
+q = queue.Queue()
+# Callback function to process microphone input
+def callback(indata, frames, time, status):
+    if status:
+        print(status)
+    q.put(bytes(indata))
+# Real-time transcription function
+def transcribe():
+    with sd.RawInputStream(samplerate=16000, blocksize=8000, dtype="int16",
+                           channels=1, callback=callback):
+        while True:
+            data = q.get()
+            if recognizer.AcceptWaveform(data):
+                result = json.loads(recognizer.Result())
+                print(result["text"])  # Print live transcription
+# Run the transcription
+transcribe()