Spaces:

saeedzou
/

nemo-asr

Sleeping

App Files Files Community

saeedzou commited on Apr 8

Commit

b42c7b6

verified ·

1 Parent(s): 6e1fba5

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +14 -0
main.py +67 -0
requirements.txt +6 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,14 @@

+FROM python:3.10-slim
+# Install ffmpeg for pydub
+RUN apt-get update && apt-get install -y ffmpeg && rm -rf /var/lib/apt/lists/*
+WORKDIR /app
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY . .
+ENTRYPOINT ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]

main.py ADDED Viewed

	@@ -0,0 +1,67 @@

+# main.py
+import os
+import re
+import numpy as np
+from pydub import AudioSegment
+from fastapi import FastAPI, UploadFile, File
+from fastapi.responses import JSONResponse
+from huggingface_hub import login
+from hazm import Normalizer
+import nemo.collections.asr as nemo_asr
+import uvicorn
+# Load Hugging Face token
+HF_TOKEN = os.getenv("HF_TOKEN")
+if not HF_TOKEN:
+    raise ValueError("HF_TOKEN environment variable not set. Please provide a valid Hugging Face token.")
+login(HF_TOKEN)
+# Load model once
+asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_farsi_fastconformer")
+normalizer = Normalizer()
+app = FastAPI()
+def load_audio(audio_file_path):
+    audio = AudioSegment.from_file(audio_file_path)
+    audio = audio.set_channels(1).set_frame_rate(16000)
+    audio_samples = np.array(audio.get_array_of_samples(), dtype=np.float32)
+    audio_samples /= np.max(np.abs(audio_samples))
+    return audio_samples, audio.frame_rate
+def transcribe_chunk(audio_chunk, model):
+    transcription = model.transcribe([audio_chunk], batch_size=1, verbose=False)
+    return transcription[0].text
+def transcribe_audio(file_path, model, chunk_size=30 * 16000):
+    waveform, _ = load_audio(file_path)
+    transcriptions = []
+    for start in range(0, len(waveform), chunk_size):
+        end = min(len(waveform), start + chunk_size)
+        transcription = transcribe_chunk(waveform[start:end], model)
+        transcriptions.append(transcription)
+    final_transcription = ' '.join(transcriptions)
+    final_transcription = re.sub(' +', ' ', final_transcription)
+    final_transcription = normalizer.normalize(final_transcription)
+    return final_transcription
+@app.post("/transcribe")
+async def transcribe(file: UploadFile = File(...)):
+    try:
+        temp_path = f"/tmp/{file.filename}"
+        with open(temp_path, "wb") as f:
+            f.write(await file.read())
+        result = transcribe_audio(temp_path, asr_model)
+        return {"transcription": result}
+    except Exception as e:
+        return JSONResponse(status_code=500, content={"error": str(e)})

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+fastapi
+uvicorn[standard]
+nemo_toolkit[asr]
+pydub
+hazm
+huggingface_hub