Spaces:

faimlab
/

Persian_ASR_Model_Fast_Conformer

Running

saeedzou commited on Mar 26

Commit

fe1d6ad

1 Parent(s): 934c916

Initial commit: Gradio app for private NeMo ASR model

Files changed (2) hide show

app.py ADDED Viewed

+import gradio as gr
+import nemo.collections.asr as nemo_asr
+# Load your private model (assuming you already have access credentials or it is publicly available)
+asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="faimlab/stt_fa_fastconformer_hybrid_large_dataset_v30")
+# Define a function that takes an audio file, transcribes it, and returns the text
+def transcribe_audio(audio_file):
+    # Convert the audio file to the correct format (16k mono)
+    audio_path = audio_file.name  # Temporary location of the uploaded audio file
+    # Assuming the model expects 16k mono audio, no need for conversion if file is correct format.
+    output = asr_model.transcribe([audio_path])
+    return output[0].text  # Return transcribed text
+# Create the Gradio interface
+iface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.inputs.Audio(source="upload", type="file", label="Upload an Audio File"),
+    outputs="text",
+    live=True,
+    title="Speech-to-Text with Private ASR Model",
+    description="Upload a 16kHz mono audio file for transcription."
+)
+# Launch the Gradio app
+if __name__ == "__main__":
+    iface.launch()

requirements.txt ADDED Viewed

+gradio
+pydub
+librosa
+git+https://github.com/NVIDIA/NeMo.git@main#egg=nemo_toolkit[all]
+huggingface_hub