Spaces:

navyaparesh
/

Modeltest

Sleeping

App Files Files Community

navyaparesh commited on Mar 25

Commit

d7ba1b9

verified ·

1 Parent(s): 59f7f98

Upload 4 files

Browse files

Files changed (4) hide show

README (1).md +14 -0
app (2).py +233 -0
gitattributes (1) +39 -0
requirements (1).txt +26 -0

README (1).md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Indic Asr
+emoji: 🏆
+colorFrom: gray
+colorTo: pink
+sdk: gradio
+sdk_version: 5.20.1
+app_file: app.py
+pinned: false
+license: cc-by-4.0
+short_description: A speech recognition tool for Indic languages.
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app (2).py ADDED Viewed

	@@ -0,0 +1,233 @@

+from __future__ import annotations
+import os
+import gradio as gr
+import torch
+import torchaudio
+import spaces
+import nemo.collections.asr as nemo_asr
+LANGUAGE_NAME_TO_CODE = {
+    "Assamese": "as",
+    "Bengali": "bn",
+    "Bodo": "br",
+    "Dogri": "doi",
+    "Gujarati": "gu",
+    "Hindi": "hi",
+    "Kannada": "kn",
+    "Kashmiri": "ks",
+    "Konkani": "kok",
+    "Maithili": "mai",
+    "Malayalam": "ml",
+    "Manipuri": "mni",
+    "Marathi": "mr",
+    "Nepali": "ne",
+    "Odia": "or",
+    "Punjabi": "pa",
+    "Sanskrit": "sa",
+    "Santali": "sat",
+    "Sindhi": "sd",
+    "Tamil": "ta",
+    "Telugu": "te",
+    "Urdu": "ur"
+}
+DESCRIPTION = """\
+### **IndicConformer: Speech Recognition for Indian Languages** 🎙️➡️📜
+This Gradio demo showcases **IndicConformer**, a speech recognition model for **22 Indian languages**. The model operates in two modes: **CTC (Connectionist Temporal Classification)** and **RNNT (Recurrent Neural Network Transducer)**, providing robust and accurate transcriptions across diverse linguistic and acoustic conditions.
+#### **How to Use:**
+1. **Upload or record** an audio clip in any supported Indian language.
+2. Select the **mode** (CTC or RNNT) for transcription.
+3. Click **"Transcribe"** to generate the corresponding text in the target language.
+4. View or copy the output for further use.
+🚀 Try it out and experience seamless speech recognition for Indian languages!
+"""
+hf_token = os.getenv("HF_TOKEN")
+device = "cuda:0" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
+torch_dtype = torch.bfloat16 if device != "cpu" else torch.float32
+model_name_or_path = "ai4bharat/IndicConformer"
+model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name_or_path).to(device)
+# model = nemo_asr.models.EncDecCTCModel.restore_from("indicconformer_stt_bn_hybrid_rnnt_large.nemo").to(device)
+model.eval()
+CACHE_EXAMPLES = os.getenv("CACHE_EXAMPLES") == "1" and torch.cuda.is_available()
+AUDIO_SAMPLE_RATE = 16000
+MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
+DEFAULT_TARGET_LANGUAGE = "Bengali"
+@spaces.GPU
+def run_asr_ctc(input_audio: str, target_language: str) -> str:
+    lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+    # Load and preprocess audio
+    audio_tensor, orig_freq = torchaudio.load(input_audio)
+    # Convert to mono if not already
+    if audio_tensor.shape[0] > 1:
+        audio_tensor = torch.mean(audio_tensor, dim=0, keepdim=True)
+    # Ensure shape [B x T]
+    if len(audio_tensor.shape) == 1:
+        audio_tensor = audio_tensor.unsqueeze(0)  # Add batch dimension if missing
+    if audio_tensor.ndim > 1:
+        audio_tensor = audio_tensor.squeeze(0)
+    # Resample to 16kHz
+    audio_tensor = torchaudio.functional.resample(audio_tensor, orig_freq=orig_freq, new_freq=16000)
+    model.cur_decoder = "ctc"
+    ctc_text = model.transcribe([audio_tensor.numpy()], batch_size=1, logprobs=False, language_id=lang_id)[0]
+    return ctc_text[0]
+# @spaces.GPU
+# def run_asr_ctc(input_audio: str, target_language: str) -> str:
+#     # preprocess_audio(input_audio)
+#     # input_audio, orig_freq = torchaudio.load(input_audio)
+#     # input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
+#     lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+#     model.cur_decoder = "ctc"
+#     ctc_text = model.transcribe([input_audio], batch_size=1, logprobs=False, language_id=lang_id)[0]
+#     return ctc_text[0]
+@spaces.GPU
+def run_asr_rnnt(input_audio: str, target_language: str) -> str:
+    lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+    # Load and preprocess audio
+    audio_tensor, orig_freq = torchaudio.load(input_audio)
+    # Convert to mono if not already
+    if audio_tensor.shape[0] > 1:
+        audio_tensor = torch.mean(audio_tensor, dim=0, keepdim=True)
+    # Ensure shape [B x T]
+    if len(audio_tensor.shape) == 1:
+        audio_tensor = audio_tensor.unsqueeze(0)  # Add batch dimension if missing
+    if audio_tensor.ndim > 1:
+        audio_tensor = audio_tensor.squeeze(0)
+    # Resample to 16kHz
+    audio_tensor = torchaudio.functional.resample(audio_tensor, orig_freq=orig_freq, new_freq=16000)
+    model.cur_decoder = "rnnt"
+    ctc_text = model.transcribe([audio_tensor.numpy()], batch_size=1, logprobs=False, language_id=lang_id)[0]
+    return ctc_text[0]
+# @spaces.GPU
+# def run_asr_rnnt(input_audio: str, target_language: str) -> str:
+#     # preprocess_audio(input_audio)
+#     # input_audio, orig_freq = torchaudio.load(input_audio)
+#     # input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
+#     lang_id = LANGUAGE_NAME_TO_CODE[target_language]
+#     model.cur_decoder = "rnnt"
+#     ctc_text = model.transcribe([input_audio], batch_size=1,logprobs=False, language_id=lang_id)[0]
+#     return ctc_text[0]
+with gr.Blocks() as demo_asr_ctc:
+    with gr.Row():
+        with gr.Column():
+            with gr.Group():
+                input_audio = gr.Audio(label="Input speech", type="filepath")
+                target_language = gr.Dropdown(
+                    label="Target language",
+                    choices=LANGUAGE_NAME_TO_CODE.keys(),
+                    value=DEFAULT_TARGET_LANGUAGE,
+                )
+            btn = gr.Button("Transcribe")
+        with gr.Column():
+            output_text = gr.Textbox(label="Transcribed text")
+    gr.Examples(
+        examples=[
+            ["assets/Bengali.wav", "Bengali", "English"],
+            ["assets/Gujarati.wav", "Gujarati", "Hindi"],
+            ["assets/Punjabi.wav", "Punjabi", "Hindi"],
+        ],
+        inputs=[input_audio, target_language],
+        outputs=output_text,
+        fn=run_asr_ctc,
+        cache_examples=CACHE_EXAMPLES,
+        api_name=False,
+    )
+    btn.click(
+        fn=run_asr_ctc,
+        inputs=[input_audio, target_language],
+        outputs=output_text,
+        api_name="asr",
+    )
+with gr.Blocks() as demo_asr_rnnt:
+    with gr.Row():
+        with gr.Column():
+            with gr.Group():
+                input_audio = gr.Audio(label="Input speech", type="filepath")
+                target_language = gr.Dropdown(
+                    label="Target language",
+                    choices=LANGUAGE_NAME_TO_CODE.keys(),
+                    value=DEFAULT_TARGET_LANGUAGE,
+                )
+            btn = gr.Button("Transcribe")
+        with gr.Column():
+            output_text = gr.Textbox(label="Transcribed text")
+    gr.Examples(
+        examples=[
+            ["assets/Bengali.wav", "Bengali", "English"],
+            ["assets/Gujarati.wav", "Gujarati", "Hindi"],
+            ["assets/Punjabi.wav", "Punjabi", "Hindi"],
+        ],
+        inputs=[input_audio, target_language],
+        outputs=output_text,
+        fn=run_asr_rnnt,
+        cache_examples=CACHE_EXAMPLES,
+        api_name=False,
+    )
+    btn.click(
+        fn=run_asr_rnnt,
+        inputs=[input_audio, target_language],
+        outputs=output_text,
+        api_name="asr",
+    )
+with gr.Blocks(css="style.css") as demo:
+    gr.Markdown(DESCRIPTION)
+    gr.DuplicateButton(
+        value="Duplicate Space for private use",
+        elem_id="duplicate-button",
+        visible=os.getenv("SHOW_DUPLICATE_BUTTON") == "1",
+    )
+    with gr.Tabs():
+        with gr.Tab(label="CTC"):
+            demo_asr_ctc.render()
+        with gr.Tab(label="RNNT"):
+            demo_asr_rnnt.render()
+if __name__ == "__main__":
+    demo.queue(max_size=50).launch()

gitattributes (1) ADDED Viewed

	@@ -0,0 +1,39 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+indicconformer_stt_bn_hybrid_rnnt_large.nemo filter=lfs diff=lfs merge=lfs -text
+Bengali.wav filter=lfs diff=lfs merge=lfs -text
+Gujarati.wav filter=lfs diff=lfs merge=lfs -text
+Punjabi.wav filter=lfs diff=lfs merge=lfs -text

requirements (1).txt ADDED Viewed

	@@ -0,0 +1,26 @@

+git+https://github.com/AshwinSankar17/NeMo-ai4b@nemo-v2
+torchaudio
+pytorch-lightning==2.4.0
+hydra-core==1.3.2
+librosa==0.10.2.post1
+sentencepiece==0.2.0
+pandas==2.2.2
+lhotse==1.27.0
+editdistance==0.8.1
+jiwer==3.0.4
+pyannote.audio
+webdataset==0.2.100
+cython==0.29.37
+pyyaml==6.0.2
+argparse==1.4.0
+onnxruntime==1.19.0
+tqdm==4.66.5
+transformers
+huggingface_hub
+tokenizers
+datasets
+inflect
+IPython
+soundfile
+pydub
+numpy<2.0