Spaces:

asr-africa
/

asr-demos

Sleeping

App Files Files Community

Alvin-Nahabwe commited on Mar 30

Commit

86031f7

verified ·

1 Parent(s): fed6a47

Updated app.py: Added all models

Browse files

Files changed (1) hide show

app.py +42 -31

app.py CHANGED Viewed

@@ -2,26 +2,37 @@ import gradio as gr
 from transformers import pipeline, Wav2Vec2ProcessorWithLM
 import os
-def transcribe(audio, language, model):
     model_map = {
         "hausa": "asr-africa/wav2vec2-xls-r-1b-naijavoices-hausa-500hr-v0",
         "igbo": "asr-africa/wav2vec2-xls-r-1b-naijavoices-igbo-500hr-v0",
         "yoruba": "asr-africa/wav2vec2-xls-r-1b-naijavoices-yoruba-500hr-v0",
     }
-    revison_map = {
-        "w/ LM": "lm",
-        "w/o LM": "main",
-    }
-    if revison_map[model] != "main":
-        # load processor
-        p = Wav2Vec2ProcessorWithLM.from_pretrained(model_map[language], revision=revison_map[model])
-        # load eval pipeline
-        asr = pipeline("automatic-speech-recognition", model=model_map[language], tokenizer=p.tokenizer, feature_extractor=p.feature_extractor, decoder=p.decoder, token=os.getenv('HF_TOKEN'))
     else:
-        # load eval pipeline
-        asr = pipeline("automatic-speech-recognition", model=model_map[language], token=os.getenv('HF_TOKEN'))
     text = asr(audio)["text"]
     return text
@@ -34,28 +45,28 @@ asr_app = gr.Interface(
             [
                 "hausa",
                 "igbo",
-                "yoruba"
             ]
         ),
-        gr.Radio(["w/o LM","w/ LM"])
-    ],
-    examples=[
-        ["./examples/CV/hausa/common_voice_ha_32885169.wav", "hausa", "w/o LM"],
-        ["./examples/CV/hausa/common_voice_ha_32885169.wav", "hausa", "w/ LM"],
-        ["./examples/CV/hausa/common_voice_ha_29417456.wav", "hausa", "w/o LM"],
-        ["./examples/CV/hausa/common_voice_ha_29417456.wav", "hausa", "w/ LM"],
-        ["./examples/CV/igbo/common_voice_ig_31594237.wav", "igbo", "w/o LM"],
-        ["./examples/CV/igbo/common_voice_ig_31594237.wav", "igbo", "w/ LM"],
-        ["./examples/CV/igbo/common_voice_ig_30710992.wav", "igbo", "w/o LM"],
-        ["./examples/CV/igbo/common_voice_ig_30710992.wav", "igbo", "w/ LM"],
-        ["./examples/CV/yoruba/common_voice_yo_36914062.wav", "yoruba", "w/o LM"],
-        ["./examples/CV/yoruba/common_voice_yo_36914062.wav", "yoruba", "w/ LM"],
-        ["./examples/CV/yoruba/common_voice_yo_36841367.wav", "yoruba", "w/o LM"],
-        ["./examples/CV/yoruba/common_voice_yo_36841367.wav", "yoruba", "w/ LM"]
     ],
     outputs="text",
-    title="NaijaVoices ASR",
-    description="Realtime demo for Hausa, Igbo and Yoruba speech recognition using a fine-tuned Wav2Vec2-XLS-R 1B model.",
 )
 asr_app.launch()

 from transformers import pipeline, Wav2Vec2ProcessorWithLM
 import os
+def transcribe(audio, language):
     model_map = {
         "hausa": "asr-africa/wav2vec2-xls-r-1b-naijavoices-hausa-500hr-v0",
         "igbo": "asr-africa/wav2vec2-xls-r-1b-naijavoices-igbo-500hr-v0",
         "yoruba": "asr-africa/wav2vec2-xls-r-1b-naijavoices-yoruba-500hr-v0",
+        "zulu": "asr-africa/W2V2-Bert_nchlt_speech_corpus_Fleurs_ZULU_63hr_v1",
+        "xhosa": "asr-africa/wav2vec2_xls_r_300m_nchlt_speech_corpus_Fleurs_XHOSA_63hr_v1",
+        "afrikaans": "asr-africa/mms-1B_all_nchlt_speech_corpus_Fleurs_CV_AFRIKAANS_57hr_v1",
+        "bemba": "asr-africa/w2v-bert-2.0-BIG_C-AMMI-BEMBA_SPEECH_CORPUS-BEMBA-189hrs-V1",
+        "shona": "asr-africa/W2V2_Bert_Afrivoice_FLEURS_Shona_100hr_v1",
+        "luganda": "asr-africa/whisper-small-CV-Fleurs-lg-313hrs-v1",
+        "swahili": "asr-africa/wav2vec2-xls-r-300m-CV_Fleurs_AMMI_ALFFA-sw-400hrs-v1",
+        "lingala": "asr-africa/wav2vec2-xls-r-300m-Fleurs_AMMI_AFRIVOICE_LRSC-ln-109hrs-v2",
+        "amharic": "asr-africa/facebook-mms-1b-all-common_voice_fleurs-amh-200hrs-v1",
+        "kinyarwanda": "asr-africa/facebook-mms-1b-all-common_voice_fleurs-rw-100hrs-v1",
+        "oromo": "asr-africa/mms-1b-all-Sagalee-orm-85hrs-4",
+        "akan": "asr-africa/wav2vec2-xls-r-ewe-100-hours",
+        "ewe": "asr-africa/wav2vec2-xls-r-akan-100-hours",
+        "wolof": "asr-africa/w2v2-bert-Wolof-20-hours-Google-Fleurs-ALF-dataset",
+        "bambara": "asr-africa/mms-bambara-50-hours-mixed-bambara-dataset",
     }
+    if language in ["hausa", "igbo", "yoruba"]:
+        revision = "lm"
     else:
+        revision = "main"
+    # load processor
+    p = Wav2Vec2ProcessorWithLM.from_pretrained(model_map[language], revision=revision)
+    # load eval pipeline
+    asr = pipeline("automatic-speech-recognition", model=model_map[language], tokenizer=p.tokenizer, feature_extractor=p.feature_extractor, decoder=p.decoder, token=os.getenv('HF_TOKEN'))
     text = asr(audio)["text"]
     return text
             [
                 "hausa",
                 "igbo",
+                "yoruba",
+                "zulu",
+                "xhosa",
+                "afrikaans",
+                "bemba",
+                "shona",
+                "luganda",
+                "swahili",
+                "lingala",
+                "amharic",
+                "kinyarwanda",
+                "oromo",
+                "akan",
+                "ewe",
+                "wolof",
+                "bambara",
             ]
         ),
     ],
     outputs="text",
+    title="ASR Africa",
+    description="This space serves as a realtime demo for automatic speech recognition models developed by Mak-CAD under the auspicies of Gates Foundation for 19 African languages using open source data.",
 )
 asr_app.launch()