Spaces:

asr-africa
/

asr-demos

Sleeping

File size: 2,488 Bytes

a355d31
 
b89d1a0
a355d31
b89d1a0
2ab57bd
 
 
 
 
 
 
 
a355d31
 
 
 
 
780f607
a355d31
 
 
 
 
 
 
 
b89d1a0
 
780f607
2ab57bd
 
 
 
 
 
 
 
 
 
 
a355d31
 
b89d1a0
a355d31
 
2ab57bd

import gradio as gr
from transformers import pipeline, Wav2Vec2ProcessorWithLM
import os

def transcribe(audio, model_id, model_revison):
    if model_revison != "main":
        # load processor
        p = Wav2Vec2ProcessorWithLM.from_pretrained(model_id, revision=model_revison)
        # load eval pipeline
        asr = pipeline("automatic-speech-recognition", model=model_id, tokenizer=p.tokenizer, feature_extractor=p.feature_extractor, decoder=p.decoder, token=os.getenv('HF_TOKEN'))
    else:
        # load eval pipeline
        asr = pipeline("automatic-speech-recognition", model=model_id, token=os.getenv('HF_TOKEN'))

    text = asr(audio)["text"]
    return text

asr_app = gr.Interface(
    fn=transcribe,
    inputs=[
        gr.Audio(sources=["upload", "microphone"], type="filepath"),
        gr.Dropdown(
            [
                "asr-africa/wav2vec2-xls-r-1b-naijavoices-hausa-500hr-v0",
                "asr-africa/wav2vec2-xls-r-1b-naijavoices-igbo-500hr-v0",
                "asr-africa/wav2vec2-xls-r-1b-naijavoices-yoruba-500hr-v0"
            ]
        ),
        gr.Radio(["main","lm"])
    ],
    examples=[
        ["./examples/CV/hausa/common_voice_ha_32885169.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-hausa-500hr-v0", "lm"],
        ["./examples/CV/hausa/common_voice_ha_29417456.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-hausa-500hr-v0", "lm"],
        ["./examples/CV/hausa/common_voice_ha_28554827.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-hausa-500hr-v0", "main"],
        ["./examples/CV/igbo/common_voice_ig_31594237.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-igbo-500hr-v0", "lm"],
        ["./examples/CV/igbo/common_voice_ig_30710992.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-igbo-500hr-v0", "lm"],
        ["./examples/CV/igbo/common_voice_ig_30692048.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-igbo-500hr-v0", "main"],
        ["./examples/CV/yoruba/common_voice_yo_36914062.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-yoruba-500hr-v0", "lm"],
        ["./examples/CV/yoruba/common_voice_yo_36841367.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-yoruba-500hr-v0", "lm"],
        ["./examples/CV/yoruba/common_voice_yo_36526475.wav", "asr-africa/wav2vec2-xls-r-1b-naijavoices-yoruba-500hr-v0", "main"]
    ],
    outputs="text",
    title="NaijaVoices ASR",
    description="Realtime demo for Hausa, Igbo and Yoruba speech recognition using a fine-tuned Wav2Vec2-XLS-R 1B model.",
)

asr_app.launch()