Evaluation-2

Sleeping

App Files Files Community

FarmerlineML commited on 16 days ago

Commit

ea4b615

verified ·

1 Parent(s): b9361f1

Update app.py

Browse files

Files changed (1) hide show

app.py +76 -17

app.py CHANGED Viewed

@@ -1,14 +1,18 @@
-# app.py (simplified + fixed language alignment; Luganda fkd commented out)
 import os
 import json
 import time
 import uuid
 import logging
 import gradio as gr
 from transformers import pipeline
 import numpy as np
-import librosa  # pip install librosa
 # Optional: modest thread hints for CPU Spaces
 try:
@@ -101,12 +105,12 @@ def _push_row_to_hf_dataset(row, audio_file_path):
     return "Pushed to HF Dataset."
 # --- Map display names to your HF Hub model IDs ---
-# --- EDIT THIS: map display names to your HF Hub model IDs ---
 language_models = {
     "Akan (Asante Twi)":        "FarmerlineML/w2v-bert-2.0_twi_alpha_v1",
     "Ewe":                      "FarmerlineML/w2v-bert-2.0_ewe_2",
     "Kiswahili":                "FarmerlineML/w2v-bert-2.0_swahili_alpha",
-    # "Luganda":                  "FarmerlineML/w2v-bert-2.0_luganda",
     "Brazilian Portuguese":     "FarmerlineML/w2v-bert-2.0_brazilian_portugese_alpha",
     "Fante":                    "misterkissi/w2v2-lg-xls-r-300m-fante",
     "Bemba":                    "DarliAI/kissi-w2v2-lg-xls-r-300m-bemba",
@@ -124,21 +128,77 @@ language_models = {
     "Amharic":                  "misterkissi/w2v2-lg-xls-r-1b-amharic",
     "Xhosa":                    "misterkissi/w2v2-lg-xls-r-300m-xhosa",
     "Tsonga":                   "misterkissi/w2v2-lg-xls-r-300m-tsonga",
-    # "WOLOF":                    "misterkissi/w2v2-lg-xls-r-1b-wolof",
-    # "HAITIAN CREOLE":           "misterkissi/whisper-small-haitian-creole",
-    # "KABYLE":                   "misterkissi/w2v2-lg-xls-r-1b-kabyle",
     "Yoruba":                   "FarmerlineML/w2v-bert-2.0_yoruba_v1",
-    "Luganda":                  "FarmerlineML/luganda_fkd",
     "Luo":                      "FarmerlineML/w2v-bert-2.0_luo_v2",
     "Somali":                   "FarmerlineML/w2v-bert-2.0_somali_alpha",
     "Pidgin":                   "FarmerlineML/pidgin_nigerian",
     "Kikuyu":                   "FarmerlineML/w2v-bert-2.0_kikuyu",
     "Igbo":                     "FarmerlineML/w2v-bert-2.0_igbo_v1",
-    #"Krio":                     "FarmerlineML/w2v-bert-2.0_krio_v3"
-    # add more as needed
 }
 # -------- Lazy-load pipeline cache (Space-safe) --------
 _PIPELINE_CACHE = {}
 _CACHE_ORDER = []  # usage order
@@ -193,15 +253,15 @@ def _model_revision_from_pipeline(pipe) -> str:
 # -------- Inference --------
 def transcribe(audio_path: str, language: str):
     """
-    Load the audio via librosa (supports mp3, wav, flac, m4a, ogg, etc.),
-    convert to mono, then run it through the chosen ASR pipeline.
-    Returns transcript (unchanged behavior) and a meta dict for feedback.
     """
     if not audio_path:
         return "⚠️ Please upload or record an audio clip.", None
-    speech, sr = librosa.load(audio_path, sr=None, mono=True)
-    duration_s = float(librosa.get_duration(y=speech, sr=sr))
     pipe = get_asr_pipeline(language)
     decode_params = {"chunk_length_s": getattr(pipe, "chunk_length_s", 30)}
@@ -233,7 +293,6 @@ def transcribe(audio_path: str, language: str):
 def submit_feedback(meta, corrected_text, score, store_audio, share_publicly, audio_file_path):
     """
     Push a minimal row to HF Dataset: model info, language, transcript, optional corrected text, score.
-    No WER/CER computations.
     """
     if not meta:
         return {"status": "No transcription metadata available. Please transcribe first."}

+# app.py (MP3-robust loader + Luganda FKD commented; minimal feedback)
 import os
 import json
 import time
 import uuid
 import logging
+import shutil
+import subprocess
+import tempfile
 import gradio as gr
 from transformers import pipeline
 import numpy as np
+import soundfile as sf  # librosa depends on this; good for wav/flac/ogg
+import librosa  # fallback / resampling
 # Optional: modest thread hints for CPU Spaces
 try:
     return "Pushed to HF Dataset."
 # --- Map display names to your HF Hub model IDs ---
 language_models = {
     "Akan (Asante Twi)":        "FarmerlineML/w2v-bert-2.0_twi_alpha_v1",
     "Ewe":                      "FarmerlineML/w2v-bert-2.0_ewe_2",
     "Kiswahili":                "FarmerlineML/w2v-bert-2.0_swahili_alpha",
+    "Luganda":                  "FarmerlineML/w2v-bert-2.0_luganda",   # active
+    # "Luganda (FKD)":          "FarmerlineML/luganda_fkd",            # commented out per request
     "Brazilian Portuguese":     "FarmerlineML/w2v-bert-2.0_brazilian_portugese_alpha",
     "Fante":                    "misterkissi/w2v2-lg-xls-r-300m-fante",
     "Bemba":                    "DarliAI/kissi-w2v2-lg-xls-r-300m-bemba",
     "Amharic":                  "misterkissi/w2v2-lg-xls-r-1b-amharic",
     "Xhosa":                    "misterkissi/w2v2-lg-xls-r-300m-xhosa",
     "Tsonga":                   "misterkissi/w2v2-lg-xls-r-300m-tsonga",
+    # "WOLOF":                  "misterkissi/w2v2-lg-xls-r-1b-wolof",
+    # "HAITIAN CREOLE":         "misterkissi/whisper-small-haitian-creole",
+    # "KABYLE":                 "misterkissi/w2v2-lg-xls-r-1b-kabyle",
     "Yoruba":                   "FarmerlineML/w2v-bert-2.0_yoruba_v1",
     "Luo":                      "FarmerlineML/w2v-bert-2.0_luo_v2",
     "Somali":                   "FarmerlineML/w2v-bert-2.0_somali_alpha",
     "Pidgin":                   "FarmerlineML/pidgin_nigerian",
     "Kikuyu":                   "FarmerlineML/w2v-bert-2.0_kikuyu",
     "Igbo":                     "FarmerlineML/w2v-bert-2.0_igbo_v1",
+    "Krio":                   "FarmerlineML/w2v-bert-2.0_krio_v3",
 }
+# -------- Robust audio loader (handles MP3/M4A via ffmpeg; wav/flac via soundfile) --------
+TARGET_SR = 16000
+def _has_ffmpeg():
+    return shutil.which("ffmpeg") is not None
+def _load_with_soundfile(path):
+    data, sr = sf.read(path, always_2d=False)
+    if isinstance(data, np.ndarray) and data.ndim > 1:
+        data = data.mean(axis=1)
+    return data.astype(np.float32), sr
+def _load_with_ffmpeg(path, target_sr=TARGET_SR):
+    # Convert to mono 16k wav in a temp file using ffmpeg
+    if not _has_ffmpeg():
+        raise RuntimeError("ffmpeg not available")
+    tmp_wav = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
+    tmp_wav.close()
+    cmd = [
+        "ffmpeg", "-hide_banner", "-loglevel", "error",
+        "-y", "-i", path,
+        "-ac", "1", "-ar", str(target_sr),
+        tmp_wav.name,
+    ]
+    subprocess.run(cmd, check=True)
+    data, sr = sf.read(tmp_wav.name, always_2d=False)
+    try:
+        os.remove(tmp_wav.name)
+    except Exception:
+        pass
+    if isinstance(data, np.ndarray) and data.ndim > 1:
+        data = data.mean(axis=1)
+    return data.astype(np.float32), sr
+def _resample_if_needed(y, sr, target_sr=TARGET_SR):
+    if sr == target_sr:
+        return y.astype(np.float32), sr
+    y_rs = librosa.resample(y.astype(np.float32), orig_sr=sr, target_sr=target_sr)
+    return y_rs.astype(np.float32), target_sr
+def load_audio_any(path, target_sr=TARGET_SR):
+    """Robust loader: wav/flac/ogg via soundfile; mp3/m4a via ffmpeg; fallback to librosa."""
+    ext = os.path.splitext(path)[1].lower()
+    try:
+        if ext in {".wav", ".flac", ".ogg", ".opus"}:
+            y, sr = _load_with_soundfile(path)
+        elif _has_ffmpeg():
+            y, sr = _load_with_ffmpeg(path, target_sr=target_sr)
+            return y, sr  # already mono+16k
+        else:
+            # Fallback to librosa for formats like mp3/m4a when ffmpeg isn't present
+            y, sr = librosa.load(path, sr=None, mono=True)
+        y, sr = _resample_if_needed(y, sr, target_sr)
+        return y, sr
+    except Exception as e:
+        logging.warning(f"[AUDIO] Primary load failed for {path} ({e}). Falling back to librosa.")
+        y, sr = librosa.load(path, sr=target_sr, mono=True)
+        return y.astype(np.float32), sr
 # -------- Lazy-load pipeline cache (Space-safe) --------
 _PIPELINE_CACHE = {}
 _CACHE_ORDER = []  # usage order
 # -------- Inference --------
 def transcribe(audio_path: str, language: str):
     """
+    Robust audio load (mp3/m4a friendly), resample to 16 kHz mono,
+    then run it through the chosen ASR pipeline.
+    Returns transcript and a meta dict for feedback.
     """
     if not audio_path:
         return "⚠️ Please upload or record an audio clip.", None
+    speech, sr = load_audio_any(audio_path, target_sr=TARGET_SR)
+    duration_s = float(len(speech) / float(sr))
     pipe = get_asr_pipeline(language)
     decode_params = {"chunk_length_s": getattr(pipe, "chunk_length_s", 30)}
 def submit_feedback(meta, corrected_text, score, store_audio, share_publicly, audio_file_path):
     """
     Push a minimal row to HF Dataset: model info, language, transcript, optional corrected text, score.
     """
     if not meta:
         return {"status": "No transcription metadata available. Please transcribe first."}