Spaces:

Athspi
/

Ai-audio

Running

App Files Files Community

Athspi commited on Jan 11

Commit

a274161

verified ·

1 Parent(s): fce1940

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -16

app.py CHANGED Viewed

@@ -2,6 +2,7 @@ import gradio as gr
 import whisper
 import os
 from pydub import AudioSegment
 # Mapping of model names to Whisper model sizes
 MODELS = {
@@ -12,8 +13,8 @@ MODELS = {
     "Large (Most Accurate)": "large"
 }
-# Fine-tuned Sinhala model
-SINHALA_MODEL = "malakazzz/Subhaka-whisper-small-Sinhala-Fine_Tune"
 # Mapping of full language names to language codes
 LANGUAGE_NAME_TO_CODE = {
@@ -121,14 +122,6 @@ LANGUAGE_NAME_TO_CODE = {
 def transcribe_audio(audio_file, language="Auto Detect", model_size="Base (Faster)"):
     """Transcribe the audio file."""
-    # Load the appropriate model
-    if language == "Sinhala":
-        # Use the fine-tuned Sinhala model
-        model = gr.load(SINHALA_MODEL)
-    else:
-        # Use the selected Whisper model
-        model = whisper.load_model(MODELS[model_size])
     # Convert audio to 16kHz mono for better compatibility with Whisper
     audio = AudioSegment.from_file(audio_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
@@ -136,13 +129,20 @@ def transcribe_audio(audio_file, language="Auto Detect", model_size="Base (Faste
     audio.export(processed_audio_path, format="wav")
     # Transcribe the audio
-    if language == "Auto Detect":
-        result = model.transcribe(processed_audio_path, fp16=False)  # Auto-detect language
-        detected_language = result.get("language", "unknown")
     else:
-        language_code = LANGUAGE_NAME_TO_CODE.get(language, "en")  # Default to English if not found
-        result = model.transcribe(processed_audio_path, language=language_code, fp16=False)
-        detected_language = language_code
     # Clean up processed audio file
     os.remove(processed_audio_path)

 import whisper
 import os
 from pydub import AudioSegment
+from transformers import pipeline
 # Mapping of model names to Whisper model sizes
 MODELS = {
     "Large (Most Accurate)": "large"
 }
+# Fine-tuned Sinhala model using Hugging Face pipeline
+SINHALA_PIPELINE = pipeline("automatic-speech-recognition", model="Subhaka/whisper-small-Sinhala-Fine_Tune")
 # Mapping of full language names to language codes
 LANGUAGE_NAME_TO_CODE = {
 def transcribe_audio(audio_file, language="Auto Detect", model_size="Base (Faster)"):
     """Transcribe the audio file."""
     # Convert audio to 16kHz mono for better compatibility with Whisper
     audio = AudioSegment.from_file(audio_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
     audio.export(processed_audio_path, format="wav")
     # Transcribe the audio
+    if language == "Sinhala":
+        # Use the fine-tuned Sinhala model
+        result = SINHALA_PIPELINE(processed_audio_path)
+        detected_language = "si"
     else:
+        # Use the selected Whisper model
+        model = whisper.load_model(MODELS[model_size])
+        if language == "Auto Detect":
+            result = model.transcribe(processed_audio_path, fp16=False)  # Auto-detect language
+            detected_language = result.get("language", "unknown")
+        else:
+            language_code = LANGUAGE_NAME_TO_CODE.get(language, "en")  # Default to English if not found
+            result = model.transcribe(processed_audio_path, language=language_code, fp16=False)
+            detected_language = language_code
     # Clean up processed audio file
     os.remove(processed_audio_path)