Spaces:

Athspi
/

Ai-audio

Running

App Files Files Community

Athspi commited on Jan 11

Commit

b995bb6

verified ·

1 Parent(s): bda7faf

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -36

app.py CHANGED Viewed

@@ -3,47 +3,30 @@ import whisper
 import os
 from pydub import AudioSegment
-# Load the Whisper model
-model = whisper.load_model("base")  # Use "base" for faster processing
-def split_audio(filepath, chunk_length_ms=30000):
-    """Split audio into chunks of `chunk_length_ms` milliseconds."""
-    audio = AudioSegment.from_file(filepath)
-    chunks = []
-    for i in range(0, len(audio), chunk_length_ms):
-        chunk = audio[i:i + chunk_length_ms]
-        chunk_path = f"chunk_{i}.wav"
-        chunk.export(chunk_path, format="wav")
-        chunks.append(chunk_path)
-    return chunks
 def transcribe_audio(audio_file, language="Auto Detect"):
-    # Split the audio into chunks
-    chunks = split_audio(audio_file)
-    # Transcribe each chunk and collect results
-    transcriptions = []
-    detected_language = None
-    for chunk in chunks:
-        # If language is "Auto Detect", let Whisper detect the language
-        if language == "Auto Detect":
-            result = model.transcribe(chunk, fp16=False)  # Set fp16=False if not using GPU
-            detected_language = result.get("language", "unknown")
-        else:
-            # Use the user-selected language for transcription
-            language_code = LANGUAGE_NAME_TO_CODE.get(language, "en")  # Default to English if not found
-            result = model.transcribe(chunk, language=language_code, fp16=False)
-            detected_language = language_code
-        transcriptions.append(result["text"])
-        os.remove(chunk)  # Clean up chunk files
-    # Combine all transcriptions into one
-    full_transcription = " ".join(transcriptions)
     # Return transcription and detected language
-    return f"Detected Language: {detected_language}\n\nTranscription:\n{full_transcription}"
 # Mapping of full language names to language codes
 LANGUAGE_NAME_TO_CODE = {
@@ -111,7 +94,7 @@ LANGUAGE_NAME_TO_CODE = {
     "Galician": "gl",
     "Marathi": "mr",
     "Punjabi": "pa",
-    "Sinhala": "si",  # Sinhala support
     "Khmer": "km",
     "Shona": "sn",
     "Yoruba": "yo",

 import os
 from pydub import AudioSegment
+# Load a larger Whisper model for better accuracy
+model = whisper.load_model("medium")  # Use "medium" or "large" for better results
 def transcribe_audio(audio_file, language="Auto Detect"):
+    # Convert audio to 16kHz mono for better compatibility with Whisper
+    audio = AudioSegment.from_file(audio_file)
+    audio = audio.set_frame_rate(16000).set_channels(1)
+    processed_audio_path = "processed_audio.wav"
+    audio.export(processed_audio_path, format="wav")
+    # Transcribe the audio
+    if language == "Auto Detect":
+        result = model.transcribe(processed_audio_path, fp16=False)  # Auto-detect language
+        detected_language = result.get("language", "unknown")
+    else:
+        language_code = LANGUAGE_NAME_TO_CODE.get(language, "en")  # Default to English if not found
+        result = model.transcribe(processed_audio_path, language=language_code, fp16=False)
+        detected_language = language_code
+    # Clean up processed audio file
+    os.remove(processed_audio_path)
     # Return transcription and detected language
+    return f"Detected Language: {detected_language}\n\nTranscription:\n{result['text']}"
 # Mapping of full language names to language codes
 LANGUAGE_NAME_TO_CODE = {
     "Galician": "gl",
     "Marathi": "mr",
     "Punjabi": "pa",
+    "Sinhala": "si",
     "Khmer": "km",
     "Shona": "sn",
     "Yoruba": "yo",