Spaces:

Athspi
/

Ai-audio

Running

App Files Files Community

Athspi commited on Jan 11

Commit

1a0ef3f

verified ·

1 Parent(s): 19bb2e9

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -8

app.py CHANGED Viewed

@@ -1,22 +1,45 @@
 import gradio as gr
 from transformers import pipeline
-# Load the Whisper model for speech recognition
-model = pipeline("automatic-speech-recognition", model="openai/whisper-medium")
 def transcribe_audio(audio_file):
-    # Transcribe the audio file and automatically detect the language
-    transcription = model(audio_file)
-    return transcription["text"]
 # Define the Gradio interface
 iface = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="filepath", label="Upload Audio File"),
     outputs=gr.Textbox(label="Transcription"),
-    title="Automatic Language Detection & Audio Transcription",
-    description="Upload an audio file, and the system will automatically detect the language and transcribe it."
 )
 # Launch the Gradio interface
-iface.launch()

 import gradio as gr
 from transformers import pipeline
+from pydub import AudioSegment
+import os
+# Load a smaller Whisper model for faster transcription
+model = pipeline("automatic-speech-recognition", model="openai/whisper-base")
+def split_audio(filepath, chunk_length_ms=30000):
+    """Split audio into chunks of `chunk_length_ms` milliseconds."""
+    audio = AudioSegment.from_file(filepath)
+    chunks = []
+    for i in range(0, len(audio), chunk_length_ms):
+        chunk = audio[i:i + chunk_length_ms]
+        chunk_path = f"chunk_{i}.wav"
+        chunk.export(chunk_path, format="wav")
+        chunks.append(chunk_path)
+    return chunks
 def transcribe_audio(audio_file):
+    # Split the audio into chunks
+    chunks = split_audio(audio_file)
+    # Transcribe each chunk
+    transcriptions = []
+    for chunk in chunks:
+        result = model(chunk)
+        transcriptions.append(result["text"])
+        os.remove(chunk)  # Clean up chunk files
+    # Combine all transcriptions into one
+    full_transcription = " ".join(transcriptions)
+    return full_transcription
 # Define the Gradio interface
 iface = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="filepath", label="Upload Audio File"),
     outputs=gr.Textbox(label="Transcription"),
+    title="Fast Audio Transcription with Automatic Language Detection",
+    description="Upload an audio file, and the system will automatically detect the language and transcribe it quickly."
 )
 # Launch the Gradio interface
+iface.launch(share=True, queue=True)