Spaces:

Athspi
/

Ai-audio

Running

App Files Files Community

Athspi commited on Jan 12

Commit

ce80eeb

verified ·

1 Parent(s): 09f2e07

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -32

app.py CHANGED Viewed

@@ -137,14 +137,11 @@ def transcribe_with_whisper(audio_file, language="Auto Detect", model_size="Base
         result = model.transcribe(processed_audio_path, fp16=False)
         detected_language = result.get("language", "unknown")
     else:
-        language_code = LANGUAGE_NAME_TO_CODE.get(language, "en")  # Default to English if not found
         result = model.transcribe(processed_audio_path, language=language_code, fp16=False)
         detected_language = language_code
-    # Clean up processed audio file
     os.remove(processed_audio_path)
-    # Return transcription and detected language
     return f"Detected Language: {detected_language}\n\nTranscription:\n{result['text']}"
 def transcribe_with_sinhala_model(audio_file):
@@ -152,24 +149,18 @@ def transcribe_with_sinhala_model(audio_file):
     processor = AutoProcessor.from_pretrained(SINHALA_MODEL)
     model = AutoModelForCTC.from_pretrained(SINHALA_MODEL)
-    # Convert audio to 16kHz mono
     audio = AudioSegment.from_file(audio_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
     processed_audio_path = "processed_audio.wav"
     audio.export(processed_audio_path, format="wav")
-    # Load and process audio
     audio_input, _ = torchaudio.load(processed_audio_path)
     input_values = processor(audio_input.squeeze(), return_tensors="pt", sampling_rate=16000).input_values
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
-    # Decode prediction
     transcription = processor.batch_decode(predicted_ids)[0]
-    # Clean up processed audio file
     os.remove(processed_audio_path)
     return f"Transcription:\n{transcription}"
 def transcribe_audio(audio_file, language="Auto Detect", model_size="Base (Faster)"):
@@ -179,35 +170,30 @@ def transcribe_audio(audio_file, language="Auto Detect", model_size="Base (Faste
     else:
         return transcribe_with_whisper(audio_file, language, model_size)
-# Define the Gradio interface
 with gr.Blocks() as demo:
     gr.Markdown("# Audio Transcription and Language Detection")
-    with gr.Tab("Transcribe Audio"):
-        gr.Markdown("Upload an audio file, select a language (or choose 'Auto Detect'), and choose a model for transcription.")
-        transcribe_audio_input = gr.Audio(type="filepath", label="Upload Audio File")
-        language_dropdown = gr.Dropdown(
-            choices=list(LANGUAGE_NAME_TO_CODE.keys()),
-            label="Select Language",
-            value="Auto Detect"
-        )
-        model_dropdown = gr.Dropdown(
-            choices=list(MODELS.keys()),
-            label="Select Model",
-            value="Base (Faster)"
-        )
-        transcribe_output = gr.Textbox(label="Transcription and Detected Language")
-        transcribe_button = gr.Button("Transcribe Audio")
-    # Update model dropdown based on language selection
     def update_model_dropdown(language):
         if language == "Sinhala":
-            return gr.Dropdown(interactive=False, value="Fine-Tuned Sinhala Model")
-        else:
-            return gr.Dropdown(choices=list(MODELS.keys()), interactive=True, value="Base (Faster)")
     language_dropdown.change(update_model_dropdown, inputs=language_dropdown, outputs=model_dropdown)
     transcribe_button.click(transcribe_audio, inputs=[transcribe_audio_input, language_dropdown, model_dropdown], outputs=transcribe_output)
-# Launch the Gradio interface
 demo.launch()

         result = model.transcribe(processed_audio_path, fp16=False)
         detected_language = result.get("language", "unknown")
     else:
+        language_code = LANGUAGE_NAME_TO_CODE.get(language, "en")
         result = model.transcribe(processed_audio_path, language=language_code, fp16=False)
         detected_language = language_code
     os.remove(processed_audio_path)
     return f"Detected Language: {detected_language}\n\nTranscription:\n{result['text']}"
 def transcribe_with_sinhala_model(audio_file):
     processor = AutoProcessor.from_pretrained(SINHALA_MODEL)
     model = AutoModelForCTC.from_pretrained(SINHALA_MODEL)
     audio = AudioSegment.from_file(audio_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
     processed_audio_path = "processed_audio.wav"
     audio.export(processed_audio_path, format="wav")
     audio_input, _ = torchaudio.load(processed_audio_path)
     input_values = processor(audio_input.squeeze(), return_tensors="pt", sampling_rate=16000).input_values
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.batch_decode(predicted_ids)[0]
     os.remove(processed_audio_path)
     return f"Transcription:\n{transcription}"
 def transcribe_audio(audio_file, language="Auto Detect", model_size="Base (Faster)"):
     else:
         return transcribe_with_whisper(audio_file, language, model_size)
+# Gradio interface
 with gr.Blocks() as demo:
     gr.Markdown("# Audio Transcription and Language Detection")
+    transcribe_audio_input = gr.Audio(type="filepath", label="Upload Audio File")
+    language_dropdown = gr.Dropdown(
+        choices=list(LANGUAGE_NAME_TO_CODE.keys()),
+        label="Select Language",
+        value="Auto Detect"
+    )
+    model_dropdown = gr.Dropdown(
+        choices=list(MODELS.keys()),
+        label="Select Whisper Model",
+        value="Base (Faster)"
+    )
+    transcribe_output = gr.Textbox(label="Transcription")
+    transcribe_button = gr.Button("Transcribe Audio")
     def update_model_dropdown(language):
         if language == "Sinhala":
+            return gr.update(interactive=False, value="Base (Faster)")  # Disable dropdown
+        return gr.update(interactive=True, value="Base (Faster)")
     language_dropdown.change(update_model_dropdown, inputs=language_dropdown, outputs=model_dropdown)
     transcribe_button.click(transcribe_audio, inputs=[transcribe_audio_input, language_dropdown, model_dropdown], outputs=transcribe_output)
 demo.launch()