Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 19, 2024

Commit

52a656c

verified ·

1 Parent(s): 130c2db

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -22

app.py CHANGED Viewed

@@ -81,28 +81,23 @@ def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
-    # Load using torchaudio
-    waveform, sample_rate = torchaudio.load(audio_file)
     start_time = time.time()
-    text = pipe(waveform, sampling_rate=sample_rate)["text"]
     output_time = time.time() - start_time
-    # Calculate audio duration (in seconds)
     audio_duration = waveform.shape[1] / sample_rate
     # Find audio duration@pipeline's internal method
     #audio_duration = pipe.feature_extractor.sampling_rate * len(pipe.feature_extractor(audio_file)["input_features"][0]) / pipe.feature_extractor.sampling_rate
-    # Real-time Factor calculation
     rtf = output_time / audio_duration
     # Format of the result
@@ -227,29 +222,21 @@ def save_to_pdf(text, summary):
     pdf.output(pdf_output_path)
     return pdf_output_path
-def _return_img_html_embed(img_url):
-    HTML_str = (
-        f'<center><img src="{img_url}" alt="Imagerine" style="width:100%; height:auto;"></center>'
-    )
-    return HTML_str
-# Gradio Interface
 def display_image():
-    img_url = "https://huggingface.co/spaces/camparchimedes/transcription_app/blob/main/picture.png"
-    html_embed_str = _return_img_html_embed(img_url)
-    return html_embed_str
 iface = gr.Blocks()
 with iface:
-    gr.HTML(display_image())
     gr.Markdown("# Vi har nå muligheten til å oversette lydfiler til norsk skrift.")
     with gr.Tabs():
         with gr.TabItem("Transcription"):
             audio_input = gr.Audio(type="filepath")
             text_output = gr.Textbox(label="Text")
-            result_output = gr.Textbox(label="Time taken and Number of words")
             transcribe_button = gr.Button("Transcribe")
             transcribe_button.click(fn=transcribe_audio, inputs=[audio_input], outputs=[text_output, result_output])

     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
+    # Load using torchaudio
+    text = pipe(audio_file)["text"]
     output_time = time.time() - start_time
+    waveform, sample_rate = torchaudio.load(audio_file)
+    # Audio duration (in seconds)
     audio_duration = waveform.shape[1] / sample_rate
     # Find audio duration@pipeline's internal method
     #audio_duration = pipe.feature_extractor.sampling_rate * len(pipe.feature_extractor(audio_file)["input_features"][0]) / pipe.feature_extractor.sampling_rate
+    # Real-time Factor (RTF)
     rtf = output_time / audio_duration
     # Format of the result
     pdf.output(pdf_output_path)
     return pdf_output_path
 def display_image():
+    img_url = "https://huggingface.co/spaces/camparchimedes/transcription_app/raw/main/picture.png"
+    return img_url
 iface = gr.Blocks()
 with iface:
+    gr.Image(display_image(), label="Image")
     gr.Markdown("# Vi har nå muligheten til å oversette lydfiler til norsk skrift.")
     with gr.Tabs():
         with gr.TabItem("Transcription"):
             audio_input = gr.Audio(type="filepath")
             text_output = gr.Textbox(label="Text")
+            result_output = gr.Textbox(label="Transcription Details")
             transcribe_button = gr.Button("Transcribe")
             transcribe_button.click(fn=transcribe_audio, inputs=[audio_input], outputs=[text_output, result_output])