Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 10, 2024

Commit

dda0718

verified ·

1 Parent(s): b98f4ad

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -9

app.py CHANGED Viewed

@@ -14,23 +14,28 @@ from fpdf import FPDF
 from PIL import Image
 import time
 import os
 warnings.filterwarnings("ignore")
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 torch_dtype = torch.float32
-# Initialize the ASR pipeline
 pipe = pipeline("automatic-speech-recognition", model="NbAiLabBeta/nb-whisper-large-semantic", device=device, torch_dtype=torch.float32)
-# Function to convert m4a files to wav
 def convert_to_wav(audio_file):
     audio = AudioSegment.from_file(audio_file, format="m4a")
     wav_file = "temp.wav"
     audio.export(wav_file, format="wav")
     return wav_file
-# Transcription function using the ASR pipeline
 def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
@@ -50,12 +55,13 @@ def transcribe_audio(audio_file):
     return transcription.strip(), result
-# Summarization model setup
 summarization_tokenizer = AutoTokenizer.from_pretrained("t5-base")
 summarization_model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")
 summarization_model.to(device)
-# Graph-based summarization (TextRank)
 def summarize_text(text):
     sentences = sent_tokenize(text)
     if len(sentences) == 0:
@@ -69,12 +75,20 @@ def summarize_text(text):
     scores = nx.pagerank(nx_graph)
     ranked_sentences = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
     top_n = 3
     summary = " ".join([s for _, s in ranked_sentences[:top_n]])
     return summary
-# Save transcription and summary to PDF
 def save_to_pdf(transcription, summary):
     pdf = FPDF()
     pdf.add_page()
@@ -83,6 +97,7 @@ def save_to_pdf(transcription, summary):
     if transcription:
         pdf.multi_cell(0, 10, "Transcription:\n" + transcription)
     pdf.ln(10)
     if summary:
@@ -92,7 +107,16 @@ def save_to_pdf(transcription, summary):
     pdf.output(pdf_output_path)
     return pdf_output_path
-# Gradio Interface setup
 iface = gr.Blocks()
 with iface:
@@ -171,5 +195,6 @@ with iface:
                 outputs=[pdf_output_both]
             )
-# Run the Gradio interface
 iface.launch(share=True, debug=True)

 from PIL import Image
 import time
 import os
+# import spaces
 warnings.filterwarnings("ignore")
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 torch_dtype = torch.float32
+# ASR pipeline
 pipe = pipeline("automatic-speech-recognition", model="NbAiLabBeta/nb-whisper-large-semantic", device=device, torch_dtype=torch.float32)
+# Switch m4a to wav
 def convert_to_wav(audio_file):
     audio = AudioSegment.from_file(audio_file, format="m4a")
     wav_file = "temp.wav"
     audio.export(wav_file, format="wav")
     return wav_file
+# @spaces.GPU(queue=True)
+# Transcription funct.@ASR pipeline
 def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     return transcription.strip(), result
+# t5-base model@summary funct.
 summarization_tokenizer = AutoTokenizer.from_pretrained("t5-base")
 summarization_model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")
+# t5-base to device
 summarization_model.to(device)
+# Graph-based summarization (TextRank, method)
 def summarize_text(text):
     sentences = sent_tokenize(text)
     if len(sentences) == 0:
     scores = nx.pagerank(nx_graph)
     ranked_sentences = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
+    # Select top N sentences (e.g., 3 sentences for the summary)
     top_n = 3
     summary = " ".join([s for _, s in ranked_sentences[:top_n]])
     return summary
+# HTML syntax for imagery
+image_html = """
+<div style="text-align: center;">
+    <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/raw/main/picture.png" alt="Banner" width="85%" height="auto">
+</div>
+"""
+# Transcription and summary@PDF option(s)
 def save_to_pdf(transcription, summary):
     pdf = FPDF()
     pdf.add_page()
     if transcription:
         pdf.multi_cell(0, 10, "Transcription:\n" + transcription)
+    # paragraph space
     pdf.ln(10)
     if summary:
     pdf.output(pdf_output_path)
     return pdf_output_path
+# Gradio
+iface = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(type="filepath"),
+    outputs="text",
+    title="Audio Transcription App",
+    description="Upload an audio file to get the transcription",
+    theme="default",
+    live=False
+)
 iface = gr.Blocks()
 with iface:
                 outputs=[pdf_output_both]
             )
+# run
 iface.launch(share=True, debug=True)