Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 9, 2024

Commit

006db93

verified ·

1 Parent(s): 2177eb1

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -13

app.py CHANGED Viewed

@@ -40,7 +40,7 @@ def transcribe_audio(audio_file):
         output = pipe(audio_file, chunk_length_s=28, generate_kwargs={"num_beams": 8, "task": "transcribe", "language": "no"})
     return output["text"]
-# Gradio interface
 iface = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="filepath"),
@@ -55,7 +55,7 @@ iface = gr.Interface(
 summarization_tokenizer = AutoTokenizer.from_pretrained("t5-base")
 summarization_model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")
-# Move summarization model to device
 summarization_model.to(device)
 def convert_to_wav(audio_file):
@@ -69,16 +69,15 @@ def convert_to_wav(audio_file):
-# Configure tokenizer to have distinct pad_token_id and eos_token_id
-if processor.tokenizer.pad_token_id is None:
-    # Setting pad_token_id explicitly to ensure distinction from eos_token_id
-    processor.tokenizer.pad_token_id = processor.tokenizer.eos_token_id + 1
-    # Sanity check to confirm distinct pad and eos tokens
-    assert processor.tokenizer.pad_token_id != processor.tokenizer.eos_token_id, \
-        "pad_token_id and eos_token_id must be distinct!"
-# Proceed with the transcription function
 def transcribe_audio(audio_file, batch_size=4):
     start_time = time.time()
     if audio_file.endswith(".m4a"):
@@ -104,8 +103,9 @@ def transcribe_audio(audio_file, batch_size=4):
                 task="transcribe",
                 attention_mask=attention_mask,
                 language="no",
-                pad_token_id=processor.tokenizer.pad_token_id,
-                eos_token_id=processor.tokenizer.eos_token_id
             )
         transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
@@ -144,7 +144,7 @@ def summarize_text(text):
 # HTML syntax for imagery
 image_html = """
 <div style="text-align: center;">
-    <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/raw/main/picture.png" alt="Banner" width="85%" height="auto">
 </div>
 """

         output = pipe(audio_file, chunk_length_s=28, generate_kwargs={"num_beams": 8, "task": "transcribe", "language": "no"})
     return output["text"]
+# Gradio UI
 iface = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="filepath"),
 summarization_tokenizer = AutoTokenizer.from_pretrained("t5-base")
 summarization_model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")
+# t5-base to device
 summarization_model.to(device)
 def convert_to_wav(audio_file):
+# Configure_is__not good enough
+#if processor.tokenizer.pad_token_id is None:
+    #processor.tokenizer.pad_token_id = processor.tokenizer.eos_token_id + 1
+    # Sanity check
+    #assert processor.tokenizer.pad_token_id != processor.tokenizer.eos_token_id, \
+        #"pad_token_id and eos_token_id must be distinct..and they is not"
+# transcription
 def transcribe_audio(audio_file, batch_size=4):
     start_time = time.time()
     if audio_file.endswith(".m4a"):
                 task="transcribe",
                 attention_mask=attention_mask,
                 language="no",
+                **encoded_input, pad_token_id=tokenizer.eos_token_id,
+                # pad_token_id=processor.tokenizer.pad_token_id,
+                # eos_token_id=processor.tokenizer.eos_token_id
             )
         transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
 # HTML syntax for imagery
 image_html = """
 <div style="text-align: center;">
+    <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/raw/main/picture2.png" alt="Banner" width="85%" height="auto">
 </div>
 """