Spaces:

camparchimedes
/

nb

Build error

camparchimedes commited on Aug 9, 2024

Commit

caafdf0

verified ·

1 Parent(s): 53454a4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -66,9 +66,14 @@ def convert_to_wav(audio_file):
 # @spaces.GPU(duration=300, queue=False)
 def transcribe_audio(audio_file, batch_size=4):
     start_time = time.time()
-    # Convert .m4a to .wav
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
@@ -89,7 +94,9 @@ def transcribe_audio(audio_file, batch_size=4):
                 num_beams=8,
                 task="transcribe",
                 attention_mask=attention_mask,
-                language="no"
             )
         transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
@@ -101,6 +108,7 @@ def transcribe_audio(audio_file, batch_size=4):
     return transcription.strip(), result
 # Graph-based summarization|TextRank
 def summarize_text(text):
     sentences = sent_tokenize(text)

 # @spaces.GPU(duration=300, queue=False)
+# Set distinct pad and eos tokens
+if processor.tokenizer.pad_token_id is None:
+    processor.tokenizer.pad_token_id = processor.tokenizer.convert_tokens_to_ids("[PAD]")
+if processor.tokenizer.eos_token_id is None:
+    processor.tokenizer.eos_token_id = processor.tokenizer.convert_tokens_to_ids("[EOS]")
 def transcribe_audio(audio_file, batch_size=4):
     start_time = time.time()
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
                 num_beams=8,
                 task="transcribe",
                 attention_mask=attention_mask,
+                language="no",
+                pad_token_id=processor.tokenizer.pad_token_id,
+                eos_token_id=processor.tokenizer.eos_token_id
             )
         transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
     return transcription.strip(), result
 # Graph-based summarization|TextRank
 def summarize_text(text):
     sentences = sent_tokenize(text)