Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 7, 2024

Commit

1b9402b

verified ·

1 Parent(s): aea18b3

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -9

app.py CHANGED Viewed

@@ -27,20 +27,22 @@ def transcribe_audio(audio_file):
     chunks = [audio_input[i:i + chunk_size] for i in range(0, len(audio_input), chunk_size)]
     transcription = ""
-    for chunk in chunks:
-        inputs = processor(chunk, sampling_rate=16000, return_tensors="pt")
         inputs = inputs.to(device)
         with torch.no_grad():
             output = model.generate(
                 inputs.input_features,
-                max_length=1024,  # Increase max_length@longer outputs
-                num_beams=5,
                 task="transcribe",
                 language="no"
             )
-        transcription += processor.batch_decode(output, skip_special_tokens=True)[0] + " "
-    return transcription.strip()
 # HTML |banner image
 banner_html = """
@@ -54,12 +56,13 @@ iface = gr.Blocks()
 with iface:
     gr.HTML(banner_html)
-    gr.Markdown("# Nvidia A100👋🏼👾🦾⚡☕🧑🏼‍🏫@{NbAiLab/whisper-norwegian-medium}\nUpload audio file (*needs to be in .mp3 format before upload*)")
     audio_input = gr.Audio(type="filepath")
     transcription_output = gr.Textbox()
     transcribe_button = gr.Button("Transcribe")
-    transcribe_button.click(fn=transcribe_audio, inputs=audio_input, outputs=transcription_output)
 # Launch interface
 iface.launch(share=True, debug=True)

     chunks = [audio_input[i:i + chunk_size] for i in range(0, len(audio_input), chunk_size)]
     transcription = ""
+    for i in range(0, len(chunks), batch_size):
+        batch_chunks = chunks[i:i + batch_size]
+        inputs = processor(batch_chunks, sampling_rate=16000, return_tensors="pt", padding=True)
         inputs = inputs.to(device)
+        attention_mask = inputs.attention_mask.to(device) if 'attention_mask' in inputs else None
         with torch.no_grad():
             output = model.generate(
                 inputs.input_features,
+                max_length=1024,  # Increase max_length for longer outputs
+                num_beams=7,
                 task="transcribe",
+                attention_mask=attention_mask,
+                forced_decoder_ids=None  # forced_decoder_ids must not be set
                 language="no"
             )
+        transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
 # HTML |banner image
 banner_html = """
 with iface:
     gr.HTML(banner_html)
+    gr.Markdown("# 𝐍𝐯𝐢𝐝𝐢𝐚 𝐀𝟏𝟎𝟎 👋🏼👾🦾⚡ @{NbAiLab/whisper-norwegian-medium}\nUpload audio file:☕")
     audio_input = gr.Audio(type="filepath")
+    batch_size_input = gr.Slider(minimum=1, maximum=16, step=1, default=4, label="Batch Size")
     transcription_output = gr.Textbox()
     transcribe_button = gr.Button("Transcribe")
+    transcribe_button.click(fn=transcribe_audio, inputs=[audio_input, batch_size_input], outputs=transcription_output)
 # Launch interface
 iface.launch(share=True, debug=True)