Spaces:

camparchimedes
/

nb

Build error

App Files Files

xet

camparchimedes commited on Aug 6, 2024

Commit

47661bd

verified ·

1 Parent(s): 198c942

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -19

app.py CHANGED Viewed

@@ -3,8 +3,7 @@ import warnings
 import torch
 from transformers import WhisperTokenizer, WhisperForConditionalGeneration, WhisperProcessor
 import soundfile as sf
-import huggingface_hub
-import os
 warnings.filterwarnings("ignore")
@@ -21,21 +20,27 @@ torch_dtype = torch.float32
 # move model to device
 model.to(device)
-# @device.GPU
 def transcribe_audio(audio_file):
-    audio_input, _ = sf.read(audio_file)
-    inputs = processor(audio_input, sampling_rate=16000, return_tensors="pt")
-    inputs = inputs.to(device)
-    with torch.no_grad():
-        output = model.generate(
-            inputs.input_features,
-            max_length=448,
-            num_beams=5,
-            task="transcribe",
-            language="no"
-        )
-    transcription = processor.batch_decode(output, skip_special_tokens=True)[0]
-    return transcription
 # HTML for banner image
 banner_html = """
@@ -49,7 +54,7 @@ iface = gr.Blocks()
 with iface:
     gr.HTML(banner_html)
-    gr.Markdown("# Audio Transcription App\nUpload an audio file to get the transcription")
     audio_input = gr.Audio(type="filepath")
     transcription_output = gr.Textbox()
     transcribe_button = gr.Button("Transcribe")
@@ -57,5 +62,4 @@ with iface:
     transcribe_button.click(fn=transcribe_audio, inputs=audio_input, outputs=transcription_output)
 # Launch the interface
-iface.launch(share=True, debug=True)

 import torch
 from transformers import WhisperTokenizer, WhisperForConditionalGeneration, WhisperProcessor
 import soundfile as sf
+from huggingface_hub import spaces
 warnings.filterwarnings("ignore")
 # move model to device
 model.to(device)
 def transcribe_audio(audio_file):
+    audio_input, sample_rate = sf.read(audio_file)
+    chunk_size = 16000 * 28  # 28 seconds chunks (seems to work best)
+    chunks = [audio_input[i:i + chunk_size] for i in range(0, len(audio_input), chunk_size)]
+    transcription = ""
+    for chunk in chunks:
+        inputs = processor(chunk, sampling_rate=16000, return_tensors="pt")
+        inputs = inputs.to(device)
+        with torch.no_grad():
+            output = model.generate(
+                inputs.input_features,
+                max_length=2048,  # Increase max_length for longer outputs
+                num_beams=10,
+                task="transcribe",
+                language="no"
+            )
+        transcription += processor.batch_decode(output, skip_special_tokens=True)[0] + " "
+    return transcription.strip()
 # HTML for banner image
 banner_html = """
 with iface:
     gr.HTML(banner_html)
+    gr.Markdown("# Ola's AudioSwitch2Go 🔊🎧☕🧑🏼‍🏫@{NbAiLab/whisper-norwegian-medium}\nUpload audio file (if .ma4 ~simply rename it to .mp3 before upload)")
     audio_input = gr.Audio(type="filepath")
     transcription_output = gr.Textbox()
     transcribe_button = gr.Button("Transcribe")
     transcribe_button.click(fn=transcribe_audio, inputs=audio_input, outputs=transcription_output)
 # Launch the interface
+iface.launch(share=True, debug=True)