Spaces:

camparchimedes
/

nb

Build error

camparchimedes commited on Aug 26, 2024

Commit

f0c35fe

verified ·

1 Parent(s): cd7ab60

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,7 +16,9 @@
 import spaces
 import gradio as gr
 from PIL import Image
-from pydub import AudioSegment
 import os
 import re
 import time
@@ -32,7 +34,7 @@ from gpuinfo import GPUInfo
 #import csv
 import numpy as np
 import torch
-import torchaudio
 import torchaudio.transforms as transforms
 from transformers import pipeline, AutoModel
@@ -67,22 +69,19 @@ def convert_to_wav(filepath):
 pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", chunk_length_s=30, generate_kwargs={'task': 'transcribe', 'language': 'no'})
 @spaces.GPU()
-def transcribe_audio(audio_file, batch_size=16, sample_rate =16000):
-    if isinstance(audio_file, tuple):
-        audio_file = audio_file[0] # assumes first element contains the file path;
-    waveform, sample_rate = torchaudio.load(audio_file) # to avoid TypeError here
-    if waveform.ndim > 1:
-        waveform = waveform[0, :]
-    waveform = waveform.numpy()
     start_time = time.time()
     # --pipe it
     with torch.no_grad():
-        outputs = pipe(waveform, sampling_rate=sample_rate, batch_size=batch_size, return_timestamps=False)
     end_time = time.time()
@@ -110,7 +109,6 @@ def transcribe_audio(audio_file, batch_size=16, sample_rate =16000):
     return text.strip(), system_info
 #              ------------summary section------------

 import spaces
 import gradio as gr
 from PIL import Image
+#from pydub import AudioSegment
+from scipy.io import wavfile
 import os
 import re
 import time
 #import csv
 import numpy as np
 import torch
+#import torchaudio
 import torchaudio.transforms as transforms
 from transformers import pipeline, AutoModel
 pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", chunk_length_s=30, generate_kwargs={'task': 'transcribe', 'language': 'no'})
 @spaces.GPU()
+def transcribe_audio(audio_file, batch_size=16): # sample_rate=16000
+    sample_rate, samples = wavfile.read(audio_file)
+    waveform, sample_rate = torchaudio.load(audio_file) # avoids TypeError here?
+    # --convert to mono
+    if len(samples.shape) > 1:
+        samples = samples[:, 0]
     start_time = time.time()
     # --pipe it
     with torch.no_grad():
+        outputs = pipe(samples, sampling_rate=sample_rate, batch_size=batch_size, return_timestamps=False)
     end_time = time.time()
     return text.strip(), system_info
 #              ------------summary section------------