Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Sep 3, 2024

Commit

3d1368b

verified ·

1 Parent(s): 53b4978

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -26

app.py CHANGED Viewed

@@ -22,6 +22,7 @@ import re
 import uuid
 import time
 import psutil
 import subprocess
 from tqdm import tqdm
@@ -53,70 +54,102 @@ CACHE_EXAMPLES = torch.device('cuda') and os.getenv("CACHE_EXAMPLES", "0") == "1
 device = torch.device('cuda')
 #device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
-#@spaces.GPU
-def transcribe(file_upload, progress=gr.Progress(track_tqdm=True)): # microphone
-    file = file_upload # microphone if microphone is not None else
-    start_time = time.time()
-    #--------------____________________________________________--------------"
-    #if torch.cuda.is_available():
-        #with torch.no_grad():
-            #pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", device=device)
     with torch.no_grad():
         pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", device=device)
-    """
     # -- chunking
     chunks = chunk_audio(file, chunk_length_ms=30000, overlap_length_ms=5000)
     full_transcription = []
     for chunk in chunks:
-        # -- convert chunk to temporary file-like object
         temp_audio = chunk.export(format="wav")
         # -- transcribe chunk
         text = pipe(temp_audio)["text"]
         full_transcription.append(text)
-    # -- join chunk transcriptions
     full_text = " ".join(full_transcription)
     """
-    text = pipe(file)["text"]
     #--------------____________________________________________--------------"
-    end_time = time.time()
-    output_time = end_time - start_time
     # --Word count
-    word_count = len(text.split())
     # --Memory metrics
-    memory = psutil.virtual_memory()
     # --CPU metric
-    cpu_usage = psutil.cpu_percent(interval=1)
     # --GPU metric
-    gpu_utilization, gpu_memory = GPUInfo.gpu_usage()
     # --system info string
-    system_info = f"""
-    Processing time: {output_time:.2f} seconds.
-    Number of words: {word_count}
-    GPU Memory: {gpu_memory}
-    """
     #--------------____________________________________________--------------"
     #CPU Usage: {cpu_usage}%
     #Memory used: {memory.percent}%
     #GPU Utilization: {gpu_utilization}%
-    return text, system_info
 ###############################################################################

 import uuid
 import time
 import psutil
+import pydub
 import subprocess
 from tqdm import tqdm
 device = torch.device('cuda')
 #device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+file = file_upload
+def chunk_audio(file, chunk_length_ms=30000, overlap_length_ms=5000):
+    # -- pydub
+    audio = AudioSegment.from_file(file)
+    # -- create chunks with overlap
+    chunks = []
+    for i in range(0, len(audio), chunk_length_ms - overlap_length_ms):
+        start = max(0, i)
+        end = min(len(audio), i + chunk_length_ms)
+        chunks.append(audio[start:end])
+    return chunks
+def transcribe(file_upload, progress=gr.Progress(track_tqdm=True)):
+    start_time = time.time()
+    # Load the speech recognition model
     with torch.no_grad():
         pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", device=device)
     # -- chunking
     chunks = chunk_audio(file, chunk_length_ms=30000, overlap_length_ms=5000)
     full_transcription = []
     for chunk in chunks:
+        # -- convert to temporary file-like object
         temp_audio = chunk.export(format="wav")
         # -- transcribe chunk
         text = pipe(temp_audio)["text"]
         full_transcription.append(text)
+    # -- join
     full_text = " ".join(full_transcription)
+    # -- timimg, word count
+    end_time = time.time()
+    output_time = end_time - start_time
+    word_count = len(full_text.split())
+    # -- metrics
+    memory = psutil.virtual_memory()
+    cpu_usage = psutil.cpu_percent(interval=1)
+    # --system info string
+    system_info = f"""
+    Processing time: {output_time:.2f} seconds.
+    Number of words: {word_count}
     """
+    return full_text, system_info
+#@spaces.GPU
+#def transcribe(file_upload, progress=gr.Progress(track_tqdm=True)): # microphone
+    #file = file_upload # microphone if microphone is not None else
+    #start_time = time.time()
+    #--------------____________________________________________--------------"
+    #with torch.no_grad():
+        #pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", device=device)
+    #text = pipe(file)["text"]
     #--------------____________________________________________--------------"
+    #end_time = time.time()
+    #output_time = end_time - start_time
     # --Word count
+    #word_count = len(text.split())
     # --Memory metrics
+    #memory = psutil.virtual_memory()
     # --CPU metric
+    #cpu_usage = psutil.cpu_percent(interval=1)
     # --GPU metric
+    #gpu_utilization, gpu_memory = GPUInfo.gpu_usage()
     # --system info string
+    #system_info = f"""
+    #Processing time: {output_time:.2f} seconds.
+    #Number of words: {word_count}
+    #GPU Memory: {gpu_memory}
     #--------------____________________________________________--------------"
     #CPU Usage: {cpu_usage}%
     #Memory used: {memory.percent}%
     #GPU Utilization: {gpu_utilization}%
+    #return text, system_info
 ###############################################################################