Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 17, 2024

Commit

329c8dd

verified ·

1 Parent(s): 65ac4ea

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -3

app.py CHANGED Viewed

@@ -16,29 +16,45 @@ def convert_to_wav(audio_file):
     return wav_file
 import torch
-from transformers import pipeline
 device = "cuda" if torch.cuda.is_available() else "cpu"
 pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", device=device)
 def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
-   # with torch.no_grad():
     output = pipe(audio_file)
     text = output["text"]
     end_time = time.time()
     output_time = end_time - start_time
     word_count = len(text.split())
     result = f"Time taken: {output_time:.2f} seconds\nNumber of words: {word_count}"
     return text, result
 import nltk
 from nltk.tokenize import word_tokenize, sent_tokenize
 from nltk.corpus import stopwords

     return wav_file
 import torch
+from transformers import pipeline, WhisperForConditionalGeneration
+# prepare decoder input IDs for generation
+def prepare_decoder_input_ids_for_generation_patch(self, batch_size, model_input_name, model_kwargs, decoder_start_token_id, bos_token_id, device):
+    if 'decoder_input_ids' not in model_kwargs:
+        return torch.ones((batch_size, 1), dtype=torch.long, device=device) * decoder_start_token_id, model_kwargs
+    else:
+        return model_kwargs.pop('decoder_input_ids'), model_kwargs
+# patch function in the WhisperForConditionalGeneration class
+WhisperForConditionalGeneration._prepare_decoder_input_ids_for_generation = prepare_decoder_input_ids_for_generation_patch
+# print("Custom decoder input ID preparation function applied.")
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# pipe it
 pipe = pipeline("automatic-speech-recognition", model="NbAiLab/nb-whisper-large", device=device)
 def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
+    # transcribe
     output = pipe(audio_file)
+    # get text
     text = output["text"]
     end_time = time.time()
     output_time = end_time - start_time
     word_count = len(text.split())
+    # summary
     result = f"Time taken: {output_time:.2f} seconds\nNumber of words: {word_count}"
     return text, result
 import nltk
 from nltk.tokenize import word_tokenize, sent_tokenize
 from nltk.corpus import stopwords