Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 12, 2024

Commit

ca78d98

verified ·

1 Parent(s): 61d43b9

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -11

app.py CHANGED Viewed

@@ -22,7 +22,7 @@ def convert_to_wav(audio_file):
     return wav_file
 import torch
-from transformers import pipeline, AutoProcessor, AutoModelForSpeechSeq2Seq
 # Initialize processor and pipeline
@@ -30,25 +30,33 @@ processor = AutoProcessor.from_pretrained("NbAiLabBeta/nb-whisper-large")
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 torch_dtype = torch.float32
 pipe = pipeline("automatic-speech-recognition", model="NbAiLabBeta/nb-whisper-large", torch_dtype=torch_dtype)
-language = "no"
 task = "transcribe"
-# @spaces.GPU(queue=True)
 def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
-    # forced_decoder_ids in the correct context
-    forced_decoder_ids = processor.get_decoder_prompt_ids(language=language, task=task)
     with torch.no_grad():
-        # CUDA within the function
-        # with torch.cuda.device(device) if torch.cuda.is_available() else contextlib.nullcontext():
-            output = pipe(audio_file, chunk_length_s=30, generate_kwargs={"forced_decoder_ids": forced_decoder_ids})
     text = output["text"]
     end_time = time.time()
@@ -182,12 +190,13 @@ def text_rank_summary(text, num_paragraphs=3):
     summary = [ranked_sentences[i][1] for i in range(num_paragraphs)] # top sentences for summary
     return ' '.join(summary)
 banner_html = """
 <div style="text-align: center;">
-    <img src="https://github.com/camparchimedes/sw-llm/blob/main/annex/cooltext462376124862020.png" alt="" width="100%" height="auto">
 </div>
 """
 import gradio as gr

     return wav_file
 import torch
+from transformers import AutoProcessor, pipeline
 # Initialize processor and pipeline
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 torch_dtype = torch.float32
+# Set distinct pad and eos tokens
+if processor.tokenizer.pad_token_id is None:
+    processor.tokenizer.pad_token_id = processor.tokenizer.convert_tokens_to_ids("[PAD]")
+if processor.tokenizer.eos_token_id is None:
+    processor.tokenizer.eos_token_id = processor.tokenizer.convert_tokens_to_ids("[EOS]")
 pipe = pipeline("automatic-speech-recognition", model="NbAiLabBeta/nb-whisper-large", torch_dtype=torch_dtype)
+#language = "no"
 task = "transcribe"
 def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
     with torch.no_grad():
+        output = pipe(
+            audio_file,
+            chunk_length_s=30,
+            generate_kwargs={
+                "task": task,
+                "pad_token_id": processor.tokenizer.pad_token_id,
+                "eos_token_id": processor.tokenizer.eos_token_id
+            }
+        )
     text = output["text"]
     end_time = time.time()
     summary = [ranked_sentences[i][1] for i in range(num_paragraphs)] # top sentences for summary
     return ' '.join(summary)
 banner_html = """
 <div style="text-align: center;">
+    <img src="https://raw.githubusercontent.com/camparchimedes/sw-llm/main/annex/cooltext462376124862020.png" alt="" width="100%" height="auto">
 </div>
 """
+# https://raw.huggingface.co/spaces/camparchimedes/transcription_app/blob/main/banner_trans.png
 import gradio as gr