Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 8, 2024

Commit

0634e0f

verified ·

1 Parent(s): 052955a

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -7

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ from nltk.tokenize import sent_tokenize
 import gradio as gr
 import warnings
 import torch
-from transformers import pipeline, AutoProcessor, AutoModelForSpeechSeq2Seq, AutoTokenizer, AutoModelForSeq2SeqLM
 from pydub import AudioSegment
 import soundfile as sf
 import numpy as np
@@ -24,17 +24,20 @@ warnings.filterwarnings("ignore")
 HF_AUTH_TOKEN = os.getenv('HF_AUTH_TOKEN')
-model = AutoModelForSpeechSeq2Seq.from_pretrained("NbAiLabBeta/nb-whisper-large-semantic")
-processor = AutoProcessor.from_pretrained("NbAiLabBeta/nb-whisper-large-semantic")
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 model.to(device)
-asr = pipeline("automatic-speech-recognition", model=model, processor=processor, device=device, torch_dtype=torch.float32)
 def transcribe_audio(audio_file):
     with torch.no_grad():
-        output = asr(audio_file, chunk_length_s=28, generate_kwargs={"num_beams": 5, "task": "transcribe", "language": "no"})
     return output["text"]
 # Gradio interface
@@ -48,7 +51,7 @@ iface = gr.Interface(
     live=False
 )
-# Load summarization models with authentication token
 summarization_tokenizer = AutoTokenizer.from_pretrained("t5-base")
 summarization_model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")
@@ -83,7 +86,7 @@ def transcribe_audio(audio_file, batch_size=4):
             output = model.generate(
                 inputs.input_features,
                 max_length=2048,
-                num_beams=7,
                 task="transcribe",
                 attention_mask=attention_mask,
                 language="no"

 import gradio as gr
 import warnings
 import torch
+from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM  #AutoProcessor, AutoModelForSpeechSeq2Seq
 from pydub import AudioSegment
 import soundfile as sf
 import numpy as np
 HF_AUTH_TOKEN = os.getenv('HF_AUTH_TOKEN')
+# model = AutoModelForSpeechSeq2Seq.from_pretrained("NbAiLabBeta/nb-whisper-large-semantic")
+# processor = AutoProcessor.from_pretrained("NbAiLabBeta/nb-whisper-large-semantic")
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+torch_dtype = torch.float32
 model.to(device)
+#asr = pipeline("automatic-speech-recognition", model=model, processor=processor.tokenizer, device=device, torch_dtype=torch.float32)
+pipe = pipeline("automatic-speech-recognition", model="NbAiLabBeta/nb-whisper-large-semantic")
 def transcribe_audio(audio_file):
     with torch.no_grad():
+        output = pipe(audio_file, chunk_length_s=28, generate_kwargs={"num_beams": 8, "task": "transcribe", "language": "no"})
     return output["text"]
 # Gradio interface
     live=False
 )
+# summarization model
 summarization_tokenizer = AutoTokenizer.from_pretrained("t5-base")
 summarization_model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")
             output = model.generate(
                 inputs.input_features,
                 max_length=2048,
+                num_beams=8,
                 task="transcribe",
                 attention_mask=attention_mask,
                 language="no"