Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 19, 2024

Commit

4012d3e

verified ·

1 Parent(s): be5abfd

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -15

app.py CHANGED Viewed

@@ -22,7 +22,7 @@ import warnings
 from pydub import AudioSegment
 import torch
 import torchaudio
-from transformers import pipeline, WhisperTokenizer, WhisperForConditionalGeneration, WhisperProcessor
 from huggingface_hub import model_info
 import spacy
 import networkx as nx
@@ -68,31 +68,53 @@ generate_kwargs = {
     "forced_decoder_ids": None
 }
-# Initialize pipeline
-asr = pipeline("automatic-speech-recognition", model=model, tokenizer=processor.tokenizer, feature_extractor=processor.feature_extractor, device=device, torch_dtype=torch_dtype)
-# Transcribe audio
-def transcribe_audio(audio_file):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
-    # ASR pipeline on audio
-    with torch.no_grad():
-        text = asr(audio_file, chunk_length_s=30, generate_kwargs=generate_kwargs)["text"]
-    output_time = time.time() - start_time
-    # Load with torchaudio() for TRF
-    waveform, sample_rate = torchaudio.load(audio_file)
     # Audio duration (in seconds)
     audio_duration = waveform.shape[1] / sample_rate
-    # Find audio duration@pipeline's internal method
-    #audio_duration = pipe.feature_extractor.sampling_rate * len(pipe.feature_extractor(audio_file)["input_features"][0]) / pipe.feature_extractor.sampling_rate
     # Real-time Factor (RTF)
     rtf = output_time / audio_duration
@@ -109,6 +131,7 @@ def transcribe_audio(audio_file):
     return text, result
 # Clean and preprocess text for summarization
 def clean_text(text):
     text = re.sub(r'https?:\/\/.*[\r\n]*', '', text)

 from pydub import AudioSegment
 import torch
 import torchaudio
+from transformers import WhisperTokenizer, WhisperForConditionalGeneration, WhisperProcessor
 from huggingface_hub import model_info
 import spacy
 import networkx as nx
     "forced_decoder_ids": None
 }
+# Transcribe
+def transcribe_audio(audio_file, chunk_length_s=30):
     if audio_file.endswith(".m4a"):
         audio_file = convert_to_wav(audio_file)
     start_time = time.time()
+    # Load the audio waveform using torchaudio
+    waveform, sample_rate = torchaudio.load(audio_file)
+    # Calculate the number of chunks
+    chunk_size = chunk_length_s * sample_rate
+    num_chunks = waveform.shape[1] // chunk_size + int(waveform.shape[1] % chunk_size != 0)
+    # Initialize an empty list to store the transcribed text from each chunk
+    full_text = []
+    for i in range(num_chunks):
+        start = i * chunk_size
+        end = min((i + 1) * chunk_size, waveform.shape[1])
+        chunk_waveform = waveform[:, start:end]
+        # Process the chunk
+        audio_input = processor(chunk_waveform, sampling_rate=sample_rate, return_tensors="pt")
+        # Generate attention mask
+        input_features = audio_input.input_features
+        attention_mask = torch.ones(input_features.shape, dtype=torch.long)
+        # ASR model inference on the chunk
+        with torch.no_grad():
+            generated_ids = model.generate(
+                input_features=input_features.to(device),
+                attention_mask=attention_mask.to(device),
+                **generate_kwargs
+            )
+            chunk_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
+            full_text.append(chunk_text)
+    # Combine the transcribed text from all chunks
+    text = " ".join(full_text)
+    output_time = time.time() - start_time
     # Audio duration (in seconds)
     audio_duration = waveform.shape[1] / sample_rate
     # Real-time Factor (RTF)
     rtf = output_time / audio_duration
     return text, result
 # Clean and preprocess text for summarization
 def clean_text(text):
     text = re.sub(r'https?:\/\/.*[\r\n]*', '', text)