Spaces:

reab5555
/

WhisperCap

Sleeping

App Files Files Community

reab5555 commited on Oct 29, 2024

Commit

b6211a3

verified ·

1 Parent(s): 01ddeb4

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -18

app.py CHANGED Viewed

@@ -3,8 +3,7 @@ import math
 import gradio as gr
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
-from moviepy.editor import VideoFileClip
-import librosa  # Add librosa for audio processing
 def transcribe(video_file, transcribe_to_text, transcribe_to_srt, language):
     device = "cuda:0" if torch.cuda.is_available() else "cpu"
@@ -41,23 +40,18 @@ def transcribe(video_file, transcribe_to_text, transcribe_to_srt, language):
     audio = video.audio
     duration = video.duration
     transcription_txt = ""
     transcription_srt = []
-    # Corrected this to use `video_path` for librosa's load function
-    audio_samples, sr = librosa.load(video_path, sr=None)
-    intervals = librosa.effects.split(audio_samples, top_db=30)  # Adjust threshold if necessary
-    for idx, (start_frame, end_frame) in enumerate(intervals):
-        start_time = start_frame / sr
-        end_time = end_frame / sr
-        if end_time - start_time > 10:  # Enforce 10-second max duration for each caption
-            end_time = start_time + 10
-        temp_file_path = f"temp_audio_{idx}.wav"
-        librosa.output.write_wav(temp_file_path, audio_samples[start_frame:end_frame], sr)
         with open(temp_file_path, "rb") as temp_file:
             result = pipe(temp_file_path, generate_kwargs={"language": language})
             transcription_txt += result["text"]
@@ -66,14 +60,15 @@ def transcribe(video_file, transcribe_to_text, transcribe_to_srt, language):
                     start_time, end_time = chunk["timestamp"]
                     if start_time is not None and end_time is not None:
                         transcription_srt.append({
-                            "start": start_time + idx * 10,
-                            "end": end_time + idx * 10,
                             "text": chunk["text"]
                         })
                     else:
                         print(f"Warning: Invalid timestamp for chunk: {chunk}")
         os.remove(temp_file_path)
-        yield f"Progress: {int((idx / len(intervals)) * 100)}%", None
     output = ""
     srt_file_path = None

 import gradio as gr
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+from moviepy.editor import VideoFileClip, concatenate_audioclips
 def transcribe(video_file, transcribe_to_text, transcribe_to_srt, language):
     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     audio = video.audio
     duration = video.duration
+    n_chunks = math.ceil(duration / 10)  # Split into 10-second chunks
     transcription_txt = ""
     transcription_srt = []
+    for i in range(n_chunks):
+        start = i * 10
+        end = min((i + 1) * 10, duration)
+        audio_chunk = audio.subclip(start, end)
+        temp_file_path = f"temp_audio_{i}.wav"
+        audio_chunk.write_audiofile(temp_file_path, codec='pcm_s16le')
         with open(temp_file_path, "rb") as temp_file:
             result = pipe(temp_file_path, generate_kwargs={"language": language})
             transcription_txt += result["text"]
                     start_time, end_time = chunk["timestamp"]
                     if start_time is not None and end_time is not None:
                         transcription_srt.append({
+                            "start": start_time + i * 10,
+                            "end": end_time + i * 10,
                             "text": chunk["text"]
                         })
                     else:
                         print(f"Warning: Invalid timestamp for chunk: {chunk}")
         os.remove(temp_file_path)
+        yield f"Progress: {int(((i + 1) / n_chunks) * 100)}%", None
     output = ""
     srt_file_path = None