Spaces:

reab5555
/

WhisperCap

Sleeping

App Files Files Community

reab5555 commited on Jul 26, 2024

Commit

03701cd

verified ·

1 Parent(s): e3225d2

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -21

app.py CHANGED Viewed

@@ -3,20 +3,17 @@ import math
 import gradio as gr
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
-from moviepy.editor import AudioFileClip
-def transcribe(audio_file, transcribe_to_text, transcribe_to_srt, language):
     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
     model_id = "openai/whisper-large-v3"
     model = AutoModelForSpeechSeq2Seq.from_pretrained(
         model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
     )
     model.to(device)
     processor = AutoProcessor.from_pretrained(model_id)
     pipe = pipeline(
         "automatic-speech-recognition",
         model=model,
@@ -30,16 +27,16 @@ def transcribe(audio_file, transcribe_to_text, transcribe_to_srt, language):
         device=device,
         generate_kwargs={"language": language}
     )
     # Handle both file path (str) and file object
-    audio_path = audio_file if isinstance(audio_file, str) else audio_file.name
-    audio = AudioFileClip(audio_path)
-    duration = audio.duration
     n_chunks = math.ceil(duration / 30)
     transcription_txt = ""
     transcription_srt = []
     for i in range(n_chunks):
         start = i * 30
         end = min((i + 1) * 30, duration)
@@ -47,11 +44,9 @@ def transcribe(audio_file, transcribe_to_text, transcribe_to_srt, language):
         temp_file_path = f"temp_audio_{i}.wav"
         audio_chunk.write_audiofile(temp_file_path, codec='pcm_s16le')
         with open(temp_file_path, "rb") as temp_file:
             result = pipe(temp_file_path)
             transcription_txt += result["text"]
             if transcribe_to_srt:
                 for chunk in result["chunks"]:
                     start_time, end_time = chunk["timestamp"]
@@ -60,20 +55,16 @@ def transcribe(audio_file, transcribe_to_text, transcribe_to_srt, language):
                         "end": end_time + i * 30,
                         "text": chunk["text"]
                     })
         os.remove(temp_file_path)
         yield f"Progress: {int(((i + 1) / n_chunks) * 100)}%"
     output = ""
     if transcribe_to_text:
         output += "Text Transcription:\n" + transcription_txt + "\n\n"
     if transcribe_to_srt:
         output += "SRT Transcription:\n"
         for i, sub in enumerate(transcription_srt, 1):
             output += f"{i}\n{format_time(sub['start'])} --> {format_time(sub['end'])}\n{sub['text']}\n\n"
     yield output
 def format_time(seconds):
@@ -84,14 +75,14 @@ def format_time(seconds):
 iface = gr.Interface(
     fn=transcribe,
     inputs=[
-        gr.Audio(type="filepath"),
         gr.Checkbox(label="Transcribe to Text"),
         gr.Checkbox(label="Transcribe to SRT"),
         gr.Dropdown(choices=['en', 'he', 'it', 'fr', 'de', 'zh', 'ar'], label="Language")
     ],
     outputs="text",
-    title="WhisperCap Transcription",
-    description="Upload an audio file to transcribe it using Whisper.",
 )
 iface.launch()

 import gradio as gr
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+from moviepy.editor import VideoFileClip
+def transcribe(video_file, transcribe_to_text, transcribe_to_srt, language):
     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
     model_id = "openai/whisper-large-v3"
     model = AutoModelForSpeechSeq2Seq.from_pretrained(
         model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
     )
     model.to(device)
     processor = AutoProcessor.from_pretrained(model_id)
     pipe = pipeline(
         "automatic-speech-recognition",
         model=model,
         device=device,
         generate_kwargs={"language": language}
     )
     # Handle both file path (str) and file object
+    video_path = video_file if isinstance(video_file, str) else video_file.name
+    video = VideoFileClip(video_path)
+    audio = video.audio
+    duration = video.duration
     n_chunks = math.ceil(duration / 30)
     transcription_txt = ""
     transcription_srt = []
     for i in range(n_chunks):
         start = i * 30
         end = min((i + 1) * 30, duration)
         temp_file_path = f"temp_audio_{i}.wav"
         audio_chunk.write_audiofile(temp_file_path, codec='pcm_s16le')
         with open(temp_file_path, "rb") as temp_file:
             result = pipe(temp_file_path)
             transcription_txt += result["text"]
             if transcribe_to_srt:
                 for chunk in result["chunks"]:
                     start_time, end_time = chunk["timestamp"]
                         "end": end_time + i * 30,
                         "text": chunk["text"]
                     })
         os.remove(temp_file_path)
         yield f"Progress: {int(((i + 1) / n_chunks) * 100)}%"
     output = ""
     if transcribe_to_text:
         output += "Text Transcription:\n" + transcription_txt + "\n\n"
     if transcribe_to_srt:
         output += "SRT Transcription:\n"
         for i, sub in enumerate(transcription_srt, 1):
             output += f"{i}\n{format_time(sub['start'])} --> {format_time(sub['end'])}\n{sub['text']}\n\n"
     yield output
 def format_time(seconds):
 iface = gr.Interface(
     fn=transcribe,
     inputs=[
+        gr.Video(type="filepath"),
         gr.Checkbox(label="Transcribe to Text"),
         gr.Checkbox(label="Transcribe to SRT"),
         gr.Dropdown(choices=['en', 'he', 'it', 'fr', 'de', 'zh', 'ar'], label="Language")
     ],
     outputs="text",
+    title="WhisperCap Video Transcription",
+    description="Upload a video file to transcribe its audio using Whisper.",
 )
 iface.launch()