TIGER-audio-extraction

Sleeping

fffiloni commited on May 23

Commit

f2e99a3

verified ·

1 Parent(s): 30959c0

Update gradio_app.py

Files changed (1) hide show

gradio_app.py CHANGED Viewed

@@ -16,15 +16,15 @@ device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 dnr_model = look2hear.models.TIGERDNR.from_pretrained("JusperLee/TIGER-DnR", cache_dir="cache").to(device).eval()
 sep_model = look2hear.models.TIGER.from_pretrained("JusperLee/TIGER-speech", cache_dir="cache").to(device).eval()
-TARGET_SR = 8000
 MAX_SPEAKERS = 4
-def extract_audio_from_video(video_path):
     video = VideoFileClip(video_path)
     session_id = uuid.uuid4().hex[:8]
     audio_path = f"temp_audio/{session_id}.wav"
     os.makedirs("temp_audio", exist_ok=True)
-    video.audio.write_audiofile(audio_path, fps=44100, verbose=False, logger=None)
     return audio_path, video
 def attach_audio_to_video(original_video, audio_path, out_path):
@@ -107,7 +107,7 @@ def separate_speakers(audio_path):
 @spaces.GPU()
 def separate_dnr_video(video_path):
-    audio_path, video = extract_audio_from_video(video_path)
     dialog_path, effect_path, music_path = separate_dnr(audio_path)
     session_id = uuid.uuid4().hex[:8]
@@ -133,7 +133,7 @@ def convert_to_ffmpeg_friendly(input_wav, output_wav):
 @spaces.GPU()
 def separate_speakers_video(video_path):
-    audio_path, video = extract_audio_from_video(video_path)
     output_files = separate_speakers_core(audio_path)
     session_id = uuid.uuid4().hex[:8]

 dnr_model = look2hear.models.TIGERDNR.from_pretrained("JusperLee/TIGER-DnR", cache_dir="cache").to(device).eval()
 sep_model = look2hear.models.TIGER.from_pretrained("JusperLee/TIGER-speech", cache_dir="cache").to(device).eval()
+TARGET_SR = 16000
 MAX_SPEAKERS = 4
+def extract_audio_from_video(video_path, freq):
     video = VideoFileClip(video_path)
     session_id = uuid.uuid4().hex[:8]
     audio_path = f"temp_audio/{session_id}.wav"
     os.makedirs("temp_audio", exist_ok=True)
+    video.audio.write_audiofile(audio_path, fps=freq, verbose=False, logger=None)
     return audio_path, video
 def attach_audio_to_video(original_video, audio_path, out_path):
 @spaces.GPU()
 def separate_dnr_video(video_path):
+    audio_path, video = extract_audio_from_video(video_path, 44100)
     dialog_path, effect_path, music_path = separate_dnr(audio_path)
     session_id = uuid.uuid4().hex[:8]
 @spaces.GPU()
 def separate_speakers_video(video_path):
+    audio_path, video = extract_audio_from_video(video_path, 16000)
     output_files = separate_speakers_core(audio_path)
     session_id = uuid.uuid4().hex[:8]