Spaces:

lorocksUMD
/

DenseAV-Lowell

Running

lorocksUMD commited on Apr 1

Commit

db52c57

verified ·

1 Parent(s): 77007c9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -62,7 +62,7 @@ for filename, url in sample_videos_urls.items():
         print(f"{filename} already exists. Skipping download.")
 csv.field_size_limit(100000000)
-options = ['language', "sound-language", "sound"] # Changed second to initial
 load_size = 224
 plot_size = 224
@@ -74,16 +74,12 @@ video_output2 = gr.Video(label="Multi-Head Audio Video Attention (Only Availible
                          height=480)
 video_output3 = gr.Video(label="Visual Features", height=480)
-# models = {o: LitAVAligner.from_pretrained(f"mhamilton723/DenseAV-{o}") for o in options}
-models = {o: None for o in options}
-for o in options:
-    print(o)
-    models[o] = LitAVAligner.from_pretrained(f"mhamilton723/DenseAV-{o}")
 def process_video(video, model_option):
     # model = models[model_option].cuda()
     model = models[model_option]
     original_frames, audio, info = torchvision.io.read_video(video, end_pts=10, pts_unit='sec')
     sample_rate = 16000

         print(f"{filename} already exists. Skipping download.")
 csv.field_size_limit(100000000)
+options = ['language', "sound_and_language", "sound"] # Changed second to initial
 load_size = 224
 plot_size = 224
                          height=480)
 video_output3 = gr.Video(label="Visual Features", height=480)
+models = {o: LitAVAligner.from_pretrained(f"mhamilton723/DenseAV-{o}") for o in ['language', "sound-language", "sound"]}
 def process_video(video, model_option):
     # model = models[model_option].cuda()
     model = models[model_option]
+    print(model_option)
     original_frames, audio, info = torchvision.io.read_video(video, end_pts=10, pts_unit='sec')
     sample_rate = 16000