ImageBind_zeroshot_demo2

Runtime error

Rajagopal commited on Aug 4, 2023

Commit

9a9792d

1 Parent(s): cd10cf2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -59,12 +59,12 @@ def audio_text_zeroshot(audio, text_list):
     return score_dict
-def video_text_zeroshot(video, text_list):
-    video_paths = [video]
     labels = [label.strip(" ") for label in text_list.strip(" ").split("|")]
     inputs = {
         ModalityType.TEXT: data.load_and_transform_text(labels, device),
-        ModalityType.VISION: data.load_and_transform_video_data(video_paths, device),
     }
     with torch.no_grad():
@@ -82,20 +82,21 @@ def video_text_zeroshot(video, text_list):
     return score_dict
 def inference(
     task,
     text_list=None,
     image=None,
     audio=None,
-    video=None,
 ):
     if task == "image-text":
         result = image_text_zeroshot(image, text_list)
     elif task == "audio-text":
         result = audio_text_zeroshot(audio, text_list)
     elif task == "video-text":
-        result = video_text_zeroshot(video, text_list)
     else:
         raise NotImplementedError
     return result
@@ -116,7 +117,7 @@ def main():
         gr.inputs.Textbox(lines=1, label="Candidate texts"),
         gr.inputs.Image(type="filepath", label="Input image"),
         gr.inputs.Audio(type="filepath", label="Input audio"),
-        gr.inputs.Video(type=None, label="Input video"),
     ]
     iface = gr.Interface(

     return score_dict
+def video_text_zeroshot(image, text_list):
+    image_paths = [image]
     labels = [label.strip(" ") for label in text_list.strip(" ").split("|")]
     inputs = {
         ModalityType.TEXT: data.load_and_transform_text(labels, device),
+        ModalityType.VISION: data.load_and_transform_vision_data(image_paths, device),
     }
     with torch.no_grad():
     return score_dict
 def inference(
     task,
     text_list=None,
     image=None,
     audio=None,
+    image2=None,
 ):
     if task == "image-text":
         result = image_text_zeroshot(image, text_list)
     elif task == "audio-text":
         result = audio_text_zeroshot(audio, text_list)
     elif task == "video-text":
+        result = video_text_zeroshot(image2, text_list)
     else:
         raise NotImplementedError
     return result
         gr.inputs.Textbox(lines=1, label="Candidate texts"),
         gr.inputs.Image(type="filepath", label="Input image"),
         gr.inputs.Audio(type="filepath", label="Input audio"),
+         gr.inputs.Image(type="filepath", label="Input image"),
     ]
     iface = gr.Interface(