Spaces:

cyrus28214
/

Revisual-R1

Runtime error

App Files Files Community

cyrus28214 commited on Jun 20

Commit

9fecce5

unverified ·

1 Parent(s): a033194

update

Browse files

Files changed (2) hide show

app.py +18 -43
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -1,64 +1,39 @@
 import gradio as gr
-from transformers import AutoProcessor, AutoModelForImageTextToText, TextIteratorStreamer
-from transformers.image_utils import load_image
 from threading import Thread
 import torch
 import spaces
 MODEL_ID = "csfufu/Revisual-R1-final"
 processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
-model = AutoModelForImageTextToText.from_pretrained(
-    MODEL_ID,
-    trust_remote_code=True,
-    torch_dtype=torch.bfloat16
-).to("cuda").eval()
 @spaces.GPU
 def respond(input_dict, history):
     text = input_dict["text"]
     files = input_dict["files"]
-    all_images = []
-    current_message_images = []
-    messages = []
-    for val in history:
-        if val[0]:
-            if isinstance(val[0], str):
-                messages.append({
-                    "role": "user",
-                    "content": [
-                        *[{"type": "image", "image": image} for image in current_message_images],
-                        {"type": "text", "text": val[0]},
-                    ],
-                })
-                current_message_images = []
-            else:
-                # Load messages. These will be appended to the first user text message that comes after
-                current_message_images = [load_image(image) for image in val[0]]
-                all_images += current_message_images
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    current_message_images = [load_image(image) for image in files]
-    all_images += current_message_images
-    messages.append({
-        "role": "user",
-        "content": [
-            *[{"type": "image", "image": image} for image in current_message_images],
-            {"type": "text", "text": text},
-        ],
-    })
     prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = processor(
         text=[prompt],
-        images=all_images if all_images else None,
         return_tensors="pt",
         padding=True,
-    ).to("cuda")
     streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
     generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=1024)

 import gradio as gr
+from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration, TextIteratorStreamer
+from qwen_vl_utils import process_vision_info
 from threading import Thread
 import torch
 import spaces
 MODEL_ID = "csfufu/Revisual-R1-final"
 processor = AutoProcessor.from_pretrained(MODEL_ID, trust_remote_code=True)
+model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
+    MODEL_ID, torch_dtype="auto", device_map="auto"
+)
 @spaces.GPU
 def respond(input_dict, history):
     text = input_dict["text"]
     files = input_dict["files"]
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                { "type": "text", "text": text },
+                *[{"type": "image", "image": image} for image in files]
+            ]
+        }
+    ]
+    image_inputs, video_inputs = process_vision_info(messages)
     prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = processor(
         text=[prompt],
+        images=image_inputs,
+        videos=video_inputs,
         return_tensors="pt",
         padding=True,
+    ).to(model.device)
     streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
     generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=1024)

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 huggingface_hub
 transformers
 torchvision
-pydantic==2.10.6

 huggingface_hub
 transformers
 torchvision
+pydantic==2.10.6
+qwen_vl_utils