Spaces:

preston-cell
/

cool-api

Sleeping

App Files Files Community

preston-cell commited on Mar 14

Commit

e623f79

verified ·

1 Parent(s): b0a32d3

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -5

app.py CHANGED Viewed

@@ -1,12 +1,49 @@
 import gradio as gr
-# Use a pipeline as a high-level helper
-from transformers import pipeline
-pipe = pipeline("document-question-answering", model="Or4cl3-1/multimodal-fusion-optimized")
 def launch(input):
-    out = pipe(input)
-    return out[0]['generated_text']
 iface = gr.Interface(launch,
                      inputs=gr.Image(type='pil'),

 import gradio as gr
+from transformers import AutoProcessor, AutoModelForImageTextToText
+processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
+model = AutoModelForImageTextToText.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
 def launch(input):
+    messages = [
+        {
+        "role": "user",
+        "content":
+            [
+                {
+                "type": "image",
+                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
+                },
+                {
+                    "type": "text", "text": "Describe this image."
+                },
+            ],
+        }
+    ]
+    # Preparation for inference
+    text = processor.apply_chat_template(
+        messages, tokenize=False, add_generation_prompt=True
+    )
+    image_inputs, video_inputs = process_vision_info(messages)
+    inputs = processor(
+        text=[text],
+        images=image_inputs,
+        videos=video_inputs,
+        padding=True,
+        return_tensors="pt",
+    )
+    inputs = inputs.to("cuda")
+    # Inference: Generation of the output
+    generated_ids = model.generate(**inputs, max_new_tokens=128)
+    generated_ids_trimmed = [
+        out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
+    ]
+    output_text = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
+    )
+    return(output_text)
 iface = gr.Interface(launch,
                      inputs=gr.Image(type='pil'),