Spaces:

mansari722
/

smoldolcemahdi

Sleeping

mansari722 commited on Mar 20

Commit

4f5d54d

verified ·

1 Parent(s): cc6df37

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,28 +3,24 @@ from transformers import AutoProcessor, AutoModelForVision2Seq
 from PIL import Image
 import torch
-# Load the model and processor
 model_name = "ds4sd/SmolDocling-256M-preview"
 processor = AutoProcessor.from_pretrained(model_name)
-model = AutoModelForVision2Seq.from_pretrained(
-    model_name, torch_dtype=torch.bfloat16
-).to("cuda" if torch.cuda.is_available() else "cpu")
-# Define the inference function
 def process_image(image):
     inputs = processor(images=image, return_tensors="pt").to(model.device)
-    outputs = model.generate(**inputs, max_new_tokens=1024)
-    result = processor.batch_decode(outputs, skip_special_tokens=True)[0]
     return result
-# Create the Gradio interface
 iface = gr.Interface(
     fn=process_image,
-    inputs=gr.inputs.Image(type="pil"),
     outputs="text",
-    title="SmolDocling Document Conversion",
-    description="Upload an image of a document page to convert it to structured text."
 )
-if __name__ == "__main__":
-    iface.launch()

 from PIL import Image
 import torch
+# Load model & processor
 model_name = "ds4sd/SmolDocling-256M-preview"
 processor = AutoProcessor.from_pretrained(model_name)
+model = AutoModelForVision2Seq.from_pretrained(model_name, torch_dtype=torch.bfloat16).to("cuda" if torch.cuda.is_available() else "cpu")
 def process_image(image):
     inputs = processor(images=image, return_tensors="pt").to(model.device)
+    output = model.generate(**inputs, max_new_tokens=1024)
+    result = processor.batch_decode(output, skip_special_tokens=True)[0]
     return result
+# Create Gradio interface
 iface = gr.Interface(
     fn=process_image,
+    inputs=gr.Image(type="pil"),  # ✅ FIXED
     outputs="text",
+    title="SmolDocling Document Processing",
+    description="Upload a document image to extract text."
 )
+iface.launch()