Spaces:

neoBIT656
/

mi-donut-space

Paused

App Files Files Community

neoBIT656 commited on Jan 29

Commit

b991439

verified ·

1 Parent(s): 98b1c09

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -12

app.py CHANGED Viewed

@@ -1,44 +1,42 @@
-import torch
 from transformers import VisionEncoderDecoderModel, DonutProcessor
 from PIL import Image
 from pdf2image import convert_from_bytes
 import gradio as gr
 # Configuración del modelo Donut
-MODEL_ID = "mychen76/invoice-and-receipts_donut_v1"  # Cambia si usas otro modelo
 print("Cargando modelo Donut...")
 model = VisionEncoderDecoderModel.from_pretrained(MODEL_ID)
 processor = DonutProcessor.from_pretrained(MODEL_ID)
 model.eval()
 # Función para procesar documentos
-def process_document(file):
-    # Si es un PDF, conviértelo a imágenes
-    if file.name.endswith(".pdf"):
-        pdf_data = file.read()
-        images = convert_from_bytes(pdf_data, dpi=300)
     else:
-        # Si es imagen, simplemente cárgala
-        images = [Image.open(file).convert("RGB")]
     results = []
     for img in images:
         # Preprocesar la imagen
         inputs = processor(img, return_tensors="pt", max_patches=1024)
-        # Generar predicciones
         with torch.no_grad():
             outputs = model.generate(**inputs)
         # Decodificar resultado
         result = processor.batch_decode(outputs, skip_special_tokens=True)[0]
         results.append(result)
-    # Combina los resultados si son múltiples páginas
     return results
 # Interfaz Gradio
 iface = gr.Interface(
     fn=process_document,
-    inputs=gr.File(label="Sube tu factura o recibo (PDF o imagen)", type="file"),
     outputs="json",
     title="Donut OCR - Extracción de datos de facturas",
     description="Sube un PDF o imagen y extrae información estructurada (número de factura, fecha, monto, etc.) utilizando Donut OCR."

+iimport torch
 from transformers import VisionEncoderDecoderModel, DonutProcessor
 from PIL import Image
 from pdf2image import convert_from_bytes
 import gradio as gr
 # Configuración del modelo Donut
+MODEL_ID = "mychen76/invoice-and-receipts_donut_v1"
 print("Cargando modelo Donut...")
 model = VisionEncoderDecoderModel.from_pretrained(MODEL_ID)
 processor = DonutProcessor.from_pretrained(MODEL_ID)
 model.eval()
 # Función para procesar documentos
+def process_document(file_path):
+    # Leer y procesar el archivo
+    if file_path.endswith(".pdf"):
+        with open(file_path, "rb") as pdf_file:
+            images = convert_from_bytes(pdf_file.read(), dpi=300)
     else:
+        images = [Image.open(file_path).convert("RGB")]
     results = []
     for img in images:
         # Preprocesar la imagen
         inputs = processor(img, return_tensors="pt", max_patches=1024)
+        # Generar predicción
         with torch.no_grad():
             outputs = model.generate(**inputs)
         # Decodificar resultado
         result = processor.batch_decode(outputs, skip_special_tokens=True)[0]
         results.append(result)
     return results
 # Interfaz Gradio
 iface = gr.Interface(
     fn=process_document,
+    inputs=gr.File(label="Sube tu factura o recibo (PDF o imagen)", type="filepath"),
     outputs="json",
     title="Donut OCR - Extracción de datos de facturas",
     description="Sube un PDF o imagen y extrae información estructurada (número de factura, fecha, monto, etc.) utilizando Donut OCR."