pdf-to-markdown

Running

Biifruu commited on 14 days ago

Commit

d4b4544

verified ·

1 Parent(s): 204916f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,27 +1,32 @@
 import spaces
 import gradio as gr
-from pdf2image import convert_from_path
-import pytesseract
-from PIL import Image
-import os
 @spaces.GPU
 def convert(pdf_file):
-    pages = convert_from_path(pdf_file)
     markdown_output = ""
-    metadata = {}  # Opcional: puedes extraer metadata con PyMuPDF si lo deseas
-    for idx, page_image in enumerate(pages):
-        # Realizar OCR
-        text = pytesseract.image_to_string(page_image)
-        if text.strip() == "":
-            # Si no hay texto, insertar un enlace vacío
-            markdown_output += f"[imagen]()\n\n"
-        else:
-            markdown_output += text.strip() + "\n\n"
-    return markdown_output.strip(), metadata
 gr.Interface(
     convert,

 import spaces
 import gradio as gr
+import fitz  # PyMuPDF
 @spaces.GPU
 def convert(pdf_file):
+    doc = fitz.open(pdf_file)
     markdown_output = ""
+    for page in doc:
+        blocks = page.get_text("dict")["blocks"]
+        elements = []
+        for b in blocks:
+            if b["type"] == 0:  # texto
+                for line in b["lines"]:
+                    for span in line["spans"]:
+                        elements.append((span["bbox"][1], span["text"]))  # y, texto
+            elif b["type"] == 1:  # imagen
+                y_pos = b["bbox"][1]
+                elements.append((y_pos, "[imagen]()"))
+        # Ordenar por posición vertical
+        elements.sort(key=lambda x: x[0])
+        for _, content in elements:
+            markdown_output += content.strip() + "\n\n"
+    return markdown_output.strip(), {}
 gr.Interface(
     convert,