pdf-to-markdown

Running

App Files Files Community

Biifruu commited on 19 days ago

Commit

7b1bb08

verified ·

1 Parent(s): 3e3d3c7

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -13

app.py CHANGED Viewed

@@ -1,15 +1,12 @@
 import spaces
 import gradio as gr
 import fitz  # PyMuPDF
-import os
-import tempfile
 import ocrmypdf
 def extract_text_markdown(doc):
     markdown_output = ""
-    image_dir = "extracted_images"
-    os.makedirs(image_dir, exist_ok=True)
-    image_counter = 0
     for page in doc:
         blocks = page.get_text("dict")["blocks"]
@@ -26,18 +23,18 @@ def extract_text_markdown(doc):
             elif b["type"] == 1:  # Imagen
                 elements.append((y, "![imagen]()"))
-        # Ordenar elementos por posición vertical
         elements.sort(key=lambda x: x[0])
-        # Reconstruir markdown respetando el espaciado visual
         previous_y = None
         for y, content in elements:
-            if previous_y is not None and abs(y - previous_y) > 10:  # si hay espacio entre líneas, añadir salto
                 markdown_output += "\n"
             markdown_output += content + "\n"
             previous_y = y
-        markdown_output += "\n---\n\n"  # separador entre páginas
     return markdown_output.strip()
@@ -46,7 +43,7 @@ def convert(pdf_file):
     original_doc = fitz.open(pdf_file)
     plain_text = "\n".join([page.get_text() for page in original_doc])
-    # Si es imagen escaneada sin texto, aplicamos OCR
     if len(plain_text.strip()) < 100:
         ocr_temp_path = tempfile.NamedTemporaryFile(suffix=".pdf", delete=False).name
         ocrmypdf.ocr(pdf_file, ocr_temp_path, force_ocr=True)
@@ -55,11 +52,11 @@ def convert(pdf_file):
         doc = original_doc
     markdown = extract_text_markdown(doc)
-    metadata = {}  # Puedes agregar metadatos si quieres
     return markdown, metadata
 gr.Interface(
     fn=convert,
-    inputs=[gr.File(label="Upload PDF", type="filepath")],
-    outputs=[gr.Text(label="Markdown crudo"), gr.JSON(label="Metadata")],
 ).launch()

 import spaces
 import gradio as gr
 import fitz  # PyMuPDF
 import ocrmypdf
+import tempfile
+import os
 def extract_text_markdown(doc):
     markdown_output = ""
     for page in doc:
         blocks = page.get_text("dict")["blocks"]
             elif b["type"] == 1:  # Imagen
                 elements.append((y, "![imagen]()"))
+        # Ordenar por posición vertical
         elements.sort(key=lambda x: x[0])
+        # Reconstrucción respetando saltos
         previous_y = None
         for y, content in elements:
+            if previous_y is not None and abs(y - previous_y) > 10:
                 markdown_output += "\n"
             markdown_output += content + "\n"
             previous_y = y
+        markdown_output += "\n---\n\n"  # Separador de páginas
     return markdown_output.strip()
     original_doc = fitz.open(pdf_file)
     plain_text = "\n".join([page.get_text() for page in original_doc])
+    # Aplicar OCR solo si el PDF no tiene texto
     if len(plain_text.strip()) < 100:
         ocr_temp_path = tempfile.NamedTemporaryFile(suffix=".pdf", delete=False).name
         ocrmypdf.ocr(pdf_file, ocr_temp_path, force_ocr=True)
         doc = original_doc
     markdown = extract_text_markdown(doc)
+    metadata = {}  # Si necesitas metadatos, se pueden agregar aquí
     return markdown, metadata
 gr.Interface(
     fn=convert,
+    inputs=[gr.File(label="Sube tu PDF", type="filepath")],
+    outputs=[gr.Text(label="Markdown estructurado"), gr.JSON(label="Metadata")],
 ).launch()