pdf-to-markdown

Running

App Files Files Community

Biifruu commited on 10 days ago

Commit

8ff21c1

verified ·

1 Parent(s): 0a2dbbc

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -7

app.py CHANGED Viewed

@@ -14,13 +14,12 @@ def clean_ocr_text(text):
             cleaned_lines.append(line)
     return "\n".join(cleaned_lines)
-def extract_text_markdown(doc, image_paths, page_index):
     markdown_output = f"\n## Página {page_index + 1}\n\n"
     image_counter = 1
-    seen_xrefs = set()
     elements = []
-    page = doc[0]  # Solo se procesa una página cada vez
     blocks = page.get_text("dict")["blocks"]
@@ -34,12 +33,12 @@ def extract_text_markdown(doc, image_paths, page_index):
                 if line_text:
                     elements.append((line_y, line_text, max_font_size))
-    # Extraer imágenes únicas
     images_on_page = page.get_images(full=True)
     for img_index, img in enumerate(images_on_page):
         xref = img[0]
         if xref in seen_xrefs:
-            continue
         seen_xrefs.add(xref)
         try:
             base_image = page.parent.extract_image(xref)
@@ -49,7 +48,6 @@ def extract_text_markdown(doc, image_paths, page_index):
             with open(image_path, "wb") as f:
                 f.write(image_bytes)
             image_paths.append(image_path)
-            # Usar posición alta para insertar al final del Markdown
             elements.append((float("inf") - img_index, f"\n\n![imagen_{image_counter}]({image_path})\n", 10))
             image_counter += 1
         except Exception as e:
@@ -77,13 +75,14 @@ def convert(pdf_file):
     doc = fitz.open(pdf_file)
     markdown_output = ""
     image_paths = []
     for page_num in range(len(doc)):
         page = doc[page_num]
         text = page.get_text("text").strip()
         if len(text) > 30:
-            markdown_output += extract_text_markdown([page], image_paths, page_num) + "\n"
         else:
             markdown_output += f"\n## Página {page_num + 1}\n\n"
             pix = page.get_pixmap(dpi=300)

             cleaned_lines.append(line)
     return "\n".join(cleaned_lines)
+def extract_text_markdown(doc, image_paths, page_index, seen_xrefs):
     markdown_output = f"\n## Página {page_index + 1}\n\n"
     image_counter = 1
     elements = []
+    page = doc[0]  # solo una página en cada llamada
     blocks = page.get_text("dict")["blocks"]
                 if line_text:
                     elements.append((line_y, line_text, max_font_size))
+    # Extraer imágenes únicas (por xref, global)
     images_on_page = page.get_images(full=True)
     for img_index, img in enumerate(images_on_page):
         xref = img[0]
         if xref in seen_xrefs:
+            continue  # ya extraída
         seen_xrefs.add(xref)
         try:
             base_image = page.parent.extract_image(xref)
             with open(image_path, "wb") as f:
                 f.write(image_bytes)
             image_paths.append(image_path)
             elements.append((float("inf") - img_index, f"\n\n![imagen_{image_counter}]({image_path})\n", 10))
             image_counter += 1
         except Exception as e:
     doc = fitz.open(pdf_file)
     markdown_output = ""
     image_paths = []
+    seen_xrefs = set()  # <<-- GLOBAL para todo el PDF
     for page_num in range(len(doc)):
         page = doc[page_num]
         text = page.get_text("text").strip()
         if len(text) > 30:
+            markdown_output += extract_text_markdown([page], image_paths, page_num, seen_xrefs) + "\n"
         else:
             markdown_output += f"\n## Página {page_num + 1}\n\n"
             pix = page.get_pixmap(dpi=300)