pdf-to-markdown

Sleeping

App Files Files Community

Biifruu commited on Jun 2

Commit

c20f519

verified ·

1 Parent(s): 479e852

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -11

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ import os
 def extract_text_markdown(doc):
     markdown_output = ""
-    image_counter = 1  # Contador de imágenes
     for page in doc:
         blocks = page.get_text("dict")["blocks"]
@@ -22,14 +22,11 @@ def extract_text_markdown(doc):
                     if line_text:
                         elements.append((line_y, line_text))
             elif b["type"] == 1:  # Imagen
-                # Añade un enlace con nombre único
                 elements.append((y, f"[imagen_{image_counter}]()"))
                 image_counter += 1
-        # Ordenar por posición vertical
         elements.sort(key=lambda x: x[0])
-        # Reconstrucción con saltos lógicos
         previous_y = None
         for y, content in elements:
             if previous_y is not None and abs(y - previous_y) > 10:
@@ -41,21 +38,28 @@ def extract_text_markdown(doc):
     return markdown_output.strip()
 @spaces.GPU
 def convert(pdf_file):
     original_doc = fitz.open(pdf_file)
-    plain_text = "\n".join([page.get_text() for page in original_doc])
-    # Aplicar OCR solo si el PDF no tiene texto
-    if len(plain_text.strip()) < 100:
-        ocr_temp_path = tempfile.NamedTemporaryFile(suffix=".pdf", delete=False).name
-        ocrmypdf.ocr(pdf_file, ocr_temp_path, force_ocr=True)
-        doc = fitz.open(ocr_temp_path)
     else:
         doc = original_doc
     markdown = extract_text_markdown(doc)
-    metadata = {}  # Si necesitas metadatos, se pueden agregar aquí
     return markdown, metadata
 gr.Interface(

 def extract_text_markdown(doc):
     markdown_output = ""
+    image_counter = 1
     for page in doc:
         blocks = page.get_text("dict")["blocks"]
                     if line_text:
                         elements.append((line_y, line_text))
             elif b["type"] == 1:  # Imagen
                 elements.append((y, f"[imagen_{image_counter}]()"))
                 image_counter += 1
         elements.sort(key=lambda x: x[0])
         previous_y = None
         for y, content in elements:
             if previous_y is not None and abs(y - previous_y) > 10:
     return markdown_output.strip()
+def needs_ocr(doc):
+    text_length = sum(len(page.get_text().strip()) for page in doc)
+    image_count = sum(len(page.get_images(full=True)) for page in doc)
+    return text_length < 500 or image_count > 0
 @spaces.GPU
 def convert(pdf_file):
     original_doc = fitz.open(pdf_file)
+    if needs_ocr(original_doc):
+        try:
+            ocr_temp_path = tempfile.NamedTemporaryFile(suffix=".pdf", delete=False).name
+            ocrmypdf.ocr(pdf_file, ocr_temp_path, force_ocr=True)
+            doc = fitz.open(ocr_temp_path)
+            os.remove(ocr_temp_path)
+        except Exception as e:
+            return f"Error al aplicar OCR: {e}", {}
     else:
         doc = original_doc
     markdown = extract_text_markdown(doc)
+    metadata = {}  # Puedes agregar metadatos aquí si lo necesitas
     return markdown, metadata
 gr.Interface(