Spaces:

MicroHealth
/

maiko-file-splitter

Paused

App Files Files Community

bluenevus commited on May 2

Commit

4fb932e

1 Parent(s): f3088d0

Update app.py via AI Editor

Browse files

Files changed (1) hide show

app.py +9 -13

app.py CHANGED Viewed

@@ -95,22 +95,17 @@ def intelligent_pdf_split(input_path, session_dir, max_mb=5, min_split_mb=4):
     reader = PdfReader(input_path)
     n_pages = len(reader.pages)
     splits = []
-    current_writer = PdfWriter()
-    last_split_at = 0
-    i = 0
     last_header = None
-    force_split = False
     while i < n_pages:
-        current_writer = PdfWriter()
         part_start = i
-        current_writer.add_page(reader.pages[i])
-        size = estimate_writer_size(current_writer) / (1024 * 1024)
         if size > max_mb:
-            # Single page exceeds max_mb, must split after this page
             splits.append((i, i+1))
             i += 1
             continue
-        # Add consecutive pages until approaching min_split_mb
         j = i + 1
         while j < n_pages:
             tmp_writer = PdfWriter()
@@ -118,24 +113,24 @@ def intelligent_pdf_split(input_path, session_dir, max_mb=5, min_split_mb=4):
                 tmp_writer.add_page(reader.pages[k])
             size = estimate_writer_size(tmp_writer) / (1024 * 1024)
             if size > max_mb:
-                # Last added page makes it too big; break, split at previous
                 break
-            # If above min_split_mb, check for natural break
             header = extract_text_headers(reader, j)
             blank = is_blank_page(reader, j)
             chapter = is_chapter_header(header)
             if size >= min_split_mb and (blank or chapter or (header and header != last_header)):
-                # Good split point found
                 j += 1
                 break
             last_header = header
             j += 1
         splits.append((part_start, j))
         i = j
     split_files = []
     for idx, (start, end) in enumerate(splits):
         writer = PdfWriter()
         for p in range(start, end):
             writer.add_page(reader.pages[p])
         out_path = os.path.join(session_dir, f'split_part_{idx+1}.pdf')
         with open(out_path, 'wb') as f:
@@ -143,7 +138,8 @@ def intelligent_pdf_split(input_path, session_dir, max_mb=5, min_split_mb=4):
         size = os.path.getsize(out_path) / (1024 * 1024)
         split_files.append({'filename': os.path.basename(out_path), 'size': size, 'path': out_path})
         logging.info(f"Saved split file {out_path} ({size:.2f} MB) for pages {start}-{end-1}")
-    logging.info(f"intelligent_pdf_split: Finished. Total {len(split_files)} files created.")
     return split_files
 def make_zip_of_splits(split_files, session_dir):

     reader = PdfReader(input_path)
     n_pages = len(reader.pages)
     splits = []
     last_header = None
+    i = 0
     while i < n_pages:
         part_start = i
+        writer = PdfWriter()
+        writer.add_page(reader.pages[i])
+        size = estimate_writer_size(writer) / (1024 * 1024)
         if size > max_mb:
             splits.append((i, i+1))
             i += 1
             continue
         j = i + 1
         while j < n_pages:
             tmp_writer = PdfWriter()
                 tmp_writer.add_page(reader.pages[k])
             size = estimate_writer_size(tmp_writer) / (1024 * 1024)
             if size > max_mb:
                 break
             header = extract_text_headers(reader, j)
             blank = is_blank_page(reader, j)
             chapter = is_chapter_header(header)
             if size >= min_split_mb and (blank or chapter or (header and header != last_header)):
                 j += 1
                 break
             last_header = header
             j += 1
         splits.append((part_start, j))
         i = j
     split_files = []
+    input_size = os.path.getsize(input_path) / (1024 * 1024)
     for idx, (start, end) in enumerate(splits):
         writer = PdfWriter()
         for p in range(start, end):
+            # Add only the required page references; this avoids resource bloat
             writer.add_page(reader.pages[p])
         out_path = os.path.join(session_dir, f'split_part_{idx+1}.pdf')
         with open(out_path, 'wb') as f:
         size = os.path.getsize(out_path) / (1024 * 1024)
         split_files.append({'filename': os.path.basename(out_path), 'size': size, 'path': out_path})
         logging.info(f"Saved split file {out_path} ({size:.2f} MB) for pages {start}-{end-1}")
+    total_output_size = sum([f['size'] for f in split_files])
+    logging.info(f"Original input size: {input_size:.2f} MB, Total split output size: {total_output_size:.2f} MB, {len(split_files)} files created.")
     return split_files
 def make_zip_of_splits(split_files, session_dir):