Spaces:

g0th
/

Studymaker

Sleeping

App Files Files Community

g0th commited on May 27

Commit

b55bd9b

verified ·

1 Parent(s): 8f42037

Update ppt_parser.py

Browse files

Files changed (1) hide show

ppt_parser.py +41 -33

ppt_parser.py CHANGED Viewed

@@ -10,6 +10,35 @@ import io
 def print_json(item):
     return json.dumps(item, ensure_ascii=False, indent=4)
 def transfer_textbox_content_in_group(group_shape):
     group_shape_item = {}
     for l, shape in enumerate(group_shape.shapes):
@@ -19,21 +48,9 @@ def transfer_textbox_content_in_group(group_shape):
             shape_item['location'] = (shape.left, shape.top)
             text_frame = shape.text_frame
             for r, paragraph in enumerate(text_frame.paragraphs):
-                if paragraph.runs:
-                    original_run = paragraph.runs[0]
-                    paragraph_item = {
-                        'text': paragraph.text,
-                        'align': paragraph.alignment,
-                        'font': {
-                            'name': original_run.font.name,
-                            'bold': original_run.font.bold,
-                            'italic': original_run.font.italic,
-                            'underline': original_run.font.underline,
-                            'color': str(original_run.font.color.rgb),
-                            'language_id': original_run.font.language_id,
-                        }
-                    }
-                    shape_item[f'paragraph_{r}'] = paragraph_item
         group_shape_item[f"shape_{l}"] = shape_item
     return group_shape_item
@@ -53,21 +70,9 @@ def transfer_to_structure(pptx_file, images_dir_path):
                 shape_item['type'] = "text"
                 text_frame = shape.text_frame
                 for r, paragraph in enumerate(text_frame.paragraphs):
-                    if paragraph.runs:
-                        original_run = paragraph.runs[0]
-                        paragraph_item = {
-                            'text': paragraph.text,
-                            'align': paragraph.alignment,
-                            'font': {
-                                'name': original_run.font.name,
-                                'bold': original_run.font.bold,
-                                'italic': original_run.font.italic,
-                                'underline': original_run.font.underline,
-                                'color': str(original_run.font.color.rgb),
-                                'language_id': original_run.font.language_id,
-                            }
-                        }
-                        shape_item[f'paragraph_{r}'] = paragraph_item
             # Case 2: Grouped shapes
             elif isinstance(shape, GroupShape):
@@ -84,9 +89,12 @@ def transfer_to_structure(pptx_file, images_dir_path):
                 shape_item['dpi'] = shape.image.dpi
                 shape_item['location'] = (shape.left, shape.top)
                 shape_item['location_inches'] = (Inches(shape.left).inches, Inches(shape.top).inches)
-                image_stream = io.BytesIO(shape.image.blob)
-                shape_image = Image.open(image_stream)
-                shape_image.save(image_path)
             slide_item[f"shape_{j}"] = shape_item

 def print_json(item):
     return json.dumps(item, ensure_ascii=False, indent=4)
+def safe_font_attribute(run, attr):
+    try:
+        return getattr(run.font, attr)
+    except Exception:
+        return None
+def safe_color(run):
+    try:
+        return str(run.font.color.rgb) if run.font.color and run.font.color.rgb else None
+    except Exception:
+        return None
+def extract_paragraph_data(paragraph):
+    if not paragraph.runs:
+        return None
+    run = paragraph.runs[0]
+    return {
+        'text': paragraph.text,
+        'align': paragraph.alignment,
+        'font': {
+            'name': safe_font_attribute(run, 'name'),
+            'bold': safe_font_attribute(run, 'bold'),
+            'italic': safe_font_attribute(run, 'italic'),
+            'underline': safe_font_attribute(run, 'underline'),
+            'color': safe_color(run),
+            'language_id': safe_font_attribute(run, 'language_id'),
+        }
+    }
 def transfer_textbox_content_in_group(group_shape):
     group_shape_item = {}
     for l, shape in enumerate(group_shape.shapes):
             shape_item['location'] = (shape.left, shape.top)
             text_frame = shape.text_frame
             for r, paragraph in enumerate(text_frame.paragraphs):
+                data = extract_paragraph_data(paragraph)
+                if data:
+                    shape_item[f'paragraph_{r}'] = data
         group_shape_item[f"shape_{l}"] = shape_item
     return group_shape_item
                 shape_item['type'] = "text"
                 text_frame = shape.text_frame
                 for r, paragraph in enumerate(text_frame.paragraphs):
+                    data = extract_paragraph_data(paragraph)
+                    if data:
+                        shape_item[f'paragraph_{r}'] = data
             # Case 2: Grouped shapes
             elif isinstance(shape, GroupShape):
                 shape_item['dpi'] = shape.image.dpi
                 shape_item['location'] = (shape.left, shape.top)
                 shape_item['location_inches'] = (Inches(shape.left).inches, Inches(shape.top).inches)
+                try:
+                    image_stream = io.BytesIO(shape.image.blob)
+                    shape_image = Image.open(image_stream)
+                    shape_image.save(image_path)
+                except Exception:
+                    pass  # Corrupt or unsupported image
             slide_item[f"shape_{j}"] = shape_item