Spaces:

MicroHealth
/

website-to-pdf

Sleeping

bluenevus commited on Apr 13

Commit

0f462a3

verified ·

1 Parent(s): 9349dce

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,6 +4,8 @@ from bs4 import BeautifulSoup
 from urllib.parse import urljoin, urlparse
 from reportlab.pdfgen import canvas
 from reportlab.lib.pagesizes import letter
 from io import BytesIO
 import tempfile
@@ -35,30 +37,26 @@ def website_to_pdf(url):
     all_pages = get_subdirectory_pages(base_url, base_url)
     buffer = BytesIO()
-    c = canvas.Canvas(buffer, pagesize=letter)
-    width, height = letter
     for page_url in all_pages:
-        c.setFont("Helvetica", 12)
-        c.drawString(30, height - 30, page_url)
-        c.setFont("Helvetica", 10)
         try:
             response = requests.get(page_url)
             soup = BeautifulSoup(response.text, 'html.parser')
-            text = soup.get_text()
-            lines = text.split('\n')
-            y = height - 50
-            for line in lines:
-                if y < 30:
-                    c.showPage()
-                    y = height - 30
-                c.drawString(30, y, line[:80])
-                y -= 12
-            c.showPage()
         except Exception as e:
-            print(f"Error processing {page_url}: {e}")
-    c.save()
     with tempfile.NamedTemporaryFile(delete=False, suffix='.pdf') as tmp:
         tmp.write(buffer.getvalue())

 from urllib.parse import urljoin, urlparse
 from reportlab.pdfgen import canvas
 from reportlab.lib.pagesizes import letter
+from reportlab.lib.styles import getSampleStyleSheet
+from reportlab.platypus import SimpleDocTemplate, Paragraph
 from io import BytesIO
 import tempfile
     all_pages = get_subdirectory_pages(base_url, base_url)
     buffer = BytesIO()
+    doc = SimpleDocTemplate(buffer, pagesize=letter)
+    styles = getSampleStyleSheet()
+    story = []
     for page_url in all_pages:
+        story.append(Paragraph(f"<b>{page_url}</b>", styles['Heading1']))
         try:
             response = requests.get(page_url)
             soup = BeautifulSoup(response.text, 'html.parser')
+            # Extract text from specific tags
+            for tag in ['p', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'li']:
+                for element in soup.find_all(tag):
+                    text = element.get_text(strip=True)
+                    if text:
+                        story.append(Paragraph(text, styles['BodyText']))
         except Exception as e:
+            story.append(Paragraph(f"Error processing {page_url}: {str(e)}", styles['BodyText']))
+    doc.build(story)
     with tempfile.NamedTemporaryFile(delete=False, suffix='.pdf') as tmp:
         tmp.write(buffer.getvalue())