Spaces:

MicroHealth
/

website-to-pdf

Sleeping

bluenevus commited on Apr 13

Commit

56c5685

verified ·

1 Parent(s): 78e2d60

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,8 @@ import gradio as gr
 import requests
 from bs4 import BeautifulSoup
 from urllib.parse import urljoin, urlparse
-import pdfkit
 import os
 def get_subdirectory_pages(url, base_url, visited=set()):
@@ -32,16 +33,16 @@ def website_to_pdf(url):
     base_url = f"{parsed_url.scheme}://{parsed_url.netloc}{parsed_url.path.rstrip('/')}/"
     all_pages = get_subdirectory_pages(base_url, base_url)
-    options = {
-        'page-size': 'A4',
-        'margin-top': '0.75in',
-        'margin-right': '0.75in',
-        'margin-bottom': '0.75in',
-        'margin-left': '0.75in',
-    }
-    output_file = "subdirectory_documentation.pdf"
-    pdfkit.from_url(all_pages, output_file, options=options)
     return output_file

 import requests
 from bs4 import BeautifulSoup
 from urllib.parse import urljoin, urlparse
+from weasyprint import HTML
+import tempfile
 import os
 def get_subdirectory_pages(url, base_url, visited=set()):
     base_url = f"{parsed_url.scheme}://{parsed_url.netloc}{parsed_url.path.rstrip('/')}/"
     all_pages = get_subdirectory_pages(base_url, base_url)
+    combined_html = "<html><body>"
+    for page_url in all_pages:
+        response = requests.get(page_url)
+        combined_html += f"<h1>{page_url}</h1>"
+        combined_html += response.text
+    combined_html += "</body></html>"
+    with tempfile.NamedTemporaryFile(delete=False, suffix='.pdf') as tmp:
+        HTML(string=combined_html).write_pdf(tmp.name)
+        output_file = tmp.name
     return output_file