Spaces:

PyQuarX
/

scrape-with-ai

Paused

PyQuarX commited on May 8

Commit

7e33257

verified ·

1 Parent(s): 90924f6

Update scraper.py

Files changed (1) hide show

scraper.py CHANGED Viewed

@@ -8,21 +8,12 @@ from bs4 import BeautifulSoup
 def scrape_website(website):
     print("Launching chrome browser...")
     chrome_driver_path = "/usr/bin/chromedriver"
     options = webdriver.ChromeOptions()
-    options.add_argument('--headless')
-    options.add_argument('--no-sandbox')
-    options.add_argument('--disable-dev-shm-usage')
     try:
-        driver = webdriver.Chrome(options=options)
         driver.get(website)
         print("Page Loaded...")
         html = driver.page_source
@@ -56,4 +47,4 @@ def clean_body_content(body_content):
 def split_dom_content(dom_content,max_length=60000):
     return [
         dom_content[i:i+max_length] for i in range(0,len(dom_content),max_length)
-    ]

 def scrape_website(website):
     print("Launching chrome browser...")
     chrome_driver_path = "/usr/bin/chromedriver"
     options = webdriver.ChromeOptions()
+    driver = webdriver.Chrome(service=Service(chrome_driver_path, options=options))
     try:
         driver.get(website)
         print("Page Loaded...")
         html = driver.page_source
 def split_dom_content(dom_content,max_length=60000):
     return [
         dom_content[i:i+max_length] for i in range(0,len(dom_content),max_length)
+    ]