Spaces:

apexherbert200
/

playwright-scraper-clean

Paused

apexherbert200 commited on May 25

Commit

02554df

1 Parent(s): 05c92cc

Fix Playwright browser installation for appuser

- Install browsers as appuser instead of root
- Add proper browser launch args for containerized environment
- Add comprehensive logging for debugging
- Should resolve 'Executable doesn't exist' error

Files changed (2) hide show

Dockerfile +5 -4
scrape.py +66 -37

Dockerfile CHANGED Viewed

@@ -35,15 +35,16 @@ RUN apt-get update && apt-get install -y \
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
-# Install Playwright browsers
-RUN python -m playwright install chromium
 # Copy your code
 COPY . .
-# Create a non-root user for security
-RUN useradd -m -u 1000 appuser && chown -R appuser:appuser /app
 USER appuser
 EXPOSE 7860

 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
+# Create a non-root user for security
+RUN useradd -m -u 1000 appuser && chown -R appuser:appuser /app
 # Copy your code
 COPY . .
+RUN chown -R appuser:appuser /app
+# Switch to appuser and install Playwright browsers
 USER appuser
+RUN python -m playwright install chromium
 EXPOSE 7860

scrape.py CHANGED Viewed

@@ -3,8 +3,13 @@ from pydantic import BaseModel
 from playwright.async_api import async_playwright
 import asyncio
 import base64
 from typing import List, Optional
 app = FastAPI(title="Playwright Web Scraper", description="A simple web scraper using Playwright")
 class LinkInfo(BaseModel):
@@ -34,43 +39,67 @@ async def scrape_page(
     get_links: bool = Query(True, description="Extract links"),
     get_content: bool = Query(False, description="Get page content (can be large)")
 ):
-    async with async_playwright() as p:
-        browser = await p.chromium.launch()
-        page = await browser.new_page()
-        try:
-            await page.goto(url, wait_until="networkidle")
-            response = ScrapeResponse()
-            # Get page content
-            if get_content:
-                response.content = await page.content()
-            # Get screenshot
-            if screenshot:
-                screenshot_bytes = await page.screenshot()
-                response.screenshot = base64.b64encode(screenshot_bytes).decode('utf-8')
-            # Get links
-            if get_links:
-                links = await page.evaluate("""
-                    () => {
-                        return Array.from(document.querySelectorAll('a')).map(a => {
-                            return {
-                                text: a.innerText.trim(),
-                                href: a.href
-                            }
-                        });
-                    }
-                """)
-                response.links = [LinkInfo(**link) for link in links]
-            await browser.close()
-            return response
-        except Exception as e:
-            await browser.close()
-            raise HTTPException(status_code=500, detail=str(e))

 from playwright.async_api import async_playwright
 import asyncio
 import base64
+import logging
 from typing import List, Optional
+# Set up logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
 app = FastAPI(title="Playwright Web Scraper", description="A simple web scraper using Playwright")
 class LinkInfo(BaseModel):
     get_links: bool = Query(True, description="Extract links"),
     get_content: bool = Query(False, description="Get page content (can be large)")
 ):
+    logger.info(f"Starting scrape for URL: {url}")
+    try:
+        async with async_playwright() as p:
+            logger.info("Launching browser...")
+            browser = await p.chromium.launch(
+                headless=True,
+                args=[
+                    '--no-sandbox',
+                    '--disable-setuid-sandbox',
+                    '--disable-dev-shm-usage',
+                    '--disable-accelerated-2d-canvas',
+                    '--no-first-run',
+                    '--no-zygote',
+                    '--disable-gpu'
+                ]
+            )
+            page = await browser.new_page()
+            try:
+                logger.info(f"Navigating to {url}...")
+                await page.goto(url, wait_until="networkidle")
+                response = ScrapeResponse()
+                # Get page content
+                if get_content:
+                    logger.info("Getting page content...")
+                    response.content = await page.content()
+                # Get screenshot
+                if screenshot:
+                    logger.info("Taking screenshot...")
+                    screenshot_bytes = await page.screenshot()
+                    response.screenshot = base64.b64encode(screenshot_bytes).decode('utf-8')
+                # Get links
+                if get_links:
+                    logger.info("Extracting links...")
+                    links = await page.evaluate("""
+                        () => {
+                            return Array.from(document.querySelectorAll('a')).map(a => {
+                                return {
+                                    text: a.innerText.trim(),
+                                    href: a.href
+                                }
+                            });
+                        }
+                    """)
+                    response.links = [LinkInfo(**link) for link in links]
+                await browser.close()
+                logger.info("Scraping completed successfully")
+                return response
+            except Exception as e:
+                logger.error(f"Error during scraping: {str(e)}")
+                await browser.close()
+                raise HTTPException(status_code=500, detail=f"Scraping error: {str(e)}")
+    except Exception as e:
+        logger.error(f"Error launching browser: {str(e)}")
+        raise HTTPException(status_code=500, detail=f"Browser launch error: {str(e)}")