Spaces:

apexherbert200
/

playwright-scraper-clean

Running

App Files Files Community

apexherbert200 commited on Jun 14

Commit

99b81db

1 Parent(s): e736965

Building new logic

Browse files

Files changed (2) hide show

Dockerfile +1 -1
screenshot.py +76 -0

Dockerfile CHANGED Viewed

@@ -53,4 +53,4 @@ RUN python -m playwright install chromium
 EXPOSE 7860
 # Run the FastAPI application
-CMD ["python", "-m", "uvicorn", "test1:app", "--host", "0.0.0.0", "--port", "7860"]

 EXPOSE 7860
 # Run the FastAPI application
+CMD ["python", "-m", "uvicorn", "screenshot:app", "--host", "0.0.0.0", "--port", "7860"]

screenshot.py ADDED Viewed

	@@ -0,0 +1,76 @@

+from fastapi import FastAPI, HTTPException, Query
+from pydantic import BaseModel
+from playwright.async_api import async_playwright
+import asyncio
+import base64
+import logging
+from typing import List, Optional
+from urllib.parse import urlparse
+app = FastAPI(title="BrowserAutomation API", version="1.0")
+logger = logging.getLogger("browser-api")
+# Pydantic Models
+class ScreenshotRequest(BaseModel):
+    url: str
+    full_page: bool = True
+    device: Optional[str] = "desktop"  # mobile/tablet/desktop
+    format: str = "png"  # png/jpeg/pdf
+    delay_ms: int = 2000  # wait after load
+class ScrapeRequest(BaseModel):
+    url: str
+    extract_scripts: List[str] = []  # JS to execute
+    css_selectors: List[str] = []    # Elements to extract
+# Device presets
+DEVICES = {
+    "mobile": {"width": 375, "height": 812, "mobile": True},
+    "tablet": {"width": 768, "height": 1024, "mobile": True},
+    "desktop": {"width": 1366, "height": 768, "mobile": False}
+}
+@app.on_event("startup")
+async def init_browser():
+    app.state.playwright = await async_playwright().start()
+    app.state.browser = await app.state.playwright.chromium.launch()
+@app.post("/screenshot")
+async def capture_screenshot(req: ScreenshotRequest):
+    """Capture website screenshot with device emulation"""
+    if not valid_url(req.url):
+        raise HTTPException(400, "Invalid URL")
+    device = DEVICES.get(req.device, DEVICES["desktop"])
+    browser = app.state.browser
+    try:
+        context = await browser.new_context(**device)
+        page = await context.new_page()
+        await page.goto(req.url)
+        await asyncio.sleep(req.delay_ms / 1000)
+        if req.format == "pdf":
+            pdf = await page.pdf()
+            return Response(content=pdf, media_type="application/pdf")
+        else:
+            screenshot = await page.screenshot(full_page=req.full_page, type=req.format)
+            return {"image": base64.b64encode(screenshot).decode()}
+    except Exception as e:
+        logger.error(f"Screenshot failed: {str(e)}")
+        raise HTTPException(500, "Capture failed")
+@app.post("/scrape")
+async def scrape_page(req: ScrapeRequest):
+    """Execute JS and extract page content"""
+    # Implementation similar to screenshot but:
+    # 1. Execute provided JS scripts
+    # 2. Extract DOM elements by CSS selectors
+    # 3. Return structured JSON data
+    pass
+# Helper function
+def valid_url(url: str) -> bool:
+    parsed = urlparse(url)
+    return all([parsed.scheme, parsed.netloc])