Spaces:

apexherbert200
/

playwright-scraper-clean

Running

App Files Files Community

apexherbert200 commited on Jun 14

Commit

820622d

1 Parent(s): 99b81db

Building new logic

Browse files

Files changed (1) hide show

screenshot.py +65 -62

screenshot.py CHANGED Viewed

@@ -3,74 +3,77 @@ from pydantic import BaseModel
 from playwright.async_api import async_playwright
 import asyncio
 import base64
-import logging
-from typing import List, Optional
-from urllib.parse import urlparse
-app = FastAPI(title="BrowserAutomation API", version="1.0")
-logger = logging.getLogger("browser-api")
-# Pydantic Models
-class ScreenshotRequest(BaseModel):
-    url: str
-    full_page: bool = True
-    device: Optional[str] = "desktop"  # mobile/tablet/desktop
-    format: str = "png"  # png/jpeg/pdf
-    delay_ms: int = 2000  # wait after load
-class ScrapeRequest(BaseModel):
     url: str
-    extract_scripts: List[str] = []  # JS to execute
-    css_selectors: List[str] = []    # Elements to extract
-# Device presets
-DEVICES = {
-    "mobile": {"width": 375, "height": 812, "mobile": True},
-    "tablet": {"width": 768, "height": 1024, "mobile": True},
-    "desktop": {"width": 1366, "height": 768, "mobile": False}
-}
-@app.on_event("startup")
-async def init_browser():
-    app.state.playwright = await async_playwright().start()
-    app.state.browser = await app.state.playwright.chromium.launch()
-@app.post("/screenshot")
-async def capture_screenshot(req: ScreenshotRequest):
-    """Capture website screenshot with device emulation"""
-    if not valid_url(req.url):
-        raise HTTPException(400, "Invalid URL")
-    device = DEVICES.get(req.device, DEVICES["desktop"])
-    browser = app.state.browser
     try:
-        context = await browser.new_context(**device)
-        page = await context.new_page()
-        await page.goto(req.url)
-        await asyncio.sleep(req.delay_ms / 1000)
-        if req.format == "pdf":
-            pdf = await page.pdf()
-            return Response(content=pdf, media_type="application/pdf")
-        else:
-            screenshot = await page.screenshot(full_page=req.full_page, type=req.format)
-            return {"image": base64.b64encode(screenshot).decode()}
-    except Exception as e:
-        logger.error(f"Screenshot failed: {str(e)}")
-        raise HTTPException(500, "Capture failed")
-@app.post("/scrape")
-async def scrape_page(req: ScrapeRequest):
-    """Execute JS and extract page content"""
-    # Implementation similar to screenshot but:
-    # 1. Execute provided JS scripts
-    # 2. Extract DOM elements by CSS selectors
-    # 3. Return structured JSON data
-    pass
-# Helper function
-def valid_url(url: str) -> bool:
-    parsed = urlparse(url)
-    return all([parsed.scheme, parsed.netloc])

 from playwright.async_api import async_playwright
 import asyncio
 import base64
+import time
+app = FastAPI()
+class AnalysisResult(BaseModel):
     url: str
+    load_time: float
+    title: Optional[str]
+    meta_description: Optional[str]
+    og_image: Optional[str]
+    seo_flags: List[str]
+    accessibility_flags: List[str]
+    screenshot_base64: str
+@app.get("/analyze", response_model=AnalysisResult)
+async def analyze_website(url: str):
     try:
+        async with async_playwright() as p:
+            browser = await p.chromium.launch(headless=True)
+            page = await browser.new_page()
+            # Start timing
+            start_time = time.time()
+            response = await page.goto(url, timeout=30000)
+            load_time = round(time.time() - start_time, 2)
+            # Wait for content
+            await page.wait_for_load_state("networkidle")
+            # Screenshot
+            screenshot = await page.screenshot(full_page=True)
+            screenshot_base64 = base64.b64encode(screenshot).decode("utf-8")
+            # Title and meta info
+            title = await page.title()
+            meta_description = await page.eval_on_selector("meta[name='description']", "el => el.content") if await page.query_selector("meta[name='description']") else None
+            og_image = await page.eval_on_selector("meta[property='og:image']", "el => el.content") if await page.query_selector("meta[property='og:image']") else None
+            # SEO flags
+            seo_flags = []
+            if not title:
+                seo_flags.append("Missing <title>")
+            if not meta_description:
+                seo_flags.append("Missing meta description")
+            if not await page.query_selector("h1"):
+                seo_flags.append("Missing <h1> tag")
+            if not og_image:
+                seo_flags.append("Missing Open Graph image")
+            # Accessibility flags
+            accessibility_flags = []
+            images = await page.query_selector_all("img")
+            for img in images:
+                has_alt = await img.get_attribute("alt")
+                if not has_alt:
+                    accessibility_flags.append("Image without alt attribute")
+                    break
+            await browser.close()
+            return AnalysisResult(
+                url=url,
+                load_time=load_time,
+                title=title,
+                meta_description=meta_description,
+                og_image=og_image,
+                seo_flags=seo_flags,
+                accessibility_flags=accessibility_flags,
+                screenshot_base64=screenshot_base64
+            )
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))