Spaces:

azzandr
/

ID-gambling-website-detection

Running

App Files Files Community

Azzan Dwi Riski commited on May 11

Commit

f9bdea7

1 Parent(s): ac5d2c9

fix issues

Browse files

Files changed (1) hide show

app.py +33 -5

app.py CHANGED Viewed

@@ -17,6 +17,8 @@ from huggingface_hub import hf_hub_download
 import warnings
 warnings.filterwarnings("ignore")
 from pathlib import Path
 # --- Setup ---
@@ -65,6 +67,8 @@ transform = transforms.Compose([
                          std=[0.229, 0.224, 0.225]),
 ])
 # Screenshot folder
 SCREENSHOT_DIR = "screenshots"
 os.makedirs(SCREENSHOT_DIR, exist_ok=True)
@@ -74,7 +78,6 @@ pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'  # Path to tesserac
 print("Tesseract OCR initialized.")
 # --- Model ---
 class LateFusionModel(nn.Module):
     def __init__(self, image_model, text_model):
         super(LateFusionModel, self).__init__()
@@ -159,13 +162,30 @@ def clean_text(text):
         return ""  # empty return to use image-only
     return text
 def take_screenshot(url):
     filename = url.replace('https://', '').replace('http://', '').replace('/', '_').replace('.', '_') + '.png'
     filepath = os.path.join(SCREENSHOT_DIR, filename)
     try:
-        print(f"Taking screenshot with Playwright for URL: {url}")
         with sync_playwright() as p:
             browser = p.chromium.launch()
             page = browser.new_page(
                 viewport={"width": 1280, "height": 800},
@@ -173,15 +193,23 @@ def take_screenshot(url):
             )
             page.set_default_timeout(60000)
             page.set_extra_http_headers({"Accept-Language": "en-US,en;q=0.9"})
             page.goto(url, wait_until="networkidle", timeout=60000)
             page.wait_for_timeout(3000)
             page.screenshot(path=filepath)
             browser.close()
-        print(f"Screenshot taken for URL: {url}")
         return filepath
     except Exception as e:
-        print(f"Error taking screenshot with Playwright: {e}")
         return None
 def resize_if_needed(image_path, max_mb=1, target_width=720):

 import warnings
 warnings.filterwarnings("ignore")
 from pathlib import Path
+import subprocess
+import traceback
 # --- Setup ---
                          std=[0.229, 0.224, 0.225]),
 ])
+ensure_playwright_chromium()
 # Screenshot folder
 SCREENSHOT_DIR = "screenshots"
 os.makedirs(SCREENSHOT_DIR, exist_ok=True)
 print("Tesseract OCR initialized.")
 # --- Model ---
 class LateFusionModel(nn.Module):
     def __init__(self, image_model, text_model):
         super(LateFusionModel, self).__init__()
         return ""  # empty return to use image-only
     return text
+# Jalankan ini sekali di awal startup aplikasi (misalnya di main file / sebelum model load)
+def ensure_playwright_chromium():
+    try:
+        print("Checking and installing Playwright Chromium if not present...")
+        subprocess.run(["playwright", "install", "chromium"], check=True)
+        print("Playwright Chromium installation completed.")
+    except Exception as e:
+        print("Error during Playwright Chromium installation:", e)
+        traceback.print_exc()
+# Pastikan dipanggil saat startup (di luar fungsi screenshot)
+ensure_playwright_chromium()
+# Fungsi untuk mengambil screenshot viewport
 def take_screenshot(url):
     filename = url.replace('https://', '').replace('http://', '').replace('/', '_').replace('.', '_') + '.png'
     filepath = os.path.join(SCREENSHOT_DIR, filename)
     try:
+        print(f"\n=== [START SCREENSHOT] URL: {url} ===")
+        from playwright.sync_api import sync_playwright
         with sync_playwright() as p:
+            print("Launching Playwright Chromium...")
             browser = p.chromium.launch()
             page = browser.new_page(
                 viewport={"width": 1280, "height": 800},
             )
             page.set_default_timeout(60000)
             page.set_extra_http_headers({"Accept-Language": "en-US,en;q=0.9"})
+            print("Navigating to URL...")
             page.goto(url, wait_until="networkidle", timeout=60000)
             page.wait_for_timeout(3000)
+            print("Taking screenshot (viewport only)...")
             page.screenshot(path=filepath)
             browser.close()
+            print(f"Screenshot saved to {filepath}")
+        print(f"=== [END SCREENSHOT] ===\n")
         return filepath
     except Exception as e:
+        print(f"[ERROR] Failed to take screenshot for URL: {url}")
+        print(f"Exception: {e}")
+        traceback.print_exc()
         return None
 def resize_if_needed(image_path, max_mb=1, target_width=720):