Spaces:

gaur3009
/

train_scrap

Sleeping

App Files Files Community

gaur3009 commited on May 23

Commit

86a8577

verified ·

1 Parent(s): afbe0d3

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -21

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import torch.optim as optim
 from torch.utils.data import Dataset, DataLoader
 from diffusers import DiffusionPipeline
 import requests
-from bs4 import BeautifulSoup
 import os
 import time
 import threading
@@ -16,11 +15,9 @@ import numpy as np
 # Configuration
 # ======================
 CONFIG = {
     "scraping": {
-        "search_url": "https://www.pexels.com/search/{query}/",
-        "headers": {
-            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
-        },
         "max_images": 100,
         "progress_interval": 1
     },
@@ -40,7 +37,7 @@ CONFIG = {
 }
 # ======================
-# Web Scraping Module
 # ======================
 class WebScraper:
     def __init__(self):
@@ -66,21 +63,22 @@ class WebScraper:
         with self._lock:
             self.scraping_progress = 0
             self.scraped_count = 0
-            search_url = CONFIG["scraping"]["search_url"].format(query=query)
             try:
-                response = requests.get(search_url, headers=CONFIG["scraping"]["headers"])
-                soup = BeautifulSoup(response.content, 'html.parser')
-                img_tags = soup.find_all('img', {'class': 'photo-item__img'})
-                self.total_images = min(len(img_tags), CONFIG["scraping"]["max_images"])
-                for idx, img in enumerate(img_tags[:self.total_images]):
                     if self.stop_event.is_set():
                         break
-                    img_url = img.get('src')
-                    if not img_url:
-                        continue
                     try:
                         img_data = requests.get(img_url).content
                         img_name = f"{int(time.time())}_{idx}.jpg"
@@ -95,7 +93,7 @@ class WebScraper:
                         print(f"Error downloading image: {e}")
                     time.sleep(0.1)
             except Exception as e:
-                print(f"Scraping error: {e}")
             finally:
                 self.scraping_progress = 100
@@ -107,7 +105,7 @@ class WebScraper:
         return "Scraping started..."
 # ======================
-# Dataset and Models
 # ======================
 class TextImageDataset(Dataset):
     def __init__(self, data):
@@ -148,7 +146,7 @@ class TextConditionedGenerator(nn.Module):
         return self.model(combined).view(-1, 3, 64, 64)
 # ======================
-# Training Utilities
 # ======================
 def train_model(scraper, progress=gr.Progress()):
     if len(scraper.scraped_data) == 0:
@@ -196,7 +194,7 @@ def train_model(scraper, progress=gr.Progress()):
     return f"Training complete! Used {len(dataset)} samples"
 # ======================
-# Image Generation
 # ======================
 class ModelRunner:
     def __init__(self):
@@ -231,7 +229,7 @@ def generate_image(prompt, model_type, runner):
         return Image.fromarray((image * 255).astype(np.uint8))
 # ======================
-# Gradio Interface
 # ======================
 def create_interface():
     with gr.Blocks() as app:

 from torch.utils.data import Dataset, DataLoader
 from diffusers import DiffusionPipeline
 import requests
 import os
 import time
 import threading
 # Configuration
 # ======================
 CONFIG = {
+    "pexels_api_key": "HSknLvmKmOXuqXsE89NXzu6ysOqPr7FmHGObjaSdhTTmpFSuK5K7OaHn",
     "scraping": {
+        "search_url": "https://api.pexels.com/v1/search?query={query}&per_page=80",
         "max_images": 100,
         "progress_interval": 1
     },
 }
 # ======================
+# Web Scraping Module (Now using Pexels API)
 # ======================
 class WebScraper:
     def __init__(self):
         with self._lock:
             self.scraping_progress = 0
             self.scraped_count = 0
+            url = CONFIG["scraping"]["search_url"].format(query=query)
+            headers = {
+                "Authorization": CONFIG["pexels_api_key"]
+            }
             try:
+                response = requests.get(url, headers=headers)
+                data = response.json()
+                photos = data.get("photos", [])
+                self.total_images = min(len(photos), CONFIG["scraping"]["max_images"])
+                for idx, photo in enumerate(photos[:self.total_images]):
                     if self.stop_event.is_set():
                         break
+                    img_url = photo["src"]["large"]
                     try:
                         img_data = requests.get(img_url).content
                         img_name = f"{int(time.time())}_{idx}.jpg"
                         print(f"Error downloading image: {e}")
                     time.sleep(0.1)
             except Exception as e:
+                print(f"API scraping error: {e}")
             finally:
                 self.scraping_progress = 100
         return "Scraping started..."
 # ======================
+# Dataset and Models (Unchanged)
 # ======================
 class TextImageDataset(Dataset):
     def __init__(self, data):
         return self.model(combined).view(-1, 3, 64, 64)
 # ======================
+# Training Utilities (Unchanged)
 # ======================
 def train_model(scraper, progress=gr.Progress()):
     if len(scraper.scraped_data) == 0:
     return f"Training complete! Used {len(dataset)} samples"
 # ======================
+# Image Generation (Unchanged)
 # ======================
 class ModelRunner:
     def __init__(self):
         return Image.fromarray((image * 255).astype(np.uint8))
 # ======================
+# Gradio Interface (Unchanged)
 # ======================
 def create_interface():
     with gr.Blocks() as app: