AI_SEO_Crawler

Sleeping

File size: 30,913 Bytes

6f509ec

"""
Storage component for the web crawler.

Handles storing and retrieving crawled web pages using:
1. MongoDB for metadata, URL information, and crawl stats
2. Disk-based storage for HTML content
3. Optional Amazon S3 integration for scalable storage
"""

import os
import logging
import time
import datetime
import hashlib
import json
import gzip
import shutil
from typing import Dict, List, Optional, Union, Any, Tuple
from urllib.parse import urlparse
import pymongo
from pymongo import MongoClient, UpdateOne
from pymongo.errors import PyMongoError, BulkWriteError
import boto3
from botocore.exceptions import ClientError

from models import Page, URL
import config

# Configure logging
logging.basicConfig(
    level=getattr(logging, config.LOG_LEVEL),
    format=config.LOG_FORMAT
)
logger = logging.getLogger(__name__)


class StorageManager:
    """
    Storage manager for web crawler data
    
    Handles:
    - MongoDB for metadata, URL information, and stats
    - Disk-based storage for HTML content
    - Optional Amazon S3 integration
    """
    
    def __init__(self, 
                 mongo_uri: Optional[str] = None,
                 use_s3: bool = False,
                 compress_html: bool = True,
                 max_disk_usage_gb: float = 100.0):
        """
        Initialize the storage manager
        
        Args:
            mongo_uri: MongoDB connection URI
            use_s3: Whether to use Amazon S3 for HTML storage
            compress_html: Whether to compress HTML content
            max_disk_usage_gb: Maximum disk space to use in GB
        """
        self.mongo_uri = mongo_uri or config.MONGODB_URI
        self.use_s3 = use_s3
        self.compress_html = compress_html
        self.max_disk_usage_gb = max_disk_usage_gb
        
        # Connect to MongoDB
        self.mongo_client = MongoClient(self.mongo_uri)
        self.db = self.mongo_client[config.MONGODB_DB]
        
        # MongoDB collections
        self.pages_collection = self.db['pages']
        self.urls_collection = self.db['urls']
        self.stats_collection = self.db['stats']
        
        # Create necessary indexes
        self._create_indexes()
        
        # S3 client (if enabled)
        self.s3_client = None
        if self.use_s3:
            self._init_s3_client()
        
        # Ensure storage directories exist
        self._ensure_directories()
        
        # Bulk operation buffers
        self.page_buffer = []
        self.url_buffer = []
        self.max_buffer_size = 100
        
        # Statistics
        self.stats = {
            'pages_stored': 0,
            'pages_retrieved': 0,
            'urls_stored': 0,
            'urls_retrieved': 0,
            'disk_space_used': 0,
            's3_objects_stored': 0,
            'mongodb_size': 0,
            'storage_errors': 0,
            'start_time': time.time()
        }
    
    def _create_indexes(self) -> None:
        """Create necessary indexes in MongoDB collections"""
        try:
            # Pages collection indexes
            self.pages_collection.create_index('url', unique=True)
            self.pages_collection.create_index('content_hash')
            self.pages_collection.create_index('crawled_at')
            self.pages_collection.create_index('domain')
            
            # URLs collection indexes
            self.urls_collection.create_index('url', unique=True)
            self.urls_collection.create_index('normalized_url')
            self.urls_collection.create_index('domain')
            self.urls_collection.create_index('status')
            self.urls_collection.create_index('priority')
            self.urls_collection.create_index('last_crawled')
            
            logger.info("MongoDB indexes created")
        except PyMongoError as e:
            logger.error(f"Error creating MongoDB indexes: {e}")
            self.stats['storage_errors'] += 1
    
    def _init_s3_client(self) -> None:
        """Initialize AWS S3 client"""
        try:
            self.s3_client = boto3.client(
                's3',
                aws_access_key_id=config.AWS_ACCESS_KEY,
                aws_secret_access_key=config.AWS_SECRET_KEY,
                region_name=config.AWS_REGION
            )
            logger.info("S3 client initialized")
            
            # Create bucket if it doesn't exist
            self._ensure_s3_bucket()
        except Exception as e:
            logger.error(f"Error initializing S3 client: {e}")
            self.use_s3 = False
            self.stats['storage_errors'] += 1
    
    def _ensure_s3_bucket(self) -> None:
        """Create S3 bucket if it doesn't exist"""
        if not self.s3_client:
            return
        
        try:
            # Check if bucket exists
            self.s3_client.head_bucket(Bucket=config.S3_BUCKET)
            logger.info(f"S3 bucket '{config.S3_BUCKET}' exists")
        except ClientError as e:
            error_code = e.response.get('Error', {}).get('Code')
            
            if error_code == '404':
                # Bucket doesn't exist, create it
                try:
                    self.s3_client.create_bucket(
                        Bucket=config.S3_BUCKET,
                        CreateBucketConfiguration={
                            'LocationConstraint': config.AWS_REGION
                        }
                    )
                    logger.info(f"Created S3 bucket '{config.S3_BUCKET}'")
                except ClientError as ce:
                    logger.error(f"Error creating S3 bucket: {ce}")
                    self.use_s3 = False
                    self.stats['storage_errors'] += 1
            else:
                logger.error(f"Error checking S3 bucket: {e}")
                self.use_s3 = False
                self.stats['storage_errors'] += 1
    
    def _ensure_directories(self) -> None:
        """Ensure storage directories exist"""
        # Create main storage directory
        os.makedirs(config.STORAGE_PATH, exist_ok=True)
        
        # Create HTML storage directory
        os.makedirs(config.HTML_STORAGE_PATH, exist_ok=True)
        
        # Create log directory
        os.makedirs(config.LOG_PATH, exist_ok=True)
        
        logger.info("Storage directories created")
    
    def store_page(self, page: Page, flush: bool = False) -> bool:
        """
        Store a crawled page
        
        Args:
            page: Page object to store
            flush: Whether to flush page buffer immediately
            
        Returns:
            True if successful, False otherwise
        """
        try:
            # Store page content based on configuration
            if self.use_s3:
                content_stored = self._store_content_s3(page)
            else:
                content_stored = self._store_content_disk(page)
            
            if not content_stored:
                logger.warning(f"Failed to store content for {page.url}")
                self.stats['storage_errors'] += 1
                return False
            
            # Remove HTML content from page object for MongoDB storage
            page_dict = page.dict(exclude={'content'})
            
            # Convert datetime fields to proper format
            if page.crawled_at:
                page_dict['crawled_at'] = page.crawled_at
            
            # Add to buffer
            self.page_buffer.append(
                UpdateOne(
                    {'url': page.url},
                    {'$set': page_dict},
                    upsert=True
                )
            )
            
            # Update statistics
            self.stats['pages_stored'] += 1
            
            # Check if buffer should be flushed
            if flush or len(self.page_buffer) >= self.max_buffer_size:
                return self.flush_page_buffer()
            
            return True
        except Exception as e:
            logger.error(f"Error storing page {page.url}: {e}")
            self.stats['storage_errors'] += 1
            return False
    
    def _store_content_disk(self, page: Page) -> bool:
        """
        Store page content on disk
        
        Args:
            page: Page to store
            
        Returns:
            True if successful, False otherwise
        """
        try:
            # Check disk space
            if not self._check_disk_space():
                logger.warning("Disk space limit exceeded")
                return False
            
            # Create directory for domain if it doesn't exist
            domain = self._extract_domain(page.url)
            domain_dir = os.path.join(config.HTML_STORAGE_PATH, domain)
            os.makedirs(domain_dir, exist_ok=True)
            
            # Create filename
            filename = self._url_to_filename(page.url)
            
            # Full path for the file
            if self.compress_html:
                filepath = os.path.join(domain_dir, f"{filename}.gz")
                
                # Compress and write HTML to file
                with gzip.open(filepath, 'wt', encoding='utf-8') as f:
                    f.write(page.content)
            else:
                filepath = os.path.join(domain_dir, f"{filename}.html")
                
                # Write HTML to file
                with open(filepath, 'w', encoding='utf-8') as f:
                    f.write(page.content)
            
            # Update disk space used
            file_size = os.path.getsize(filepath)
            self.stats['disk_space_used'] += file_size
            
            logger.debug(f"Stored HTML content for {page.url} at {filepath}")
            return True
        except Exception as e:
            logger.error(f"Error storing content on disk for {page.url}: {e}")
            self.stats['storage_errors'] += 1
            return False
    
    def _store_content_s3(self, page: Page) -> bool:
        """
        Store page content in S3
        
        Args:
            page: Page to store
            
        Returns:
            True if successful, False otherwise
        """
        if not self.s3_client:
            logger.warning("S3 client not initialized, falling back to disk storage")
            return self._store_content_disk(page)
        
        try:
            # Create key for S3 object
            domain = self._extract_domain(page.url)
            filename = self._url_to_filename(page.url)
            
            # S3 key
            s3_key = f"{domain}/{filename}"
            if self.compress_html:
                s3_key += ".gz"
                
                # Compress content
                content_bytes = gzip.compress(page.content.encode('utf-8'))
                content_type = 'application/gzip'
            else:
                s3_key += ".html"
                content_bytes = page.content.encode('utf-8')
                content_type = 'text/html'
            
            # Upload to S3
            self.s3_client.put_object(
                Bucket=config.S3_BUCKET,
                Key=s3_key,
                Body=content_bytes,
                ContentType=content_type,
                Metadata={
                    'url': page.url,
                    'crawled_at': page.crawled_at.isoformat() if page.crawled_at else '',
                    'content_hash': page.content_hash or ''
                }
            )
            
            # Update statistics
            self.stats['s3_objects_stored'] += 1
            
            logger.debug(f"Stored HTML content for {page.url} in S3 at {s3_key}")
            return True
        except Exception as e:
            logger.error(f"Error storing content in S3 for {page.url}: {e}")
            self.stats['storage_errors'] += 1
            
            # Fall back to disk storage
            logger.info(f"Falling back to disk storage for {page.url}")
            return self._store_content_disk(page)
    
    def store_url(self, url_obj: URL, flush: bool = False) -> bool:
        """
        Store URL information
        
        Args:
            url_obj: URL object to store
            flush: Whether to flush URL buffer immediately
            
        Returns:
            True if successful, False otherwise
        """
        try:
            # Convert URL object to dict
            url_dict = url_obj.dict()
            
            # Add to buffer
            self.url_buffer.append(
                UpdateOne(
                    {'url': url_obj.url},
                    {'$set': url_dict},
                    upsert=True
                )
            )
            
            # Update statistics
            self.stats['urls_stored'] += 1
            
            # Check if buffer should be flushed
            if flush or len(self.url_buffer) >= self.max_buffer_size:
                return self.flush_url_buffer()
            
            return True
        except Exception as e:
            logger.error(f"Error storing URL {url_obj.url}: {e}")
            self.stats['storage_errors'] += 1
            return False
    
    def flush_page_buffer(self) -> bool:
        """
        Flush page buffer to MongoDB
        
        Returns:
            True if successful, False otherwise
        """
        if not self.page_buffer:
            return True
        
        try:
            # Execute bulk operation
            result = self.pages_collection.bulk_write(self.page_buffer, ordered=False)
            
            # Clear buffer
            buffer_size = len(self.page_buffer)
            self.page_buffer = []
            
            logger.debug(f"Flushed {buffer_size} pages to MongoDB")
            return True
        except BulkWriteError as e:
            logger.error(f"Error in bulk write for pages: {e.details}")
            self.stats['storage_errors'] += 1
            
            # Clear buffer
            self.page_buffer = []
            return False
        except Exception as e:
            logger.error(f"Error flushing page buffer: {e}")
            self.stats['storage_errors'] += 1
            
            # Clear buffer
            self.page_buffer = []
            return False
    
    def flush_url_buffer(self) -> bool:
        """
        Flush URL buffer to MongoDB
        
        Returns:
            True if successful, False otherwise
        """
        if not self.url_buffer:
            return True
        
        try:
            # Execute bulk operation
            result = self.urls_collection.bulk_write(self.url_buffer, ordered=False)
            
            # Clear buffer
            buffer_size = len(self.url_buffer)
            self.url_buffer = []
            
            logger.debug(f"Flushed {buffer_size} URLs to MongoDB")
            return True
        except BulkWriteError as e:
            logger.error(f"Error in bulk write for URLs: {e.details}")
            self.stats['storage_errors'] += 1
            
            # Clear buffer
            self.url_buffer = []
            return False
        except Exception as e:
            logger.error(f"Error flushing URL buffer: {e}")
            self.stats['storage_errors'] += 1
            
            # Clear buffer
            self.url_buffer = []
            return False
    
    def get_page(self, url: str) -> Optional[Page]:
        """
        Retrieve a page by URL
        
        Args:
            url: URL of the page to retrieve
            
        Returns:
            Page object if found, None otherwise
        """
        try:
            # Get page metadata from MongoDB
            page_doc = self.pages_collection.find_one({'url': url})
            
            if not page_doc:
                return None
            
            # Create Page object from document
            page = Page(**page_doc)
            
            # Load content based on configuration
            if self.use_s3:
                content = self._load_content_s3(url)
            else:
                content = self._load_content_disk(url)
            
            if content:
                page.content = content
            
            # Update statistics
            self.stats['pages_retrieved'] += 1
            
            return page
        except Exception as e:
            logger.error(f"Error retrieving page {url}: {e}")
            self.stats['storage_errors'] += 1
            return None
    
    def _load_content_disk(self, url: str) -> Optional[str]:
        """
        Load page content from disk
        
        Args:
            url: URL of the page
            
        Returns:
            Page content if found, None otherwise
        """
        try:
            # Get domain and filename
            domain = self._extract_domain(url)
            filename = self._url_to_filename(url)
            
            # Check for compressed file first
            compressed_path = os.path.join(config.HTML_STORAGE_PATH, domain, f"{filename}.gz")
            uncompressed_path = os.path.join(config.HTML_STORAGE_PATH, domain, f"{filename}.html")
            
            if os.path.exists(compressed_path):
                # Load compressed content
                with gzip.open(compressed_path, 'rt', encoding='utf-8') as f:
                    return f.read()
            elif os.path.exists(uncompressed_path):
                # Load uncompressed content
                with open(uncompressed_path, 'r', encoding='utf-8') as f:
                    return f.read()
            else:
                logger.warning(f"Content file not found for {url}")
                return None
        except Exception as e:
            logger.error(f"Error loading content from disk for {url}: {e}")
            self.stats['storage_errors'] += 1
            return None
    
    def _load_content_s3(self, url: str) -> Optional[str]:
        """
        Load page content from S3
        
        Args:
            url: URL of the page
            
        Returns:
            Page content if found, None otherwise
        """
        if not self.s3_client:
            logger.warning("S3 client not initialized, falling back to disk loading")
            return self._load_content_disk(url)
        
        try:
            # Get domain and filename
            domain = self._extract_domain(url)
            filename = self._url_to_filename(url)
            
            # Try both compressed and uncompressed keys
            s3_key_compressed = f"{domain}/{filename}.gz"
            s3_key_uncompressed = f"{domain}/{filename}.html"
            
            try:
                # Try compressed file first
                response = self.s3_client.get_object(
                    Bucket=config.S3_BUCKET,
                    Key=s3_key_compressed
                )
                
                # Decompress content
                content_bytes = response['Body'].read()
                return gzip.decompress(content_bytes).decode('utf-8')
            except ClientError as e:
                if e.response['Error']['Code'] == 'NoSuchKey':
                    # Try uncompressed file
                    try:
                        response = self.s3_client.get_object(
                            Bucket=config.S3_BUCKET,
                            Key=s3_key_uncompressed
                        )
                        content_bytes = response['Body'].read()
                        return content_bytes.decode('utf-8')
                    except ClientError as e2:
                        if e2.response['Error']['Code'] == 'NoSuchKey':
                            logger.warning(f"Content not found in S3 for {url}")
                            
                            # Try loading from disk as fallback
                            return self._load_content_disk(url)
                        else:
                            raise e2
                else:
                    raise e
        except Exception as e:
            logger.error(f"Error loading content from S3 for {url}: {e}")
            self.stats['storage_errors'] += 1
            
            # Try loading from disk as fallback
            return self._load_content_disk(url)
    
    def get_url(self, url: str) -> Optional[URL]:
        """
        Retrieve URL information by URL
        
        Args:
            url: URL to retrieve
            
        Returns:
            URL object if found, None otherwise
        """
        try:
            # Get URL information from MongoDB
            url_doc = self.urls_collection.find_one({'url': url})
            
            if not url_doc:
                return None
            
            # Create URL object from document
            url_obj = URL(**url_doc)
            
            # Update statistics
            self.stats['urls_retrieved'] += 1
            
            return url_obj
        except Exception as e:
            logger.error(f"Error retrieving URL {url}: {e}")
            self.stats['storage_errors'] += 1
            return None
    
    def get_urls_by_status(self, status: str, limit: int = 100) -> List[URL]:
        """
        Retrieve URLs by status
        
        Args:
            status: Status of URLs to retrieve
            limit: Maximum number of URLs to retrieve
            
        Returns:
            List of URL objects
        """
        try:
            # Get URLs from MongoDB
            url_docs = list(self.urls_collection.find({'status': status}).limit(limit))
            
            # Create URL objects from documents
            url_objs = [URL(**doc) for doc in url_docs]
            
            # Update statistics
            self.stats['urls_retrieved'] += len(url_objs)
            
            return url_objs
        except Exception as e:
            logger.error(f"Error retrieving URLs by status {status}: {e}")
            self.stats['storage_errors'] += 1
            return []
    
    def get_urls_by_domain(self, domain: str, limit: int = 100) -> List[URL]:
        """
        Retrieve URLs by domain
        
        Args:
            domain: Domain of URLs to retrieve
            limit: Maximum number of URLs to retrieve
            
        Returns:
            List of URL objects
        """
        try:
            # Get URLs from MongoDB
            url_docs = list(self.urls_collection.find({'domain': domain}).limit(limit))
            
            # Create URL objects from documents
            url_objs = [URL(**doc) for doc in url_docs]
            
            # Update statistics
            self.stats['urls_retrieved'] += len(url_objs)
            
            return url_objs
        except Exception as e:
            logger.error(f"Error retrieving URLs by domain {domain}: {e}")
            self.stats['storage_errors'] += 1
            return []
    
    def store_stats(self, stats: Dict[str, Any]) -> bool:
        """
        Store crawler statistics
        
        Args:
            stats: Statistics to store
            
        Returns:
            True if successful, False otherwise
        """
        try:
            # Create statistics document
            stats_doc = stats.copy()
            stats_doc['timestamp'] = datetime.datetime.now()
            
            # Convert sets to lists for MongoDB
            for key, value in stats_doc.items():
                if isinstance(value, set):
                    stats_doc[key] = list(value)
            
            # Store in MongoDB
            self.stats_collection.insert_one(stats_doc)
            
            return True
        except Exception as e:
            logger.error(f"Error storing statistics: {e}")
            self.stats['storage_errors'] += 1
            return False
    
    def _check_disk_space(self) -> bool:
        """
        Check if disk space limit is exceeded
        
        Returns:
            True if space is available, False otherwise
        """
        # Convert max disk usage to bytes
        max_bytes = self.max_disk_usage_gb * 1024 * 1024 * 1024
        
        # Check if limit is exceeded
        return self.stats['disk_space_used'] < max_bytes
    
    def _extract_domain(self, url: str) -> str:
        """Extract domain from URL"""
        parsed = urlparse(url)
        return parsed.netloc.replace(':', '_')
    
    def _url_to_filename(self, url: str) -> str:
        """Convert URL to filename"""
        # Hash the URL to create a safe filename
        return hashlib.md5(url.encode('utf-8')).hexdigest()
    
    def clean_old_pages(self, days: int = 90) -> int:
        """
        Remove pages older than a specified number of days
        
        Args:
            days: Number of days after which pages are considered old
            
        Returns:
            Number of pages removed
        """
        try:
            # Calculate cutoff date
            cutoff_date = datetime.datetime.now() - datetime.timedelta(days=days)
            
            # Find old pages
            old_pages = list(self.pages_collection.find({
                'crawled_at': {'$lt': cutoff_date}
            }, {'url': 1}))
            
            if not old_pages:
                logger.info(f"No pages older than {days} days found")
                return 0
            
            # Remove from database
            delete_result = self.pages_collection.delete_many({
                'crawled_at': {'$lt': cutoff_date}
            })
            
            # Remove content files
            count = 0
            for page in old_pages:
                url = page['url']
                domain = self._extract_domain(url)
                filename = self._url_to_filename(url)
                
                # Check disk
                compressed_path = os.path.join(config.HTML_STORAGE_PATH, domain, f"{filename}.gz")
                uncompressed_path = os.path.join(config.HTML_STORAGE_PATH, domain, f"{filename}.html")
                
                if os.path.exists(compressed_path):
                    os.remove(compressed_path)
                    count += 1
                
                if os.path.exists(uncompressed_path):
                    os.remove(uncompressed_path)
                    count += 1
                
                # Check S3
                if self.s3_client:
                    s3_key_compressed = f"{domain}/{filename}.gz"
                    s3_key_uncompressed = f"{domain}/{filename}.html"
                    
                    try:
                        self.s3_client.delete_object(
                            Bucket=config.S3_BUCKET,
                            Key=s3_key_compressed
                        )
                        count += 1
                    except:
                        pass
                    
                    try:
                        self.s3_client.delete_object(
                            Bucket=config.S3_BUCKET,
                            Key=s3_key_uncompressed
                        )
                        count += 1
                    except:
                        pass
            
            logger.info(f"Removed {delete_result.deleted_count} old pages and {count} content files")
            return delete_result.deleted_count
        except Exception as e:
            logger.error(f"Error cleaning old pages: {e}")
            self.stats['storage_errors'] += 1
            return 0
    
    def clean_failed_urls(self, retries: int = 3) -> int:
        """
        Remove URLs that have failed repeatedly
        
        Args:
            retries: Number of retries after which a URL is considered permanently failed
            
        Returns:
            Number of URLs removed
        """
        try:
            # Delete failed URLs with too many retries
            delete_result = self.urls_collection.delete_many({
                'status': 'FAILED',
                'retries': {'$gte': retries}
            })
            
            logger.info(f"Removed {delete_result.deleted_count} permanently failed URLs")
            return delete_result.deleted_count
        except Exception as e:
            logger.error(f"Error cleaning failed URLs: {e}")
            self.stats['storage_errors'] += 1
            return 0
    
    def calculate_storage_stats(self) -> Dict[str, Any]:
        """
        Calculate storage statistics
        
        Returns:
            Dictionary of storage statistics
        """
        stats = {
            'timestamp': datetime.datetime.now(),
            'pages_count': 0,
            'urls_count': 0,
            'disk_space_used_mb': 0,
            's3_objects_count': 0,
            'mongodb_size_mb': 0,
        }
        
        try:
            # Count pages and URLs
            stats['pages_count'] = self.pages_collection.count_documents({})
            stats['urls_count'] = self.urls_collection.count_documents({})
            
            # Calculate disk space used
            total_size = 0
            for root, _, files in os.walk(config.HTML_STORAGE_PATH):
                total_size += sum(os.path.getsize(os.path.join(root, name)) for name in files)
            stats['disk_space_used_mb'] = total_size / (1024 * 1024)
            
            # Calculate MongoDB size
            db_stats = self.db.command('dbStats')
            stats['mongodb_size_mb'] = db_stats['storageSize'] / (1024 * 1024)
            
            # Count S3 objects if enabled
            if self.s3_client:
                try:
                    s3_objects = 0
                    paginator = self.s3_client.get_paginator('list_objects_v2')
                    for page in paginator.paginate(Bucket=config.S3_BUCKET):
                        if 'Contents' in page:
                            s3_objects += len(page['Contents'])
                    stats['s3_objects_count'] = s3_objects
                except Exception as e:
                    logger.error(f"Error counting S3 objects: {e}")
            
            # Update internal statistics
            self.stats['disk_space_used'] = total_size
            self.stats['mongodb_size'] = db_stats['storageSize']
            
            return stats
        except Exception as e:
            logger.error(f"Error calculating storage statistics: {e}")
            self.stats['storage_errors'] += 1
            return stats
    
    def close(self) -> None:
        """Close connections and perform cleanup"""
        # Flush any pending buffers
        self.flush_page_buffer()
        self.flush_url_buffer()
        
        # Close MongoDB connection
        if self.mongo_client:
            self.mongo_client.close()
            logger.info("MongoDB connection closed")
        
        # Log final statistics
        logger.info(f"Storage manager closed. Pages stored: {self.stats['pages_stored']}, URLs stored: {self.stats['urls_stored']}")