Spaces:

hellorahulk
/

crawlitall

Build error

App Files Files Community

crawlitall / app.py

hellorahulk

Update app.py

fede52d verified 6 months ago

raw

history blame contribute delete

18.3 kB

	"""
	Crawl4AI Demo Application (Docker Version)
	=======================================

	This is a modified version of the Crawl4AI demo application specifically designed
	for deployment in a Docker container on Hugging Face Spaces.

	Features:
	---------
	- Web interface built with Gradio for interactive use
	- Support for multiple crawler types (Basic, LLM, Cosine, JSON/CSS)
	- Configurable word count threshold
	- Markdown output with metadata
	- Sub-page crawling capabilities
	- Lazy loading support
	- Docker-optimized configuration
	"""

	import gradio as gr
	import asyncio
	from typing import Optional, Dict, Any, List, Set
	from enum import Enum
	from pydantic import BaseModel
	import os

	# Set crawl4ai database path before importing crawl4ai
	os.environ["CRAWL4AI_DB_PATH"] = "/home/crawler/.crawl4ai"

	from crawl4ai import AsyncWebCrawler, CrawlerRunConfig, CacheMode, BrowserConfig
	from crawl4ai.extraction_strategy import JsonCssExtractionStrategy
	import urllib.parse

	# Configure browser settings for Docker environment
	CHROME_PATH = "/usr/bin/google-chrome-stable"
	os.environ["CHROME_PATH"] = CHROME_PATH

	class CrawlerType(str, Enum):
	"""Enumeration of supported crawler types."""
	BASIC = "basic"
	LLM = "llm"
	COSINE = "cosine"
	JSON_CSS = "json_css"

	class ExtractionType(str, Enum):
	"""Enumeration of supported extraction strategies."""
	DEFAULT = "default"
	CSS = "css"
	XPATH = "xpath"
	LLM = "llm"
	COMBINED = "combined"

	class CrawlRequest(BaseModel):
	"""Request model for crawling operations."""
	url: str
	crawler_type: CrawlerType = CrawlerType.BASIC
	extraction_type: ExtractionType = ExtractionType.DEFAULT
	word_count_threshold: int = 100
	css_selector: Optional[str] = None
	xpath_query: Optional[str] = None
	excluded_tags: Optional[list] = None
	scan_full_page: bool = False
	scroll_delay: float = 0.5
	crawl_subpages: bool = False
	max_depth: int = 1
	exclude_external_links: bool = True
	max_pages: int = 10

	def create_extraction_strategy(extraction_type: ExtractionType, css_selector: Optional[str] = None, xpath_query: Optional[str] = None) -> Any:
	"""Create an extraction strategy based on the specified type."""
	if extraction_type == ExtractionType.CSS and css_selector:
	schema = {
	"name": "Content",
	"baseSelector": css_selector,
	"fields": [
	{"name": "title", "selector": "h1,h2", "type": "text"},
	{"name": "text", "selector": "p", "type": "text"},
	{"name": "links", "selector": "a", "type": "attribute", "attribute": "href"}
	]
	}
	return JsonCssExtractionStrategy(schema)
	return None

	async def crawl_with_subpages(request: CrawlRequest, base_url: str, current_depth: int = 1, visited: Set[str] = None) -> Dict:
	"""Recursively crawl pages including sub-pages up to the specified depth."""
	if visited is None:
	visited = set()

	if current_depth > request.max_depth or len(visited) >= request.max_pages:
	return None

	normalized_url = urllib.parse.urljoin(request.url, '/')
	if normalized_url in visited:
	return None

	run_config = CrawlerRunConfig(
	cache_mode=CacheMode.BYPASS,
	verbose=True,
	word_count_threshold=request.word_count_threshold,
	css_selector=request.css_selector,
	excluded_tags=request.excluded_tags or ["nav", "footer", "header"],
	exclude_external_links=request.exclude_external_links,
	wait_for=f"css:{request.css_selector}" if request.css_selector else None,
	wait_for_images=True,
	page_timeout=30000,
	scan_full_page=request.scan_full_page,
	scroll_delay=request.scroll_delay,
	extraction_strategy=create_extraction_strategy(
	request.extraction_type,
	request.css_selector,
	request.xpath_query
	)
	)

	# Docker-optimized browser configuration
	browser_config = BrowserConfig(
	headless=True,
	viewport_width=1920,
	viewport_height=1080,
	chrome_path=CHROME_PATH,
	args=[
	"--no-sandbox",
	"--disable-dev-shm-usage",
	"--disable-gpu"
	]
	)

	results = {
	"pages": [],
	"total_links": 0,
	"visited_pages": len(visited)
	}

	try:
	async with AsyncWebCrawler(config=browser_config) as crawler:
	result = await crawler.arun(url=request.url, config=run_config)

	if not result.success:
	print(f"Failed to crawl {request.url}: {result.error_message}")
	return None

	page_result = {
	"url": request.url,
	"markdown": result.markdown_v2 if hasattr(result, 'markdown_v2') else "",
	"extracted_content": result.extracted_content if hasattr(result, 'extracted_content') else None,
	"depth": current_depth
	}
	results["pages"].append(page_result)
	visited.add(normalized_url)

	if request.crawl_subpages and hasattr(result, 'links'):
	internal_links = result.links.get("internal", [])
	if internal_links:
	results["total_links"] += len(internal_links)

	for link in internal_links:
	if len(visited) >= request.max_pages:
	break

	try:
	normalized_link = urllib.parse.urljoin(request.url, link)
	link_domain = urllib.parse.urlparse(normalized_link).netloc

	if normalized_link in visited or (request.exclude_external_links and link_domain != base_url):
	continue

	sub_request = CrawlRequest(
	{request.dict(), "url": normalized_link}
	)

	sub_result = await crawl_with_subpages(
	sub_request,
	base_url,
	current_depth + 1,
	visited
	)

	if sub_result:
	results["pages"].extend(sub_result["pages"])
	results["total_links"] += sub_result["total_links"]
	results["visited_pages"] = len(visited)
	except Exception as e:
	print(f"Error processing link {link}: {str(e)}")
	continue

	return results
	except Exception as e:
	print(f"Error crawling {request.url}: {str(e)}")
	return None

	async def crawl_url(request: CrawlRequest) -> Dict:
	"""Crawl a URL and return the extracted content."""
	try:
	base_url = urllib.parse.urlparse(request.url).netloc

	if request.crawl_subpages:
	results = await crawl_with_subpages(request, base_url)
	if not results or not results["pages"]:
	raise Exception(f"Failed to crawl pages starting from {request.url}")

	combined_markdown = "\\n\\n---\\n\\n".join(
	f"## Page: {page['url']}\\n{page['markdown']}"
	for page in results["pages"]
	)

	return {
	"markdown": combined_markdown,
	"metadata": {
	"url": request.url,
	"crawler_type": request.crawler_type.value,
	"extraction_type": request.extraction_type.value,
	"word_count_threshold": request.word_count_threshold,
	"css_selector": request.css_selector,
	"xpath_query": request.xpath_query,
	"scan_full_page": request.scan_full_page,
	"scroll_delay": request.scroll_delay,
	"total_pages_crawled": results["visited_pages"],
	"total_links_found": results["total_links"],
	"max_depth_reached": min(request.max_depth, max(page["depth"] for page in results["pages"]))
	},
	"pages": results["pages"]
	}
	else:
	wait_condition = f"css:{request.css_selector}" if request.css_selector else None

	run_config = CrawlerRunConfig(
	cache_mode=CacheMode.BYPASS,
	word_count_threshold=request.word_count_threshold,
	css_selector=request.css_selector,
	excluded_tags=request.excluded_tags or ["nav", "footer", "header"],
	wait_for=wait_condition,
	wait_for_images=True,
	page_timeout=30000,
	scan_full_page=request.scan_full_page,
	scroll_delay=request.scroll_delay,
	extraction_strategy=create_extraction_strategy(
	request.extraction_type,
	request.css_selector,
	request.xpath_query
	)
	)

	# Docker-optimized browser configuration
	browser_config = BrowserConfig(
	headless=True,
	viewport_width=1920,
	viewport_height=1080,
	chrome_path=CHROME_PATH,
	args=[
	"--no-sandbox",
	"--disable-dev-shm-usage",
	"--disable-gpu"
	]
	)

	async with AsyncWebCrawler(config=browser_config) as crawler:
	result = await crawler.arun(url=request.url, config=run_config)

	if not result.success:
	raise Exception(result.error_message)

	images = result.media.get("images", []) if hasattr(result, 'media') else []
	image_info = "\n### Images Found\n" if images else ""
	for i, img in enumerate(images[:5]):
	image_info += f"- Image {i+1}: {img.get('src', 'N/A')}\n"
	if img.get('alt'):
	image_info += f" Alt: {img['alt']}\n"
	if img.get('score'):
	image_info += f" Score: {img['score']}\n"

	return {
	"markdown": result.markdown_v2 if hasattr(result, 'markdown_v2') else "",
	"metadata": {
	"url": request.url,
	"crawler_type": request.crawler_type.value,
	"extraction_type": request.extraction_type.value,
	"word_count_threshold": request.word_count_threshold,
	"css_selector": request.css_selector,
	"xpath_query": request.xpath_query,
	"scan_full_page": request.scan_full_page,
	"scroll_delay": request.scroll_delay,
	"wait_condition": wait_condition
	},
	"extracted_content": result.extracted_content if hasattr(result, 'extracted_content') else None,
	"image_info": image_info
	}
	except Exception as e:
	raise Exception(str(e))

	async def gradio_crawl(
	url: str,
	crawler_type: str,
	extraction_type: str,
	word_count_threshold: int,
	css_selector: str,
	xpath_query: str,
	scan_full_page: bool,
	scroll_delay: float,
	crawl_subpages: bool,
	max_depth: int,
	max_pages: int,
	exclude_external_links: bool
	) -> tuple[str, str]:
	"""Handle crawling requests from the Gradio interface."""
	try:
	request = CrawlRequest(
	url=url,
	crawler_type=CrawlerType(crawler_type.lower()),
	extraction_type=ExtractionType(extraction_type.lower()),
	word_count_threshold=word_count_threshold,
	css_selector=css_selector if css_selector else None,
	xpath_query=xpath_query if xpath_query else None,
	scan_full_page=scan_full_page,
	scroll_delay=scroll_delay,
	crawl_subpages=crawl_subpages,
	max_depth=max_depth,
	max_pages=max_pages,
	exclude_external_links=exclude_external_links
	)

	result = await crawl_url(request)

	markdown_content = str(result["markdown"]) if result.get("markdown") else ""

	metadata_str = f"""### Metadata
	- URL: {result['metadata']['url']}
	- Crawler Type: {result['metadata']['crawler_type']}
	- Extraction Type: {result['metadata']['extraction_type']}
	- Word Count Threshold: {result['metadata']['word_count_threshold']}
	- CSS Selector: {result['metadata']['css_selector'] or 'None'}
	- XPath Query: {result['metadata']['xpath_query'] or 'None'}
	- Full Page Scan: {result['metadata']['scan_full_page']}
	- Scroll Delay: {result['metadata']['scroll_delay']}s"""

	if crawl_subpages:
	metadata_str += f"""
	- Total Pages Crawled: {result['metadata'].get('total_pages_crawled', 0)}
	- Total Links Found: {result['metadata'].get('total_links_found', 0)}
	- Max Depth Reached: {result['metadata'].get('max_depth_reached', 1)}"""

	if result.get('image_info'):
	metadata_str += f"\n\n{result['image_info']}"

	if result.get("extracted_content"):
	metadata_str += f"\n\n### Extracted Content\n```json\n{result['extracted_content']}\n```"

	return markdown_content, metadata_str
	except Exception as e:
	error_msg = f"Error: {str(e)}"
	return error_msg, "Error occurred while crawling"

	# Create Gradio interface with simplified configuration
	with gr.Blocks(title="Crawl4AI Demo") as demo:
	gr.Markdown("""
	# Crawl4AI Web Content Extractor

	Extract content from web pages using different crawling and extraction strategies.
	""")

	with gr.Row():
	with gr.Column():
	url_input = gr.Textbox(
	label="URL",
	placeholder="Enter URL to crawl",
	info="The webpage URL to extract content from"
	)
	crawler_type = gr.Dropdown(
	choices=["Basic", "LLM", "Cosine", "JSON/CSS"],
	label="Crawler Type",
	value="Basic",
	info="Select the content extraction strategy"
	)
	extraction_type = gr.Dropdown(
	choices=["Default", "CSS", "XPath", "LLM", "Combined"],
	label="Extraction Type",
	value="Default",
	info="Choose how to extract content from the page"
	)
	word_count = gr.Slider(
	minimum=50,
	maximum=500,
	value=100,
	step=50,
	label="Word Count Threshold",
	info="Minimum number of words required for content extraction"
	)
	css_selector = gr.Textbox(
	label="CSS Selector",
	placeholder="e.g., article.content, main.post",
	info="CSS selector to target specific content"
	)
	xpath_query = gr.Textbox(
	label="XPath Query",
	placeholder="e.g., //article[@class='content']",
	info="XPath query to target specific content"
	)

	with gr.Column():
	scan_full_page = gr.Checkbox(
	label="Scan Full Page",
	value=False,
	info="Enable to scroll through the entire page"
	)
	scroll_delay = gr.Slider(
	minimum=0.1,
	maximum=2.0,
	value=0.5,
	step=0.1,
	label="Scroll Delay",
	info="Delay between scroll steps in seconds"
	)
	crawl_subpages = gr.Checkbox(
	label="Crawl Sub-pages",
	value=False,
	info="Enable to crawl links found on the page"
	)
	max_depth = gr.Slider(
	minimum=1,
	maximum=5,
	value=1,
	step=1,
	label="Max Crawl Depth",
	info="Maximum depth for recursive crawling"
	)
	max_pages = gr.Slider(
	minimum=1,
	maximum=50,
	value=10,
	step=5,
	label="Max Pages",
	info="Maximum number of pages to crawl"
	)
	exclude_external = gr.Checkbox(
	label="Exclude External Links",
	value=True,
	info="Only crawl links within the same domain"
	)

	with gr.Row():
	crawl_button = gr.Button("Start Crawling")

	with gr.Row():
	output_markdown = gr.Markdown(label="Generated Markdown")
	output_metadata = gr.Markdown(label="Metadata & Results")

	crawl_button.click(
	fn=gradio_crawl,
	inputs=[
	url_input, crawler_type, extraction_type,
	word_count, css_selector, xpath_query,
	scan_full_page, scroll_delay, crawl_subpages,
	max_depth, max_pages, exclude_external
	],
	outputs=[output_markdown, output_metadata]
	)

	gr.Examples(
	examples=[
	["https://example.com", "Basic", "Default", 100, "", "", False, 0.5, False, 1, 10, True],
	["https://example.com/blog", "Basic", "CSS", 100, "article.post", "", True, 0.5, True, 2, 5, True],
	],
	inputs=[
	url_input, crawler_type, extraction_type,
	word_count, css_selector, xpath_query,
	scan_full_page, scroll_delay, crawl_subpages,
	max_depth, max_pages, exclude_external
	]
	)

	if __name__ == "__main__":
	demo.launch(server_name="0.0.0.0", server_port=7860)