Spaces:

victor
/

websearch

Running

App Files Files Community

victor HF Staff commited on 2 days ago

Commit

36a4f5e

1 Parent(s): 4424462

Refactor search_web function for improved readability: format parameters, enhance example usage, and streamline payload preparation.

Browse files

Files changed (1) hide show

app.py +23 -17

app.py CHANGED Viewed

@@ -39,7 +39,9 @@ limiter = MovingWindowRateLimiter(storage)
 rate_limit = parse("200/hour")
-async def search_web(query: str, search_type: str = "search", num_results: Optional[int] = 4) -> str:
     """
     Search the web for information or fresh news, returning extracted content.
@@ -74,7 +76,7 @@ async def search_web(query: str, search_type: str = "search", num_results: Optio
              Returns error message if API key is missing or search fails.
     Examples:
-        - search_web("OpenAI GPT-5", "news", 5) - Get 5 fresh news articles about OpenAI
         - search_web("python tutorial", "search") - Get 4 general results about Python (default count)
         - search_web("stock market today", "news", 10) - Get 10 news articles about today's market
         - search_web("machine learning basics") - Get 4 general search results (all defaults)
@@ -86,7 +88,7 @@ async def search_web(query: str, search_type: str = "search", num_results: Optio
     if num_results is None:
         num_results = 4
     num_results = max(1, min(20, num_results))
     # Validate search_type
     if search_type not in ["search", "news"]:
         search_type = "search"
@@ -97,14 +99,16 @@ async def search_web(query: str, search_type: str = "search", num_results: Optio
             return "Error: Rate limit exceeded. Please try again later (limit: 200 requests per hour)."
         # Select endpoint based on search type
-        endpoint = SERPER_NEWS_ENDPOINT if search_type == "news" else SERPER_SEARCH_ENDPOINT
         # Prepare payload
         payload = {"q": query, "num": num_results}
         if search_type == "news":
             payload["type"] = "news"
             payload["page"] = 1
         async with httpx.AsyncClient(timeout=15) as client:
             resp = await client.post(endpoint, headers=HEADERS, json=payload)
@@ -116,11 +120,9 @@ async def search_web(query: str, search_type: str = "search", num_results: Optio
             results = resp.json().get("news", [])
         else:
             results = resp.json().get("organic", [])
         if not results:
-            return (
-                f"No {search_type} results found for query: '{query}'. Try a different search term or search type."
-            )
         # Fetch HTML content concurrently
         urls = [r["link"] for r in results]
@@ -152,12 +154,14 @@ async def search_web(query: str, search_type: str = "search", num_results: Optio
                 try:
                     date_str = meta.get("date", "")
                     if date_str:
-                        date_iso = dateparser.parse(date_str, fuzzy=True).strftime("%Y-%m-%d")
                     else:
                         date_iso = "Unknown"
                 except Exception:
                     date_iso = "Unknown"
                 chunk = (
                     f"## {meta['title']}\n"
                     f"**Source:** {meta.get('source', 'Unknown')}   "
@@ -167,15 +171,15 @@ async def search_web(query: str, search_type: str = "search", num_results: Optio
                 )
             else:
                 # Search results don't have date/source but have domain
-                domain = meta['link'].split('/')[2].replace('www.', '')
                 chunk = (
                     f"## {meta['title']}\n"
                     f"**Domain:** {domain}\n"
                     f"**URL:** {meta['link']}\n\n"
                     f"{body.strip()}\n"
                 )
             chunks.append(chunk)
         if not chunks:
@@ -222,7 +226,7 @@ with gr.Blocks(title="Web Search MCP Server") as demo:
                 label="Search Type",
                 info="Choose search type",
             )
     with gr.Row():
         num_results_input = gr.Slider(
             minimum=1,
@@ -259,7 +263,9 @@ with gr.Blocks(title="Web Search MCP Server") as demo:
     )
     search_button.click(
-        fn=search_web, inputs=[query_input, search_type_input, num_results_input], outputs=output
     )

 rate_limit = parse("200/hour")
+async def search_web(
+    query: str, search_type: str = "search", num_results: Optional[int] = 4
+) -> str:
     """
     Search the web for information or fresh news, returning extracted content.
              Returns error message if API key is missing or search fails.
     Examples:
+        - search_web("OpenAI GPT-5", "news") - Get 5 fresh news articles about OpenAI
         - search_web("python tutorial", "search") - Get 4 general results about Python (default count)
         - search_web("stock market today", "news", 10) - Get 10 news articles about today's market
         - search_web("machine learning basics") - Get 4 general search results (all defaults)
     if num_results is None:
         num_results = 4
     num_results = max(1, min(20, num_results))
     # Validate search_type
     if search_type not in ["search", "news"]:
         search_type = "search"
             return "Error: Rate limit exceeded. Please try again later (limit: 200 requests per hour)."
         # Select endpoint based on search type
+        endpoint = (
+            SERPER_NEWS_ENDPOINT if search_type == "news" else SERPER_SEARCH_ENDPOINT
+        )
         # Prepare payload
         payload = {"q": query, "num": num_results}
         if search_type == "news":
             payload["type"] = "news"
             payload["page"] = 1
         async with httpx.AsyncClient(timeout=15) as client:
             resp = await client.post(endpoint, headers=HEADERS, json=payload)
             results = resp.json().get("news", [])
         else:
             results = resp.json().get("organic", [])
         if not results:
+            return f"No {search_type} results found for query: '{query}'. Try a different search term or search type."
         # Fetch HTML content concurrently
         urls = [r["link"] for r in results]
                 try:
                     date_str = meta.get("date", "")
                     if date_str:
+                        date_iso = dateparser.parse(date_str, fuzzy=True).strftime(
+                            "%Y-%m-%d"
+                        )
                     else:
                         date_iso = "Unknown"
                 except Exception:
                     date_iso = "Unknown"
                 chunk = (
                     f"## {meta['title']}\n"
                     f"**Source:** {meta.get('source', 'Unknown')}   "
                 )
             else:
                 # Search results don't have date/source but have domain
+                domain = meta["link"].split("/")[2].replace("www.", "")
                 chunk = (
                     f"## {meta['title']}\n"
                     f"**Domain:** {domain}\n"
                     f"**URL:** {meta['link']}\n\n"
                     f"{body.strip()}\n"
                 )
             chunks.append(chunk)
         if not chunks:
                 label="Search Type",
                 info="Choose search type",
             )
     with gr.Row():
         num_results_input = gr.Slider(
             minimum=1,
     )
     search_button.click(
+        fn=search_web,
+        inputs=[query_input, search_type_input, num_results_input],
+        outputs=output,
     )