Spaces:

victor
/

websearch

Running

victor HF Staff commited on 2 days ago

Commit

4424462

1 Parent(s): 9d978bc

Refactor search_web function to enhance formatting for news and search results; improve date handling and source extraction.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -146,28 +146,36 @@ async def search_web(query: str, search_type: str = "search", num_results: Optio
             successful_extractions += 1
-            # Parse and format date
-            try:
-                # For news results, date is in 'date' field; for search results, it might be in 'snippet'
-                date_str = meta.get("date", "")
-                if date_str:
-                    date_iso = dateparser.parse(date_str, fuzzy=True).strftime("%Y-%m-%d")
-                else:
                     date_iso = "Unknown"
-            except Exception:
-                date_iso = "Unknown"
-            # Format the chunk
-            # For search results, source might be in 'displayLink' or domain
-            source = meta.get('source', meta.get('displayLink', meta['link'].split('/')[2]))
-            chunk = (
-                f"## {meta['title']}\n"
-                f"**Source:** {source}   "
-                f"**Date:** {date_iso}\n"
-                f"**URL:** {meta['link']}\n\n"
-                f"{body.strip()}\n"
-            )
             chunks.append(chunk)
         if not chunks:

             successful_extractions += 1
+            # Format the chunk based on search type
+            if search_type == "news":
+                # News results have date and source
+                try:
+                    date_str = meta.get("date", "")
+                    if date_str:
+                        date_iso = dateparser.parse(date_str, fuzzy=True).strftime("%Y-%m-%d")
+                    else:
+                        date_iso = "Unknown"
+                except Exception:
                     date_iso = "Unknown"
+                chunk = (
+                    f"## {meta['title']}\n"
+                    f"**Source:** {meta.get('source', 'Unknown')}   "
+                    f"**Date:** {date_iso}\n"
+                    f"**URL:** {meta['link']}\n\n"
+                    f"{body.strip()}\n"
+                )
+            else:
+                # Search results don't have date/source but have domain
+                domain = meta['link'].split('/')[2].replace('www.', '')
+                chunk = (
+                    f"## {meta['title']}\n"
+                    f"**Domain:** {domain}\n"
+                    f"**URL:** {meta['link']}\n\n"
+                    f"{body.strip()}\n"
+                )
             chunks.append(chunk)
         if not chunks: