Spaces:

sigridveronica
/

ai-news-analyzer

Sleeping

App Files Files Community

Sigrid De los Santos commited on Jul 30

Commit

edbb216

1 Parent(s): 215f78a

fixing date issues

Browse files

Files changed (1) hide show

src/news_analysis.py +76 -7

src/news_analysis.py CHANGED Viewed

@@ -212,10 +212,12 @@ def tavily_search(query, days, max_results=10):
     response = requests.post(url, json=payload, headers=headers)
     return response.json()
 def fetch_deep_news(topic, days):
     all_results = []
     seen_urls = set()
     base_queries = [
         topic,
@@ -251,13 +253,28 @@ def fetch_deep_news(topic, days):
             for item in response.get("results", []):
                 url = item.get("url")
                 content = item.get("content", "") or item.get("summary", "") or item.get("title", "")
-                if url and url not in seen_urls and len(content) > 150:
-                    all_results.append({
-                        "title": item.get("title"),
-                        "url": url,
-                        "content": content
-                    })
-                    seen_urls.add(url)
         except Exception as e:
             print(f"⚠️ Tavily request failed for query '{query}': {e}")
@@ -265,6 +282,58 @@ def fetch_deep_news(topic, days):
     print(f"📰 Total articles collected: {len(all_results)}")
     return all_results
 # === Generate Markdown Report ===
 def generate_value_investor_report(topic, news_results, max_articles=20, max_chars_per_article=400):
     news_results = news_results[:max_articles]

     response = requests.post(url, json=payload, headers=headers)
     return response.json()
+from datetime import datetime, timedelta  # Ensure this is at the top
 def fetch_deep_news(topic, days):
     all_results = []
     seen_urls = set()
+    cutoff_date = datetime.now() - timedelta(days=days)
     base_queries = [
         topic,
             for item in response.get("results", []):
                 url = item.get("url")
                 content = item.get("content", "") or item.get("summary", "") or item.get("title", "")
+                if not url or url in seen_urls or len(content) <= 150:
+                    continue
+                pub_date_str = item.get("published_date")
+                if pub_date_str:
+                    try:
+                        pub_date = datetime.fromisoformat(pub_date_str.rstrip("Z"))
+                        if pub_date < cutoff_date:
+                            continue  # Skip articles too old
+                        date_str = pub_date.strftime("%Y-%m-%d")
+                    except Exception:
+                        date_str = "Unknown"
+                else:
+                    date_str = "Unknown"
+                all_results.append({
+                    "title": item.get("title"),
+                    "url": url,
+                    "content": content,
+                    "date": date_str
+                })
+                seen_urls.add(url)
         except Exception as e:
             print(f"⚠️ Tavily request failed for query '{query}': {e}")
     print(f"📰 Total articles collected: {len(all_results)}")
     return all_results
+# def fetch_deep_news(topic, days):
+#     all_results = []
+#     seen_urls = set()
+#     base_queries = [
+#         topic,
+#         f"{topic} AND startup",
+#         f"{topic} AND acquisition OR merger OR funding",
+#         f"{topic} AND CEO OR executive OR leadership",
+#         f"{topic} AND venture capital OR Series A OR Series B",
+#         f"{topic} AND government grant OR approval OR contract",
+#         f"{topic} AND underrated OR small-cap OR micro-cap"
+#     ]
+#     investor_queries = [
+#         f"{topic} AND BlackRock OR Vanguard OR SoftBank",
+#         f"{topic} AND Elon Musk OR Sam Altman OR Peter Thiel",
+#         f"{topic} AND Berkshire Hathaway OR Warren Buffett",
+#         f"{topic} AND institutional investor OR hedge fund",
+#     ]
+#     related_terms = get_related_terms(topic)
+#     synonym_queries = [f"{term} AND {kw}" for term in related_terms for kw in ["startup", "funding", "merger", "acquisition"]]
+#     all_queries = base_queries + investor_queries + synonym_queries
+#     for query in all_queries:
+#         try:
+#             print(f"🔍 Tavily query: {query}")
+#             response = tavily_search(query, days)
+#             if not isinstance(response, dict) or "results" not in response:
+#                 print(f"⚠️ Tavily API response issue: {response}")
+#                 continue
+#             for item in response.get("results", []):
+#                 url = item.get("url")
+#                 content = item.get("content", "") or item.get("summary", "") or item.get("title", "")
+#                 if url and url not in seen_urls and len(content) > 150:
+#                     all_results.append({
+#                         "title": item.get("title"),
+#                         "url": url,
+#                         "content": content
+#                     })
+#                     seen_urls.add(url)
+#         except Exception as e:
+#             print(f"⚠️ Tavily request failed for query '{query}': {e}")
+#     print(f"📰 Total articles collected: {len(all_results)}")
+#     return all_results
 # === Generate Markdown Report ===
 def generate_value_investor_report(topic, news_results, max_articles=20, max_chars_per_article=400):
     news_results = news_results[:max_articles]