Spaces:

rahideer
/

NewsFactChecker

Running

App Files Files Community

rahideer commited on Apr 16

Commit

7bf94f0

verified ·

1 Parent(s): b0efa4e

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -14

app.py CHANGED Viewed

@@ -8,21 +8,29 @@ import streamlit as st
 st.set_page_config(page_title="News Fact Checker", page_icon="📰")
-# Step 1: Unzip dataset (only once)
 @st.cache_data
 def extract_dataset():
     zip_path = "climate.zip"
-    extract_dir = "climate"
-    if not os.path.exists(os.path.join(extract_dir, "ag_news_csv", "train.csv")):
         with zipfile.ZipFile(zip_path, 'r') as zip_ref:
             zip_ref.extractall(extract_dir)
-    df = pd.read_csv(os.path.join(extract_dir, "ag_news_csv", "train.csv"), header=None, names=["label", "title", "description"])
-    df["text"] = df["title"] + ". " + df["description"]
-    return df.head(1000)  # Sample only top 1000 rows
-# Step 2: Load embedding model + summarizer
 @st.cache_resource
 def load_models():
     embedder = SentenceTransformer('all-MiniLM-L6-v2')
@@ -30,16 +38,16 @@ def load_models():
     return embedder, summarizer
 st.title("📰 News Fact Checker")
-st.markdown("Enter a news-related **claim** and get back a summary based on real climate news articles to help verify it.")
-# Step 3: UI
-claim = st.text_input("🔍 Enter your claim here:")
 data = extract_dataset()
 embedder, summarizer = load_models()
-# Step 4: Process and return result
 if claim:
-    with st.spinner("🔍 Searching relevant news..."):
         corpus = data["text"].tolist()
         corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)
         query_embedding = embedder.encode(claim, convert_to_tensor=True)
@@ -53,9 +61,9 @@ if claim:
         summary = summarizer(combined, max_length=150, min_length=40, do_sample=False)[0]["summary_text"]
-    st.markdown("### ✅ Fact-Checked Summary")
     st.success(summary)
-    with st.expander("🔎 Top Relevant News Passages"):
         for i, passage in enumerate(top_passages, 1):
             st.markdown(f"**Snippet {i}:** {passage}")

 st.set_page_config(page_title="News Fact Checker", page_icon="📰")
+# Step 1: Unzip dataset
 @st.cache_data
 def extract_dataset():
     zip_path = "climate.zip"
+    extract_dir = "climate_extracted"
+    if not os.path.exists(extract_dir):
         with zipfile.ZipFile(zip_path, 'r') as zip_ref:
             zip_ref.extractall(extract_dir)
+    train_path = os.path.join(extract_dir, "climate", "train")
+    # Try CSV or TSV format detection
+    try:
+        df = pd.read_csv(train_path, header=None)
+    except:
+        df = pd.read_csv(train_path, sep='\t', header=None)
+    df.columns = ["label", "title", "description"]
+    df["text"] = df["title"].astype(str) + ". " + df["description"].astype(str)
+    return df.head(1000)
+# Step 2: Load models
 @st.cache_resource
 def load_models():
     embedder = SentenceTransformer('all-MiniLM-L6-v2')
     return embedder, summarizer
 st.title("📰 News Fact Checker")
+st.markdown("Enter a **claim** about climate or news events. We'll pull relevant facts from real news and summarize them for you.")
+# Step 3: User input
+claim = st.text_input("🔍 Enter your claim:")
 data = extract_dataset()
 embedder, summarizer = load_models()
+# Step 4: Fact checking
 if claim:
+    with st.spinner("Searching news..."):
         corpus = data["text"].tolist()
         corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)
         query_embedding = embedder.encode(claim, convert_to_tensor=True)
         summary = summarizer(combined, max_length=150, min_length=40, do_sample=False)[0]["summary_text"]
+    st.markdown("### ✅ Summary Based on News")
     st.success(summary)
+    with st.expander("🔎 View Related News Snippets"):
         for i, passage in enumerate(top_passages, 1):
             st.markdown(f"**Snippet {i}:** {passage}")