Spaces:

vanderbilt-dsi
/

cgd-ui-panel

Running

App Files Files Community

myshirk commited on 8 days ago

Commit

03e0863

verified ·

1 Parent(s): b183d7b

add filter clearing

Browse files

Files changed (1) hide show

app.py +25 -64

app.py CHANGED Viewed

@@ -69,6 +69,7 @@ w_group = pn.widgets.Checkbox(name="Group by Question Text", value=False)
 w_semquery = pn.widgets.TextInput(name="Semantic Query")
 w_search_button = pn.widgets.Button(name="Semantic Search", button_type="primary")
 # ──────────────────────────────────────────────────────────────────────
 # 3) Unified Results Table (Tabulator)
@@ -79,47 +80,20 @@ result_table = pn.widgets.Tabulator(
     sizing_mode="stretch_width",
     layout='fit_columns',
     show_index=False,
 )
-@pn.depends(w_countries, w_years, w_keyword, w_group, watch=True)
-def update_table(countries, years, keyword, group):
-    filt = df.copy()
-    if countries:
-        filt = filt[filt["country"].isin(countries)]
-    if years:
-        filt = filt[filt["year"].isin(years)]
-    if keyword:
-        filt = filt[
-            filt["question_text"].str.contains(keyword, case=False, na=False) |
-            filt["answer_text"].str.contains(keyword, case=False, na=False) |
-            filt["question_code"].astype(str).str.contains(keyword, case=False, na=False)
-        ]
-    if group:
-        grouped = (
-            filt.groupby("question_text")
-            .agg({
-                "country": lambda x: sorted(set(x)),
-                "year": lambda x: sorted(set(x)),
-                "answer_text": lambda x: list(x)[:3]
-            })
-            .reset_index()
-            .rename(columns={
-                "country": "Countries",
-                "year": "Years",
-                "answer_text": "Sample Answers"
-            })
-        )
-        result_table.value = grouped
-    else:
-        result_table.value = filt[["country", "year", "question_text", "answer_text"]]
 def semantic_search(event=None):
     query = w_semquery.value.strip()
     if not query:
         return
-        # Step 1: Filter the full dataframe
     filt = df.copy()
     if w_countries.value:
         filt = filt[filt["country"].isin(w_countries.value)]
@@ -132,54 +106,39 @@ def semantic_search(event=None):
             filt["question_code"].astype(str).str.contains(w_keyword.value, case=False, na=False)
         ]
-    # Step 2: Load only embeddings for the filtered rows
-    model, ids_list, emb_tensor = get_semantic_resources()
-    # Create a mask for filtered IDs
     filtered_ids = filt["id"].tolist()
     id_to_index = {id_: i for i, id_ in enumerate(ids_list)}
     filtered_indices = [id_to_index[id_] for id_ in filtered_ids if id_ in id_to_index]
-    # Subset the embedding tensor
     filtered_embs = emb_tensor[filtered_indices]
-    # Step 3: Semantic search only within filtered subset
     q_vec = model.encode(query, convert_to_tensor=True, device="cpu").cpu()
     sims = util.cos_sim(q_vec, filtered_embs)[0]
     top_vals, top_idx = torch.topk(sims, k=50)
     top_filtered_ids = [filtered_ids[i] for i in top_idx.tolist()]
     sem_rows = filt[filt["id"].isin(top_filtered_ids)].copy()
     score_map = dict(zip(top_filtered_ids, top_vals.tolist()))
     sem_rows["Score"] = sem_rows["id"].map(score_map)
     sem_rows = sem_rows.sort_values("Score", ascending=False)
-    # Final output
-    result_table.value = sem_rows[["Score", "country", "year", "question_text", "answer_text"]]
-    filt = df.copy()
-    if w_countries.value:
-        filt = filt[filt["country"].isin(w_countries.value)]
-    if w_years.value:
-        filt = filt[filt["year"].isin(w_years.value)]
-    if w_keyword.value:
-        filt = filt[
-            filt["question_text"].str.contains(w_keyword.value, case=False, na=False) |
-            filt["answer_text"].str.contains(w_keyword.value, case=False, na=False) |
-            filt["question_code"].astype(str).str.contains(w_keyword.value, case=False, na=False)
-        ]
-    remainder = filt.loc[~filt["id"].isin(sem_ids)].copy()
-    remainder["Score"] = ""
-    combined = pd.concat([sem_rows, remainder], ignore_index=True)
-    result_table.value = combined[["Score", "country", "year", "question_text", "answer_text"]]
 w_search_button.on_click(semantic_search)
 # ──────────────────────────────────────────────────────────────────────
-# 4) Layout
 # ──────────────────────────────────────────────────────────────────────
 sidebar = pn.Column(
     "## 🔎 Filters",
@@ -187,6 +146,8 @@ sidebar = pn.Column(
     pn.Spacer(height=20),
     "## 🧠 Semantic Search",
     w_semquery, w_search_button,
     width=300
 )

 w_semquery = pn.widgets.TextInput(name="Semantic Query")
 w_search_button = pn.widgets.Button(name="Semantic Search", button_type="primary")
+w_clear_filters = pn.widgets.Button(name="Clear Filters", button_type="warning")
 # ──────────────────────────────────────────────────────────────────────
 # 3) Unified Results Table (Tabulator)
     sizing_mode="stretch_width",
     layout='fit_columns',
     show_index=False,
+    show_filter=True
 )
+# ──────────────────────────────────────────────────────────────────────
+# 4) Semantic Search with Filtering
+# ──────────────────────────────────────────────────────────────────────
 def semantic_search(event=None):
     query = w_semquery.value.strip()
     if not query:
         return
+    model, ids_list, emb_tensor = get_semantic_resources()
+    # Apply filters first
     filt = df.copy()
     if w_countries.value:
         filt = filt[filt["country"].isin(w_countries.value)]
             filt["question_code"].astype(str).str.contains(w_keyword.value, case=False, na=False)
         ]
     filtered_ids = filt["id"].tolist()
     id_to_index = {id_: i for i, id_ in enumerate(ids_list)}
     filtered_indices = [id_to_index[id_] for id_ in filtered_ids if id_ in id_to_index]
+    if not filtered_indices:
+        result_table.value = pd.DataFrame(columns=["Score", "country", "year", "question_text", "answer_text"])
+        return
     filtered_embs = emb_tensor[filtered_indices]
     q_vec = model.encode(query, convert_to_tensor=True, device="cpu").cpu()
     sims = util.cos_sim(q_vec, filtered_embs)[0]
     top_vals, top_idx = torch.topk(sims, k=50)
     top_filtered_ids = [filtered_ids[i] for i in top_idx.tolist()]
     sem_rows = filt[filt["id"].isin(top_filtered_ids)].copy()
     score_map = dict(zip(top_filtered_ids, top_vals.tolist()))
     sem_rows["Score"] = sem_rows["id"].map(score_map)
     sem_rows = sem_rows.sort_values("Score", ascending=False)
+    result_table.value = sem_rows[["Score", "country", "year", "question_text", "answer_text"]]
+def clear_filters(event=None):
+    w_countries.value = []
+    w_years.value = []
+    w_keyword.value = ""
+    w_semquery.value = ""
+    result_table.value = df[["country", "year", "question_text", "answer_text"]].copy()
 w_search_button.on_click(semantic_search)
+w_clear_filters.on_click(clear_filters)
 # ──────────────────────────────────────────────────────────────────────
+# 5) Layout
 # ──────────────────────────────────────────────────────────────────────
 sidebar = pn.Column(
     "## 🔎 Filters",
     pn.Spacer(height=20),
     "## 🧠 Semantic Search",
     w_semquery, w_search_button,
+    pn.Spacer(height=20),
+    w_clear_filters,
     width=300
 )