Spaces:

Testys
/

semantic-search

Sleeping

Testys commited on Mar 15

Commit

b73a811

1 Parent(s): a223079

Update search_utils.py

Files changed (1) hide show

search_utils.py CHANGED Viewed

@@ -141,4 +141,29 @@ class SemanticSearch:
             np.array(all_distances[:min_length]),
             np.array(all_global_indices[:min_length]),
             top_k
-        )

             np.array(all_distances[:min_length]),
             np.array(all_global_indices[:min_length]),
             top_k
+        )
+    def _process_results(self, distances, global_indices, top_k):
+        """Process raw search results into formatted DataFrame"""
+        if len(global_indices) == 0 or len(distances) == 0:
+            return pd.DataFrame(columns=["title", "summary", "source", "similarity"])
+        try:
+            # Get metadata for valid indices
+            results = self.metadata_mgr.get_metadata(global_indices)
+            # Calculate similarity scores (convert L2 distance to cosine similarity approximation)
+            results['similarity'] = 1 - (distances / 2)
+            # Deduplicate results based on title and source
+            results = results.drop_duplicates(subset=["title", "source"])
+            # Sort by similarity and select top results
+            results = results.sort_values("similarity", ascending=False).head(top_k)
+            # Reset index for clean display
+            return results.reset_index(drop=True)
+        except Exception as e:
+            st.error(f"Error processing results: {str(e)}")
+            return pd.DataFrame(columns=["title", "summary", "source", "similarity"])