Spaces:

Testys
/

semantic-search

Running

App Files Files Community

Testys commited on Mar 15

Commit

2dec497

1 Parent(s): b73a811

Update search_utils.py

Browse files

Files changed (1) hide show

search_utils.py +22 -12

search_utils.py CHANGED Viewed

@@ -37,11 +37,15 @@ class MetadataManager:
     def get_metadata(self, global_indices):
         """Retrieve metadata with validation"""
-        if not global_indices:
             return pd.DataFrame(columns=["title", "summary", "source", "similarity"])
         # Filter valid indices
-        valid_indices = [idx for idx in global_indices if 0 <= idx < self.total_docs]
         if not valid_indices:
             return pd.DataFrame(columns=["title", "summary", "source", "similarity"])
@@ -145,25 +149,31 @@ class SemanticSearch:
     def _process_results(self, distances, global_indices, top_k):
         """Process raw search results into formatted DataFrame"""
-        if len(global_indices) == 0 or len(distances) == 0:
             return pd.DataFrame(columns=["title", "summary", "source", "similarity"])
         try:
-            # Get metadata for valid indices
-            results = self.metadata_mgr.get_metadata(global_indices)
-            # Calculate similarity scores (convert L2 distance to cosine similarity approximation)
             results['similarity'] = 1 - (distances / 2)
-            # Deduplicate results based on title and source
             results = results.drop_duplicates(subset=["title", "source"])
-            # Sort by similarity and select top results
-            results = results.sort_values("similarity", ascending=False).head(top_k)
-            # Reset index for clean display
             return results.reset_index(drop=True)
         except Exception as e:
-            st.error(f"Error processing results: {str(e)}")
             return pd.DataFrame(columns=["title", "summary", "source", "similarity"])

     def get_metadata(self, global_indices):
         """Retrieve metadata with validation"""
+        # Check for empty numpy array properly
+        if isinstance(global_indices, np.ndarray) and global_indices.size == 0:
             return pd.DataFrame(columns=["title", "summary", "source", "similarity"])
+        # Convert numpy array to list for processing
+        indices_list = global_indices.tolist() if isinstance(global_indices, np.ndarray) else global_indices
         # Filter valid indices
+        valid_indices = [idx for idx in indices_list if 0 <= idx < self.total_docs]
         if not valid_indices:
             return pd.DataFrame(columns=["title", "summary", "source", "similarity"])
     def _process_results(self, distances, global_indices, top_k):
         """Process raw search results into formatted DataFrame"""
+        # Proper numpy array emptiness checks
+        if global_indices.size == 0 or distances.size == 0:
             return pd.DataFrame(columns=["title", "summary", "source", "similarity"])
         try:
+            # Convert numpy indices to Python list for metadata retrieval
+            indices_list = global_indices.tolist()
+            # Get metadata for matched indices
+            results = self.metadata_mgr.get_metadata(indices_list)
+            # Ensure distances match results length
+            if len(results) != len(distances):
+                distances = distances[:len(results)]
+            # Calculate similarity scores
             results['similarity'] = 1 - (distances / 2)
+            # Deduplicate and sort results
             results = results.drop_duplicates(subset=["title", "source"])
+                .sort_values("similarity", ascending=False)
+                .head(top_k)
             return results.reset_index(drop=True)
         except Exception as e:
+            st.error(f"Result processing failed: {str(e)}")
             return pd.DataFrame(columns=["title", "summary", "source", "similarity"])