Spaces:

sagar008
/

unified-analysis-for-legal-docs

Sleeping

App Files Files Community

sagar008 commited on Aug 10

Commit

a5a31ff

verified ·

1 Parent(s): 96b5525

Update vector_store.py

Browse files

Files changed (1) hide show

vector_store.py +32 -34

vector_store.py CHANGED Viewed

@@ -3,12 +3,11 @@
 Vector store integration for legal document embeddings using InLegalBERT and Pinecone
 """
 import os
-import pinecone
-from langchain_pinecone import PineconeVectorStore  # ⭐ Modern import
-from langchain.embeddings.base import Embeddings
-from langchain.text_splitter import RecursiveCharacterTextSplitter
 import numpy as np
 from typing import List, Dict, Any
 class InLegalBERTEmbeddings(Embeddings):
     """Custom LangChain embeddings wrapper for InLegalBERT"""
@@ -61,31 +60,30 @@ class LegalDocumentVectorStore:
         self._initialized = True
-    def save_document_embeddings(self, document_text: str, document_id: str,
-                               analysis_results: Dict[str, Any], clause_tagger) -> bool:
-        """Save document embeddings using InLegalBERT model"""
         try:
             self._initialize_pinecone()
-            # Use the clause tagger's InLegalBERT model
-            legal_embeddings = InLegalBERTEmbeddings(clause_tagger.embedding_model)
-            # Split document into chunks
-            text_splitter = RecursiveCharacterTextSplitter(
-                chunk_size=1000,
-                chunk_overlap=200,
-                separators=["\n\n", "\n", ".", "!", "?", ",", " ", ""]
-            )
-            chunks = text_splitter.split_text(document_text)
-            # Prepare metadata with analysis results
             metadatas = []
-            for i, chunk in enumerate(chunks):
                 metadata = {
                     'document_id': document_id,
                     'chunk_index': i,
-                    'total_chunks': len(chunks),
                     'source': 'legal_document',
                     'has_key_clauses': len(analysis_results.get('key_clauses', [])) > 0,
                     'risk_count': len(analysis_results.get('risky_terms', [])),
@@ -94,26 +92,25 @@ class LegalDocumentVectorStore:
                 }
                 metadatas.append(metadata)
-            # Create vector store using modern API
             index = self.pc.Index(self.index_name)
-            vectorstore = PineconeVectorStore(
-                index=index,
-                embedding=legal_embeddings,
-                text_key="text"
-            )
-            # Add documents to Pinecone
-            vectorstore.add_texts(
-                texts=chunks,
-                metadatas=metadatas,
-                ids=[f"{document_id}_chunk_{i}" for i in range(len(chunks))]
-            )
-            print(f"✅ Saved {len(chunks)} chunks using InLegalBERT embeddings for document {document_id}")
             return True
         except Exception as e:
-            print(f"❌ Error saving to Pinecone: {e}")
             return False
     def get_retriever(self, clause_tagger, document_id: str = None):
@@ -143,3 +140,4 @@ class LegalDocumentVectorStore:
 # Global instance
 vector_store = LegalDocumentVectorStore()

 Vector store integration for legal document embeddings using InLegalBERT and Pinecone
 """
 import os
 import numpy as np
 from typing import List, Dict, Any
+from langchain_pinecone import PineconeVectorStore
+from langchain.embeddings.base import Embeddings
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 class InLegalBERTEmbeddings(Embeddings):
     """Custom LangChain embeddings wrapper for InLegalBERT"""
         self._initialized = True
+    def save_document_embeddings_optimized(self, chunk_data: List[Dict], document_id: str,
+                                         analysis_results: Dict[str, Any]) -> bool:
+        """Save embeddings using pre-computed vectors - NO RE-EMBEDDING"""
         try:
             self._initialize_pinecone()
+            # Use pre-computed embeddings instead of re-generating
+            texts = [chunk["text"] for chunk in chunk_data]
+            embeddings = [chunk["embedding"].tolist() for chunk in chunk_data if chunk["embedding"] is not None]
+            if not embeddings:
+                print("⚠️ No embeddings found in chunk_data")
+                return False
+            # Prepare metadata
             metadatas = []
+            for i, chunk_info in enumerate(chunk_data):
+                if chunk_info["embedding"] is None:
+                    continue
                 metadata = {
                     'document_id': document_id,
                     'chunk_index': i,
+                    'total_chunks': len(chunk_data),
                     'source': 'legal_document',
                     'has_key_clauses': len(analysis_results.get('key_clauses', [])) > 0,
                     'risk_count': len(analysis_results.get('risky_terms', [])),
                 }
                 metadatas.append(metadata)
+            # Add to Pinecone using pre-computed embeddings
             index = self.pc.Index(self.index_name)
+            vectors = [
+                {
+                    "id": f"{document_id}_chunk_{i}",
+                    "values": embedding,
+                    "metadata": metadata
+                }
+                for i, (embedding, metadata) in enumerate(zip(embeddings, metadatas))
+            ]
+            index.upsert(vectors=vectors)
+            print(f"✅ Saved {len(vectors)} pre-computed embeddings to Pinecone")
             return True
         except Exception as e:
+            print(f"❌ Error saving pre-computed embeddings: {e}")
             return False
     def get_retriever(self, clause_tagger, document_id: str = None):
 # Global instance
 vector_store = LegalDocumentVectorStore()