Spaces:

sagar008
/

unified-analysis-for-legal-docs

Sleeping

File size: 5,686 Bytes

# clause_tagger.py
from typing import List, Dict, Any
from sentence_transformers import SentenceTransformer
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import csv
import os

class ClauseTagger:
    def __init__(self):
        self.embedding_model = None
        self.clause_reference = []
        
    async def initialize(self):
        """Initialize embedding model and load clause references"""
        if self.embedding_model is None:
            print("🧠 Loading embedding model for clause tagging...")
            
            # Set cache directory explicitly for HF Spaces
            cache_folder = "/tmp/sentence_transformers_cache"
            os.makedirs(cache_folder, exist_ok=True)
            
            # Use a legal-domain model with explicit cache directory
            self.embedding_model = SentenceTransformer(
                'law-ai/InLegalBERT',
                cache_folder=cache_folder
            )
            print("✅ Embedding model loaded")
        
        # Load clause references
        self.clause_reference = self._load_clause_reference()
        if self.clause_reference:
            # Pre-embed clause references
            clause_texts = [clause['text'] for clause in self.clause_reference]
            clause_embeddings = self.embedding_model.encode(clause_texts)
            for i, clause in enumerate(self.clause_reference):
                clause['embedding'] = clause_embeddings[i]
            print(f"📋 Loaded and embedded {len(self.clause_reference)} clause references")
    
    def _load_clause_reference(self) -> List[Dict[str, Any]]:
        """Load clause reference data"""
        clause_file = "clause_refrence.csv"  # Your existing file
        if not os.path.exists(clause_file):
            print(f"⚠️ Clause reference file not found: {clause_file}")
            return []
        
        clauses = []
        try:
            with open(clause_file, 'r', encoding='utf-8') as f:
                reader = csv.DictReader(f)
                for row in reader:
                    clauses.append({
                        'id': row.get('id', ''),
                        'type': row.get('type', ''),
                        'text': row.get('text', ''),
                        'category': row.get('category', 'general')
                    })
        except Exception as e:
            print(f"❌ Error loading clause reference: {e}")
            return []
        
        return clauses
    
    async def tag_clauses(self, chunks: List[str]) -> List[Dict[str, Any]]:
        """Tag clauses in document chunks - GENERATES NEW EMBEDDINGS"""
        if not self.clause_reference:
            return []
        
        print(f"🏷️ Tagging clauses in {len(chunks)} chunks...")
        
        # Embed all chunks
        chunk_embeddings = self.embedding_model.encode(chunks)
        
        tagged_clauses = []
        
        for chunk_idx, chunk in enumerate(chunks):
            chunk_embedding = chunk_embeddings[chunk_idx]
            
            # Find best matching clauses for this chunk
            for clause in self.clause_reference:
                similarity = cosine_similarity(
                    [chunk_embedding], 
                    [clause['embedding']]
                )[0][0]
                
                # Only include matches above threshold
                if similarity > 0.7:
                    tagged_clauses.append({
                        'clause_id': clause['id'],
                        'clause_type': clause['type'],
                        'clause_category': clause['category'],
                        'matched_text': chunk[:200] + '...' if len(chunk) > 200 else chunk,
                        'similarity_score': float(similarity),
                        'chunk_index': chunk_idx,
                        'reference_text': clause['text']
                    })
        
        # Sort by similarity score and return top matches
        tagged_clauses.sort(key=lambda x: x['similarity_score'], reverse=True)
        return tagged_clauses[:20]

    async def tag_clauses_with_embeddings(self, chunk_data: List[Dict]) -> List[Dict[str, Any]]:
        """Tag clauses using pre-computed embeddings - OPTIMIZED VERSION"""
        if not self.clause_reference:
            return []
            
        print(f"🏷️ Tagging clauses using pre-computed embeddings for {len(chunk_data)} chunks...")
        
        tagged_clauses = []
        
        for chunk_idx, chunk_info in enumerate(chunk_data):
            chunk_embedding = chunk_info["embedding"]
            
            if chunk_embedding is None:
                continue
                
            # Find best matching clauses using pre-computed embedding
            for clause in self.clause_reference:
                similarity = cosine_similarity(
                    [chunk_embedding], 
                    [clause['embedding']]
                )[0][0]
                
                if similarity > 0.7:
                    tagged_clauses.append({
                        'clause_id': clause['id'],
                        'clause_type': clause['type'],
                        'clause_category': clause['category'],
                        'matched_text': chunk_info["text"][:200] + '...' if len(chunk_info["text"]) > 200 else chunk_info["text"],
                        'similarity_score': float(similarity),
                        'chunk_index': chunk_idx,
                        'reference_text': clause['text']
                    })
        
        tagged_clauses.sort(key=lambda x: x['similarity_score'], reverse=True)
        return tagged_clauses[:6]