Spaces:

JoeArmani
/

csc525_retrieval_based_chatbot

Sleeping

File size: 13,992 Bytes

300fe5d
f7b283c
300fe5d
f7b283c
 
 
 
 
5b413d1
300fe5d
 
7a0020b
 
 
 
 
 
 
5b413d1
300fe5d
 
5b413d1
7a0020b
f7b283c
 
7a0020b
300fe5d
7a0020b
 
 
 
 
 
 
 
300fe5d
 
 
f7b283c
7a0020b
5b413d1
7a0020b
f7b283c
7a0020b
 
 
f7b283c
5b413d1
300fe5d
 
 
 
 
 
7a0020b
5b413d1
f7b283c
7a0020b
 
5b413d1
f7b283c
7a0020b
f7b283c
 
 
 
 
 
 
 
 
 
5b413d1
7a0020b
 
 
 
 
 
 
5b413d1
7a0020b
f7b283c
 
 
 
 
7a0020b
 
 
 
f7b283c
 
5b413d1
7a0020b
 
 
 
5b413d1
7a0020b
 
 
 
5b413d1
7a0020b
 
5b413d1
7a0020b
 
 
 
 
 
 
f7b283c
300fe5d
7a0020b
 
 
 
 
 
5b413d1
7a0020b
 
5b413d1
7a0020b
 
 
5b413d1
7a0020b
 
5b413d1
7a0020b
 
 
 
5b413d1
7a0020b
 
f7b283c
 
7a0020b
 
 
f7b283c
 
 
 
 
5b413d1
f7b283c
 
 
7a0020b
f7b283c
5b413d1
7a0020b
 
f7b283c
7a0020b
 
 
 
 
 
 
 
5b413d1
7a0020b
 
 
 
 
 
 
f7b283c
7a0020b
 
 
300fe5d
f7b283c
300fe5d
7a0020b
 
 
 
300fe5d
7a0020b

import numpy as np
from typing import List, Tuple, Dict, Any, TYPE_CHECKING
from sklearn.metrics.pairwise import cosine_similarity

from logger_config import config_logger
logger = config_logger(__name__)

if TYPE_CHECKING:
    from tf_data_pipeline import TFDataPipeline

class ResponseQualityChecker:
    """
    Enhanced quality checking that calculates:
      - Relevance between query & responses
      - Diversity among top responses
      - Response length scoring
      - Confidence determination based on multiple thresholds
    """

    def __init__(
        self,
        data_pipeline: 'TFDataPipeline',
        confidence_threshold: float = 0.45,
        diversity_threshold: float = 0.15,
        min_response_length: int = 5,
        similarity_cap: float = 0.85,
    ):
        """
        Args:
            data_pipeline: Reference to TFDataPipeline for encoding
            confidence_threshold: Minimum top_score for a 'confident' result
            diversity_threshold: Minimum required diversity among top responses
            min_response_length: Minimum words for a decent response
            similarity_cap: Cap on pairwise similarity for diversity calc
        """
        self.confidence_threshold = confidence_threshold
        self.diversity_threshold = diversity_threshold
        self.min_response_length = min_response_length
        self.similarity_cap = similarity_cap
        self.data_pipeline = data_pipeline

        # Additional thresholds for more refined checks
        self.thresholds = {
            'relevance': 0.30,     # Slightly relaxed
            'length_score': 0.80,  # Stricter length requirement
            'score_gap': 0.05      # Gap between top scores
        }

    def check_response_quality(
        self,
        query: str,
        responses: List[Tuple[str, float]]
    ) -> Dict[str, Any]:
        """
        Evaluate the quality of a set of ranked responses for a given query.

        Args:
            query: The user's original query
            responses: List of (response_text, score) sorted by descending score

        Returns:
            Dictionary of metrics, including 'is_confident' and others
        """
        if not responses:
            return {
                'response_diversity': 0.0,
                'query_response_relevance': 0.0,
                'is_confident': False,
                'top_score': 0.0,
                'response_length_score': 0.0,
                'top_3_score_gap': 0.0
            }

        # 1) Calculate relevant metrics
        metrics = {}
        metrics['response_diversity'] = self.calculate_diversity(responses)
        metrics['query_response_relevance'] = self.calculate_relevance(query, responses)
        metrics['response_length_score'] = self._average_length_score(responses)
        metrics['top_score'] = responses[0][1]
        metrics['top_3_score_gap'] = self._calculate_score_gap([s for _, s in responses], top_n=3)

        # 2) Determine confidence
        metrics['is_confident'] = self._determine_confidence(metrics)
        logger.info(f"Quality metrics: {metrics}")
        return metrics

    def calculate_relevance(self, query: str, responses: List[Tuple[str, float]]) -> float:
        """
        Compute an overall 'relevance' metric between the query and the top responses.
        Uses an exponential transform on the similarity to penalize weaker matches.
        """
        if not responses:
            return 0.0

        # Encode query and responses
        query_emb = self.data_pipeline.encode_query(query)
        resp_texts = [r for r, _ in responses]
        resp_embs = self.data_pipeline.encode_responses(resp_texts)

        # Normalize embeddings
        query_emb = query_emb / (np.linalg.norm(query_emb) + 1e-12)
        resp_norms = np.linalg.norm(resp_embs, axis=1, keepdims=True) + 1e-12
        resp_embs = resp_embs / resp_norms

        # Cosine similarity
        sims = cosine_similarity([query_emb], resp_embs)[0]

        # Exponential transform: higher sims remain close to 1, lower sims drop quickly
        sims = np.exp(sims - 1.0)

        # Weighted average: give heavier weighting to higher-ranked items
        weights = np.exp(-np.arange(len(sims)) / 2.0)
        weighted_avg = np.average(sims, weights=weights)
        return float(weighted_avg)

    def calculate_diversity(self, responses: List[Tuple[str, float]]) -> float:
        """
        Calculate how 'different' the top responses are from each other.
        Diversity = 1 - avg_cosine_similarity (capped).
        """
        if len(responses) < 2:
            return 1.0  # Single response is trivially 'unique'

        resp_texts = [r for r, _ in responses]
        embs = self.data_pipeline.encode_responses(resp_texts)

        # Pairwise similarity
        sim_matrix = cosine_similarity(embs, embs)
        np.fill_diagonal(sim_matrix, 0.0)

        # Cap similarity to avoid outliers
        sim_matrix = np.minimum(sim_matrix, self.similarity_cap)

        # Mean off-diagonal similarity
        sum_sims = np.sum(sim_matrix)
        num_pairs = len(resp_texts) * (len(resp_texts) - 1)
        avg_sim = sum_sims / num_pairs if num_pairs > 0 else 0.0

        # Invert to get diversity
        return 1.0 - avg_sim

    def _determine_confidence(self, metrics: Dict[str, float]) -> bool:
        """
        Decide if we're 'confident' based on multiple metric thresholds.
        """
        primary_conditions = [
            metrics['top_score'] >= self.confidence_threshold,
            metrics['response_diversity'] >= self.diversity_threshold,
            metrics['response_length_score'] >= self.thresholds['length_score']
        ]

        secondary_conditions = [
            metrics['query_response_relevance'] >= self.thresholds['relevance'],
            metrics['top_3_score_gap'] >= self.thresholds['score_gap'],
            metrics['top_score'] >= (self.confidence_threshold + 0.05)  # Extra buffer
        ]

        # Must pass all primary checks, and at least 2 of the 3 secondary
        return all(primary_conditions) and (sum(secondary_conditions) >= 2)

    def _average_length_score(self, responses: List[Tuple[str, float]]) -> float:
        """
        Compute an average length score across all responses.
        """
        length_scores = []
        for response, _ in responses:
            length_scores.append(self._length_score(response))
        return float(np.mean(length_scores)) if length_scores else 0.0

    def _length_score(self, text: str) -> float:
        """
        Calculate how well the text meets our length requirement.
        Scores 1.0 if text is >= min_response_length and not too long,
        else it scales down.
        """
        words = len(text.split())
        if words < self.min_response_length:
            return words / float(self.min_response_length)
        elif words > 60:  
            return max(0.5, 60.0 / words)  # Slight penalty for very long
        return 1.0

    def _calculate_score_gap(self, scores: List[float], top_n: int = 3) -> float:
        """
        Calculate the average gap between consecutive scores in the top N.
        """
        if len(scores) < 2:
            return 0.0
        top_n = min(len(scores), top_n)
        gaps = []
        for i in range(top_n - 1):
            gaps.append(scores[i] - scores[i + 1])
        return float(np.mean(gaps)) if gaps else 0.0

# import numpy as np
# from typing import List, Tuple, Dict, Any, TYPE_CHECKING
# from sklearn.metrics.pairwise import cosine_similarity

# from logger_config import config_logger
# logger = config_logger(__name__)

# if TYPE_CHECKING:
#     from tf_data_pipeline import TFDataPipeline

# class ResponseQualityChecker:
#     """Enhanced quality checking with dynamic thresholds."""

#     def __init__(
#         self,
#         data_pipeline: 'TFDataPipeline',
#         confidence_threshold: float = 0.4,
#         diversity_threshold: float = 0.15,
#         min_response_length: int = 5,
#         similarity_cap: float = 0.85  # Renamed from max_similarity_ratio and used in diversity calc
#     ):
#         self.confidence_threshold = confidence_threshold
#         self.diversity_threshold = diversity_threshold
#         self.min_response_length = min_response_length
#         self.similarity_cap = similarity_cap
#         self.data_pipeline = data_pipeline  # Reference to TFDataPipeline

#         # Dynamic thresholds based on response patterns
#         self.thresholds = {
#             'relevance': 0.35,    
#             'length_score': 0.85,  
#             'score_gap': 0.04     
#         }

#     def check_response_quality(
#         self,
#         query: str,
#         responses: List[Tuple[str, float]]
#     ) -> Dict[str, Any]:
#         """
#         Evaluate the quality of responses based on various metrics.

#         Args:
#             query: The user's query
#             responses: List of (response_text, score) tuples

#         Returns:
#             Dict containing quality metrics and confidence assessment
#         """
#         if not responses:
#             return {
#                 'response_diversity': 0.0,
#                 'query_response_relevance': 0.0,
#                 'is_confident': False,
#                 'top_score': 0.0,
#                 'response_length_score': 0.0,
#                 'top_3_score_gap': 0.0
#             }

#         # Calculate core metrics
#         metrics = {
#             'response_diversity': self.calculate_diversity(responses),
#             'query_response_relevance': self.calculate_relevance(query, responses),
#             'response_length_score': np.mean([
#                 self._calculate_length_score(response) for response, _ in responses
#             ]),
#             'top_score': responses[0][1],
#             'top_3_score_gap': self._calculate_score_gap([score for _, score in responses], top_n=3)
#         }

#         # Determine confidence using thresholds
#         metrics['is_confident'] = self._determine_confidence(metrics)

#         logger.info(f"Quality metrics: {metrics}")
#         return metrics

#     def calculate_relevance(self, query: str, responses: List[Tuple[str, float]]) -> float:
#         """Calculate relevance with stricter scoring."""
#         if not responses:
#             return 0.0

#         query_embedding = self.data_pipeline.encode_query(query)
#         response_texts = [resp for resp, _ in responses]
#         response_embeddings = self.data_pipeline.encode_responses(response_texts)

#         # Normalize embeddings
#         query_embedding = query_embedding / np.linalg.norm(query_embedding)
#         response_embeddings = response_embeddings / np.linalg.norm(response_embeddings, axis=1)[:, np.newaxis]

#         # Compute similarities with exponential decay for far matches
#         similarities = cosine_similarity([query_embedding], response_embeddings)[0]
#         similarities = np.exp(similarities - 1)  # Penalize lower similarities more strongly

#         # Apply stronger position weighting
#         weights = np.exp(-np.arange(len(similarities)) / 2)
        
#         return float(np.average(similarities, weights=weights))

#     def calculate_diversity(self, responses: List[Tuple[str, float]]) -> float:
#         """Calculate diversity with length normalization and similarity capping."""
#         if not responses:
#             return 0.0

#         response_texts = [resp for resp, _ in responses]
#         embeddings = self.data_pipeline.encode_responses(response_texts)
#         if len(embeddings) < 2:
#             return 1.0

#         # Calculate pairwise cosine similarities
#         similarity_matrix = cosine_similarity(embeddings)
#         np.fill_diagonal(similarity_matrix, 0)  # Exclude self-similarity

#         # Apply similarity cap
#         similarity_matrix = np.minimum(similarity_matrix, self.similarity_cap)

#         # Calculate average similarity
#         sum_similarities = np.sum(similarity_matrix)
#         num_pairs = len(embeddings) * (len(embeddings) - 1)
#         avg_similarity = sum_similarities / num_pairs if num_pairs > 0 else 0.0

#         # Diversity is inversely related to average similarity
#         diversity_score = 1 - avg_similarity
#         return diversity_score

#     def _determine_confidence(self, metrics: Dict[str, float]) -> bool:
#         """Determine confidence using primary and secondary conditions."""
#         # Primary conditions (must all be met)
#         primary_conditions = [
#             metrics['top_score'] >= self.confidence_threshold,
#             metrics['response_diversity'] >= self.diversity_threshold,
#             metrics['response_length_score'] >= self.thresholds['length_score']
#         ]

#         # Secondary conditions (majority must be met)
#         secondary_conditions = [
#             metrics['query_response_relevance'] >= self.thresholds['relevance'],
#             metrics['top_3_score_gap'] >= self.thresholds['score_gap'],
#             metrics['top_score'] >= (self.confidence_threshold * 1.1)  # Extra confidence boost
#         ]

#         return all(primary_conditions) and sum(secondary_conditions) >= 2

#     def _calculate_length_score(self, response: str) -> float:
#         """Calculate length score with penalty for very short or long responses."""
#         words = len(response.split())

#         if words < self.min_response_length:
#             return words / self.min_response_length
#         elif words > 50:  # Penalty for very long responses
#             return min(1.0, 50 / words)
#         return 1.0

#     def _calculate_score_gap(self, scores: List[float], top_n: int = 3) -> float:
#         """Calculate average gap between top N scores."""
#         if len(scores) < top_n + 1:
#             return 0.0
#         gaps = [scores[i] - scores[i + 1] for i in range(min(len(scores) - 1, top_n))]
#         return np.mean(gaps)