Spaces:

Kazel
/

demo-updated

Running on Zero

App Files Files Community

Kazel commited on 15 days ago

Commit

4e19c9e

1 Parent(s): 6458211

logging

Browse files

Files changed (2) hide show

app.py +311 -3
score_utilizer.py +338 -0

app.py CHANGED Viewed

@@ -18,6 +18,7 @@ import base64
 from PIL import Image
 import io
 import traceback
 from middleware import Middleware
 from rag import Rag
@@ -385,6 +386,7 @@ class PDFSearchApp:
         self.current_pdf = None
         self.db_manager = db_manager
         self.session_manager = session_manager
     def upload_and_convert(self, files, max_pages, folder_name=None):
         """Upload and convert files without authentication or team scoping"""
@@ -597,6 +599,18 @@ class PDFSearchApp:
             # Request 3x the number of results for better selection
             search_results = middleware.search([query], topk=max(num_results * 3, 20))[0]
             # 📊 COMPREHENSIVE SEARCH RESULTS LOGGING
             print(f"\n🔍 SEARCH RESULTS SUMMARY")
             print(f"📄 Retrieved {len(search_results)} total results from search")
@@ -747,6 +761,9 @@ class PDFSearchApp:
             if not img_paths:
                 return "No valid image files found", "--", "Error: No valid image files found for the search results", [], None, None, None, None
             # Generate RAG response with multiple pages using enhanced approach
             try:
                 print("🤖 Generating RAG response...")
@@ -800,6 +817,7 @@ class PDFSearchApp:
     def _select_relevant_pages_new_format(self, search_results, query, num_results):
         """
         Intelligent page selection for new Milvus format: (score, doc_id)
         """
         if len(search_results) <= num_results:
             return search_results
@@ -807,10 +825,114 @@ class PDFSearchApp:
         # Sort by relevance score
         sorted_results = sorted(search_results, key=lambda x: x[0], reverse=True)
-        # Simple strategy: take top N results
-        selected = sorted_results[:num_results]
-        print(f"Requested {num_results} pages, selected {len(selected)} pages")
         return selected
@@ -829,6 +951,192 @@ class PDFSearchApp:
         else:
             return "🔴 POOR - Not relevant"
     def _optimize_consecutive_pages(self, selected, all_results, target_count=None):
         """
         Optimize selection to include consecutive pages when beneficial

 from PIL import Image
 import io
 import traceback
+from score_utilizer import ScoreUtilizer
 from middleware import Middleware
 from rag import Rag
         self.current_pdf = None
         self.db_manager = db_manager
         self.session_manager = session_manager
+        self.score_utilizer = ScoreUtilizer()  # Initialize score utilizer
     def upload_and_convert(self, files, max_pages, folder_name=None):
         """Upload and convert files without authentication or team scoping"""
             # Request 3x the number of results for better selection
             search_results = middleware.search([query], topk=max(num_results * 3, 20))[0]
+            # 🎯 DYNAMIC OPTIMIZATION: Determine optimal page count based on query complexity
+            query_complexity = self._analyze_query_complexity(query)
+            optimal_count = self.get_optimal_page_count(search_results, query_complexity)
+            # Use the optimal count if it's different from requested
+            if optimal_count != num_results:
+                print(f"\n🎯 DYNAMIC OPTIMIZATION APPLIED:")
+                print(f"   Requested pages: {num_results}")
+                print(f"   Optimal pages: {optimal_count}")
+                print(f"   Query complexity: {query_complexity}")
+                num_results = optimal_count
             # 📊 COMPREHENSIVE SEARCH RESULTS LOGGING
             print(f"\n🔍 SEARCH RESULTS SUMMARY")
             print(f"📄 Retrieved {len(search_results)} total results from search")
             if not img_paths:
                 return "No valid image files found", "--", "Error: No valid image files found for the search results", [], None, None, None, None
+            # 🎯 AUTOMATIC HIGHEST-SCORING PAGES UTILIZATION
+            self._utilize_highest_scoring_pages(selected_results, query, page_scores)
             # Generate RAG response with multiple pages using enhanced approach
             try:
                 print("🤖 Generating RAG response...")
     def _select_relevant_pages_new_format(self, search_results, query, num_results):
         """
         Intelligent page selection for new Milvus format: (score, doc_id)
+        Enhanced to automatically use highest-scoring pages with dynamic thresholds
         """
         if len(search_results) <= num_results:
             return search_results
         # Sort by relevance score
         sorted_results = sorted(search_results, key=lambda x: x[0], reverse=True)
+        # 🎯 ENHANCED SELECTION: Use highest-scoring pages with dynamic thresholds
+        selected = self._select_highest_scoring_pages(sorted_results, query, num_results)
+        print(f"Requested {num_results} pages, selected {len(selected)} pages using enhanced scoring")
+        return selected
+    def _select_highest_scoring_pages(self, sorted_results, query, num_results):
+        """
+        Select pages with highest scores using dynamic thresholds and intelligent filtering
+        """
+        if not sorted_results:
+            return []
+        # Extract scores for analysis
+        scores = [result[0] for result in sorted_results]
+        max_score = scores[0]
+        min_score = scores[-1]
+        avg_score = sum(scores) / len(scores)
+        print(f"\n🎯 INTELLIGENT PAGE SELECTION ANALYSIS")
+        print(f"📊 Score Analysis:")
+        print(f"   Highest Score: {max_score:.4f}")
+        print(f"   Lowest Score: {min_score:.4f}")
+        print(f"   Average Score: {avg_score:.4f}")
+        print(f"   Score Range: {max_score - min_score:.4f}")
+        # Dynamic threshold calculation
+        # Use multiple strategies to determine optimal selection
+        # Strategy 1: Score-based threshold (excellent and very good pages)
+        excellent_threshold = 0.90
+        very_good_threshold = 0.80
+        good_threshold = 0.70
+        excellent_pages = [r for r in sorted_results if r[0] >= excellent_threshold]
+        very_good_pages = [r for r in sorted_results if very_good_threshold <= r[0] < excellent_threshold]
+        good_pages = [r for r in sorted_results if good_threshold <= r[0] < very_good_threshold]
+        print(f"\n📈 RELEVANCE-BASED SELECTION:")
+        print(f"   🟢 Excellent pages (≥{excellent_threshold}): {len(excellent_pages)}")
+        print(f"   🟡 Very Good pages ({very_good_threshold}-{excellent_threshold}): {len(very_good_pages)}")
+        print(f"   🟠 Good pages ({good_threshold}-{very_good_threshold}): {len(good_pages)}")
+        # Strategy 2: Statistical threshold (top percentile)
+        top_20_percent = max(1, int(len(sorted_results) * 0.2))
+        top_30_percent = max(1, int(len(sorted_results) * 0.3))
+        # Strategy 3: Score gap analysis (find natural breaks)
+        score_gaps = []
+        for i in range(len(scores) - 1):
+            gap = scores[i] - scores[i + 1]
+            score_gaps.append((gap, i))
+        # Find significant score gaps (natural breaks)
+        score_gaps.sort(reverse=True)
+        significant_gaps = [gap for gap, idx in score_gaps[:3] if gap > 0.05]  # Gaps > 0.05
+        print(f"\n📊 STATISTICAL ANALYSIS:")
+        print(f"   Top 20% of results: {top_20_percent} pages")
+        print(f"   Top 30% of results: {top_30_percent} pages")
+        print(f"   Significant score gaps found: {len(significant_gaps)}")
+        # Intelligent selection logic
+        selected = []
+        # Priority 1: Always include excellent pages
+        selected.extend(excellent_pages)
+        # Priority 2: Include very good pages if we need more
+        if len(selected) < num_results:
+            remaining_slots = num_results - len(selected)
+            selected.extend(very_good_pages[:remaining_slots])
+        # Priority 3: Include good pages if we still need more
+        if len(selected) < num_results:
+            remaining_slots = num_results - len(selected)
+            selected.extend(good_pages[:remaining_slots])
+        # Priority 4: If we still need more, use statistical approach
+        if len(selected) < num_results:
+            remaining_slots = num_results - len(selected)
+            # Use top percentile approach
+            additional_pages = sorted_results[len(selected):len(selected) + remaining_slots]
+            selected.extend(additional_pages)
+        # Ensure we don't exceed the requested number
+        selected = selected[:num_results]
+        # Log the selection strategy used
+        print(f"\n🎯 SELECTION STRATEGY APPLIED:")
+        if len(excellent_pages) > 0:
+            print(f"   ✅ Included {len([p for p in selected if p[0] >= excellent_threshold])} excellent pages")
+        if len(very_good_pages) > 0:
+            print(f"   ✅ Included {len([p for p in selected if very_good_threshold <= p[0] < excellent_threshold])} very good pages")
+        if len(good_pages) > 0:
+            print(f"   ✅ Included {len([p for p in selected if good_threshold <= p[0] < very_good_threshold])} good pages")
+        # Calculate quality metrics
+        if selected:
+            selected_scores = [s[0] for s in selected]
+            avg_selected = sum(selected_scores) / len(selected_scores)
+            quality_improvement = avg_selected - avg_score
+            print(f"\n📊 SELECTION QUALITY METRICS:")
+            print(f"   Average selected score: {avg_selected:.4f}")
+            print(f"   Quality improvement: {quality_improvement:+.4f}")
+            print(f"   Score consistency: {max(selected_scores) - min(selected_scores):.4f}")
         return selected
         else:
             return "🔴 POOR - Not relevant"
+    def extract_top_scoring_pages_from_logs(self, log_output=None):
+        """
+        Extract and parse highest-scoring pages from log outputs
+        This function can be used to retrieve the top pages based on logged scores
+        """
+        # This would typically parse actual log output, but for now we'll return
+        # the current selection results for demonstration
+        print(f"\n🔍 EXTRACTING TOP-SCORING PAGES FROM LOGS")
+        print(f"📊 This function can parse log outputs to extract highest-scoring pages")
+        print(f"🎯 Use this for automated retrieval of best pages based on scores")
+        # In a real implementation, this would parse log files or capture log output
+        # For now, we'll return a summary of what would be extracted
+        return {
+            "excellent_pages": "Pages with scores ≥ 0.90",
+            "very_good_pages": "Pages with scores 0.80-0.89",
+            "good_pages": "Pages with scores 0.70-0.79",
+            "extraction_method": "Automated log parsing with score thresholds"
+        }
+    def get_optimal_page_count(self, search_results, query_complexity="medium"):
+        """
+        Dynamically determine optimal number of pages based on query complexity and score distribution
+        """
+        if not search_results:
+            return 1
+        scores = [result[0] for result in search_results]
+        max_score = max(scores)
+        avg_score = sum(scores) / len(scores)
+        # Base count based on query complexity
+        base_counts = {
+            "simple": 2,
+            "medium": 3,
+            "complex": 5,
+            "comprehensive": 7
+        }
+        base_count = base_counts.get(query_complexity, 3)
+        # Adjust based on score quality
+        if max_score >= 0.90:
+            # High-quality results available, can use fewer pages
+            multiplier = 0.8
+        elif max_score >= 0.80:
+            # Good results, use standard count
+            multiplier = 1.0
+        elif max_score >= 0.70:
+            # Moderate results, might need more pages
+            multiplier = 1.2
+        else:
+            # Lower quality results, use more pages for better coverage
+            multiplier = 1.5
+        optimal_count = max(1, int(base_count * multiplier))
+        print(f"\n🎯 OPTIMAL PAGE COUNT CALCULATION:")
+        print(f"   Query complexity: {query_complexity}")
+        print(f"   Base count: {base_count}")
+        print(f"   Score quality multiplier: {multiplier:.1f}")
+        print(f"   Optimal count: {optimal_count}")
+        return min(optimal_count, len(search_results))
+    def _utilize_highest_scoring_pages(self, selected_results, query, page_scores):
+        """
+        Automatically utilize the highest-scoring pages based on the retrieval results
+        This method demonstrates how to extract and use the best pages from the logs
+        """
+        print(f"\n🎯 AUTOMATIC HIGHEST-SCORING PAGES UTILIZATION")
+        print("=" * 60)
+        if not selected_results or not page_scores:
+            print("❌ No results or scores available for utilization")
+            return
+        # Create a mock log output for demonstration (in real usage, this would come from actual logs)
+        mock_log_output = self._create_mock_log_output(selected_results, page_scores)
+        # Parse the log output using ScoreUtilizer
+        parsed_data = self.score_utilizer.parse_log_output(mock_log_output)
+        # Get highest-scoring pages
+        top_pages = self.score_utilizer.get_highest_scoring_pages(parsed_data, 3)
+        excellent_pages = self.score_utilizer.get_pages_by_threshold(parsed_data, 0.90)
+        very_good_pages = self.score_utilizer.get_pages_by_threshold(parsed_data, 0.80)
+        print(f"🏆 UTILIZATION RESULTS:")
+        print(f"   Top 3 highest-scoring pages identified")
+        print(f"   🟢 Excellent pages (≥0.90): {len(excellent_pages)}")
+        print(f"   🟡 Very Good pages (≥0.80): {len(very_good_pages)}")
+        # Generate utilization report
+        utilization_report = self.score_utilizer.generate_utilization_report(parsed_data)
+        print(f"\n{utilization_report}")
+        # Store utilization data for potential future use
+        self._store_utilization_data(parsed_data, query)
+        print("✅ Highest-scoring pages utilization completed")
+        print("=" * 60)
+    def _create_mock_log_output(self, selected_results, page_scores):
+        """
+        Create a mock log output for demonstration purposes
+        In real usage, this would capture actual log output from the retrieval process
+        """
+        log_lines = []
+        log_lines.append("=" * 80)
+        log_lines.append("📊 RETRIEVAL SCORES - PAGE NUMBERS WITH HIGHEST SCORES")
+        log_lines.append("=" * 80)
+        log_lines.append("🔍 Collection: current_collection")
+        log_lines.append(f"📄 Total documents found: {len(selected_results)}")
+        log_lines.append(f"🎯 Requested top-k: {len(selected_results)}")
+        log_lines.append("-" * 80)
+        for i, ((score, doc_id), page_score) in enumerate(zip(selected_results, page_scores)):
+            page_num = doc_id + 1
+            relevance_level = self._get_relevance_level(score)
+            log_lines.append(f"📄 Page {page_num:2d} (doc_id: {doc_id:2d}) | Score: {score:8.4f} | {relevance_level}")
+        log_lines.append("-" * 80)
+        log_lines.append("🏆 HIGHEST SCORING PAGES:")
+        top_3 = selected_results[:3]
+        for i, (score, doc_id) in enumerate(top_3, 1):
+            page_num = doc_id + 1
+            log_lines.append(f"   {i}. Page {page_num} - Score: {score:.4f}")
+        log_lines.append("=" * 80)
+        return "\n".join(log_lines)
+    def _store_utilization_data(self, parsed_data, query):
+        """
+        Store utilization data for future reference and analysis
+        """
+        try:
+            # In a real implementation, this would store to a database or file
+            utilization_record = {
+                'query': query,
+                'timestamp': datetime.now().isoformat(),
+                'top_pages': parsed_data.get('top_pages', []),
+                'statistics': parsed_data.get('statistics', {}),
+                'relevance_distribution': parsed_data.get('relevance_distribution', {})
+            }
+            # For now, just log the utilization data
+            print(f"💾 Utilization data stored for query: '{query[:50]}...'")
+            print(f"   Top pages: {len(utilization_record['top_pages'])}")
+            print(f"   Statistics available: {len(utilization_record['statistics'])} metrics")
+        except Exception as e:
+            print(f"⚠️ Warning: Could not store utilization data: {e}")
+    def _analyze_query_complexity(self, query):
+        """
+        Analyze query complexity to determine optimal page count
+        """
+        query_lower = query.lower()
+        # Simple queries (1-2 concepts)
+        simple_indicators = ['what is', 'define', 'explain', 'how many', 'when', 'where']
+        simple_count = sum(1 for indicator in simple_indicators if indicator in query_lower)
+        # Complex queries (multiple concepts, comparisons, analysis)
+        complex_indicators = ['compare', 'analyze', 'evaluate', 'relationship', 'difference', 'similarity', 'versus', 'vs']
+        complex_count = sum(1 for indicator in complex_indicators if indicator in query_lower)
+        # Comprehensive queries (detailed analysis, multiple aspects)
+        comprehensive_indicators = ['comprehensive', 'detailed', 'complete', 'thorough', 'all aspects', 'everything about']
+        comprehensive_count = sum(1 for indicator in comprehensive_indicators if indicator in query_lower)
+        # Count question words and conjunctions
+        question_words = query_lower.count('?') + query_lower.count(' and ') + query_lower.count(' or ') + query_lower.count(' but ')
+        # Determine complexity
+        if comprehensive_count > 0 or question_words > 2:
+            return "comprehensive"
+        elif complex_count > 0 or question_words > 1:
+            return "complex"
+        elif simple_count > 0 and question_words <= 1:
+            return "simple"
+        else:
+            return "medium"
     def _optimize_consecutive_pages(self, selected, all_results, target_count=None):
         """
         Optimize selection to include consecutive pages when beneficial

score_utilizer.py ADDED Viewed

	@@ -0,0 +1,338 @@

+#!/usr/bin/env python3
+"""
+Score Utilizer - Extract and utilize highest-scoring pages from retrieval logs
+This module provides utilities to parse log outputs and retrieve the best pages based on scores.
+"""
+import re
+import json
+from typing import List, Dict, Tuple, Optional
+class ScoreUtilizer:
+    """
+    Utility class to extract and utilize highest-scoring pages from retrieval logs
+    """
+    def __init__(self):
+        self.score_patterns = {
+            'page_score': r'Page\s+(\d+)\s+\(doc_id:\s*(\d+)\)\s*\|\s*Score:\s*([\d.]+)',
+            'highest_scoring': r'(\d+)\.\s*Page\s+(\d+)\s+-\s*Score:\s*([\d.]+)',
+            'relevance_level': r'([🟢🟡🟠🔵🟣🔴])\s+([A-Z\s]+)\s+-\s+(.+)'
+        }
+    def parse_log_output(self, log_text: str) -> Dict:
+        """
+        Parse log output to extract page scores and relevance information
+        Args:
+            log_text: Raw log output from the retrieval system
+        Returns:
+            Dictionary containing parsed page scores and metadata
+        """
+        print("🔍 PARSING LOG OUTPUT FOR HIGHEST-SCORING PAGES")
+        print("=" * 60)
+        # Extract page scores
+        page_scores = self._extract_page_scores(log_text)
+        # Extract highest scoring pages
+        top_pages = self._extract_top_pages(log_text)
+        # Extract relevance distribution
+        relevance_dist = self._extract_relevance_distribution(log_text)
+        # Extract statistics
+        stats = self._extract_statistics(log_text)
+        result = {
+            'page_scores': page_scores,
+            'top_pages': top_pages,
+            'relevance_distribution': relevance_dist,
+            'statistics': stats,
+            'parsed_at': self._get_timestamp()
+        }
+        print(f"✅ Successfully parsed {len(page_scores)} page scores")
+        print(f"🏆 Found {len(top_pages)} top-scoring pages")
+        print("=" * 60)
+        return result
+    def _extract_page_scores(self, log_text: str) -> List[Dict]:
+        """Extract individual page scores from log text"""
+        page_scores = []
+        # Pattern: "Page  1 (doc_id:  0) | Score:   0.9234 | 🟢 EXCELLENT - Highly relevant"
+        pattern = self.score_patterns['page_score']
+        matches = re.findall(pattern, log_text)
+        for match in matches:
+            page_num, doc_id, score = match
+            page_scores.append({
+                'page_number': int(page_num),
+                'doc_id': int(doc_id),
+                'score': float(score),
+                'relevance_level': self._get_relevance_level(float(score))
+            })
+        # Sort by score (highest first)
+        page_scores.sort(key=lambda x: x['score'], reverse=True)
+        return page_scores
+    def _extract_top_pages(self, log_text: str) -> List[Dict]:
+        """Extract top-scoring pages from log text"""
+        top_pages = []
+        # Pattern: "1. Page 1 - Score: 0.9234"
+        pattern = self.score_patterns['highest_scoring']
+        matches = re.findall(pattern, log_text)
+        for match in matches:
+            rank, page_num, score = match
+            top_pages.append({
+                'rank': int(rank),
+                'page_number': int(page_num),
+                'score': float(score),
+                'relevance_level': self._get_relevance_level(float(score))
+            })
+        return top_pages
+    def _extract_relevance_distribution(self, log_text: str) -> Dict:
+        """Extract relevance distribution from log text"""
+        distribution = {
+            'excellent': 0,
+            'very_good': 0,
+            'good': 0,
+            'moderate': 0,
+            'basic': 0,
+            'poor': 0
+        }
+        # Look for distribution lines like "🟢 Excellent (≥0.90): 2 pages"
+        patterns = {
+            'excellent': r'🟢\s+Excellent.*?(\d+)\s+pages?',
+            'very_good': r'🟡\s+Very Good.*?(\d+)\s+pages?',
+            'good': r'🟠\s+Good.*?(\d+)\s+pages?',
+            'moderate': r'🔵\s+Moderate.*?(\d+)\s+pages?',
+            'basic': r'🟣\s+Basic.*?(\d+)\s+pages?',
+            'poor': r'🔴\s+Poor.*?(\d+)\s+pages?'
+        }
+        for level, pattern in patterns.items():
+            match = re.search(pattern, log_text)
+            if match:
+                distribution[level] = int(match.group(1))
+        return distribution
+    def _extract_statistics(self, log_text: str) -> Dict:
+        """Extract statistical information from log text"""
+        stats = {}
+        # Extract average score
+        avg_match = re.search(r'Average.*?Score:\s*([\d.]+)', log_text)
+        if avg_match:
+            stats['average_score'] = float(avg_match.group(1))
+        # Extract highest score
+        high_match = re.search(r'Highest.*?Score:\s*([\d.]+)', log_text)
+        if high_match:
+            stats['highest_score'] = float(high_match.group(1))
+        # Extract lowest score
+        low_match = re.search(r'Lowest.*?Score:\s*([\d.]+)', log_text)
+        if low_match:
+            stats['lowest_score'] = float(low_match.group(1))
+        # Extract total pages
+        total_match = re.search(r'Total.*?(\d+).*?results?', log_text)
+        if total_match:
+            stats['total_pages'] = int(total_match.group(1))
+        return stats
+    def get_highest_scoring_pages(self, parsed_data: Dict, count: int = 5) -> List[Dict]:
+        """
+        Get the highest-scoring pages from parsed data
+        Args:
+            parsed_data: Parsed log data from parse_log_output()
+            count: Number of top pages to return
+        Returns:
+            List of highest-scoring pages
+        """
+        if 'page_scores' not in parsed_data:
+            return []
+        return parsed_data['page_scores'][:count]
+    def get_pages_by_threshold(self, parsed_data: Dict, threshold: float = 0.80) -> List[Dict]:
+        """
+        Get pages that meet or exceed a score threshold
+        Args:
+            parsed_data: Parsed log data from parse_log_output()
+            threshold: Minimum score threshold
+        Returns:
+            List of pages meeting the threshold
+        """
+        if 'page_scores' not in parsed_data:
+            return []
+        return [page for page in parsed_data['page_scores'] if page['score'] >= threshold]
+    def get_pages_by_relevance_level(self, parsed_data: Dict, level: str = 'excellent') -> List[Dict]:
+        """
+        Get pages by specific relevance level
+        Args:
+            parsed_data: Parsed log data from parse_log_output()
+            level: Relevance level ('excellent', 'very_good', 'good', 'moderate', 'basic', 'poor')
+        Returns:
+            List of pages with the specified relevance level
+        """
+        if 'page_scores' not in parsed_data:
+            return []
+        level_mapping = {
+            'excellent': '🟢 EXCELLENT',
+            'very_good': '🟡 VERY GOOD',
+            'good': '🟠 GOOD',
+            'moderate': '🔵 MODERATE',
+            'basic': '🟣 BASIC',
+            'poor': '🔴 POOR'
+        }
+        target_level = level_mapping.get(level, '🟢 EXCELLENT')
+        return [page for page in parsed_data['page_scores'] if target_level in page['relevance_level']]
+    def generate_utilization_report(self, parsed_data: Dict) -> str:
+        """
+        Generate a comprehensive report on how to utilize the highest-scoring pages
+        Args:
+            parsed_data: Parsed log data from parse_log_output()
+        Returns:
+            Formatted report string
+        """
+        report = []
+        report.append("📊 HIGHEST-SCORING PAGES UTILIZATION REPORT")
+        report.append("=" * 60)
+        # Top pages summary
+        top_pages = self.get_highest_scoring_pages(parsed_data, 5)
+        report.append(f"\n🏆 TOP 5 HIGHEST-SCORING PAGES:")
+        for i, page in enumerate(top_pages, 1):
+            report.append(f"   {i}. Page {page['page_number']} - Score: {page['score']:.4f} ({page['relevance_level']})")
+        # Threshold-based recommendations
+        excellent_pages = self.get_pages_by_threshold(parsed_data, 0.90)
+        very_good_pages = self.get_pages_by_threshold(parsed_data, 0.80)
+        report.append(f"\n🎯 UTILIZATION RECOMMENDATIONS:")
+        report.append(f"   🟢 Excellent pages (≥0.90): {len(excellent_pages)} pages - Use for primary context")
+        report.append(f"   🟡 Very Good pages (≥0.80): {len(very_good_pages)} pages - Use for comprehensive coverage")
+        # Statistics
+        if 'statistics' in parsed_data and parsed_data['statistics']:
+            stats = parsed_data['statistics']
+            report.append(f"\n📈 QUALITY METRICS:")
+            if 'average_score' in stats:
+                report.append(f"   Average Score: {stats['average_score']:.4f}")
+            if 'highest_score' in stats:
+                report.append(f"   Highest Score: {stats['highest_score']:.4f}")
+            if 'total_pages' in stats:
+                report.append(f"   Total Pages Analyzed: {stats['total_pages']}")
+        # Usage suggestions
+        report.append(f"\n💡 USAGE SUGGESTIONS:")
+        report.append(f"   1. Feed top 3 pages to language model for focused responses")
+        report.append(f"   2. Use excellent pages for critical information extraction")
+        report.append(f"   3. Include very good pages for comprehensive analysis")
+        report.append(f"   4. Consider page diversity for balanced coverage")
+        report.append("=" * 60)
+        return "\n".join(report)
+    def _get_relevance_level(self, score: float) -> str:
+        """Get relevance level based on score"""
+        if score >= 0.90:
+            return "🟢 EXCELLENT - Highly relevant"
+        elif score >= 0.80:
+            return "🟡 VERY GOOD - Very relevant"
+        elif score >= 0.70:
+            return "🟠 GOOD - Relevant"
+        elif score >= 0.60:
+            return "🔵 MODERATE - Somewhat relevant"
+        elif score >= 0.50:
+            return "🟣 BASIC - Minimally relevant"
+        else:
+            return "🔴 POOR - Not relevant"
+    def _get_timestamp(self) -> str:
+        """Get current timestamp"""
+        from datetime import datetime
+        return datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+# Example usage function
+def demonstrate_score_utilization():
+    """
+    Demonstrate how to use the ScoreUtilizer to extract and utilize highest-scoring pages
+    """
+    print("🧪 DEMONSTRATING SCORE UTILIZATION")
+    print("=" * 60)
+    # Example log output (this would come from your actual retrieval system)
+    example_log = """
+================================================================================
+📊 RETRIEVAL SCORES - PAGE NUMBERS WITH HIGHEST SCORES
+================================================================================
+🔍 Collection: documents_20250101_120000
+📄 Total documents found: 15
+🎯 Requested top-k: 5
+--------------------------------------------------------------------------------
+📄 Page  1 (doc_id:  0) | Score:   0.9234 | 🟢 EXCELLENT - Highly relevant
+📄 Page  3 (doc_id:  2) | Score:   0.8756 | 🟡 VERY GOOD - Very relevant
+📄 Page  7 (doc_id:  6) | Score:   0.8123 | 🟡 VERY GOOD - Very relevant
+📄 Page  2 (doc_id:  1) | Score:   0.7890 | 🟠 GOOD - Relevant
+📄 Page  5 (doc_id:  4) | Score:   0.7456 | 🟠 GOOD - Relevant
+--------------------------------------------------------------------------------
+🏆 HIGHEST SCORING PAGES:
+   1. Page 1 - Score: 0.9234
+   2. Page 3 - Score: 0.8756
+   3. Page 7 - Score: 0.8123
+================================================================================
+"""
+    # Initialize utilizer
+    utilizer = ScoreUtilizer()
+    # Parse the log output
+    parsed_data = utilizer.parse_log_output(example_log)
+    # Get highest-scoring pages
+    top_pages = utilizer.get_highest_scoring_pages(parsed_data, 3)
+    print(f"\n🏆 TOP 3 HIGHEST-SCORING PAGES:")
+    for page in top_pages:
+        print(f"   Page {page['page_number']} - Score: {page['score']:.4f}")
+    # Get pages by threshold
+    excellent_pages = utilizer.get_pages_by_threshold(parsed_data, 0.90)
+    print(f"\n🟢 EXCELLENT PAGES (≥0.90): {len(excellent_pages)} pages")
+    # Generate utilization report
+    report = utilizer.generate_utilization_report(parsed_data)
+    print(f"\n{report}")
+    print("\n✅ Score utilization demonstration completed!")
+if __name__ == "__main__":
+    demonstrate_score_utilization()