"""
Enhanced language detection for ALL Indian languages
Optimized for IndicWhisper ASR pipeline with comprehensive script detection
"""
import re
from typing import Optional, Dict, List, Tuple, Any
import logging

# Safe langdetect import with fallback
try:
    from langdetect import detect, DetectorFactory
    DetectorFactory.seed = 0
    LANGDETECT_AVAILABLE = True
except ImportError:
    LANGDETECT_AVAILABLE = False

logger = logging.getLogger(__name__)


class IndicLanguageDetector:
    """Comprehensive language detection for all 22+ Indian languages"""
    
    def __init__(self):
        # Extended Unicode ranges for all Indian scripts
        self.script_patterns = {
            'devanagari': r'[\u0900-\u097f]',     # Hindi, Marathi, Sanskrit, Nepali, Bodo, Dogri, Konkani, Maithili
            'bengali': r'[\u0980-\u09ff]',        # Bengali, Assamese
            'tamil': r'[\u0b80-\u0bff]',          # Tamil
            'telugu': r'[\u0c00-\u0c7f]',         # Telugu
            'malayalam': r'[\u0d00-\u0d7f]',      # Malayalam
            'kannada': r'[\u0c80-\u0cff]',        # Kannada
            'gujarati': r'[\u0a80-\u0aff]',       # Gujarati
            'punjabi': r'[\u0a00-\u0a7f]',        # Punjabi (Gurmukhi)
            'odia': r'[\u0b00-\u0b7f]',           # Odia
            'arabic': r'[\u0600-\u06ff]',         # Urdu, Kashmiri, Sindhi
            'olchiki': r'[\u1c50-\u1c7f]',        # Santali
            'meitei': r'[\uabc0-\uabff]',         # Manipuri
        }
        
        # Enhanced script to language mapping with priority order
        self.script_to_languages = {
            'devanagari': ['hi', 'mr', 'ne', 'mai', 'sa', 'brx', 'doi', 'kok'],
            'bengali': ['bn', 'as'],
            'tamil': ['ta'],
            'telugu': ['te'],
            'malayalam': ['ml'],
            'kannada': ['kn'],
            'gujarati': ['gu'],
            'punjabi': ['pa'],
            'odia': ['or'],
            'arabic': ['ur', 'ks', 'sd'],
            'olchiki': ['sat'],
            'meitei': ['mni'],
        }
        
        # All supported Indian languages (22 official + others)
        self.supported_languages = {
            'hi', 'bn', 'te', 'mr', 'ta', 'ur', 'gu', 'kn', 'ml', 'or', 'pa', 'as',
            'mai', 'sa', 'ne', 'ks', 'sd', 'brx', 'doi', 'kok', 'mni', 'sat'
        }
        
        # Enhanced character-based patterns for better detection
        self.char_patterns = {
            # Bengali specific characters
            'bn': r'[হবদকগপতনমলরস]',
            # Tamil specific characters  
            'ta': r'[தகநலமபவசரன]',
            # Telugu specific characters
            'te': r'[తకనలమపవసరణ]',
            # Malayalam specific characters
            'ml': r'[തകനലമപവസരണ]',
            # Kannada specific characters
            'kn': r'[ತಕನಲಮಪವಸರಣ]',
            # Gujarati specific characters
            'gu': r'[તકનલમપવસરણ]',
            # Punjabi specific characters  
            'pa': r'[ਤਕਨਲਮਪਵਸਰਣ]',
            # Odia specific characters
            'or': r'[ତକନଲମପଵସରଣ]',
            # Assamese specific characters
            'as': r'[তৰৱখগঘচছজঝ]',
            # Urdu specific characters
            'ur': r'[اردوپہکتنلمسرع]',
        }
        
        # Language confidence weights
        self.language_weights = {
            'hi': 1.0,   # Hindi (highest priority for Devanagari)
            'bn': 0.9,   # Bengali
            'te': 0.9,   # Telugu
            'mr': 0.8,   # Marathi
            'ta': 0.9,   # Tamil
            'ur': 0.8,   # Urdu
            'gu': 0.8,   # Gujarati
            'kn': 0.8,   # Kannada
            'ml': 0.8,   # Malayalam
            'or': 0.7,   # Odia
            'pa': 0.7,   # Punjabi
            'as': 0.7,   # Assamese
        }
    
    def detect_script(self, text: str) -> Optional[str]:
        """Detect script family from text with confidence scoring"""
        if not text or not text.strip():
            return None
            
        script_scores = {}
        
        for script, pattern in self.script_patterns.items():
            matches = re.findall(pattern, text)
            if matches:
                # Score based on percentage of matching characters
                score = len(matches) / len(text.replace(' ', ''))
                script_scores[script] = score
        
        if script_scores:
            # Return script with highest score
            return max(script_scores.items(), key=lambda x: x[1])[0]
        
        return None
    
    def detect_language_from_script(self, text: str) -> Optional[str]:
        """Get most likely language based on enhanced script detection"""
        script = self.detect_script(text)
        if not script or script not in self.script_to_languages:
            return None
        
        possible_languages = self.script_to_languages[script]
        
        # For single language scripts, return immediately
        if len(possible_languages) == 1:
            return possible_languages[0]
        
        # For multi-language scripts (like Devanagari), use character patterns
        if script == 'devanagari':
            return self._detect_devanagari_language(text, possible_languages)
        elif script == 'bengali':
            return self._detect_bengali_script_language(text, possible_languages)
        elif script == 'arabic':
            return self._detect_arabic_script_language(text, possible_languages)
        
        # Default to first (most common) language for that script
        return possible_languages[0]
    
    def _detect_devanagari_language(self, text: str, candidates: List[str]) -> str:
        """Enhanced Devanagari language detection"""
        # Hindi is most common, but check for specific patterns
        
        # Marathi specific patterns
        if re.search(r'[ळझञ]', text):  # Marathi specific characters
            return 'mr'
        
        # Nepali specific patterns
        if re.search(r'[ऋएौ].*[नत]', text):  # Common Nepali patterns
            return 'ne'
        
        # Sanskrit specific patterns (complex conjuncts)
        if re.search(r'[क्ष|त्र|ज्ञ|श्र]', text) and len(re.findall(r'[क्ष|त्र|ज्ञ|श्र]', text)) > 2:
            return 'sa'
        
        # Default to Hindi for Devanagari
        return 'hi'
    
    def _detect_bengali_script_language(self, text: str, candidates: List[str]) -> str:
        """Distinguish between Bengali and Assamese"""
        # Assamese specific characters
        if re.search(r'[ৰৱখগঘ]', text):
            return 'as'
        
        # Default to Bengali
        return 'bn'
    
    def _detect_arabic_script_language(self, text: str, candidates: List[str]) -> str:
        """Distinguish between Urdu, Kashmiri, and Sindhi"""
        # Urdu is most common for Arabic script in Indian context
        # Could add specific character patterns for Kashmiri/Sindhi if needed
        return 'ur'
    
    def detect_with_langdetect(self, text: str) -> Optional[str]:
        """Enhanced langdetect with Indian language support"""
        if not LANGDETECT_AVAILABLE:
            logger.warning("langdetect not available, skipping")
            return None
            
        try:
            if len(text.strip()) < 10:
                return None
                
            detected = detect(text)
            # Only return if it's a supported Indian language
            if detected in self.supported_languages:
                logger.debug(f"langdetect successful: {detected}")
                return detected
            else:
                logger.debug(f"langdetect returned non-Indian language: {detected}")
                return None
                
        except Exception as e:
            logger.warning(f"langdetect failed: {e}")
            return None
    
    def detect_with_character_patterns(self, text: str) -> Optional[str]:
        """Language detection using character-specific patterns"""
        if not text or len(text.strip()) < 5:
            return None
        
        language_scores = {}
        
        for lang_code, pattern in self.char_patterns.items():
            matches = re.findall(pattern, text)
            if matches:
                # Calculate score based on character frequency and language weight
                base_score = len(matches) / len(text.replace(' ', ''))
                weight = self.language_weights.get(lang_code, 0.5)
                language_scores[lang_code] = base_score * weight
        
        if language_scores:
            # Return language with highest weighted score
            best_lang = max(language_scores.items(), key=lambda x: x[1])[0]
            logger.debug(f"Character pattern detection: {best_lang} (score: {language_scores[best_lang]:.3f})")
            return best_lang
        
        return None
    
    def detect_language(self, text: str) -> str:
        """
        Comprehensive language detection for ALL Indian languages
        Multi-strategy approach with fallbacks:
        1. Script-based detection (most reliable for Indic)
        2. Character pattern matching
        3. langdetect fallback
        4. Default to Hindi
        """
        if not text or not text.strip():
            return 'hi'  # Default to Hindi
        
        # Clean text for better detection
        cleaned_text = text.strip()
        
        # Strategy 1: Script-based detection (most reliable for Indic)
        script_lang = self.detect_language_from_script(cleaned_text)
        if script_lang:
            logger.debug(f"Script-based detection: {script_lang}")
            return script_lang
        
        # Strategy 2: Character pattern matching
        pattern_lang = self.detect_with_character_patterns(cleaned_text)
        if pattern_lang:
            logger.debug(f"Pattern-based detection: {pattern_lang}")
            return pattern_lang
        
        # Strategy 3: langdetect fallback (if available)
        langdetect_result = self.detect_with_langdetect(cleaned_text)
        if langdetect_result:
            logger.debug(f"langdetect result: {langdetect_result}")
            return langdetect_result
        
        # Strategy 4: Fallback based on common characters
        fallback_lang = self._fallback_detection(cleaned_text)
        if fallback_lang:
            logger.debug(f"Fallback detection: {fallback_lang}")
            return fallback_lang
        
        # Final fallback: Default to Hindi
        logger.debug("Using default language: Hindi")
        return 'hi'
    
    def _fallback_detection(self, text: str) -> Optional[str]:
        """Simple fallback detection based on common character patterns"""
        # Basic script detection without full pattern matching
        if any(char in text for char in 'হবদকগপ'):  # Bengali chars
            return "bn"
        elif any(char in text for char in 'தகநலம'):  # Tamil chars
            return "ta"
        elif any(char in text for char in 'తకనలమ'):  # Telugu chars
            return "te"
        elif any(char in text for char in 'തകനലമ'):  # Malayalam chars
            return "ml"
        elif any(char in text for char in 'ತಕನಲಮ'):  # Kannada chars
            return "kn"
        elif any(char in text for char in 'તકનલમ'):  # Gujarati chars
            return "gu"
        elif any(char in text for char in 'ਤਕਨਲਮ'):  # Punjabi chars
            return "pa"
        elif any(char in text for char in 'ତକନଲମ'):  # Odia chars
            return "or"
        elif any(char in text for char in 'اردوپہک'):  # Urdu chars
            return "ur"
        
        return None
    
    def get_supported_languages(self) -> List[str]:
        """Get list of all supported languages"""
        return sorted(list(self.supported_languages))
    
    def get_language_confidence(self, text: str, language: str) -> float:
        """Get confidence score for detected language"""
        if not text or language not in self.supported_languages:
            return 0.0
        
        # Calculate confidence based on script match and character patterns
        script = self.detect_script(text)
        if not script:
            return 0.1
        
        # Check if language matches detected script
        if language in self.script_to_languages.get(script, []):
            base_confidence = 0.8
        else:
            base_confidence = 0.3
        
        # Boost confidence with character pattern matching
        if language in self.char_patterns:
            pattern = self.char_patterns[language]
            matches = re.findall(pattern, text)
            if matches:
                char_boost = min(len(matches) / len(text.replace(' ', '')), 0.2)
                base_confidence += char_boost
        
        return min(base_confidence, 1.0)


# Standalone function for backward compatibility
def detect_language(text: str) -> str:
    """Standalone language detection function for backward compatibility"""
    detector = IndicLanguageDetector()
    return detector.detect_language(text)


# Enhanced detection with confidence
def detect_language_with_confidence(text: str) -> Tuple[str, float]:
    """Detect language and return confidence score"""
    detector = IndicLanguageDetector()
    language = detector.detect_language(text)
    confidence = detector.get_language_confidence(text, language)
    return language, confidence


# Validation and testing functions
def validate_language_detection(text: str, expected_language: str) -> Dict[str, Any]:
    """Validate language detection accuracy"""
    detector = IndicLanguageDetector()
    detected = detector.detect_language(text)
    confidence = detector.get_language_confidence(text, detected)
    
    return {
        'text': text,
        'expected': expected_language,
        'detected': detected,
        'confidence': confidence,
        'correct': detected == expected_language,
        'script': detector.detect_script(text)
    }


# Language metadata for API responses
LANGUAGE_NAMES = {
    'hi': 'Hindi', 'bn': 'Bengali', 'te': 'Telugu', 'mr': 'Marathi',
    'ta': 'Tamil', 'ur': 'Urdu', 'gu': 'Gujarati', 'kn': 'Kannada',
    'ml': 'Malayalam', 'or': 'Odia', 'pa': 'Punjabi', 'as': 'Assamese',
    'mai': 'Maithili', 'sa': 'Sanskrit', 'ne': 'Nepali', 'ks': 'Kashmiri',
    'sd': 'Sindhi', 'brx': 'Bodo', 'doi': 'Dogri', 'kok': 'Konkani',
    'mni': 'Manipuri', 'sat': 'Santali'
}


def get_language_name(language_code: str) -> str:
    """Get human-readable language name"""
    return LANGUAGE_NAMES.get(language_code.lower(), 'Unknown')


if __name__ == "__main__":
    # Test the language detector
    test_texts = {
        'hi': 'नमस्ते, आप कैसे हैं? यह हिंदी भाषा का परीक्षण है।',
        'bn': 'নমস্কার, আপনি কেমন আছেন? এটি বাংলা ভাষার পরীক্ষা।',
        'ta': 'வணக்கம், நீங்கள் எப்படி இருக்கிறீர்கள்? இது தமிழ் மொழியின் சோதனை.',
        'te': 'నమస్కారం, మీరు ఎలా ఉన్నారు? ఇది తెలుగు భాష పరీక్ష.',
        'ml': 'നമസ്കാരം, നിങ്ങൾ എങ്ങനെയുണ്ട്? ഇത് മലയാളം ഭാഷയുടെ പരീക്ഷണം.',
        'ur': 'السلام علیکم، آپ کیسے ہیں؟ یہ اردو زبان کا امتحان ہے۔',
        'gu': 'નમસ્તે, તમે કેમ છો? આ ગુજરાતી ભાષાની કસોટી છે.',
        'kn': 'ನಮಸ್ಕಾರ, ನೀವು ಹೇಗಿದ್ದೀರಿ? ಇದು ಕನ್ನಡ ಭಾಷೆಯ ಪರೀಕ್ಷೆ.',
    }
    
    print("Testing IndicLanguageDetector:")
    print("=" * 60)
    
    detector = IndicLanguageDetector()
    
    for expected_lang, text in test_texts.items():
        result = validate_language_detection(text, expected_lang)
        
        print(f"\n{expected_lang.upper()} ({get_language_name(expected_lang)}):")
        print(f"Text: {text}")
        print(f"Expected: {result['expected']}")
        print(f"Detected: {result['detected']}")
        print(f"Confidence: {result['confidence']:.3f}")
        print(f"Correct: {'✅' if result['correct'] else '❌'}")
        print(f"Script: {result['script']}")
    
    print(f"\nSupported Languages: {len(detector.get_supported_languages())}")
    print(f"Languages: {', '.join(detector.get_supported_languages())}")