Spaces:

akera
/

leaderboard

Sleeping

App Files Files Community

leaderboard / src /validation.py

akera

Update src/validation.py

e3a10db verified 3 months ago

raw

history blame

22.2 kB

	# src/validation.py
	import pandas as pd
	import numpy as np
	from typing import Dict, List, Tuple, Optional
	import json
	import io
	import re
	from config import (
	PREDICTION_FORMAT,
	VALIDATION_CONFIG,
	MODEL_CATEGORIES,
	EVALUATION_TRACKS,
	ALL_UG40_LANGUAGES,
	SAMPLE_SIZE_RECOMMENDATIONS,
	)


	def detect_model_category(model_name: str, author: str, description: str) -> str:
	"""Automatically detect model category based on name and metadata."""

	# Combine all text for analysis
	text_to_analyze = f"{model_name} {author} {description}".lower()

	# Category detection patterns
	detection_patterns = PREDICTION_FORMAT["category_detection"]

	# Check for specific patterns
	if any(pattern in text_to_analyze for pattern in detection_patterns.get("google", [])):
	return "commercial"

	if any(pattern in text_to_analyze for pattern in detection_patterns.get("nllb", [])):
	return "research"

	if any(pattern in text_to_analyze for pattern in detection_patterns.get("m2m", [])):
	return "research"

	if any(pattern in text_to_analyze for pattern in detection_patterns.get("baseline", [])):
	return "baseline"

	# Check for research indicators
	research_indicators = [
	"university", "research", "paper", "arxiv", "acl", "emnlp", "naacl",
	"transformer", "bert", "gpt", "t5", "mbart", "academic"
	]
	if any(indicator in text_to_analyze for indicator in research_indicators):
	return "research"

	# Check for commercial indicators
	commercial_indicators = [
	"google", "microsoft", "azure", "aws", "openai", "anthropic",
	"commercial", "api", "cloud", "translate"
	]
	if any(indicator in text_to_analyze for indicator in commercial_indicators):
	return "commercial"

	# Default to community
	return "community"


	def validate_file_format_enhanced(file_content: bytes, filename: str) -> Dict:
	"""Enhanced file format validation with stricter requirements."""

	try:
	# Determine file type
	if filename.endswith(".csv"):
	df = pd.read_csv(io.BytesIO(file_content))
	elif filename.endswith(".tsv"):
	df = pd.read_csv(io.BytesIO(file_content), sep="\t")
	elif filename.endswith(".json"):
	data = json.loads(file_content.decode("utf-8"))
	df = pd.DataFrame(data)
	else:
	return {
	"valid": False,
	"error": f"Unsupported file type. Use: {', '.join(PREDICTION_FORMAT['file_types'])}",
	}

	# Check required columns
	missing_cols = set(PREDICTION_FORMAT["required_columns"]) - set(df.columns)
	if missing_cols:
	return {
	"valid": False,
	"error": f"Missing required columns: {', '.join(missing_cols)}",
	}

	# Basic data validation
	if len(df) == 0:
	return {"valid": False, "error": "File is empty"}

	# Enhanced validation checks
	validation_issues = []

	# Check for required data
	if df["sample_id"].isna().any():
	validation_issues.append("Missing sample_id values found")

	if df["prediction"].isna().any():
	na_count = df["prediction"].isna().sum()
	validation_issues.append(f"Missing prediction values found ({na_count} empty predictions)")

	# Check for duplicates
	duplicates = df["sample_id"].duplicated()
	if duplicates.any():
	dup_count = duplicates.sum()
	validation_issues.append(f"Duplicate sample_id values found ({dup_count} duplicates)")

	# Data type validation
	if not df["sample_id"].dtype == "object" and not df["sample_id"].dtype.name.startswith("str"):
	df["sample_id"] = df["sample_id"].astype(str)

	# Check sample_id format
	invalid_ids = ~df["sample_id"].str.match(r"salt_\d{6}", na=False)
	if invalid_ids.any():
	invalid_count = invalid_ids.sum()
	validation_issues.append(f"Invalid sample_id format found ({invalid_count} invalid IDs)")

	# Return results
	if validation_issues:
	return {
	"valid": False,
	"error": "; ".join(validation_issues),
	"dataframe": df,
	"row_count": len(df),
	"columns": list(df.columns),
	}

	return {
	"valid": True,
	"dataframe": df,
	"row_count": len(df),
	"columns": list(df.columns),
	}

	except Exception as e:
	return {"valid": False, "error": f"Error parsing file: {str(e)}"}


	def validate_predictions_content_enhanced(predictions: pd.DataFrame) -> Dict:
	"""Enhanced prediction content validation with stricter quality checks."""

	issues = []
	warnings = []
	quality_metrics = {}

	# Basic content checks
	empty_predictions = predictions["prediction"].str.strip().eq("").sum()
	if empty_predictions > 0:
	issues.append(f"{empty_predictions} empty predictions found")

	# Length analysis
	pred_lengths = predictions["prediction"].str.len()
	quality_metrics["avg_length"] = float(pred_lengths.mean())
	quality_metrics["std_length"] = float(pred_lengths.std())

	# Check for suspiciously short predictions
	short_predictions = (pred_lengths < 3).sum()
	if short_predictions > len(predictions) * 0.05: # More than 5%
	issues.append(f"{short_predictions} very short predictions (< 3 characters)")

	# Check for suspiciously long predictions
	long_predictions = (pred_lengths > 500).sum()
	if long_predictions > len(predictions) * 0.01: # More than 1%
	warnings.append(f"{long_predictions} very long predictions (> 500 characters)")

	# Check for repeated predictions (more stringent)
	duplicate_predictions = predictions["prediction"].duplicated().sum()
	duplicate_rate = duplicate_predictions / len(predictions)
	quality_metrics["duplicate_rate"] = float(duplicate_rate)

	if duplicate_rate > VALIDATION_CONFIG["quality_thresholds"]["max_duplicate_rate"]:
	issues.append(f"{duplicate_predictions} duplicate prediction texts ({duplicate_rate:.1%})")

	# Check for placeholder text
	placeholder_patterns = [
	r"^(test\|placeholder\|todo\|xxx\|aaa\|bbb)$",
	r"^[a-z]{1,3}$", # Very short gibberish
	r"^\d+$", # Just numbers
	r"^[^\w\s]*$", # Only punctuation
	]

	placeholder_count = 0
	for pattern in placeholder_patterns:
	placeholder_matches = predictions["prediction"].str.match(pattern, flags=re.IGNORECASE, na=False).sum()
	placeholder_count += placeholder_matches

	if placeholder_count > len(predictions) * 0.02: # More than 2%
	issues.append(f"{placeholder_count} placeholder-like predictions detected")

	# Language detection (basic)
	non_ascii_rate = predictions["prediction"].str.contains(r"[^\x00-\x7f]", na=False).mean()
	quality_metrics["non_ascii_rate"] = float(non_ascii_rate)

	# Check for appropriate character distribution for African languages
	if non_ascii_rate < 0.1: # Less than 10% non-ASCII might indicate English-only
	warnings.append("Low non-ASCII character rate - check if translations include local language scripts")

	# Calculate overall quality score
	quality_score = 1.0
	quality_score -= len(issues) * 0.3 # Major penalty for issues
	quality_score -= len(warnings) * 0.1 # Minor penalty for warnings
	quality_score -= max(0, duplicate_rate - 0.05) * 2 # Penalty for excessive duplicates

	# Length appropriateness
	if quality_metrics["avg_length"] < VALIDATION_CONFIG["quality_thresholds"]["min_avg_length"]:
	quality_score -= 0.2
	elif quality_metrics["avg_length"] > VALIDATION_CONFIG["quality_thresholds"]["max_avg_length"]:
	quality_score -= 0.1

	quality_score = max(0.0, min(1.0, quality_score))

	return {
	"has_issues": len(issues) > 0,
	"issues": issues,
	"warnings": warnings,
	"quality_score": quality_score,
	"quality_metrics": quality_metrics,
	}


	def validate_against_test_set_enhanced(
	predictions: pd.DataFrame, test_set: pd.DataFrame
	) -> Dict:
	"""Enhanced validation against test set with track-specific analysis."""

	# Convert IDs to string for comparison
	pred_ids = set(predictions["sample_id"].astype(str))
	test_ids = set(test_set["sample_id"].astype(str))

	# Check overall coverage
	missing_ids = test_ids - pred_ids
	extra_ids = pred_ids - test_ids
	matching_ids = pred_ids & test_ids

	overall_coverage = len(matching_ids) / len(test_ids)

	# Track-specific coverage analysis
	track_coverage = {}

	for track_name, track_config in EVALUATION_TRACKS.items():
	track_languages = track_config["languages"]

	# Filter test set to track languages
	track_test_set = test_set[
	(test_set["source_language"].isin(track_languages)) &
	(test_set["target_language"].isin(track_languages))
	]

	if len(track_test_set) == 0:
	continue

	track_test_ids = set(track_test_set["sample_id"].astype(str))
	track_matching_ids = pred_ids & track_test_ids

	track_coverage[track_name] = {
	"total_samples": len(track_test_set),
	"covered_samples": len(track_matching_ids),
	"coverage_rate": len(track_matching_ids) / len(track_test_set),
	"meets_minimum": len(track_matching_ids) >= VALIDATION_CONFIG["min_samples_per_track"][track_name],
	"min_required": VALIDATION_CONFIG["min_samples_per_track"][track_name],
	}

	# Language pair coverage analysis
	pair_coverage = {}
	for _, row in test_set.iterrows():
	pair_key = f"{row['source_language']}_{row['target_language']}"
	if pair_key not in pair_coverage:
	pair_coverage[pair_key] = {"total": 0, "covered": 0}

	pair_coverage[pair_key]["total"] += 1
	if str(row["sample_id"]) in pred_ids:
	pair_coverage[pair_key]["covered"] += 1

	# Calculate pair-wise coverage rates
	for pair_key in pair_coverage:
	pair_info = pair_coverage[pair_key]
	pair_info["coverage_rate"] = pair_info["covered"] / pair_info["total"]

	# Missing rate validation
	missing_rate = len(missing_ids) / len(test_ids)
	meets_missing_threshold = missing_rate <= VALIDATION_CONFIG["max_missing_rate"]

	return {
	"overall_coverage": overall_coverage,
	"missing_count": len(missing_ids),
	"extra_count": len(extra_ids),
	"matching_count": len(matching_ids),
	"missing_rate": missing_rate,
	"meets_missing_threshold": meets_missing_threshold,
	"is_complete": overall_coverage == 1.0,
	"track_coverage": track_coverage,
	"pair_coverage": pair_coverage,
	"missing_ids_sample": list(missing_ids)[:10],
	"extra_ids_sample": list(extra_ids)[:10],
	}


	def assess_statistical_adequacy(
	validation_result: Dict, model_category: str
	) -> Dict:
	"""Assess statistical adequacy for scientific evaluation."""

	adequacy_assessment = {
	"overall_adequate": True,
	"track_adequacy": {},
	"recommendations": [],
	"statistical_power_estimate": {},
	}

	track_coverage = validation_result.get("track_coverage", {})

	for track_name, coverage_info in track_coverage.items():
	track_config = EVALUATION_TRACKS[track_name]

	# Sample size adequacy
	covered_samples = coverage_info["covered_samples"]
	min_required = coverage_info["min_required"]

	sample_adequate = covered_samples >= min_required

	# Coverage rate adequacy
	coverage_rate = coverage_info["coverage_rate"]
	coverage_adequate = coverage_rate >= 0.8 # 80% coverage minimum

	# Statistical power estimation (simplified)
	estimated_power = min(1.0, covered_samples / (min_required * 1.5))

	track_adequate = sample_adequate and coverage_adequate

	adequacy_assessment["track_adequacy"][track_name] = {
	"sample_adequate": sample_adequate,
	"coverage_adequate": coverage_adequate,
	"overall_adequate": track_adequate,
	"covered_samples": covered_samples,
	"min_required": min_required,
	"coverage_rate": coverage_rate,
	"estimated_power": estimated_power,
	}

	if not track_adequate:
	adequacy_assessment["overall_adequate"] = False

	adequacy_assessment["statistical_power_estimate"][track_name] = estimated_power

	# Generate recommendations
	if not adequacy_assessment["overall_adequate"]:
	inadequate_tracks = [
	track for track, info in adequacy_assessment["track_adequacy"].items()
	if not info["overall_adequate"]
	]
	adequacy_assessment["recommendations"].append(
	f"Insufficient samples for tracks: {', '.join(inadequate_tracks)}"
	)

	# Category-specific recommendations
	if model_category == "commercial" and not adequacy_assessment["track_adequacy"].get("google_comparable", {}).get("overall_adequate", False):
	adequacy_assessment["recommendations"].append(
	"Commercial models should ensure adequate coverage of Google-comparable track"
	)

	return adequacy_assessment


	def generate_scientific_validation_report(
	format_result: Dict,
	content_result: Dict,
	test_set_result: Dict,
	adequacy_result: Dict,
	model_name: str = "",
	detected_category: str = "community",
	) -> str:
	"""Generate comprehensive scientific validation report."""

	report = []

	# Header
	report.append(f"# 🔬 Scientific Validation Report: {model_name or 'Submission'}")
	report.append("")

	# Model categorization
	category_info = MODEL_CATEGORIES.get(detected_category, MODEL_CATEGORIES["community"])
	report.append(f"Detected Model Category: {category_info['name']}")
	report.append(f"Category Description: {category_info['description']}")
	report.append("")

	# File format validation
	if format_result["valid"]:
	report.append("✅ File Format: Valid")
	report.append(f" - Rows: {format_result['row_count']:,}")
	report.append(f" - Columns: {', '.join(format_result['columns'])}")
	else:
	report.append("❌ File Format: Invalid")
	report.append(f" - Error: {format_result['error']}")
	return "\n".join(report)

	# Content quality validation
	quality_score = content_result.get("quality_score", 0.0)

	if content_result["has_issues"]:
	report.append("❌ Content Quality: Issues Found")
	for issue in content_result["issues"]:
	report.append(f" - ❌ {issue}")
	else:
	report.append("✅ Content Quality: Good")

	if content_result["warnings"]:
	for warning in content_result["warnings"]:
	report.append(f" - ⚠️ {warning}")

	report.append(f" - Quality Score: {quality_score:.2f}/1.00")
	report.append("")

	# Test set coverage validation
	overall_coverage = test_set_result["overall_coverage"]
	meets_threshold = test_set_result["meets_missing_threshold"]

	if overall_coverage == 1.0:
	report.append("✅ Test Set Coverage: Complete")
	elif overall_coverage >= 0.95 and meets_threshold:
	report.append("✅ Test Set Coverage: Adequate")
	else:
	report.append("❌ Test Set Coverage: Insufficient")

	report.append(f" - Coverage: {overall_coverage:.1%} ({test_set_result['matching_count']:,} / {test_set_result['matching_count'] + test_set_result['missing_count']:,})")
	report.append(f" - Missing Rate: {test_set_result['missing_rate']:.1%}")
	report.append("")

	# Track-specific coverage analysis
	report.append("## 📊 Track-Specific Analysis")

	track_coverage = test_set_result.get("track_coverage", {})
	for track_name, coverage_info in track_coverage.items():
	track_config = EVALUATION_TRACKS[track_name]

	status = "✅" if coverage_info["meets_minimum"] else "❌"
	report.append(f"### {status} {track_config['name']}")

	report.append(f" - Samples: {coverage_info['covered_samples']:,} / {coverage_info['total_samples']:,}")
	report.append(f" - Coverage: {coverage_info['coverage_rate']:.1%}")
	report.append(f" - Minimum Required: {coverage_info['min_required']:,}")
	report.append(f" - Status: {'Adequate' if coverage_info['meets_minimum'] else 'Insufficient'}")
	report.append("")

	# Statistical adequacy assessment
	report.append("## 🔬 Statistical Adequacy Assessment")

	if adequacy_result["overall_adequate"]:
	report.append("✅ Overall Assessment: Statistically adequate for scientific evaluation")
	else:
	report.append("❌ Overall Assessment: Insufficient for rigorous scientific evaluation")

	# Track adequacy details
	for track_name, track_adequacy in adequacy_result["track_adequacy"].items():
	track_config = EVALUATION_TRACKS[track_name]
	power = track_adequacy["estimated_power"]

	status = "✅" if track_adequacy["overall_adequate"] else "❌"
	report.append(f" - {status} {track_config['name']}: Statistical power ≈ {power:.1%}")

	# Recommendations
	if adequacy_result["recommendations"]:
	report.append("")
	report.append("## 💡 Recommendations")
	for rec in adequacy_result["recommendations"]:
	report.append(f" - {rec}")

	# Final verdict
	report.append("")
	all_checks_pass = (
	format_result["valid"] and
	not content_result["has_issues"] and
	overall_coverage >= 0.95 and
	meets_threshold and
	adequacy_result["overall_adequate"]
	)

	can_evaluate_with_limits = (
	format_result["valid"] and
	overall_coverage >= 0.8 and
	not any("❌" in issue for issue in content_result.get("issues", []))
	)

	if all_checks_pass:
	report.append("🎉 Final Verdict: Ready for scientific evaluation!")
	elif can_evaluate_with_limits:
	report.append("⚠️ Final Verdict: Can be evaluated with limitations")
	report.append(" - Results will include notes about statistical limitations")
	report.append(" - Consider improving coverage/quality for publication-grade results")
	else:
	report.append("❌ Final Verdict: Please address critical issues before submission")

	return "\n".join(report)


	def validate_submission_scientific(
	file_content: bytes,
	filename: str,
	test_set: pd.DataFrame,
	model_name: str = "",
	author: str = "",
	description: str = ""
	) -> Dict:
	"""Complete scientific validation pipeline for submissions."""

	# Step 1: Detect model category
	detected_category = detect_model_category(model_name, author, description)

	# Step 2: Enhanced file format validation
	format_result = validate_file_format_enhanced(file_content, filename)
	if not format_result["valid"]:
	return {
	"valid": False,
	"can_evaluate": False, # New field for evaluation eligibility
	"category": detected_category,
	"report": generate_scientific_validation_report(
	format_result, {}, {}, {}, model_name, detected_category
	),
	"predictions": None,
	"adequacy": {},
	}

	predictions = format_result["dataframe"]

	# Step 3: Enhanced content validation
	content_result = validate_predictions_content_enhanced(predictions)

	# Step 4: Enhanced test set validation
	test_set_result = validate_against_test_set_enhanced(predictions, test_set)

	# Step 5: Statistical adequacy assessment
	adequacy_result = assess_statistical_adequacy(test_set_result, detected_category)

	# Step 6: Generate comprehensive report
	report = generate_scientific_validation_report(
	format_result, content_result, test_set_result, adequacy_result,
	model_name, detected_category
	)

	# Overall validity determination (strict scientific standards)
	is_scientifically_valid = (
	format_result["valid"] and
	not content_result["has_issues"] and
	test_set_result["overall_coverage"] >= 0.95 and
	test_set_result["meets_missing_threshold"] and
	adequacy_result["overall_adequate"]
	)

	# Evaluation eligibility (more permissive - can evaluate with limitations)
	can_evaluate = (
	format_result["valid"] and
	test_set_result["overall_coverage"] >= 0.8 and # 80% coverage minimum
	not any("❌" in issue for issue in content_result.get("issues", [])) # No critical content issues
	)

	return {
	"valid": is_scientifically_valid,
	"can_evaluate": can_evaluate, # New field
	"category": detected_category,
	"coverage": test_set_result["overall_coverage"],
	"report": report,
	"predictions": predictions,
	"adequacy": adequacy_result,
	"quality_score": content_result.get("quality_score", 0.8),
	"track_coverage": test_set_result.get("track_coverage", {}),
	"scientific_metadata": {
	"validation_timestamp": pd.Timestamp.now().isoformat(),
	"validation_version": "2.0-scientific",
	"detected_category": detected_category,
	"statistical_adequacy": adequacy_result["overall_adequate"],
	"evaluation_recommended": can_evaluate,
	},
	}