Spaces:

akera
/

leaderboard

Sleeping

App Files Files Community

akera commited on Jun 12

Commit

aa99a22

verified ·

1 Parent(s): bf6309d

Update config.py

Browse files

Files changed (1) hide show

config.py +44 -24

config.py CHANGED Viewed

@@ -2,41 +2,61 @@
 import os
 # HuggingFace settings
-HF_TOKEN = os.getenv("HF_TOKEN")  # Set in Space secrets
 LEADERBOARD_DATASET = "Sunbird/salt-translation-leaderboard"
 SALT_DATASET = "sunbird/salt"
-# Model settings
-MAX_MODEL_SIZE_GB = 15  # Limit for HF Space
-SUPPORTED_MODEL_TYPES = [
-    "gemma", "qwen", "llama", "nllb", "google-translate"
 ]
-# Evaluation settings
-MAX_EVAL_SAMPLES = 200  # Limit for faster evaluation
-BATCH_SIZE = 4
-MAX_NEW_TOKENS = 100
-# UI settings
-TITLE = "🏆 SALT Translation Model Leaderboard"
-DESCRIPTION = """
-Evaluate your translation models on Ugandan languages!
-Submit a HuggingFace model and see how it performs on Luganda, Acholi, and Swahili translation tasks.
-"""
-# Supported languages (Google Translate compatible subset)
-SUPPORTED_LANGUAGES = ['lug', 'ach', 'swa', 'eng']
 LANGUAGE_NAMES = {
     'lug': 'Luganda',
-    'ach': 'Acholi',
-    'swa': 'Swahili',
-    'eng': 'English'
 }
 # Google Translate language mapping
 GOOGLE_LANG_MAP = {
     'lug': 'lg',
-    'ach': 'ach',
-    'swa': 'sw',
     'eng': 'en'
 }

 import os
 # HuggingFace settings
+HF_TOKEN = os.getenv("HF_TOKEN")
 LEADERBOARD_DATASET = "Sunbird/salt-translation-leaderboard"
+TEST_SET_DATASET = "Sunbird/salt-translation-test-set"
 SALT_DATASET = "sunbird/salt"
+# Language settings - ALL UG40 LANGUAGES
+ALL_UG40_LANGUAGES = [
+    'ach', 'eng', 'lgg', 'lug', 'nyn', 'rny', 'teo', 'swa'  # Complete this with actual SALT languages
 ]
 LANGUAGE_NAMES = {
+    'ach': 'Acholi',
+    'eng': 'English',
+    'lgg': 'Lugbara',
     'lug': 'Luganda',
+    'nyn': 'Runyankole',
+    'rny': 'Runyoro',
+    'teo': 'Ateso',
+    'swa': 'Swahili'
 }
+# Google Translate supported subset (for comparison)
+GOOGLE_SUPPORTED_LANGUAGES = ['lug', 'ach', 'swa', 'eng']
 # Google Translate language mapping
 GOOGLE_LANG_MAP = {
     'lug': 'lg',
+    'ach': 'ach',
+    'swa': 'sw',
     'eng': 'en'
+}
+# Evaluation settings
+MAX_TEST_SAMPLES = 500  # Per language pair
+MIN_SAMPLES_PER_PAIR = 10  # Minimum samples to be valid
+# UI settings
+TITLE = "🏆 SALT Translation Leaderboard"
+DESCRIPTION = """
+**Scientific evaluation of translation models on Ugandan languages**
+Upload your model's predictions on our standardized test set to see how it performs across all UG40 language pairs.
+Compare against Google Translate baseline and other submitted models.
+"""
+# File format specifications
+PREDICTION_FORMAT = {
+    'required_columns': ['sample_id', 'prediction'],
+    'optional_columns': ['model_name', 'confidence'],
+    'file_types': ['.csv', '.tsv', '.json']
+}
+# Metrics configuration
+METRICS_CONFIG = {
+    'primary_metrics': ['bleu', 'chrf', 'quality_score'],
+    'secondary_metrics': ['rouge1', 'rougeL', 'cer', 'wer'],
+    'display_precision': 4
 }