H2H-eval-comparator

Sleeping

rohansampath commited on Feb 18

Commit

95f85dc

verified ·

1 Parent(s): 3404c97

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 import os
 from huggingface_hub import login
 from toy_dataset_eval import evaluate_toy_dataset
-from mmlu_eval_original import evaluate_mmlu
 import spaces
 import pandas as pd
@@ -93,7 +93,8 @@ def run_mmlu_evaluation(all_subjects, num_subjects, num_shots, all_questions, nu
         tokenizer,
         num_subjects=num_subjects,
         num_questions=num_questions,
-        num_shots=num_shots
     )
     # Format results

 import os
 from huggingface_hub import login
 from toy_dataset_eval import evaluate_toy_dataset
+from mmlu_eval_original import evaluate_mmlu_batched
 import spaces
 import pandas as pd
         tokenizer,
         num_subjects=num_subjects,
         num_questions=num_questions,
+        num_shots=num_shots,
+        auto_batch_size=True
     )
     # Format results