H2H-eval-comparator

Sleeping

rohansampath commited on Feb 13

Commit

bd9ca6e

verified ·

1 Parent(s): c69128a

Update mmlu_eval.py

Files changed (1) hide show

mmlu_eval.py CHANGED Viewed

@@ -45,7 +45,7 @@ def evaluate_mmlu(model, tokenizer, num_questions_per_task=5):
     incorrect_examples = []
     for task_name in mmlu_dataset.keys():
-        console.log ("TASK NAME", task_name)
         dataset = mmlu_dataset[task_name]
         sampled_questions = random.sample(list(dataset), min(num_questions_per_task, len(dataset)))
@@ -53,7 +53,7 @@ def evaluate_mmlu(model, tokenizer, num_questions_per_task=5):
         references = []
         for sample in sampled_questions:
-            console.log ("SAMPLE", sample)
             question = sample["question"]
             correct_answer = str(sample["answer"]).strip().lower()
             model_output = generate_answer(model, tokenizer, question).strip().lower()

     incorrect_examples = []
     for task_name in mmlu_dataset.keys():
+        print ("TASK NAME: ", task_name)
         dataset = mmlu_dataset[task_name]
         sampled_questions = random.sample(list(dataset), min(num_questions_per_task, len(dataset)))
         references = []
         for sample in sampled_questions:
+            print ("SAMPLE", sample)
             question = sample["question"]
             correct_answer = str(sample["answer"]).strip().lower()
             model_output = generate_answer(model, tokenizer, question).strip().lower()