H2H-eval-comparator

Sleeping

rohansampath commited on Feb 16

Commit

da41998

verified ·

1 Parent(s): 714de6d

Update mmlu_eval_original.py

Files changed (1) hide show

mmlu_eval_original.py CHANGED Viewed

@@ -146,8 +146,6 @@ def eval (subject, model, tokenizer, dev_df, test_df, num_questions_per_subject=
     return cors, acc, all_probs
 def evaluate_mmlu(model, tokenizer, num_subjects=-1, num_questions=5, num_shots=5):
     """
     Evaluates the model on MMLU across all subjects.
@@ -190,10 +188,7 @@ def evaluate_mmlu(model, tokenizer, num_subjects=-1, num_questions=5, num_shots=
             'Num_correct': int(np.sum(cors)),
             'Accuracy': acc
         })
     weighted_acc = np.mean(np.concatenate(all_cors))
     min_acc_subject = min(results.items(), key=lambda x: x[1])[0]

     return cors, acc, all_probs
 def evaluate_mmlu(model, tokenizer, num_subjects=-1, num_questions=5, num_shots=5):
     """
     Evaluates the model on MMLU across all subjects.
             'Num_correct': int(np.sum(cors)),
             'Accuracy': acc
         })
     weighted_acc = np.mean(np.concatenate(all_cors))
     min_acc_subject = min(results.items(), key=lambda x: x[1])[0]