IL-TUR-Leaderboard

Running

shounakpaul95 commited on Jul 9, 2024

Commit

256b2ce

verified ·

1 Parent(s): 8a761f3

Update eval_utils.py

Files changed (1) hide show

eval_utils.py CHANGED Viewed

@@ -257,13 +257,14 @@ def evaluate_summ(gold_data, pred_data):
             pred_summaries.append(pred_summary)
-    rl_evaluator = rouge.Rouge(metrics=['rouge-n','rouge-l'], max_n=2, limit_length=False, apply_avg=True)
-    rl_scores = rl_evaluator.get_scores(pred_summaries, gold_summaries)
-    print("Rouge:", {k:v['f'] for k,v in rl_scores.items()}, flush=True)
-    _, _, bs = bert_score.score(pred_summaries, gold_summaries, lang="en", verbose=True, device='cuda')
     print("BERTSCORE:", bs.mean().item())
-    return {'ROUGE-L': rl_scores['rouge-l']['f'], 'BERTSCORE': bs.mean().item()}
 def evaluate_lmt(gold_data, pred_data):

             pred_summaries.append(pred_summary)
+    # rl_evaluator = rouge.Rouge(metrics=['rouge-n','rouge-l'], max_n=2, limit_length=False, apply_avg=True)
+    # rl_scores = rl_evaluator.get_scores(pred_summaries, gold_summaries)
+    # print("Rouge:", {k:v['f'] for k,v in rl_scores.items()}, flush=True)
+    _, _, bs = bert_score.score(pred_summaries, gold_summaries, lang="en", verbose=True)
     print("BERTSCORE:", bs.mean().item())
+    # return {'ROUGE-L': rl_scores['rouge-l']['f'], 'BERTSCORE': bs.mean().item()}
+    return {'ROUGE-L': '-', 'BERTSCORE': bs.mean().item()}
 def evaluate_lmt(gold_data, pred_data):