Spaces:

kostis-init
/

CP-Bench-Leaderboard

Sleeping

kostis-init commited on about 1 month ago

Commit

0b8f0ae

1 Parent(s): bf018b4

update eval logging

Files changed (1) hide show

src/user_eval.py CHANGED Viewed

@@ -245,7 +245,6 @@ def evaluate_submission(submitted_models, summary_file_path, modelling_framw, to
         return 1
     # Statistics
-    total_submitted_models = len(submitted_models)
     total_submitted_models_that_also_exist_in_gt = 0
     models_ran_successfully = 0
     consistency_checks_passed = 0
@@ -326,10 +325,10 @@ def evaluate_submission(submitted_models, summary_file_path, modelling_framw, to
         # Final statistics (write to summary_f)
         summary_f.write("\n" + "=" * 30 + "\n")
         summary_f.write("Overall Evaluation Statistics:\n")
-        summary_f.write(f"  Total Submitted Models Parsed: {total_submitted_models}\n")
-        summary_f.write(f"  Models That Ran Successfully (out of all submitted models): {models_ran_successfully}/{total_submitted_models}\n")
         summary_f.write(f"  Submission coverage perc: {float(total_submitted_models_that_also_exist_in_gt) / len(ground_truth_models) * 100:.2f}%\n")
-        summary_f.write(f"  Error perc: {float(total_submitted_models - models_ran_successfully) / float(total_submitted_models) * 100:.2f}%\n")
         summary_f.write(f"  Consistency perc: {consistency_checks_passed / len(ground_truth_models) * 100:.2f}%\n")
         summary_f.write(f"  Final Solution Accuracy perc: {all_checks_passed / len(ground_truth_models) * 100:.2f}%\n")
         summary_f.write("-" * 30 + "\n")

         return 1
     # Statistics
     total_submitted_models_that_also_exist_in_gt = 0
     models_ran_successfully = 0
     consistency_checks_passed = 0
         # Final statistics (write to summary_f)
         summary_f.write("\n" + "=" * 30 + "\n")
         summary_f.write("Overall Evaluation Statistics:\n")
+        summary_f.write(f"  Total Submitted Models that also exist in the dataset: {total_submitted_models_that_also_exist_in_gt}\n")
+        summary_f.write(f"  Models That Ran Successfully (out of submitted models): {models_ran_successfully}/{total_submitted_models_that_also_exist_in_gt}\n")
         summary_f.write(f"  Submission coverage perc: {float(total_submitted_models_that_also_exist_in_gt) / len(ground_truth_models) * 100:.2f}%\n")
+        summary_f.write(f"  Error perc: {float(total_submitted_models_that_also_exist_in_gt - models_ran_successfully) / float(total_submitted_models_that_also_exist_in_gt) * 100:.2f}%\n")
         summary_f.write(f"  Consistency perc: {consistency_checks_passed / len(ground_truth_models) * 100:.2f}%\n")
         summary_f.write(f"  Final Solution Accuracy perc: {all_checks_passed / len(ground_truth_models) * 100:.2f}%\n")
         summary_f.write("-" * 30 + "\n")