Spaces:

AutoBench
/

AutoBench_1.0_Demo

Sleeping

App Files Files Community

PeterKruger commited on Mar 2

Commit

9e5f02a

verified ·

1 Parent(s): 816a15e

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -6

app.py CHANGED Viewed

@@ -469,6 +469,7 @@ def get_answer_from_model(model_id, question, consecutive_failures, failure_thre
     time.sleep(time_sleep) # Small delay
     duration = time.time() - start_time # Calculate duration
     print(f"Answer generation by \"{model_id}\": {duration:.2f}s") # Print answer generation duration separately as requested - as requested
     return answer, duration # Return answer and duration
@@ -531,6 +532,7 @@ def run_benchmark(hf_models, topics, difficulties, t, model_config, token=None):
         # --- Select difficulty with probabilities ---
         difficulty = random.choices(difficulty_choices, weights=probability_values, k=1)[0] # Weighted random choice
         print(f"--- Iteration {s_t + 1}/{t}: {difficulty} question ({difficulty_mapping[difficulty]}) on {topic} ---") # Print iteration number
         # --- Question Generation ---
         question = None
@@ -635,10 +637,12 @@ def run_benchmark(hf_models, topics, difficulties, t, model_config, token=None):
         if question_avg_rank >= question_treshold and all(rank > reject_rank for rank in valid_question_ranks_values): # Question acceptance criteria
             question_accepted = True
             print(f"Question accepted. Avg Question Rank: {question_avg_rank:.2f}, Min Rank: {min_question_rank}, Ranks: {[question_ranks[m] for m in active_models if m in question_ranks]}")
             s_t += 1
         else:
             question_accepted = False
             print(f"Question rejected. Avg Question Rank: {question_avg_rank:.2f}, Min Rank: {min_question_rank}, Ranks: {[question_ranks[m] for m in active_models if m in question_ranks]}")
         if not question_accepted:
             print("Generated question was not accepted. Regenerating question.")
@@ -775,7 +779,8 @@ def run_benchmark(hf_models, topics, difficulties, t, model_config, token=None):
             # --- Print and store iteration results IMMEDIATELY after ranking for this model ---
             ranks_str = "[" + ", ".join(map(str, [ranks.get(m, None) for m in active_models])) + "]" if ranks else "[]" # Format ranks for CSV, ensure order, use .get() for safety
-            print(f"{topic}, {difficulty_mapping[difficulty]}, {model_id}, {cumulative_avg_rank.get(model_id, np.nan):.2f}, {average_rank:.5f}, {ranks_str}, {ranking_duration:.2f} sec")
             # Write iteration results to file (append mode) - write for each model right after ranking
             iteration_results_file_opened.write(f"{iteration+1},{topic}, {difficulty_mapping[difficulty]},{question_avg_rank:.2f},{question_ranking_duration_total:.2f},{model_id},{cumulative_avg_rank.get(model_id, np.nan):.2f},{average_rank:.2f},{ranks_str},{ranking_duration:.2f}\n")
@@ -972,15 +977,12 @@ if st.sidebar.button("Start Benchmark"):
                 # Show model rankings
                 st.subheader("Model Rankings")
-                '''ranking_df = pd.DataFrame({
                     "Model": list(cumulative_avg_rank.keys()),
                     "Average Rank": [round(r, 2) if not np.isnan(r) else 'N/A' for r in cumulative_avg_rank.values()]
                 })
-                ranking_df = ranking_df.sort_values("Average Rank", ascending=False)
                 st.dataframe(ranking_df)  # Use st.dataframe directly instead of results_placeholder.dataframe
-                '''
-                averages_df = pd.DataFrame(cumulative_avg_rank)
-                st.dataframe(averages_df)
                 # Show detailed results
                 st.subheader("Detailed Results")

     time.sleep(time_sleep) # Small delay
     duration = time.time() - start_time # Calculate duration
     print(f"Answer generation by \"{model_id}\": {duration:.2f}s") # Print answer generation duration separately as requested - as requested
+    st.write(f"Answer generation by \"{model_id}\": {duration:.2f}s") # Print answer generation duration separately as requested - as requested
     return answer, duration # Return answer and duration
         # --- Select difficulty with probabilities ---
         difficulty = random.choices(difficulty_choices, weights=probability_values, k=1)[0] # Weighted random choice
         print(f"--- Iteration {s_t + 1}/{t}: {difficulty} question ({difficulty_mapping[difficulty]}) on {topic} ---") # Print iteration number
+        st.write(f"--- Iteration {s_t + 1}/{t}: {difficulty} question ({difficulty_mapping[difficulty]}) on {topic} ---") # Print iteration number
         # --- Question Generation ---
         question = None
         if question_avg_rank >= question_treshold and all(rank > reject_rank for rank in valid_question_ranks_values): # Question acceptance criteria
             question_accepted = True
             print(f"Question accepted. Avg Question Rank: {question_avg_rank:.2f}, Min Rank: {min_question_rank}, Ranks: {[question_ranks[m] for m in active_models if m in question_ranks]}")
+            st.write(f"Question accepted. Avg Question Rank: {question_avg_rank:.2f}, Min Rank: {min_question_rank}, Ranks: {[question_ranks[m] for m in active_models if m in question_ranks]}")
             s_t += 1
         else:
             question_accepted = False
             print(f"Question rejected. Avg Question Rank: {question_avg_rank:.2f}, Min Rank: {min_question_rank}, Ranks: {[question_ranks[m] for m in active_models if m in question_ranks]}")
+            st.write(f"Question rejected. Avg Question Rank: {question_avg_rank:.2f}, Min Rank: {min_question_rank}, Ranks: {[question_ranks[m] for m in active_models if m in question_ranks]}")
         if not question_accepted:
             print("Generated question was not accepted. Regenerating question.")
             # --- Print and store iteration results IMMEDIATELY after ranking for this model ---
             ranks_str = "[" + ", ".join(map(str, [ranks.get(m, None) for m in active_models])) + "]" if ranks else "[]" # Format ranks for CSV, ensure order, use .get() for safety
+            print(f"{topic}, {difficulty_mapping[difficulty]}, {model_id}, Avg Rank: {cumulative_avg_rank.get(model_id, np.nan):.2f}, Avg Rank for run: {average_rank:.5f}, Ranks: {ranks_str}, {ranking_duration:.2f} sec")
+            st.write(f"{topic}, {difficulty_mapping[difficulty]}, {model_id}, Avg Rank: {cumulative_avg_rank.get(model_id, np.nan):.2f}, Avg Rank for run: {average_rank:.5f}, Ranks: {ranks_str}, {ranking_duration:.2f} sec")
             # Write iteration results to file (append mode) - write for each model right after ranking
             iteration_results_file_opened.write(f"{iteration+1},{topic}, {difficulty_mapping[difficulty]},{question_avg_rank:.2f},{question_ranking_duration_total:.2f},{model_id},{cumulative_avg_rank.get(model_id, np.nan):.2f},{average_rank:.2f},{ranks_str},{ranking_duration:.2f}\n")
                 # Show model rankings
                 st.subheader("Model Rankings")
+                ranking_df = pd.DataFrame({
                     "Model": list(cumulative_avg_rank.keys()),
                     "Average Rank": [round(r, 2) if not np.isnan(r) else 'N/A' for r in cumulative_avg_rank.values()]
                 })
+                #ranking_df = ranking_df.sort_values("Average Rank", ascending=False)
                 st.dataframe(ranking_df)  # Use st.dataframe directly instead of results_placeholder.dataframe
                 # Show detailed results
                 st.subheader("Detailed Results")