Spaces:

lcipolina
/

LLM_OpenSpiel_Arena

Sleeping

App Files Files Community

lcipolina commited on Jan 31

Commit

0d67af5

verified ·

1 Parent(s): 46a5214

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -14

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import json
 import gradio as gr
 from agents.llm_registry import LLM_REGISTRY  # Dynamically fetch LLM models
@@ -37,29 +38,36 @@ def save_results_tracker():
 def calculate_leaderboard():
-    """Generate a leaderboard table summarizing LLM performance across games."""
-    leaderboard_data = {"LLM Model": llm_models}
-    for game in games_list:
-        leaderboard_data[game] = [
-            f"{(results_tracker[llm][game]['wins'] / max(1, results_tracker[llm][game]['games']) * 100):.1f}% W / "
-            f"{(results_tracker[llm][game]['ties'] / max(1, results_tracker[llm][game]['games']) * 100):.1f}% T / "
-            f"{(results_tracker[llm][game]['losses'] / max(1, results_tracker[llm][game]['games']) * 100):.1f}% L"
-            for llm in llm_models
-        ]
-    return leaderboard_data
 def get_model_details(model_name):
-    """Returns detailed performance of the selected LLM model."""
     if model_name not in results_tracker:
         return "No data available for this model."
     details = f"### {model_name} Performance Breakdown\n"
     for game, record in results_tracker[model_name].items():
         total_games = record["games"]
-        details += f"- **{game.capitalize()}**: {record['wins']} Wins, {record['ties']} Ties, {record['losses']} Losses (Total: {total_games})\n"
     return details
@@ -69,8 +77,6 @@ with gr.Blocks() as interface:
     with gr.Tab("Game Arena"):
         gr.Markdown("# LLM Game Arena\nPlay against LLMs or other players in classic games!")
-        # (Game selection and play functionality remains unchanged)
     with gr.Tab("Leaderboard"):
         gr.Markdown("# LLM Model Leaderboard\nTrack performance across different games!")

 import os
 import json
+import pandas as pd
 import gradio as gr
 from agents.llm_registry import LLM_REGISTRY  # Dynamically fetch LLM models
 def calculate_leaderboard():
+    """Generate a structured leaderboard table summarizing LLM performance across games."""
+    # Create a DataFrame where rows are LLMs and columns are games
+    leaderboard_df = pd.DataFrame(index=llm_models, columns=games_list)
+    for llm in llm_models:
+        for game in games_list:
+            games_played = max(1, results_tracker[llm][game]['games'])  # Avoid division by zero
+            wins = (results_tracker[llm][game]['wins'] / games_played) * 100
+            ties = (results_tracker[llm][game]['ties'] / games_played) * 100
+            losses = (results_tracker[llm][game]['losses'] / games_played) * 100
+            # Format as percentage string
+            leaderboard_df.loc[llm, game] = f"{wins:.1f}% W / {ties:.1f}% T / {losses:.1f}% L"
+    return leaderboard_df
 def get_model_details(model_name):
+    """Returns detailed performance breakdown of the selected LLM model."""
     if model_name not in results_tracker:
         return "No data available for this model."
     details = f"### {model_name} Performance Breakdown\n"
     for game, record in results_tracker[model_name].items():
         total_games = record["games"]
+        details += (
+            f"- **{game.capitalize()}**: {record['wins']} Wins, "
+            f"{record['ties']} Ties, {record['losses']} Losses (Total: {total_games})\n"
+        )
     return details
     with gr.Tab("Game Arena"):
         gr.Markdown("# LLM Game Arena\nPlay against LLMs or other players in classic games!")
     with gr.Tab("Leaderboard"):
         gr.Markdown("# LLM Model Leaderboard\nTrack performance across different games!")