core_leaderboard

Running

App Files Files Community

benediktstroebl commited on Aug 9, 2024

Commit

07044da

1 Parent(s): 6a40c60

Added Raw prediction dashboard

Browse files

Files changed (1) hide show

app.py +131 -2

app.py CHANGED Viewed

@@ -9,7 +9,10 @@ import json
 from utils import parse_json_files, create_scatter_plot, create_flow_chart
 from huggingface_hub import snapshot_download
 from apscheduler.schedulers.background import BackgroundScheduler
 def restart_space():
@@ -96,6 +99,111 @@ def update_step_details(task_id, step_index):
     return details
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🥇 Agent Leaderboard
@@ -136,7 +244,7 @@ with gr.Blocks() as demo:
                                        "results_accuracy": 20,
                                        "results_total_cost": 20},
                     )
-            gr.Markdown("## USACO Task Trace Explorer")
             with gr.Row():
                 with gr.Column(scale=1):
                     task_dropdown = gr.Dropdown(choices=list(analyzed_traces.keys()), label="Select USACO Task")
@@ -153,6 +261,27 @@ with gr.Blocks() as demo:
             steps_dropdown.change(update_step_details,
                                 inputs=[task_dropdown, steps_dropdown],
                                 outputs=[step_details])
         with gr.Tab("About"):

 from utils import parse_json_files, create_scatter_plot, create_flow_chart
 from huggingface_hub import snapshot_download
 from apscheduler.schedulers.background import BackgroundScheduler
+from datetime import datetime
+import json
+import re
+import markdown
 def restart_space():
     return details
+def format_call_info(call, call_index):
+    call_data = call['call_data']
+    analysis = call['analysis']
+    def format_json(obj):
+        # if isinstance(obj, dict) and 'choices' in obj:
+        #     # Special handling for message content
+        #     formatted_content = format_message_content(obj['choices'][0])
+        #     return f'<div class="message-content">{formatted_content}</div>'
+        # else:
+        json_str = json.dumps(obj, indent=2)
+        json_str = json_str.replace(' ', '&nbsp;')
+        json_str = json_str.replace('\n', '<br>')
+        return f'<div class="json-wrapper">{json_str}</div>'
+    # Currently not used but we can enable it to format message content
+    def format_message_content(content):
+        # Convert Markdown to HTML
+        html_content = markdown.markdown(content)
+        # Replace ``` code blocks with styled pre blocks
+        html_content = re.sub(r'```python\n(.*?)```', lambda m: f'<pre class="code-block">{m.group(1)}</pre>', html_content, flags=re.DOTALL)
+        return html_content
+    formatted_info = f"""
+    <style>
+        .json-wrapper {{
+            white-space: pre-wrap;
+            word-wrap: break-word;
+            font-family: monospace;
+            max-height: 300px;
+            overflow-y: auto;
+            background-color: #f5f5f5;
+            padding: 10px;
+            border-radius: 5px;
+        }}
+        .message-content {{
+            white-space: normal;
+            word-wrap: break-word;
+            font-family: Arial, sans-serif;
+            max-height: 500px;
+            overflow-y: auto;
+            background-color: #ffffff;
+            padding: 10px;
+            border-radius: 5px;
+            border: 1px solid #e0e0e0;
+        }}
+        .code-block {{
+            background-color: #f0f0f0;
+            padding: 10px;
+            border-radius: 5px;
+            font-family: monospace;
+            white-space: pre-wrap;
+            word-wrap: break-word;
+        }}
+    </style>
+    <h2>Step {call_index+1}: {analysis.get('step_outline', 'N/A')}</h2>
+    <h3>Call Metadata</h3>
+    <ul>
+        <li><strong>Weave Task ID:</strong> {call_data['weave_task_id']}</li>
+        <li><strong>Trace ID:</strong> {call_data['trace_id']}</li>
+        <li><strong>Project ID:</strong> {call_data['project_id']}</li>
+        <li><strong>Created Timestamp:</strong> {datetime.fromtimestamp(call_data['created_timestamp'])}</li>
+        <li><strong>Model:</strong> {call_data['inputs']['model']}</li>
+    </ul>
+    <h3>Inputs</h3>
+    {format_json(call_data['inputs'])}
+    <h3>Outputs</h3>
+    {format_json(call_data['outputs'])}
+    <h3>Usage</h3>
+    {format_json(call_data['summary'])}
+    <h3>Analysis</h3>
+    <ul>
+        <li><strong>Description:</strong> {analysis['description']}</li>
+        <li><strong>Assessment:</strong> {analysis['assessment']}</li>
+        <li><strong>Success:</strong> {analysis['success']}</li>
+        <li><strong>Action Type:</strong> {analysis['action_type']}</li>
+    </ul>
+    """
+    return formatted_info
+def update_call_details(task_id, call_index):
+    if task_id not in analyzed_traces or call_index is None:
+        return "Please select a task and step to view details."
+    calls = analyzed_traces[task_id]['steps']
+    if isinstance(call_index, tuple):
+        call_index = call_index[1]
+    if call_index < 0 or call_index >= len(calls):
+        return f"Invalid call index: {call_index}"
+    call = calls[call_index]
+    return format_call_info(call, call_index)
 with gr.Blocks() as demo:
     gr.Markdown("""
     # 🥇 Agent Leaderboard
                                        "results_accuracy": 20,
                                        "results_total_cost": 20},
                     )
+            gr.Markdown("## Agent Monitor")
             with gr.Row():
                 with gr.Column(scale=1):
                     task_dropdown = gr.Dropdown(choices=list(analyzed_traces.keys()), label="Select USACO Task")
             steps_dropdown.change(update_step_details,
                                 inputs=[task_dropdown, steps_dropdown],
                                 outputs=[step_details])
+            gr.Markdown("## Raw Predictions")
+            with gr.Row():
+                with gr.Column(scale=1):
+                    task_dropdown = gr.Dropdown(choices=list(analyzed_traces.keys()), label="Select USACO Task")
+                with gr.Column(scale=1):
+                    call_dropdown = gr.Dropdown(label="Select Call")
+            with gr.Row():
+                call_details = gr.HTML()
+            def update_call_dropdown(task_id):
+                calls = analyzed_traces.get(task_id, [])
+                return gr.Dropdown(choices=[(f"Call {i+1}", i) for i in range(len(calls))])
+            task_dropdown.change(update_call_dropdown,
+                                inputs=[task_dropdown],
+                                outputs=[call_dropdown])
+            call_dropdown.change(update_call_details,
+                                inputs=[task_dropdown, call_dropdown],
+                                outputs=[call_details])
         with gr.Tab("About"):