"""
GuardBench Leaderboard Application
"""

import os
import json
import tempfile
import logging
import gradio as gr
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from apscheduler.schedulers.background import BackgroundScheduler
import numpy as np
from gradio.themes.utils import fonts, colors
from dataclasses import fields, dataclass

from src.about import (
    CITATION_BUTTON_LABEL,
    CITATION_BUTTON_TEXT,
    EVALUATION_QUEUE_TEXT,
    INTRODUCTION_TEXT,
    LLM_BENCHMARKS_TEXT,
    TITLE,
)
from src.display.css_html_js import custom_css
from src.display.utils import (
    GUARDBENCH_COLUMN,
    DISPLAY_COLS,
    METRIC_COLS,
    HIDDEN_COLS,
    NEVER_HIDDEN_COLS,
    CATEGORIES,
    TEST_TYPES,
    ModelType,
    Mode,
    Precision,
    WeightType,
    GuardModelType,
    get_all_column_choices,
    get_default_visible_columns,
)
from src.display.formatting import styled_message, styled_error, styled_warning
from src.envs import (
    ADMIN_USERNAME,
    ADMIN_PASSWORD,
    RESULTS_DATASET_ID,
    SUBMITTER_TOKEN,
    TOKEN,
    DATA_PATH,
)
from src.populate import get_leaderboard_df, get_category_leaderboard_df
from src.submission.submit import process_submission

# Configure logging
logging.basicConfig(
    level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s"
)
logger = logging.getLogger(__name__)

# Ensure data directory exists
os.makedirs(DATA_PATH, exist_ok=True)

# Available benchmark versions
BENCHMARK_VERSIONS = ["v0"]
CURRENT_VERSION = "v0"

# Initialize leaderboard data
try:
    logger.info("Initializing leaderboard data...")
    LEADERBOARD_DF = get_leaderboard_df(version=CURRENT_VERSION)
    logger.info(f"Loaded leaderboard with {len(LEADERBOARD_DF)} entries")
except Exception as e:
    logger.error(f"Error loading leaderboard data: {e}")
    LEADERBOARD_DF = pd.DataFrame()

custom_theme = gr.themes.Default(
    primary_hue=colors.slate,
    secondary_hue=colors.slate,
    neutral_hue=colors.neutral,
    font=(fonts.GoogleFont("Inter"), "sans-serif"),
).set(
    # font_size="16px",
    body_background_fill="#0f0f10",
    body_background_fill_dark="#0f0f10",
    body_text_color="#f4f4f5",
    body_text_color_subdued="#a1a1aa",
    block_background_fill="#1e1e1e",  # Cooler Grey
    block_border_color="#333333",  # Cooler Grey
    block_shadow="none",
    # Swapped primary and secondary button styles
    button_primary_background_fill="#121212",  # Changed to specific color for Refresh button
    button_primary_text_color="#f4f4f5",
    button_primary_border_color="#333333",  # Keep border grey or change to #121212?
    button_secondary_background_fill="#f4f4f5",
    button_secondary_text_color="#0f0f10",
    button_secondary_border_color="#f4f4f5",
    input_background_fill="#1e1e1e",  # Cooler Grey
    input_border_color="#333333",  # Cooler Grey
    input_placeholder_color="#71717a",
    table_border_color="#333333",  # Cooler Grey
    table_even_background_fill="#2d2d2d",  # Cooler Grey (Slightly lighter)
    table_odd_background_fill="#1e1e1e",  # Cooler Grey
    table_text_color="#f4f4f5",
    link_text_color="#ffffff",
    border_color_primary="#333333",  # Cooler Grey
    background_fill_secondary="#333333",  # Cooler Grey
    color_accent="#f4f4f5",
    border_color_accent="#333333",  # Cooler Grey
    button_primary_background_fill_hover="#424242",  # Cooler Grey
    block_title_text_color="#f4f4f5",
    accordion_text_color="#f4f4f5",
    panel_background_fill="#1e1e1e",  # Cooler Grey
    panel_border_color="#333333",  # Cooler Grey
    # Explicitly setting primary/secondary/accent colors/borders
    background_fill_primary="#0f0f10",
    background_fill_primary_dark="#0f0f10",
    background_fill_secondary_dark="#333333",  # Cooler Grey
    border_color_primary_dark="#333333",  # Cooler Grey
    border_color_accent_dark="#333333",  # Cooler Grey
    border_color_accent_subdued="#424242",  # Cooler Grey
    border_color_accent_subdued_dark="#424242",  # Cooler Grey
    color_accent_soft="#a1a1aa",
    color_accent_soft_dark="#a1a1aa",
    # Explicitly setting input hover/focus states
    input_background_fill_dark="#1e1e1e",  # Cooler Grey
    input_background_fill_focus="#424242",  # Cooler Grey
    input_background_fill_focus_dark="#424242",  # Cooler Grey
    input_background_fill_hover="#2d2d2d",  # Cooler Grey
    input_background_fill_hover_dark="#2d2d2d",  # Cooler Grey
    input_border_color_dark="#333333",  # Cooler Grey
    input_border_color_focus="#f4f4f5",
    input_border_color_focus_dark="#f4f4f5",
    input_border_color_hover="#424242",  # Cooler Grey
    input_border_color_hover_dark="#424242",  # Cooler Grey
    input_placeholder_color_dark="#71717a",
    # Explicitly set dark variants for table backgrounds
    table_even_background_fill_dark="#2d2d2d",  # Cooler Grey
    table_odd_background_fill_dark="#1e1e1e",  # Cooler Grey
    # Explicitly set dark text variants
    body_text_color_dark="#f4f4f5",
    body_text_color_subdued_dark="#a1a1aa",
    block_title_text_color_dark="#f4f4f5",
    accordion_text_color_dark="#f4f4f5",
    table_text_color_dark="#f4f4f5",
    # Explicitly set dark panel/block variants
    panel_background_fill_dark="#1e1e1e",  # Cooler Grey
    panel_border_color_dark="#333333",  # Cooler Grey
    block_background_fill_dark="#1e1e1e",  # Cooler Grey
    block_border_color_dark="#333333",  # Cooler Grey
)


@dataclass
class ColumnInfo:
    """Information about a column in the leaderboard."""

    name: str
    display_name: str
    type: str = "text"
    hidden: bool = False
    never_hidden: bool = False
    displayed_by_default: bool = True


def update_column_choices(df):
    """Update column choices based on what's actually in the dataframe"""
    if df is None or df.empty:
        return get_all_column_choices()

    # Get columns that actually exist in the dataframe
    existing_columns = list(df.columns)

    # Get all possible columns with their display names
    all_columns = get_all_column_choices()

    # Filter to only include columns that exist in the dataframe
    valid_columns = [
        (col_name, display_name)
        for col_name, display_name in all_columns
        if col_name in existing_columns
    ]

    # Return default if there are no valid columns
    if not valid_columns:
        return get_all_column_choices()

    return valid_columns


# Update the column_selector initialization
def get_initial_columns():
    """Get initial columns to show in the dropdown"""
    try:
        # Get available columns in the main dataframe
        available_cols = list(LEADERBOARD_DF.columns)
        logger.info(f"Available columns in LEADERBOARD_DF: {available_cols}")

        # If dataframe is empty, use default visible columns
        if not available_cols:
            return get_default_visible_columns()

        # Get default visible columns that actually exist in the dataframe
        valid_defaults = [
            col for col in get_default_visible_columns() if col in available_cols
        ]

        # If none of the defaults exist, return all available columns
        if not valid_defaults:
            return available_cols

        return valid_defaults
    except Exception as e:
        logger.error(f"Error getting initial columns: {e}")
        return get_default_visible_columns()


def init_leaderboard(dataframe, visible_columns=None):
    """
    Initialize a standard Gradio Dataframe component for the leaderboard.
    """
    if dataframe is None or dataframe.empty:
        # Create an empty dataframe with the right columns
        columns = [getattr(GUARDBENCH_COLUMN, col).name for col in DISPLAY_COLS]
        dataframe = pd.DataFrame(columns=columns)
        logger.warning("Initializing empty leaderboard")

    # Lowercase model_name for display
    if "model_name" in dataframe.columns:
        dataframe = dataframe.copy()
        dataframe["model_name"] = dataframe["model_name"].str.lower()

    if "model_type" in dataframe.columns:
        dataframe = dataframe.copy()
        dataframe["model_type"] = dataframe["model_type"].str.replace(" : ", "-")

    if "guard_model_type" in dataframe.columns:
        dataframe = dataframe.copy()
        dataframe["guard_model_type"] = dataframe["guard_model_type"].str.replace("wc_guard", "whitecircle_guard")

    # print("\n\n", "dataframe", dataframe, "--------------------------------\n\n")

    # Determine which columns to display
    display_column_names = [
        getattr(GUARDBENCH_COLUMN, col).name for col in DISPLAY_COLS
    ]
    hidden_column_names = [getattr(GUARDBENCH_COLUMN, col).name for col in HIDDEN_COLS]

    # Columns that should always be shown
    always_visible = [getattr(GUARDBENCH_COLUMN, col).name for col in NEVER_HIDDEN_COLS]

    # Use provided visible columns if specified, otherwise use default
    if visible_columns is None:
        # Determine which columns to show initially
        visible_columns = [
            col for col in display_column_names if col not in hidden_column_names
        ]

    # Always include the never-hidden columns
    for col in always_visible:
        if col not in visible_columns and col in dataframe.columns:
            visible_columns.append(col)

    # Make sure we only include columns that actually exist in the dataframe
    visible_columns = [col for col in visible_columns if col in dataframe.columns]

    # Map GuardBench column types to Gradio's expected datatype strings
    # Valid Gradio datatypes are: 'str', 'number', 'bool', 'date', 'markdown', 'html', 'image'
    type_mapping = {
        "text": "str",
        "number": "number",
        "bool": "bool",
        "date": "date",
        "markdown": "markdown",
        "html": "html",
        "image": "image",
    }

    # Create a list of datatypes in the format Gradio expects
    datatypes = []
    for col in visible_columns:
        # Find the corresponding GUARDBENCH_COLUMN entry
        col_type = None
        for display_col in DISPLAY_COLS:
            if getattr(GUARDBENCH_COLUMN, display_col).name == col:
                orig_type = getattr(GUARDBENCH_COLUMN, display_col).type
                # Map to Gradio's expected types
                col_type = type_mapping.get(orig_type, "str")
                break

        # Default to 'str' if type not found or not mappable
        if col_type is None:
            col_type = "str"

        datatypes.append(col_type)

    # Create a dummy column for search functionality if it doesn't exist
    if "search_dummy" not in dataframe.columns:
        dataframe["search_dummy"] = dataframe.apply(
            lambda row: " ".join(str(val) for val in row.values if pd.notna(val)),
            axis=1,
        )

    # Select only the visible columns for display
    visible_columns.remove("model_name")

    visible_columns = ["model_name"] + visible_columns
    display_df = dataframe[visible_columns].copy()

    # print(f"--- DataFrame inside init_leaderboard (before rounding) ---")
    # print(display_df[['model_name', 'macro_accuracy', 'macro_recall', 'total_evals_count']].head() if all(c in display_df.columns for c in ['model_name', 'macro_accuracy', 'macro_recall', 'total_evals_count']) else "Relevant columns not present")
    # print(f"-------------------------------------------------------------")

    # Round numeric columns to 3 decimal places for display
    numeric_cols = display_df.select_dtypes(include=np.number).columns
    for col in numeric_cols:
        # Avoid rounding integer columns like counts
        if not pd.api.types.is_integer_dtype(display_df[col]):
            # Format floats to exactly 3 decimal places, preserving trailing zeros
            display_df[col] = display_df[col].apply(
                lambda x: f"{x:.3f}" if pd.notna(x) else None
            )

    column_info_map = {
        f.name: getattr(GUARDBENCH_COLUMN, f.name) for f in fields(GUARDBENCH_COLUMN)
    }
    column_mapping = {
        col: column_info_map.get(col, ColumnInfo(col, col)).display_name
        for col in visible_columns
    }

    # Rename columns in the DataFrame
    display_df.rename(columns=column_mapping, inplace=True)

    # Apply styling - note: styling might need adjustment if it relies on column names
    styler = display_df.style.set_properties(**{"text-align": "right"}).set_properties(
        subset=["Model"], **{"width": "200px"}
    )

    return gr.Dataframe(
        value=styler,
        datatype=datatypes,
        interactive=False,
        wrap=True,
        height=2500,
        elem_id="leaderboard-table",
        row_count=len(display_df),
    )


def search_filter_leaderboard(
    df, search_query="", model_types=None, version=CURRENT_VERSION
):
    """
    Filter the leaderboard based on search query and model types.
    """
    if df is None or df.empty:
        return df

    filtered_df = df.copy()

    # Add search dummy column if it doesn't exist
    if "search_dummy" not in filtered_df.columns:
        filtered_df["search_dummy"] = filtered_df.apply(
            lambda row: " ".join(str(val) for val in row.values if pd.notna(val)),
            axis=1,
        )

    # Apply model type filter
    if model_types and len(model_types) > 0:
        filtered_df = filtered_df[
            filtered_df[GUARDBENCH_COLUMN.model_type.name].isin(model_types)
        ]

    # Apply search query
    if search_query:
        search_terms = [
            term.strip() for term in search_query.split(";") if term.strip()
        ]
        if search_terms:
            combined_mask = None
            for term in search_terms:
                mask = filtered_df["search_dummy"].str.contains(
                    term, case=False, na=False
                )
                if combined_mask is None:
                    combined_mask = mask
                else:
                    combined_mask = combined_mask | mask

            if combined_mask is not None:
                filtered_df = filtered_df[combined_mask]

    # Drop the search dummy column before returning
    visible_columns = [col for col in filtered_df.columns if col != "search_dummy"]
    return filtered_df[visible_columns]


def refresh_data_with_filters(
    version=CURRENT_VERSION, search_query="", model_types=None, selected_columns=None
):
    """
    Refresh the leaderboard data and update all components with filtering.
    Ensures we handle cases where dataframes might have limited columns.
    """
    global LEADERBOARD_DF
    try:
        logger.info(f"Performing refresh of leaderboard data with filters...")
        # Get new data
        main_df = get_leaderboard_df(version=version)
        LEADERBOARD_DF = main_df
        category_dfs = [
            get_category_leaderboard_df(category, version=version)
            for category in CATEGORIES
        ]
        selected_columns = [
            x.lower()
            .replace(" ", "_")
            .replace("(", "")
            .replace(")", "")
            .replace("_recall", "_recall_binary")
            .replace("_precision", "_precision_binary")
            for x in selected_columns
        ]

        # Log the actual columns we have
        logger.info(f"Main dataframe columns: {list(main_df.columns)}")

        # Apply filters to each dataframe
        filtered_main_df = search_filter_leaderboard(
            main_df, search_query, model_types, version
        )
        filtered_category_dfs = [
            search_filter_leaderboard(df, search_query, model_types, version)
            for df in category_dfs
        ]

        # Get available columns from the dataframe
        available_columns = list(filtered_main_df.columns)

        # Filter selected columns to only those available in the data
        if selected_columns:
            # Convert display names to internal names first
            internal_selected_columns = [
                x.lower()
                .replace(" ", "_")
                .replace("(", "")
                .replace(")", "")
                .replace("_recall", "_recall_binary")
                .replace("_precision", "_precision_binary")
                for x in selected_columns
            ]
            valid_selected_columns = [
                col for col in internal_selected_columns if col in available_columns
            ]
            if not valid_selected_columns and "model_name" in available_columns:
                # Fallback if conversion/filtering leads to empty selection
                valid_selected_columns = ["model_name"] + [
                    col
                    for col in get_default_visible_columns()
                    if col in available_columns
                ]
        else:
            # If no columns were selected in the dropdown, use default visible columns that exist
            valid_selected_columns = [
                col for col in get_default_visible_columns() if col in available_columns
            ]

        # Initialize dataframes for display with valid selected columns
        main_dataframe = init_leaderboard(filtered_main_df, valid_selected_columns)

        # For category dataframes, get columns that actually exist in each one
        category_dataframes = []
        for df in filtered_category_dfs:
            df_columns = list(df.columns)
            df_valid_columns = [
                col for col in valid_selected_columns if col in df_columns
            ]
            if not df_valid_columns and "model_name" in df_columns:
                df_valid_columns = ["model_name"] + get_default_visible_columns()
            category_dataframes.append(init_leaderboard(df, df_valid_columns))

        return main_dataframe, *category_dataframes

    except Exception as e:
        logger.error(f"Error in refresh with filters: {e}")
        # Return the current leaderboards on error
        return leaderboard, *[
            tab.children[0] for tab in category_tabs.children[1 : len(CATEGORIES) + 1]
        ]


def submit_results(
    model_name: str,
    base_model: str,
    revision: str,
    precision: str,
    weight_type: str,
    model_type: str,
    mode: str,
    submission_file: tempfile._TemporaryFileWrapper,
    version: str,
    guard_model_type: GuardModelType,
):
    """
    Handle submission of results with model metadata.
    """
    if submission_file is None:
        return styled_error("No submission file provided")

    if not model_name:
        return styled_error("Model name is required")

    if not model_type:
        return styled_error("Please select a model type")

    if not mode:
        return styled_error("Please select an inference mode")

    file_path = submission_file.name
    logger.info(f"Received submission for model {model_name}: {file_path}")

    # Add metadata to the submission
    metadata = {
        "model_name": model_name,
        "base_model": base_model,
        "revision": revision if revision else "main",
        "precision": precision,
        "weight_type": weight_type,
        "model_type": model_type,
        "mode": mode,
        "version": version,
        "guard_model_type": guard_model_type,
    }

    # Process the submission
    result = process_submission(file_path, metadata, version=version)

    # Refresh the leaderboard data
    global LEADERBOARD_DF
    try:
        logger.info(
            f"Refreshing leaderboard data after submission for version {version}..."
        )
        LEADERBOARD_DF = get_leaderboard_df(version=version)
        logger.info("Refreshed leaderboard data after submission")
    except Exception as e:
        logger.error(f"Error refreshing leaderboard data: {e}")

    return result


def refresh_data(version=CURRENT_VERSION):
    """
    Refresh the leaderboard data and update all components.
    """
    try:
        logger.info(f"Performing scheduled refresh of leaderboard data...")
        # Get new data
        main_df = get_leaderboard_df(version=version)
        category_dfs = [
            get_category_leaderboard_df(category, version=version)
            for category in CATEGORIES
        ]

        # For gr.Dataframe, we return the actual dataframes
        return main_df, *category_dfs

    except Exception as e:
        logger.error(f"Error in scheduled refresh: {e}")
        return None, *[None for _ in CATEGORIES]


def update_leaderboards(version):
    """
    Update all leaderboard components with data for the selected version.
    """
    try:
        new_df = get_leaderboard_df(version=version)
        category_dfs = [
            get_category_leaderboard_df(category, version=version)
            for category in CATEGORIES
        ]
        return new_df, *category_dfs
    except Exception as e:
        logger.error(f"Error updating leaderboards for version {version}: {e}")
        return None, *[None for _ in CATEGORIES]


def create_performance_plot(
    selected_models, category, metric="f1_binary", version=CURRENT_VERSION
):
    """
    Create a radar plot comparing model performance for selected models.
    """
    if category == "All Results":
        df = get_leaderboard_df(version=version)
    else:
        df = get_category_leaderboard_df(category, version=version)

    if df.empty:
        return go.Figure()

    # Lowercase model_name in df and selected_models
    df = df.copy()
    df["model_name"] = df["model_name"].str.lower()
    selected_models = [m.lower() for m in selected_models]
    df = df[df["model_name"].isin(selected_models)]
    metric_cols = [col for col in df.columns if metric in col]
    fig = go.Figure()
    colors = ["#8FCCCC", "#C2A4B6", "#98B4A6", "#B68F7C"]
    for idx, model in enumerate(selected_models):
        model_data = df[df["model_name"] == model]
        if not model_data.empty:
            values = model_data[metric_cols].values[0].tolist()
            values = values + [values[0]]
            categories = [col.replace(f"_{metric}", "") for col in metric_cols]
            # Replace 'jailbreaked' with 'jailbroken' in categories
            categories = [cat.replace('jailbreaked', 'jailbroken') for cat in categories]
            categories = categories + [categories[0]]
            fig.add_trace(
                go.Scatterpolar(
                    r=values,
                    theta=categories,
                    name=model,
                    line_color=colors[idx % len(colors)],
                    fill="toself",
                )
            )
    fig.update_layout(
        paper_bgcolor="#000000",
        plot_bgcolor="#000000",
        font={"color": "#ffffff"},
        title={
            "text": f"{category} - {metric.upper()} Score Comparison",
            "font": {"color": "#ffffff", "size": 24},
        },
        polar=dict(
            bgcolor="#000000",
            radialaxis=dict(
                visible=True,
                range=[0, 1],
                gridcolor="#333333",
                linecolor="#333333",
                tickfont={"color": "#ffffff"},
            ),
            angularaxis=dict(
                gridcolor="#333333",
                linecolor="#333333",
                tickfont={"color": "#ffffff"},
            ),
        ),
        height=600,
        showlegend=True,
        legend=dict(
            yanchor="top",
            y=0.99,
            xanchor="right",
            x=0.99,
            bgcolor="rgba(0,0,0,0.5)",
            font={"color": "#ffffff"},
        ),
    )
    return fig


def update_model_choices(version):
    """
    Update the list of available models for the given version.
    """
    df = get_leaderboard_df(version=version)
    if df.empty:
        return []
    return sorted(df["model_name"].str.lower().unique().tolist())


def update_visualization(selected_models, selected_category, selected_metric, version):
    """
    Update the visualization based on user selections.
    """
    if not selected_models:
        return go.Figure()
    return create_performance_plot(
        selected_models, selected_category, selected_metric, version
    )


# Create Gradio app
demo = gr.Blocks(css=custom_css, theme=custom_theme)

CATEGORY_DISPLAY_MAP = {
    "Political Corruption and Legal Evasion": "Corruption & Legal Evasion",
    "Financial Fraud and Unethical Business": "Financial Fraud",
    "AI Manipulation and Jailbreaking": "AI Jailbreaking",
    "Child Exploitation and Abuse": "Child Exploitation",
    "Hate Speech, Extremism, and Discrimination": "Hate Speech",
    "Labor Exploitation and Human Trafficking": "Labor Exploitation",
    "Manipulation, Deception, and Misinformation": "Misinformation",
    "Environmental and Industrial Harm": "Environmental Harm",
    "Academic Dishonesty and Cheating": "Academic Dishonesty",
    "Self–Harm and Suicidal Ideation": "Self-Harm",
    "Animal Cruelty and Exploitation": "Animal Harm",
    "Criminal, Violent, and Terrorist Activity": "Crime & Violence",
    "Drug– and Substance–Related Activities": "Drug Use",
    "Sexual Content and Violence": "Sexual Content",
    "Weapon, Explosives, and Hazardous Materials": "Weapons & Harmful Materials",
    "Cybercrime, Hacking, and Digital Exploits": "Cybercrime",
    "Creative Content Involving Illicit Themes": "Illicit Creative",
    "Safe Prompts": "Safe Prompts",
}
# Create reverse mapping for lookups
CATEGORY_REVERSE_MAP = {v: k for k, v in CATEGORY_DISPLAY_MAP.items()}

with demo:
    gr.HTML(TITLE)
    # gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
    gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

    with gr.Row():
        tabs = gr.Tabs(elem_classes="tab-buttons")

        with tabs:
            with gr.TabItem("Leaderboard", elem_id="guardbench-leaderboard-tab", id=0):
                with gr.Row():
                    version_selector = gr.Dropdown(
                        choices=BENCHMARK_VERSIONS,
                        label="Benchmark Version",
                        value=CURRENT_VERSION,
                        interactive=True,
                        elem_classes="version-selector",
                        scale=1,
                        visible=False,
                    )

                with gr.Row():
                    search_input = gr.Textbox(
                        placeholder="Search by models (use ; to split)",
                        label="Search",
                        elem_id="search-bar",
                        scale=2,
                    )
                    model_type_filter = gr.Dropdown(
                        choices=[
                            t.to_str("-") for t in ModelType if t != ModelType.Unknown and t != ModelType.ClosedSource
                        ],
                        label="Access Type",
                        multiselect=True,
                        value=[],
                        interactive=True,
                        scale=1,
                    )
                    column_selector = gr.Dropdown(
                        choices=get_all_column_choices(),
                        label="Columns",
                        multiselect=True,
                        value=get_initial_columns(),
                        interactive=True,
                        visible=False,
                        scale=1,
                    )
                with gr.Row():
                    refresh_button = gr.Button(
                        "Refresh", scale=0, elem_id="refresh-button"
                    )

                # Create tabs for each category
                with gr.Tabs(elem_classes="category-tabs") as category_tabs:
                    # First tab for average metrics across all categories
                    with gr.TabItem("All Results", elem_id="overall-tab"):
                        leaderboard = init_leaderboard(LEADERBOARD_DF)

                    # Create a tab for each category using display names
                    for category in CATEGORIES:
                        display_name = CATEGORY_DISPLAY_MAP.get(category, category)
                        elem_id = f"category-{display_name.lower().replace(' ', '-').replace('&', 'and')}-tab"
                        with gr.TabItem(display_name, elem_id=elem_id):
                            category_df = get_category_leaderboard_df(
                                category, version=CURRENT_VERSION
                            )
                            category_leaderboard = init_leaderboard(category_df)

                # Connect search and filter inputs to update function
                def update_with_search_filters(
                    version=CURRENT_VERSION,
                    search_query="",
                    model_types=None,
                    selected_columns=None,
                ):
                    """
                    Update the leaderboards with search and filter settings.
                    """
                    return refresh_data_with_filters(
                        version, search_query, model_types, selected_columns
                    )

                # Refresh button functionality
                def refresh_and_update(
                    version, search_query, model_types, selected_columns
                ):
                    """
                    Refresh data, update LEADERBOARD_DF, and return updated components.
                    """
                    global LEADERBOARD_DF
                    main_df = get_leaderboard_df(version=version)
                    LEADERBOARD_DF = main_df  # Update the global DataFrame
                    return refresh_data_with_filters(
                        version, search_query, model_types, selected_columns
                    )

                refresh_button.click(
                    fn=refresh_and_update,
                    inputs=[
                        version_selector,
                        search_input,
                        model_type_filter,
                        column_selector,
                    ],
                    outputs=[leaderboard]
                    + [
                        category_tabs.children[i].children[0]
                        for i in range(1, len(CATEGORIES) + 1)
                    ],
                )
                # Search input functionality
                search_input.change(
                    fn=refresh_data_with_filters,
                    inputs=[
                        version_selector,
                        search_input,
                        model_type_filter,
                        column_selector,
                    ],
                    outputs=[leaderboard]
                    + [
                        category_tabs.children[i].children[0]
                        for i in range(1, len(CATEGORIES) + 1)
                    ],
                )

                # Model type filter functionality
                model_type_filter.change(
                    fn=refresh_data_with_filters,
                    inputs=[
                        version_selector,
                        search_input,
                        model_type_filter,
                        column_selector,
                    ],
                    outputs=[leaderboard]
                    + [
                        category_tabs.children[i].children[0]
                        for i in range(1, len(CATEGORIES) + 1)
                    ],
                )

                # Version selector functionality
                version_selector.change(
                    fn=refresh_data_with_filters,
                    inputs=[
                        version_selector,
                        search_input,
                        model_type_filter,
                        column_selector,
                    ],
                    outputs=[leaderboard]
                    + [
                        category_tabs.children[i].children[0]
                        for i in range(1, len(CATEGORIES) + 1)
                    ],
                )

                # Update the update_columns function to handle updating all tabs at once
                def update_columns(selected_columns):
                    """
                    Update all leaderboards to show the selected columns.
                    Ensures all selected columns are preserved in the update.

                    """

                    try:
                        logger.info(f"Updating columns to show: {selected_columns}")

                        # If no columns are selected, use default visible columns
                        if not selected_columns or len(selected_columns) == 0:
                            selected_columns = get_default_visible_columns()
                            logger.info(
                                f"No columns selected, using defaults: {selected_columns}"
                            )

                        # Convert display names to internal names
                        internal_selected_columns = [
                            x.lower()
                            .replace(" ", "_")
                            .replace("(", "")
                            .replace(")", "")
                            .replace("_recall", "_recall_binary")
                            .replace("_precision", "_precision_binary")
                            for x in selected_columns
                        ]

                        # Get the current data with ALL columns preserved
                        main_df = get_leaderboard_df(version=version_selector.value)

                        # Get category dataframes with ALL columns preserved
                        category_dfs = [
                            get_category_leaderboard_df(
                                category, version=version_selector.value
                            )
                            for category in CATEGORIES
                        ]

                        # Log columns for debugging
                        logger.info(f"Main dataframe columns: {list(main_df.columns)}")
                        logger.info(
                            f"Selected columns (internal): {internal_selected_columns}"
                        )

                        # IMPORTANT: Make sure model_name is always included
                        if (
                            "model_name" in main_df.columns
                            and "model_name" not in internal_selected_columns
                        ):
                            internal_selected_columns = [
                                "model_name"
                            ] + internal_selected_columns

                        # Initialize the main leaderboard with the selected columns
                        # We're passing the internal_selected_columns directly to preserve the selection
                        main_leaderboard = init_leaderboard(
                            main_df, internal_selected_columns
                        )

                        # Initialize category dataframes with the same selected columns
                        # This ensures consistency across all tabs
                        category_leaderboards = []
                        for df in category_dfs:
                            # Use the same selected columns for each category
                            # init_leaderboard will automatically handle filtering to columns that exist
                            category_leaderboards.append(
                                init_leaderboard(df, internal_selected_columns)
                            )

                        return main_leaderboard, *category_leaderboards

                    except Exception as e:
                        logger.error(f"Error updating columns: {e}")
                        import traceback

                        logger.error(traceback.format_exc())
                        return leaderboard, *[
                            tab.children[0]
                            for tab in category_tabs.children[1 : len(CATEGORIES) + 1]
                        ]

                # Connect column selector to update function
                column_selector.change(
                    fn=update_columns,
                    inputs=[column_selector],
                    outputs=[leaderboard]
                    + [
                        category_tabs.children[i].children[0]
                        for i in range(1, len(CATEGORIES) + 1)
                    ],
                )

            with gr.TabItem("Visualize", elem_id="guardbench-viz-tab", id=1):
                with gr.Row():
                    with gr.Column():
                        viz_version_selector = gr.Dropdown(
                            choices=BENCHMARK_VERSIONS,
                            label="Benchmark Version",
                            value=CURRENT_VERSION,
                            interactive=True,
                            visible=False,
                        )

                        # New: Mode selector
                        def get_model_mode_choices(version):
                            df = get_leaderboard_df(version=version)
                            if df.empty:
                                return []
                            return sorted([
                                f"{str(row['model_name']).lower()} [{row['mode']}]"
                                for _, row in df.drop_duplicates(subset=["model_name", "mode"]).iterrows()
                            ])

                        model_mode_selector = gr.Dropdown(
                            choices=get_model_mode_choices(CURRENT_VERSION),
                            label="Select Model(s) [Mode] to Compare",
                            multiselect=True,
                            interactive=True,
                        )
                    with gr.Column():
                        # Add Overall Performance to categories, use display names
                        viz_categories_display = ["All Results"] + [
                            CATEGORY_DISPLAY_MAP.get(cat, cat) for cat in CATEGORIES
                        ]
                        category_selector = gr.Dropdown(
                            choices=viz_categories_display,
                            label="Select Category",
                            value=viz_categories_display[0],
                            interactive=True,
                        )
                        metric_selector = gr.Dropdown(
                            choices=[
                                "accuracy",
                                "f1_binary",
                                "precision_binary",
                                "recall_binary",
                                "error_ratio",
                            ],
                            label="Select Metric",
                            value="accuracy",
                            interactive=True,
                        )

                plot_output = gr.Plot()

                # Update visualization when any selector changes
                def update_visualization_with_mode(
                    selected_model_modes, selected_category, selected_metric, version
                ):
                    if not selected_model_modes:
                        return go.Figure()
                    df = (
                        get_leaderboard_df(version=version)
                        if selected_category == "All Results"
                        else get_category_leaderboard_df(selected_category, version=version)
                    )
                    if df.empty:
                        return go.Figure()
                    df = df.copy()
                    df["model_name"] = df["model_name"].str.lower()
                    selected_pairs = [s.rsplit(" [", 1) for s in selected_model_modes]
                    selected_pairs = [
                        (name.strip().lower(), mode.strip("] "))
                        for name, mode in selected_pairs
                    ]
                    mask = df.apply(
                        lambda row: (row["model_name"], str(row["mode"])) in selected_pairs,
                        axis=1,
                    )
                    filtered_df = df[mask]
                    metric_cols = [col for col in filtered_df.columns if selected_metric in col]
                    fig = go.Figure()
                    colors = ["#8FCCCC", "#C2A4B6", "#98B4A6", "#B68F7C"]
                    for idx, (model_name, mode) in enumerate(selected_pairs):
                        model_data = filtered_df[
                            (filtered_df["model_name"] == model_name)
                            & (filtered_df["mode"] == mode)
                        ]
                        if not model_data.empty:
                            values = model_data[metric_cols].values[0].tolist()
                            values = values + [values[0]]
                            categories = [col.replace(f"_{selected_metric}", "") for col in metric_cols]
                            # Replace 'jailbreaked' with 'jailbroken' in categories
                            categories = [cat.replace('jailbreaked', 'jailbroken') for cat in categories]
                            categories = categories + [categories[0]]
                            fig.add_trace(
                                go.Scatterpolar(
                                    r=values,
                                    theta=categories,
                                    name=f"{model_name} [{mode}]",
                                    line_color=colors[idx % len(colors)],
                                    fill="toself",
                                )
                            )
                    fig.update_layout(
                        paper_bgcolor="#000000",
                        plot_bgcolor="#000000",
                        font={"color": "#ffffff"},
                        title={
                            "text": f"{selected_category} - {selected_metric.upper()} Score Comparison",
                            "font": {"color": "#ffffff", "size": 24},
                        },
                        polar=dict(
                            bgcolor="#000000",
                            radialaxis=dict(
                                visible=True,
                                range=[0, 1],
                                gridcolor="#333333",
                                linecolor="#333333",
                                tickfont={"color": "#ffffff"},
                            ),
                            angularaxis=dict(
                                gridcolor="#333333",
                                linecolor="#333333",
                                tickfont={"color": "#ffffff"},
                            ),
                        ),
                        height=600,
                        showlegend=True,
                        legend=dict(
                            yanchor="top",
                            y=0.99,
                            xanchor="right",
                            x=0.99,
                            bgcolor="rgba(0,0,0,0.5)",
                            font={"color": "#ffffff"},
                        ),
                    )
                    return fig

                # Connect selectors to update function
                for control in [
                    viz_version_selector,
                    model_mode_selector,
                    category_selector,
                    metric_selector,
                ]:
                    control.change(
                        fn=lambda smm, sc, s_metric, v: update_visualization_with_mode(
                            smm, CATEGORY_REVERSE_MAP.get(sc, sc), s_metric, v
                        ),
                        inputs=[
                            model_mode_selector,
                            category_selector,
                            metric_selector,
                            viz_version_selector,
                        ],
                        outputs=plot_output,
                    )

                # Update model_mode_selector choices when version changes
                viz_version_selector.change(
                    fn=get_model_mode_choices,
                    inputs=[viz_version_selector],
                    outputs=[model_mode_selector],
                )

            # with gr.TabItem("About", elem_id="guardbench-about-tab", id=2):
            #     gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

            with gr.TabItem("Submit", elem_id="guardbench-submit-tab", id=3):
                gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")

                with gr.Row():
                    # with gr.Column(scale=3):
                    #     gr.Markdown("# ✉️✨ Submit your results here!", elem_classes="markdown-text")
                    with gr.Column(scale=1):
                        # Add version selector specifically for the submission tab
                        submission_version_selector = gr.Dropdown(
                            choices=BENCHMARK_VERSIONS,
                            label="Benchmark Version",
                            value=CURRENT_VERSION,
                            interactive=True,
                            elem_classes="version-selector",
                            visible=False,
                        )

                with gr.Row():
                    with gr.Column():
                        model_name_textbox = gr.Textbox(label="Model name")
                        mode_selector = gr.Dropdown(
                            choices=[m.name for m in Mode],
                            label="Mode",
                            multiselect=False,
                            value=None,
                            interactive=True,
                        )
                        revision_name_textbox = gr.Textbox(
                            label="Revision commit", placeholder="main"
                        )
                        model_type = gr.Dropdown(
                            choices=[
                                t.to_str("-")
                                for t in ModelType
                                if t != ModelType.Unknown and t != ModelType.ClosedSource
                            ],
                            label="Model type",
                            multiselect=False,
                            value=None,
                            interactive=True,
                        )
                        guard_model_type = gr.Dropdown(
                            choices=[t.name for t in GuardModelType],
                            label="Guard model type",
                            multiselect=False,
                            value=GuardModelType.LLM_REGEXP.name,
                            interactive=True,
                        )

                    with gr.Column():
                        precision = gr.Dropdown(
                            choices=[
                                i.name for i in Precision if i != Precision.Unknown
                            ],
                            label="Precision",
                            multiselect=False,
                            value="float16",
                            interactive=True,
                        )
                        weight_type = gr.Dropdown(
                            choices=[i.name for i in WeightType],
                            label="Weights type",
                            multiselect=False,
                            value="Original",
                            interactive=True,
                        )
                        base_model_name_textbox = gr.Textbox(
                            label="Base model (for delta or adapter weights)"
                        )

                with gr.Row():
                    file_input = gr.File(
                        label="Upload JSONL Results File", file_types=[".jsonl"]
                    )

                submit_button = gr.Button("Submit Results")
                result_output = gr.Markdown()

                submit_button.click(
                    fn=submit_results,
                    inputs=[
                        model_name_textbox,
                        base_model_name_textbox,
                        revision_name_textbox,
                        precision,
                        weight_type,
                        model_type,
                        mode_selector,
                        file_input,
                        submission_version_selector,
                        guard_model_type,
                    ],
                    outputs=result_output,
                )

    # Version selector functionality
    version_selector.change(
        fn=update_leaderboards,
        inputs=[version_selector],
        outputs=[leaderboard]
        + [
            category_tabs.children[i].children[0] for i in range(1, len(CATEGORIES) + 1)
        ],
    ).then(
        lambda version: refresh_data_with_filters(version),
        inputs=[version_selector],
        outputs=[leaderboard]
        + [
            category_tabs.children[i].children[0] for i in range(1, len(CATEGORIES) + 1)
        ],
    )


# Set up the scheduler to refresh data periodically
scheduler = BackgroundScheduler()
scheduler.add_job(refresh_data, "interval", minutes=30)
scheduler.start()

# Launch the app
if __name__ == "__main__":
    demo.launch()