Spaces:

silma-ai
/

Arabic-LLM-Broad-Leaderboard

Running on CPU Upgrade

File size: 3,318 Bytes

12efa10
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7e61b6b
f79393b
00e1096
eec2226
f79393b
 
 
eec2226
 
7e61b6b
 
 
 
 
 
 
 
 
 
ca48878
 
eec2226
7e61b6b
bcbf716
 
f79393b
 
 
12efa10
 
 
 
 
 
 
 
28bc007
12efa10
 
 
 
 
 
 
 
 
28bc007
12efa10
28bc007
 
 
12efa10
 
28bc007
 
12efa10
 
 
 
 
 
28bc007
12efa10
 
92e74cb
12efa10

import json
import os

import pandas as pd

from src.display.formatting import has_no_nan_values, make_clickable_model
from src.display.utils import AutoEvalColumn, EvalQueueColumn
from src.leaderboard.read_evals import get_raw_eval_results


def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
    """Creates a dataframe from all the individual experiment results"""
    raw_data = get_raw_eval_results(results_path, requests_path)
    all_data_json = [v.to_dict() for v in raw_data]

    df = pd.DataFrame.from_records(all_data_json)
    
    if not df.empty:
        df = df.sort_values(by=[AutoEvalColumn.average_score.name], ascending=False)
        

        # filter out if any of the benchmarks have not been produced
        df = df[has_no_nan_values(df, benchmark_cols)]

        df.insert(0, "Rank", range(1, len(df) + 1))
  
        
        ##round any float column 
        for col in df.columns:
            if df[col].dtype == "float64":
                df[col] = df[col].round(2)

        df["Benchmark Score (0-10)"] = df["Benchmark Score (0-10)"].astype(str)
        print(df["Benchmark Score (0-10)"])

        print("###############\n\n\n\n\n\n###############")

        print(df)
        print(df.info())


        return df
    else:
        return pd.DataFrame(columns=cols)


def get_evaluation_queue_df(save_path: str, cols: list) -> list[pd.DataFrame]:
    """Creates the different dataframes for the evaluation queues requestes"""
    entries = [entry for entry in os.listdir(save_path) if not entry.startswith(".")]
    all_evals = []

    for entry in entries:

        if ".json" in entry:
            file_path = os.path.join(save_path, entry)
            with open(file_path) as fp:
                data = json.load(fp)

            data[EvalQueueColumn.model.name] = make_clickable_model(data["model"])
            data[EvalQueueColumn.revision.name] = data.get("revision", "main")

            all_evals.append(data)
        elif os.path.isdir(f"{save_path}/{entry}"):
            # this is a folder

            sub_entries = [e for e in os.listdir(f"{save_path}/{entry}") if os.path.isfile(f"{save_path}/{entry}/{e}") ]#and not e.startswith(".")
            print(f"Sub entries: {sub_entries}")
            for sub_entry in sub_entries:
                file_path = os.path.join(save_path, entry, sub_entry)
                print(f"{file_path}")

                with open(file_path) as fp:
                    data = json.load(fp)

                data[EvalQueueColumn.model.name] = make_clickable_model(data["model"])
                data[EvalQueueColumn.revision.name] = data.get("revision", "main")
                all_evals.append(data)
    

    pending_list = [e for e in all_evals if e["status"] in ["PENDING", "RERUN"]]
    print(pending_list)
    running_list = [e for e in all_evals if e["status"] == "RUNNING"]
    finished_list = [e for e in all_evals if e["status"].startswith("FINISHED") or e["status"] == "PENDING_NEW_EVAL"]
    df_pending = pd.DataFrame.from_records(pending_list, columns=cols)
    df_running = pd.DataFrame.from_records(running_list, columns=cols)
    df_finished = pd.DataFrame.from_records(finished_list, columns=cols)
    return df_finished[cols], df_running[cols], df_pending[cols]