leaderboard

Running on CPU Upgrade

App Files Files Community

nan commited on Jun 7, 2024

Commit

ca1267e

1 Parent(s): 9d64883

feat: add the ranking only tab for qa

Browse files

Files changed (1) hide show

app.py +54 -14

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ from src.about import (
 from src.benchmarks import DOMAIN_COLS_QA, LANG_COLS_QA, DOMAIN_COLS_LONG_DOC, LANG_COLS_LONG_DOC, METRIC_LIST, \
     DEFAULT_METRIC_QA, DEFAULT_METRIC_LONG_DOC
 from src.display.css_html_js import custom_css
-from src.display.utils import COL_NAME_IS_ANONYMOUS, COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_RERANKING_MODEL
 from src.envs import API, EVAL_RESULTS_PATH, REPO_ID, RESULTS_REPO, TOKEN
 from src.read_evals import get_raw_eval_results, get_leaderboard_df
 from src.utils import update_metric, upload_file, get_default_cols, submit_results, reset_rank
@@ -23,14 +23,14 @@ def restart_space():
     API.restart_space(repo_id=REPO_ID)
-try:
-    snapshot_download(
-        repo_id=RESULTS_REPO, local_dir=EVAL_RESULTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30,
-        token=TOKEN
-    )
-except Exception as e:
-    print(f'failed to download')
-    restart_space()
 raw_data = get_raw_eval_results(f"{EVAL_RESULTS_PATH}/AIR-Bench_24.04")
@@ -110,7 +110,7 @@ with demo:
                         show_revision_and_timestamp = get_revision_and_ts_checkbox()
             with gr.Tabs(elem_classes="tab-buttons") as sub_tabs:
-                with gr.TabItem("Retriever + Reranker", id=10):
                     with gr.Row():
                         # search retrieval models
                         with gr.Column():
@@ -149,17 +149,17 @@ with demo:
                         leaderboard_table,
                         queue=True
                     )
-                with gr.TabItem("Retriever Only", id=11):
                     with gr.Column():
                         search_bar_retriever = get_search_bar()
                     selected_noreranker = get_noreranking_dropdown()
                     lb_df_retriever = leaderboard_df_qa[leaderboard_df_qa[COL_NAME_RERANKING_MODEL] == "NoReranker"]
                     lb_df_retriever = reset_rank(lb_df_retriever)
-                    hidden_lb_db_retriever = original_df_qa[original_df_qa[COL_NAME_RERANKING_MODEL] == "NoReranker"]
-                    hidden_lb_db_retriever = reset_rank(hidden_lb_db_retriever)
                     lb_table_retriever = get_leaderboard_table(lb_df_retriever, types_qa)
                     # Dummy leaderboard for handling the case when the user uses backspace key
-                    hidden_lb_table_retriever = get_leaderboard_table(hidden_lb_db_retriever, types_qa, visible=False)
                     set_listeners(
                         "qa",
@@ -188,7 +188,47 @@ with demo:
                         lb_table_retriever,
                         queue=True
                     )
         with gr.TabItem("Long Doc", elem_id="long-doc-benchmark-tab-table", id=1):
             with gr.Row():
                 with gr.Column(min_width=320):

 from src.benchmarks import DOMAIN_COLS_QA, LANG_COLS_QA, DOMAIN_COLS_LONG_DOC, LANG_COLS_LONG_DOC, METRIC_LIST, \
     DEFAULT_METRIC_QA, DEFAULT_METRIC_LONG_DOC
 from src.display.css_html_js import custom_css
+from src.display.utils import COL_NAME_IS_ANONYMOUS, COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_RERANKING_MODEL, COL_NAME_RETRIEVAL_MODEL
 from src.envs import API, EVAL_RESULTS_PATH, REPO_ID, RESULTS_REPO, TOKEN
 from src.read_evals import get_raw_eval_results, get_leaderboard_df
 from src.utils import update_metric, upload_file, get_default_cols, submit_results, reset_rank
     API.restart_space(repo_id=REPO_ID)
+# try:
+#     snapshot_download(
+#         repo_id=RESULTS_REPO, local_dir=EVAL_RESULTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30,
+#         token=TOKEN
+#     )
+# except Exception as e:
+#     print(f'failed to download')
+#     restart_space()
 raw_data = get_raw_eval_results(f"{EVAL_RESULTS_PATH}/AIR-Bench_24.04")
                         show_revision_and_timestamp = get_revision_and_ts_checkbox()
             with gr.Tabs(elem_classes="tab-buttons") as sub_tabs:
+                with gr.TabItem("Retrieval + Reranking", id=10):
                     with gr.Row():
                         # search retrieval models
                         with gr.Column():
                         leaderboard_table,
                         queue=True
                     )
+                with gr.TabItem("Retrieval Only", id=11):
                     with gr.Column():
                         search_bar_retriever = get_search_bar()
                     selected_noreranker = get_noreranking_dropdown()
                     lb_df_retriever = leaderboard_df_qa[leaderboard_df_qa[COL_NAME_RERANKING_MODEL] == "NoReranker"]
                     lb_df_retriever = reset_rank(lb_df_retriever)
                     lb_table_retriever = get_leaderboard_table(lb_df_retriever, types_qa)
                     # Dummy leaderboard for handling the case when the user uses backspace key
+                    hidden_lb_df_retriever = original_df_qa[original_df_qa[COL_NAME_RERANKING_MODEL] == "NoReranker"]
+                    hidden_lb_df_retriever = reset_rank(hidden_lb_df_retriever)
+                    hidden_lb_table_retriever = get_leaderboard_table(hidden_lb_df_retriever, types_qa, visible=False)
                     set_listeners(
                         "qa",
                         lb_table_retriever,
                         queue=True
                     )
+                with gr.TabItem("Reranking Only", id=12):
+                    with gr.Row():
+                        with gr.Column(scale=1):
+                            selected_rerankings_reranker = get_reranking_dropdown(reranking_models)
+                        with gr.Column(scale=1):
+                            search_bar_reranker = gr.Textbox(show_label=False, visible=False)
+                    lb_df_reranker = leaderboard_df_qa[leaderboard_df_qa[COL_NAME_RETRIEVAL_MODEL] == "BM25"]
+                    lb_df_reranker = reset_rank(lb_df_reranker)
+                    lb_table_reranker = get_leaderboard_table(lb_df_reranker, types_qa)
+                    hidden_lb_df_reranker = original_df_qa[original_df_qa[COL_NAME_RETRIEVAL_MODEL] == "BM25"]
+                    hidden_lb_df_reranker = reset_rank(hidden_lb_df_reranker)
+                    hidden_lb_table_reranker = get_leaderboard_table(
+                        hidden_lb_df_reranker, types_qa, visible=False
+                    )
+                    set_listeners(
+                        "qa",
+                        lb_table_reranker,
+                        hidden_lb_table_reranker,
+                        search_bar_reranker,
+                        selected_domains,
+                        selected_langs,
+                        selected_rerankings_reranker,
+                        show_anonymous,
+                        show_revision_and_timestamp,
+                    )
+                    # set metric listener
+                    selected_metric.change(
+                        update_metric_qa,
+                        [
+                            selected_metric,
+                            selected_domains,
+                            selected_langs,
+                            selected_rerankings_reranker,
+                            search_bar_reranker,
+                            show_anonymous,
+                            show_revision_and_timestamp,
+                        ],
+                        lb_table_reranker,
+                        queue=True
+                    )
         with gr.TabItem("Long Doc", elem_id="long-doc-benchmark-tab-table", id=1):
             with gr.Row():
                 with gr.Column(min_width=320):