Spaces:

Junetheriver
/

OpsEval

Running

App Files Files Community

Junetheriver commited on May 20, 2024

Commit

50154dd

1 Parent(s): 9a678a4

wip: latex table, fix requirements

Browse files

Files changed (3) hide show

app.py +36 -5
latex_utils.py +73 -0
requirements.txt +2 -0

app.py CHANGED Viewed

@@ -13,6 +13,7 @@ from leaderboards import eng_leaderboards, chi_leaderboards
 import toml
 import os
 from opseval_datasets import *
 config = toml.load("config.toml")
@@ -103,8 +104,17 @@ def plot_radar_chart(df, attributes):
     return fig
-def create_lang_leader_board(lang_dict, lang='en'):
     best_scores = {}
     best_plot_datasets = []
     for dataset, value in lang_dict.items():
@@ -122,18 +132,39 @@ def create_lang_leader_board(lang_dict, lang='en'):
     tab_list = []
     for dataset, value in lang_dict.items():
-        chosen_dict = dataset_abbr_en_dict if lang == "en" else dataset_abbr_zh_dict
         with gr.Tab(chosen_dict[dataset]) as tab:
             for cat, df in value.items():
                 if cat == 'mc':
                     for shot in ['Zeroshot', 'Fewshot']:
                         with gr.Tab(f'Multiple Choice Question ({shot})'):
                             df_component = dataframe_to_gradio(df, is_mc=True, shot=shot)
-                            # df_list.append(df_component)
                 else:
                     with gr.Tab('Question Answering'):
                         df_component = dataframe_to_gradio(df, is_mc=False)
                         # df_list.append(df_component)
         tab_list.append(tab)
     return tab_list
@@ -162,7 +193,7 @@ translation_dict = {
 def get_language_lb(language):
     tab_dict = {'English': None, 'Chinese': None}
     for key, dict in dict_lang.items():
-        tab_list = create_lang_leader_board(dict, language)
         tab_dict[key] = tab_list
     return [*tab_dict['English'], *tab_dict['Chinese']]
@@ -175,7 +206,7 @@ def get_lb_body(language='en'):
     with gr.Blocks() as body:
         for key, dict in dict_lang.items():
             with gr.Tab(key):
-                tab_list = create_lang_leader_board(dict, language)
                 tab_dict[key] = tab_list
     return body, tab_dict

 import toml
 import os
 from opseval_datasets import *
+from latex_utils import gen_latex_table
 config = toml.load("config.toml")
     return fig
+def pop_latex_table(caption, label, dataframe):
+    table = gen_latex_table(caption, label, dataframe)
+    return gr.Textbox(table, label="LaTeX Table", visible=True)
+def generate_csv(df, filename):
+    df.to_csv(filename, index=False)
+    download_link = gr.File(label="Download Link", type="filepath", value=filename,
+        visible=True)
+    return download_link
+def create_lang_leader_board(lang_dict, lang, dis_lang='en'):
     best_scores = {}
     best_plot_datasets = []
     for dataset, value in lang_dict.items():
     tab_list = []
     for dataset, value in lang_dict.items():
+        chosen_dict = dataset_abbr_en_dict if dis_lang == "en" else dataset_abbr_zh_dict
         with gr.Tab(chosen_dict[dataset]) as tab:
             for cat, df in value.items():
                 if cat == 'mc':
                     for shot in ['Zeroshot', 'Fewshot']:
                         with gr.Tab(f'Multiple Choice Question ({shot})'):
                             df_component = dataframe_to_gradio(df, is_mc=True, shot=shot)
+                            # 加一个latex表格导出按钮， 按一下弹出一个浮动文本窗口
+                            # with gr.Row():
+                            #     latex_button = gr.Button("Export LaTeX Table", variant="primary")
+                            #     csv_button = gr.Button("Export CSV", variant="primary")
+                            # latex_textbox = gr.Textbox(label="LaTeX Table", visible=False)
+                            # download_link = gr.File(label="Download Link", type="filepath",
+                            #     visible=False)
+                            # latex_button.click(lambda: pop_latex_table(
+                            #     caption=f"{chosen_dict[dataset]} Multiple Choice Question ({shot}, {lang}) Leaderboard",
+                            #     label=f"tab:{dataset}_{shot}_{lang}",
+                            #     dataframe=df,
+                            # ), inputs=[], outputs=[latex_textbox])
+                            # csv_button.click(lambda: generate_csv(df, f"/tmp/opseval-{chosen_dict[dataset]}-mc-{shot}.csv"), inputs=[], outputs=[download_link])
                 else:
                     with gr.Tab('Question Answering'):
                         df_component = dataframe_to_gradio(df, is_mc=False)
                         # df_list.append(df_component)
+                        # button = gr.Button("Export LaTeX Table", variant="primary")
+                        # latex_textbox = gr.Textbox(label="LaTeX Table", visible=False)
+                        # button.click(lambda: pop_latex_table(
+                        #     caption=f"{chosen_dict[dataset]} {shot} {lang} Leaderboard",
+                        #     label=f"tab:{dataset}_{shot}_{lang}",
+                        #     dataframe=df,
+                        # ), inputs=[], outputs=[latex_textbox])
         tab_list.append(tab)
     return tab_list
 def get_language_lb(language):
     tab_dict = {'English': None, 'Chinese': None}
     for key, dict in dict_lang.items():
+        tab_list = create_lang_leader_board(dict, key, language)
         tab_dict[key] = tab_list
     return [*tab_dict['English'], *tab_dict['Chinese']]
     with gr.Blocks() as body:
         for key, dict in dict_lang.items():
             with gr.Tab(key):
+                tab_list = create_lang_leader_board(dict, key, language)
                 tab_dict[key] = tab_list
     return body, tab_dict

latex_utils.py ADDED Viewed

	@@ -0,0 +1,73 @@

+import pandas as pd
+from tabulate import tabulate
+# 创建一个示例 DataFrame
+data = {
+    'Model': [
+        'GPT-4', 'GLM-4', 'GPT-3.5-turbo', 'Qwen-72B-Chat', 'ERNIE-Bot-4.0', 'LLaMA-2-70B',
+        'DevOps-Model-14B-Chat', 'GLM-3-turbo', 'Qwen-14B-Chat', 'LLaMA-2-13B', 'InternLM2-Chat-20B',
+        'LLaMA-2-7B', 'Qwen-7B-Chat', 'Baichuan2-13B-Chat', 'InternLM2-Chat-7B', 'Mistral-7B', 'ChatGLM3-6B'
+    ],
+    'Naive': [
+        '/', '64.77', '68.30', '70.32', '60.00', '55.00', '63.85', '59.53', '62.60', '53.30', '60.48',
+        '48.20', '52.10', '51.90', '48.20', '47.22', '42.10'
+    ],
+    'SC': [
+        '/', '64.77', '68.30', '70.32', '60.00', '56.20', '61.96', '59.53', '59.70', '53.00', '60.48',
+        '46.80', '51.00', '51.60', '48.20', '47.22', '42.10'
+    ],
+    'CoT': [
+        '88.70', '77.06', '70.90', '70.13', '70.00', '66.80', '41.15', '63.65', '50.58', '56.80', '45.10',
+        '52.00', '48.30', '44.50', '49.74', '45.58', '43.47'
+    ],
+    'CoT+SC': [
+        '/', '77.06', '72.50', '70.22', '70.00', '67.20', '44.01', '63.65', '55.88', '61.00', '45.10',
+        '55.20', '49.80', '47.45', '49.74', '45.58', '43.47'
+    ]
+}
+df = pd.DataFrame(data)
+# 使用tabulate生成LaTeX表格
+latex_table = tabulate(df, headers='keys', tablefmt='latex', showindex=False,
+                       colalign='left')
+def gen_latex_table(caption, label, dataframe):
+    table = tabulate(dataframe, headers='keys', tablefmt='latex', showindex=False,
+                     colalign='left')
+    table = (
+        "\\begin{table}[]\n"
+        f"\\caption{{{caption}}}\n"
+        f"\\label{{{label}}}\n"
+        "\\footnotesize\n"
+        f"{table}\n"
+        "\\end{table}"
+    )
+    # 确认生成的\hline只有三个
+    assert table.count("\\hline") == 3
+    # 将table中的第一个\hline改为\toprule
+    table = table.replace("\\hline", "\\toprule", 1)
+    # 将table中的第二个\hline改为\midrule
+    table = table.replace("\\hline", "\\midrule", 1)
+    # 将table中的最后一个\hline改为\bottomrule
+    table = table.replace("\\hline", "\\bottom", 1)
+    return table
+# # 添加表格环境
+# latex_table = (
+#     "\\begin{table}[]\n"
+#     "\\caption{LLMs' overall performance (Accuracy\\%) on Wired Network Operations English test set (3-shot). "
+#     "\\normalfont Models are ranked based on their best performance (marked as bold) among different settings.}\n"
+#     "\\label{tab:network_eng_3shot}\n"
+#     "\\footnotesize\n"
+#     f"{latex_table}\n"
+#     "\\end{table}"
+# )
+# latex_table = gen_latex_table(
+#     caption="LLMs' overall performance (Accuracy\%) on Wired Network Operations English test set (3-shot). "
+#             "Models are ranked based on their best performance (marked as bold) among different settings.",
+#     label="tab:network_eng_3shot",
+#     table=latex_table
+# )
+# print(latex_table)

requirements.txt CHANGED Viewed

@@ -6,3 +6,5 @@ pandas==2.0.0
 matplotlib
 numpy
 plotly

 matplotlib
 numpy
 plotly
+toml
+latextable