Spaces:

lmarena-ai
/

chatbot-arena-leaderboard

Running

App Files Files Community

Lisa Dunlap commited on Mar 30

Commit

df2a130

•

1 Parent(s): a2fadac

moved buttons back to tab

Browse files

Files changed (1) hide show

app.py +63 -63

app.py CHANGED Viewed

@@ -31,42 +31,44 @@ We've collected over **500,000** human preference votes to rank LLMs with the El
     return leaderboard_md
 # def make_arena_leaderboard_md(arena_df, arena_chinese_df, arena_long_df, arena_english_df):
 #     total_votes = sum(arena_df["num_battles"]) // 2
-#     total_models = len(arena_df)
-#     total_code_votes = sum(arena_chinese_df["num_battles"]) // 2
-#     total_code_models = len(arena_chinese_df)
 #     total_long_votes = sum(arena_long_df["num_battles"]) // 2
-#     total_long_models = len(arena_long_df)
 #     total_english_votes = sum(arena_english_df["num_battles"]) // 2
-#     total_english_models = len(arena_english_df)
 #     leaderboard_md = f"""
-# Total #models: **{total_models}**. Total #votes: **{total_votes}**. Total code #votes: **{total_code_votes}**. Last updated: March 29, 2024.
-# Contribute your vote 🗳️ at [chat.lmsys.org](https://chat.lmsys.org)! Find more analysis in the [notebook]({notebook_url}).
 # """
-#     return leaderboard_md
-def make_arena_leaderboard_md(arena_df, arena_chinese_df, arena_long_df, arena_english_df):
-    # Calculate totals for each arena
-    total_votes = sum(arena_df["num_battles"]) // 2
-    total_chinese_votes = sum(arena_chinese_df["num_battles"]) // 2
-    total_long_votes = sum(arena_long_df["num_battles"]) // 2
-    total_english_votes = sum(arena_english_df["num_battles"]) // 2
-    # Constructing the markdown table
-    leaderboard_md = f"""
-Last updated: March 29, 2024.
-|   | **Total** | English  | Chinese | Long Context |
-| :-------------- | :-----------------------: | :-----------------------: | :-----------------------: | :-----------------------: |
-| # Votes | **{"{:,}".format(total_votes)}** | {"{:,}".format(total_english_votes)} | {"{:,}".format(total_chinese_votes)} | {"{:,}".format(total_long_votes)} |
-| # Models | **{len(arena_df)}** | {len(arena_english_df)}| {len(arena_chinese_df)} | {len(arena_long_df)} |
-Contribute your vote 🗳️ at [chat.lmsys.org](https://chat.lmsys.org)! Find more analysis in the [notebook]({notebook_url}).
-"""
-    return leaderboard_md
@@ -231,9 +233,9 @@ def get_full_table(arena_df, model_table_df):
 def create_ranking_str(ranking, ranking_difference):
     if ranking_difference > 0:
-        return f"{int(ranking)} (\u2191 {int(ranking_difference)})"
     elif ranking_difference < 0:
-        return f"{int(ranking)} (\u2193 {int(-ranking_difference)})"
     else:
         return f"{int(ranking)}"
@@ -293,12 +295,17 @@ def get_arena_table(arena_df, model_table_df, arena_subset_df=None):
             print(f"{model_key} - {e}")
     return values
-def get_plots(elo_subset_results):
     p1 = elo_subset_results["win_fraction_heatmap"]
     p2 = elo_subset_results["battle_count_heatmap"]
     p3 = elo_subset_results["bootstrap_elo_rating"]
     p4 = elo_subset_results["average_win_rate_bar"]
-    return p1, p2, p3, p4
 def build_leaderboard_tab(elo_results_file, leaderboard_table_file, show_plot=False):
@@ -325,6 +332,7 @@ def build_leaderboard_tab(elo_results_file, leaderboard_table_file, show_plot=Fa
         default_md = make_default_md(arena_df, elo_results)
     md_1 = gr.Markdown(default_md, elem_id="leaderboard_markdown")
     if leaderboard_table_file:
         data = load_leaderboard_table_csv(leaderboard_table_file)
         model_table_df = pd.DataFrame(data)
@@ -333,17 +341,21 @@ def build_leaderboard_tab(elo_results_file, leaderboard_table_file, show_plot=Fa
             # arena table
             arena_table_vals = get_arena_table(arena_df, model_table_df)
             with gr.Tab("Arena Elo", id=0):
-                md = make_arena_leaderboard_md(arena_df, arena_chinese_df, arena_long_df, arena_english_df)
-                gr.Markdown(md, elem_id="leaderboard_markdown")
                 with gr.Row():
                     overall_rating = gr.Button("Overall")
-                    update_overall_rating_df = lambda _: get_arena_table(arena_df, model_table_df)
                     english_rating = gr.Button("English")
-                    update_english_rating_df = lambda _: get_arena_table(arena_df, model_table_df, arena_english_df)
                     chinese_rating = gr.Button("Chinese")
-                    update_chinese_rating_df = lambda _: get_arena_table(arena_df, model_table_df, arena_chinese_df)
                     long_context_rating = gr.Button("Long Context")
-                    update_long_context_rating_df = lambda _: get_arena_table(arena_df, model_table_df, arena_long_df)
                 elo_display_df = gr.Dataframe(
                     headers=[
                         "Rank",
@@ -368,14 +380,14 @@ def build_leaderboard_tab(elo_results_file, leaderboard_table_file, show_plot=Fa
                     value=arena_table_vals,
                     elem_id="arena_leaderboard_dataframe",
                     height=700,
-                    column_widths=[70, 190, 120, 100, 90, 140, 150, 140],
                     wrap=True,
                 )
                 # Setup the button click action
-                overall_rating.click(fn=update_overall_rating_df, inputs=overall_rating, outputs=elo_display_df)
-                english_rating.click(fn=update_english_rating_df, inputs=english_rating, outputs=elo_display_df)
-                chinese_rating.click(fn=update_chinese_rating_df, inputs=chinese_rating ,outputs=elo_display_df)
-                long_context_rating.click(fn=update_long_context_rating_df, inputs=long_context_rating, outputs=elo_display_df)
             with gr.Tab("Full Leaderboard", id=1):
                 md = make_full_leaderboard_md(elo_results)
@@ -418,22 +430,12 @@ See Figure 3 below for visualization of the confidence intervals.
     leader_component_values[:] = [default_md, p1, p2, p3, p4]
     if show_plot:
-        gr.Markdown(
             f"""## More Statistics for Chatbot Arena\n
-Below are figures for more statistics. The code for generating them is also included in this [notebook]({notebook_url}).
-You can find more discussions in this blog [post](https://lmsys.org/blog/2023-12-07-leaderboard/).
     """,
             elem_id="leaderboard_markdown"
         )
-        with gr.Row():
-            overall_plots = gr.Button("Overall")
-            update_overall_plots = lambda _: get_plots(elo_results)
-            english_plots = gr.Button("English")
-            update_english_plot = lambda _: get_plots(elo_english_results)
-            chinese_plots = gr.Button("Chinese")
-            update_chinese_plot = lambda _: get_plots(elo_chinese_results)
-            long_context_plots = gr.Button("Long Context")
-            update_long_context_plot = lambda _: get_plots(elo_long_results)
         with gr.Row():
             with gr.Column():
                 gr.Markdown(
@@ -457,10 +459,10 @@ You can find more discussions in this blog [post](https://lmsys.org/blog/2023-12
                 )
                 plot_4 = gr.Plot(p4, show_label=False)
-    overall_plots.click(fn=update_overall_plots, inputs=overall_plots, outputs=[plot_1, plot_2, plot_3, plot_4])
-    english_plots.click(fn=update_english_plot, inputs=english_plots, outputs=[plot_1, plot_2, plot_3, plot_4])
-    chinese_plots.click(fn=update_chinese_plot, inputs=chinese_plots, outputs=[plot_1, plot_2, plot_3, plot_4])
-    long_context_plots.click(fn=update_long_context_plot, inputs=long_context_plots, outputs=[plot_1, plot_2, plot_3, plot_4])
     gr.Markdown(acknowledgment_md)
@@ -494,7 +496,7 @@ block_css = """
 #arena_leaderboard_dataframe td {
     line-height: 0.15em;
-    font-size: 20px;
 }
 #arena_leaderboard_dataframe th {
     font-size: 20px;
@@ -503,7 +505,7 @@ block_css = """
 #full_leaderboard_dataframe td {
     line-height: 0.15em;
-    font-size: 20px;
 }
 #full_leaderboard_dataframe th {
     font-size: 20px;
@@ -538,12 +540,10 @@ We thank [Kaggle](https://www.kaggle.com/), [MBZUAI](https://mbzuai.ac.ae/), [a1
 def build_demo(elo_results_file, leaderboard_table_file):
     text_size = gr.themes.sizes.text_lg
-    print("text_size", text_size)
     with gr.Blocks(
         title="Chatbot Arena Leaderboard",
-        # theme=gr.themes.Soft(text_size=text_size),
-        # theme='reilnuud/polite',
         theme = gr.themes.Base.load("theme.json"),
         css=block_css,
     ) as demo:

     return leaderboard_md
+def make_arena_leaderboard_md(arena_df, arena_subset_df=None, name="Overall"):
+    total_votes = sum(arena_df["num_battles"]) // 2
+    total_models = len(arena_df)
+    space = "&nbsp;&nbsp;&nbsp;"
+    if arena_subset_df is not None:
+        total_subset_votes = sum(arena_subset_df["num_battles"]) // 2
+        total_subset_models = len(arena_subset_df)
+        vote_str = f"{space} {name} #models: **{total_subset_models}**.{space} {name} #votes: **{'{:,}'.format(total_subset_votes)}**."
+    else:
+        vote_str = ""
+    leaderboard_md = f"""
+Total #models: **{total_models}**.{space} Total #votes: **{"{:,}".format(total_votes)}**.{vote_str}{space} Last updated: March 29, 2024.
+Contribute your vote 🗳️ at [chat.lmsys.org](https://chat.lmsys.org)! You can find code to recreate these tables and plots in this [notebook]({notebook_url}).
+**NEW!** Click the buttons below to view the ELO leaderboard and stats for different input categories. You are currently viewing **{name}** inputs.
+"""
+    return leaderboard_md
 # def make_arena_leaderboard_md(arena_df, arena_chinese_df, arena_long_df, arena_english_df):
+#     # Calculate totals for each arena
 #     total_votes = sum(arena_df["num_battles"]) // 2
+#     total_chinese_votes = sum(arena_chinese_df["num_battles"]) // 2
 #     total_long_votes = sum(arena_long_df["num_battles"]) // 2
 #     total_english_votes = sum(arena_english_df["num_battles"]) // 2
+#     # Constructing the markdown table
 #     leaderboard_md = f"""
+# Last updated: March 29, 2024.
+# |   | **Total** | English  | Chinese | Long Context |
+# | :-------------- | :-----------------------: | :-----------------------: | :-----------------------: | :-----------------------: |
+# | # Votes | **{"{:,}".format(total_votes)}** | {"{:,}".format(total_english_votes)} | {"{:,}".format(total_chinese_votes)} | {"{:,}".format(total_long_votes)} |
+# | # Models | **{len(arena_df)}** | {len(arena_english_df)}| {len(arena_chinese_df)} | {len(arena_long_df)} |
+# Contribute your vote 🗳️ at [chat.lmsys.org](https://chat.lmsys.org)! You can find code to recreate these tables and plots in this [notebook]({notebook_url}).
 # """
+#     return leaderboard_md
 def create_ranking_str(ranking, ranking_difference):
     if ranking_difference > 0:
+        return f"{int(ranking)} (\u2191{int(ranking_difference)})"
     elif ranking_difference < 0:
+        return f"{int(ranking)} (\u2193{int(-ranking_difference)})"
     else:
         return f"{int(ranking)}"
             print(f"{model_key} - {e}")
     return values
+def update_leaderboard_and_plots(button, arena_df, model_table_df, arena_subset_df, elo_subset_results):
+    arena_values = get_arena_table(arena_df, model_table_df, arena_subset_df)
     p1 = elo_subset_results["win_fraction_heatmap"]
     p2 = elo_subset_results["battle_count_heatmap"]
     p3 = elo_subset_results["bootstrap_elo_rating"]
     p4 = elo_subset_results["average_win_rate_bar"]
+    more_stats_md = f"""## More Statistics for Chatbot Arena ({button})\n
+    You can find more discussions in this blog [post](https://lmsys.org/blog/2023-12-07-leaderboard/).
+    """
+    leaderboard_md = make_arena_leaderboard_md(arena_df, arena_subset_df, name=button)
+    return arena_values, p1, p2, p3, p4, more_stats_md, leaderboard_md
 def build_leaderboard_tab(elo_results_file, leaderboard_table_file, show_plot=False):
         default_md = make_default_md(arena_df, elo_results)
     md_1 = gr.Markdown(default_md, elem_id="leaderboard_markdown")
+    # md = make_arena_leaderboard_md(arena_df, arena_chinese_df, arena_long_df, arena_english_df)
     if leaderboard_table_file:
         data = load_leaderboard_table_csv(leaderboard_table_file)
         model_table_df = pd.DataFrame(data)
             # arena table
             arena_table_vals = get_arena_table(arena_df, model_table_df)
             with gr.Tab("Arena Elo", id=0):
+                md = make_arena_leaderboard_md(arena_df)
+                leaderboard_markdown = gr.Markdown(md, elem_id="leaderboard_markdown")
                 with gr.Row():
                     overall_rating = gr.Button("Overall")
+                    # update_overall_rating_df = lambda _: get_arena_table(arena_df, model_table_df)
+                    update_overall_rating_df = lambda x: update_leaderboard_and_plots(x, arena_df, model_table_df, None, elo_results)
                     english_rating = gr.Button("English")
+                    update_english_rating_df = lambda x: update_leaderboard_and_plots(x, arena_df, model_table_df, arena_english_df, elo_english_results)
+                    # update_english_rating_df = lambda _: get_arena_table(arena_df, model_table_df, arena_english_df)
                     chinese_rating = gr.Button("Chinese")
+                    update_chinese_rating_df = lambda x: update_leaderboard_and_plots(x, arena_df, model_table_df, arena_chinese_df, elo_chinese_results)
+                    # update_chinese_rating_df = lambda _: get_arena_table(arena_df, model_table_df, arena_chinese_df)
                     long_context_rating = gr.Button("Long Context")
+                    update_long_context_rating_df = lambda x: update_leaderboard_and_plots(x, arena_df, model_table_df, arena_long_df, elo_long_results)
+                    # update_long_context_rating_df = lambda _: get_arena_table(arena_df, model_table_df, arena_long_df)
                 elo_display_df = gr.Dataframe(
                     headers=[
                         "Rank",
                     value=arena_table_vals,
                     elem_id="arena_leaderboard_dataframe",
                     height=700,
+                    column_widths=[70, 190, 110, 100, 90, 160, 150, 140],
                     wrap=True,
                 )
                 # Setup the button click action
+                # overall_rating.click(fn=update_overall_rating_df, inputs=overall_rating, outputs=elo_display_df)
+                # english_rating.click(fn=update_english_rating_df, inputs=english_rating, outputs=elo_display_df)
+                # chinese_rating.click(fn=update_chinese_rating_df, inputs=chinese_rating ,outputs=elo_display_df)
+                # long_context_rating.click(fn=update_long_context_rating_df, inputs=long_context_rating, outputs=elo_display_df)
             with gr.Tab("Full Leaderboard", id=1):
                 md = make_full_leaderboard_md(elo_results)
     leader_component_values[:] = [default_md, p1, p2, p3, p4]
     if show_plot:
+        more_stats_md = gr.Markdown(
             f"""## More Statistics for Chatbot Arena\n
+    You can find more discussions in this blog [post](https://lmsys.org/blog/2023-12-07-leaderboard/).
     """,
             elem_id="leaderboard_markdown"
         )
         with gr.Row():
             with gr.Column():
                 gr.Markdown(
                 )
                 plot_4 = gr.Plot(p4, show_label=False)
+    overall_rating.click(fn=update_overall_rating_df, inputs=overall_rating, outputs=[elo_display_df, plot_1, plot_2, plot_3, plot_4, more_stats_md, leaderboard_markdown])
+    english_rating.click(fn=update_english_rating_df, inputs=english_rating, outputs=[elo_display_df, plot_1, plot_2, plot_3, plot_4, more_stats_md, leaderboard_markdown])
+    chinese_rating.click(fn=update_chinese_rating_df, inputs=chinese_rating ,outputs=[elo_display_df, plot_1, plot_2, plot_3, plot_4, more_stats_md, leaderboard_markdown])
+    long_context_rating.click(fn=update_long_context_rating_df, inputs=long_context_rating, outputs=[elo_display_df, plot_1, plot_2, plot_3, plot_4, more_stats_md, leaderboard_markdown])
     gr.Markdown(acknowledgment_md)
 #arena_leaderboard_dataframe td {
     line-height: 0.15em;
+    font-size: 18px;
 }
 #arena_leaderboard_dataframe th {
     font-size: 20px;
 #full_leaderboard_dataframe td {
     line-height: 0.15em;
+    font-size: 18px;
 }
 #full_leaderboard_dataframe th {
     font-size: 20px;
 def build_demo(elo_results_file, leaderboard_table_file):
     text_size = gr.themes.sizes.text_lg
     with gr.Blocks(
         title="Chatbot Arena Leaderboard",
+        # theme=gr.themes.Base(text_size=text_size),
         theme = gr.themes.Base.load("theme.json"),
         css=block_css,
     ) as demo: