open_pt_llm_leaderboard

Running on CPU Upgrade

eduagarcia commited on Jan 19

Commit

ec3a730

•

1 Parent(s): 92ec1df

Enable clean initialization without any evaluate model

Files changed (3) hide show

src/display/utils.py CHANGED Viewed

@@ -85,6 +85,14 @@ baseline_row = {
     AutoEvalColumn.dummy.name: "baseline",
     AutoEvalColumn.model_type.name: "",
     AutoEvalColumn.flagged.name: False,
 }
 # Average ⬆️ human baseline is 0.897 (source: averaging human baselines below)

     AutoEvalColumn.dummy.name: "baseline",
     AutoEvalColumn.model_type.name: "",
     AutoEvalColumn.flagged.name: False,
+    AutoEvalColumn.model_type_symbol.name: None,
+    AutoEvalColumn.architecture.name: None,
+    AutoEvalColumn.weight_type.name: None,
+    AutoEvalColumn.params.name: None,
+    AutoEvalColumn.likes.name: None,
+    AutoEvalColumn.license.name: None,
+    AutoEvalColumn.still_on_hub.name: None,
+    AutoEvalColumn.moe.name: None
 }
 # Average ⬆️ human baseline is 0.897 (source: averaging human baselines below)

src/populate.py CHANGED Viewed

@@ -17,6 +17,7 @@ def get_leaderboard_df(results_path: str, requests_path: str, dynamic_path: str,
     df = pd.DataFrame.from_records(all_data_json)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced

     df = pd.DataFrame.from_records(all_data_json)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced

src/tools/plots.py CHANGED Viewed

@@ -17,7 +17,10 @@ def create_scores_df(raw_data: list[EvalResult]) -> pd.DataFrame:
     :return: A new DataFrame containing the maximum scores until each date for every metric.
     """
     # Step 1: Ensure 'date' is in datetime format and sort the DataFrame by it
-    results_df = pd.DataFrame(raw_data)
     #results_df["date"] = pd.to_datetime(results_df["date"], format="mixed", utc=True)
     results_df.sort_values(by="date", inplace=True)
@@ -49,7 +52,7 @@ def create_scores_df(raw_data: list[EvalResult]) -> pd.DataFrame:
                 last_date = current_date
     # Step 4: Return all dictionaries as DataFrames
-    return {k: pd.DataFrame(v) for k, v in scores.items()}
 def create_plot_df(scores_df: dict[str: pd.DataFrame]) -> pd.DataFrame:

     :return: A new DataFrame containing the maximum scores until each date for every metric.
     """
     # Step 1: Ensure 'date' is in datetime format and sort the DataFrame by it
+    #create dataframe with EvalResult dataclass columns, even if raw_data is empty
+    results_df = pd.DataFrame(raw_data, columns=EvalResult.__dataclass_fields__.keys())
     #results_df["date"] = pd.to_datetime(results_df["date"], format="mixed", utc=True)
     results_df.sort_values(by="date", inplace=True)
                 last_date = current_date
     # Step 4: Return all dictionaries as DataFrames
+    return {k: pd.DataFrame(v, columns=["model", "date", "score"]) for k, v in scores.items()}
 def create_plot_df(scores_df: dict[str: pd.DataFrame]) -> pd.DataFrame: