de-arena

Sleeping

yzabc007 commited on Oct 8, 2024

Commit

2566764

1 Parent(s): 48ffe6b

Update space

Files changed (3) hide show

src/display/utils.py CHANGED Viewed

@@ -59,7 +59,7 @@ for domain in Domains:
 auto_eval_column_dict.append(["organization", ColumnContent, field(default_factory=lambda: ColumnContent("Organization", "str", False))])
 auto_eval_column_dict.append(["knowledge_cutoff", ColumnContent, field(default_factory=lambda: ColumnContent("Knowledge cutoff", "str", False))])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, field(default_factory=lambda: ColumnContent(task.value.col_name, "number", True))])

 auto_eval_column_dict.append(["organization", ColumnContent, field(default_factory=lambda: ColumnContent("Organization", "str", False))])
 auto_eval_column_dict.append(["knowledge_cutoff", ColumnContent, field(default_factory=lambda: ColumnContent("Knowledge cutoff", "str", False))])
+auto_eval_column_dict.append(["score", ColumnContent, field(default_factory=lambda: ColumnContent("Score", "number", True))])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, field(default_factory=lambda: ColumnContent(task.value.col_name, "number", True))])

src/leaderboard/read_evals.py CHANGED Viewed

@@ -34,11 +34,13 @@ class ModelResult:
         license = config.get("license")
         knowledge_cutoff = config.get("knowledge_cutoff")
         # Extract results available in this file (some results are split in several files)
         results = {}
         for domain in Domains:
             domain = domain.value
-            results[domain.dimension] = data.get("results").get(domain.metric)
         return self(
             eval_name=f"{org}_{model}",
@@ -53,13 +55,13 @@ class ModelResult:
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
-        # average = 1 / self.results[Domains.dim0.dimension] if self.results[Domains.dim0.dimension] != 0 else 0
-        average = 1
         # average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
-            "eval_name": self.eval_name,  # not a column, just a save name,
             # AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.model.name: self.model,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.organization.name: self.org,
             AutoEvalColumn.knowledge_cutoff.name: self.knowledge_cutoff,

         license = config.get("license")
         knowledge_cutoff = config.get("knowledge_cutoff")
+        model_results = data.get("results")
         # Extract results available in this file (some results are split in several files)
         results = {}
         for domain in Domains:
             domain = domain.value
+            results[domain.dimension] = model_results.get(domain.dimension).get(domain.metric, None)
         return self(
             eval_name=f"{org}_{model}",
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
+        # score = 1 / self.results[Domains.dim0.dimension] if self.results[Domains.dim0.dimension] != 0 else 0
         # average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
+            # "eval_name": self.eval_name,  # not a column, just a save name,
             # AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.model.name: self.model,
+            AutoEvalColumn.score.name: self.results[Domains.dim0.value.dimension],
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.organization.name: self.org,
             AutoEvalColumn.knowledge_cutoff.name: self.knowledge_cutoff,

src/populate.py CHANGED Viewed

@@ -14,7 +14,7 @@ def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: lis
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
-    # df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     # print(cols) # []
     # print(df.columns) # ['eval_name', 'Model', 'Hub License', 'Organization', 'Knowledge cutoff', 'Overall']
     # exit()

     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
+    df = df.sort_values(by=[AutoEvalColumn.score.name], ascending=True)
     # print(cols) # []
     # print(df.columns) # ['eval_name', 'Model', 'Hub License', 'Organization', 'Knowledge cutoff', 'Overall']
     # exit()