Spaces:

otellm
/

open-telecom-llm-leaderboard

Running

p50038325 commited on May 11

Commit

f834299

1 Parent(s): ea9345e

energy-score

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -223,16 +223,26 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
     eval_results = {}
     for model_result_filepath in model_result_filepaths:
-        # Creation of result
-        eval_result = EvalResult.init_from_json_file(model_result_filepath)
-        eval_result.update_with_request_file(requests_path)
-        # Store results of same eval together
-        eval_name = eval_result.eval_name
-        if eval_name in eval_results.keys():
-            eval_results[eval_name].results.update({k: v for k, v in eval_result.results.items() if v is not None})
-        else:
-            eval_results[eval_name] = eval_result
     results = []
     for v in eval_results.values():

     eval_results = {}
     for model_result_filepath in model_result_filepaths:
+        try:
+            # Creation of result
+            eval_result = EvalResult.init_from_json_file(model_result_filepath)
+            # Skip entries with Unknown/Unknown model name
+            if eval_result.full_model == "Unknown/Unknown":
+                print(f"Skipping invalid result file: {model_result_filepath}")
+                continue
+            eval_result.update_with_request_file(requests_path)
+            # Store results of same eval together
+            eval_name = eval_result.eval_name
+            if eval_name in eval_results.keys():
+                eval_results[eval_name].results.update({k: v for k, v in eval_result.results.items() if v is not None})
+            else:
+                eval_results[eval_name] = eval_result
+        except Exception as e:
+            print(f"Error processing result file {model_result_filepath}: {str(e)}")
+            continue
     results = []
     for v in eval_results.values():