Spaces:

speakleash
/

polish_eq-bench

Running

App Files Files Community

polish_eq-bench / script.py

djstrong

generate static page leaderboard

235501b 10 months ago

raw

history blame contribute delete

13.7 kB

	import pandas as pd
	import json
	import re

	# Load the CSV file
	leaderboard_df = []
	with open("benchmark_results.csv", "r") as f:
	header = f.readline().strip().split(",")
	header = [h.strip() for h in header]
	for i, line in enumerate(f):
	leaderboard_df.append(line.strip().split(",", 13))

	# Load metadata
	metadata = json.load(open('metadata.json'))
	for k, v in list(metadata.items()):
	metadata[k.split(",")[0]] = v

	# Create DataFrame
	leaderboard_df = pd.DataFrame(leaderboard_df, columns=header)

	# Filter and process DataFrame
	leaderboard_df = leaderboard_df[(leaderboard_df["Benchmark Version"] == "eq-bench_v2_pl") \| (
	leaderboard_df["Benchmark Version"] == 'eq-bench_pl')]
	leaderboard_df = leaderboard_df[["Model Path", "Benchmark Score", "Num Questions Parseable", "Error"]]

	def parse_parseable(x):
	if x["Num Questions Parseable"] == 'FAILED':
	m = re.match(r'(\d+)\.0 questions were parseable', x["Error"])
	return m.group(1)
	return x["Num Questions Parseable"]

	leaderboard_df["Num Questions Parseable"] = leaderboard_df[["Num Questions Parseable", "Error"]].apply(
	lambda x: parse_parseable(x), axis=1)

	NUMBER_OF_QUESTIONS = 171.0

	def fraction_to_percentage(numerator: float, denominator: float) -> float:
	return (numerator / denominator) * 100

	leaderboard_df["Num Questions Parseable"] = leaderboard_df["Num Questions Parseable"].apply(lambda x: fraction_to_percentage(float(x), NUMBER_OF_QUESTIONS))

	def get_params(model_name):
	if model_name in metadata:
	return metadata[model_name]
	else:
	print(model_name)
	return None

	leaderboard_df["Params"] = leaderboard_df["Model Path"].apply(lambda x: get_params(x))
	leaderboard_df["Benchmark Score"] = leaderboard_df["Benchmark Score"].replace('FAILED', None)
	leaderboard_df["Benchmark Score"] = leaderboard_df["Benchmark Score"].astype(float) * ((leaderboard_df["Num Questions Parseable"].astype(float) / 100))
	leaderboard_df.loc[leaderboard_df["Benchmark Score"] < 0, "Benchmark Score"] = 0
	leaderboard_df = leaderboard_df.sort_values(by=["Benchmark Score", "Num Questions Parseable"], ascending=[False, False])
	leaderboard_df = leaderboard_df.rename(columns={"Model Path": "Model", "Num Questions Parseable": "Percentage Questions Parseable"})

	# Generate HTML with DataTables
	html = """
	<!DOCTYPE html>
	<html lang="en">
	<head>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1.0">
	<title>Leaderboard</title>
	<link rel="stylesheet" href="https://cdn.datatables.net/1.11.5/css/jquery.dataTables.min.css">
	<script src="https://code.jquery.com/jquery-3.6.0.min.js"></script>
	<script src="https://cdn.datatables.net/1.11.5/js/jquery.dataTables.min.js"></script>
	<style>
	body {
	font: 90%/1.45em "Helvetica Neue", HelveticaNeue, Verdana, Arial, Helvetica, sans-serif;
	margin: 0;
	padding: 20px;
	color: #333;
	background-color: #fff;
	}
	.numeric-cell {
	text-align: right;
	padding: 8px !important;
	}
	</style>
	<script>
	(function($) {
	$.fn.colorize = function(oOptions) {
	var settings = $.extend({
	parse: function(e) {
	return parseFloat(e.html());
	},
	min: undefined,
	max: undefined,
	readable: true,
	themes: {
	"default": {
	color_min: "#C80000",
	color_mid: "#FFFFFF",
	color_max: "#10A54A"
	}
	},
	theme: "default",
	center: undefined,
	percent: false
	}, oOptions);

	function getColor(color1, color2, ratio) {
	var hex = function(x) {
	x = x.toString(16);
	return (x.length == 1) ? '0' + x : x;
	}
	color1 = (color1.charAt(0) == "#") ? color1.slice(1) : color1
	color2 = (color2.charAt(0) == "#") ? color2.slice(1) : color2
	var r = Math.ceil(parseInt(color1.substring(0,2), 16) * ratio + parseInt(color2.substring(0,2), 16) * (1-ratio));
	var g = Math.ceil(parseInt(color1.substring(2,4), 16) * ratio + parseInt(color2.substring(2,4), 16) * (1-ratio));
	var b = Math.ceil(parseInt(color1.substring(4,6), 16) * ratio + parseInt(color2.substring(4,6), 16) * (1-ratio));
	return "#" + (hex(r) + hex(g) + hex(b)).toUpperCase();
	}

	function getContrastYIQ(hexcolor) {
	var hex = (hexcolor.charAt(0) == "#") ? hexcolor.slice(1) : hexcolor;
	var r = parseInt(hex.substr(0,2),16);
	var g = parseInt(hex.substr(2,2),16);
	var b = parseInt(hex.substr(4,2),16);
	var yiq = ((r299)+(g587)+(b*114))/1000;
	return (yiq >= 128) ? 'black' : 'white';
	}

	var min = settings.min;
	var max = settings.max;
	if (min === undefined \|\| max === undefined) {
	min = Infinity;
	max = -Infinity;
	this.each(function() {
	var value = parseFloat(settings.parse($(this)));
	if (!isNaN(value) && isFinite(value)) {
	min = Math.min(min, value);
	max = Math.max(max, value);
	}
	});
	}

	var center = settings.center !== undefined ? settings.center : (max + min) / 2;
	var adj = Math.max(Math.abs(max - center), Math.abs(center - min));

	this.each(function() {
	var value = parseFloat(settings.parse($(this)));
	if (isNaN(value) \|\| !isFinite(value)) return;

	var ratio = (value - center) / adj;
	var color1, color2;

	if (value < center) {
	ratio = Math.abs(ratio);
	if (ratio > 1) ratio = 1;
	color1 = settings.themes[settings.theme].color_min;
	color2 = settings.themes[settings.theme].color_mid;
	} else {
	ratio = Math.abs(ratio);
	if (ratio > 1) ratio = 1;
	color1 = settings.themes[settings.theme].color_max;
	color2 = settings.themes[settings.theme].color_mid;
	}
	var color = getColor(color1, color2, ratio);
	$(this).css('background-color', color);
	if (settings.readable)
	$(this).css('color', getContrastYIQ(color));
	});

	return this;
	};
	}(jQuery));

	$(document).ready(function() {
	// Add custom filtering function
	$.fn.dataTable.ext.search.push(function(settings, data, dataIndex) {
	var searchValue = $('.dataTables_filter input').val();
	if (!searchValue) return true;

	// Split search terms by semicolon and trim whitespace
	var searchTerms = searchValue.split(';').map(term => term.trim().toLowerCase());
	var modelName = data[0].toLowerCase(); // Model name is in first column

	// Return true if ANY search terms are found in the model name (OR logic)
	return searchTerms.some(term => modelName.includes(term));
	});

	// Custom sorting function for benchmark scores
	$.fn.dataTable.ext.type.order['score-pre'] = function(data) {
	var score = parseFloat(data);
	return isNaN(score) ? -Infinity : score;
	};

	// Get min/max values for each numeric column before initializing DataTables
	var columnRanges = {
	1: { min: Infinity, max: -Infinity }, // Params
	2: { min: Infinity, max: -Infinity }, // Benchmark Score
	3: { min: Infinity, max: -Infinity } // Percentage Questions Parseable
	};

	$('#leaderboard tbody td').each(function() {
	var columnIdx = $(this).index();
	if (columnIdx in columnRanges) {
	var value = parseFloat($(this).text());
	if (!isNaN(value) && isFinite(value)) {
	columnRanges[columnIdx].min = Math.min(columnRanges[columnIdx].min, value);
	columnRanges[columnIdx].max = Math.max(columnRanges[columnIdx].max, value);
	}
	}
	});

	var table = $('#leaderboard').DataTable({
	"order": [[2, "desc"]], // Sort by Benchmark Score by default
	"pageLength": 20, // Show 20 results per page
	"lengthMenu": [[10, 20, 50, 100, -1], [10, 20, 50, 100, "All"]], // Update length menu options
	"columnDefs": [
	{
	"targets": [1],
	"className": "numeric-cell"
	},
	{
	"type": "score",
	"targets": [2], // Apply custom sorting to Benchmark Score column
	"className": "numeric-cell"
	},
	{
	"targets": [3],
	"className": "numeric-cell"
	}
	],
	"drawCallback": function() {
	// Apply colorization with pre-calculated ranges
	$("#leaderboard tbody td:nth-child(2)").colorize({
	parse: function(e) { return parseFloat($(e).text()); },
	min: columnRanges[1].min,
	max: columnRanges[1].max,
	themes: {
	"default": {
	color_min: "#10A54A", // White for smaller models
	color_mid: "#FFD700", // Gold/yellow for medium models
	color_max: "#C80000" // Hot pink for larger models
	}
	}
	});
	$("#leaderboard tbody td:nth-child(3)").colorize({
	parse: function(e) { return parseFloat($(e).text()); },
	min: columnRanges[2].min,
	max: columnRanges[2].max,
	themes: {
	"default": {
	color_min: "#C80000", // Red for lower scores
	color_mid: "#FFD700", // Gold/yellow for medium scores
	color_max: "#10A54A" // Green for higher scores
	}
	}
	});
	$("#leaderboard tbody td:nth-child(4)").colorize({
	parse: function(e) { return parseFloat($(e).text()); },
	min: columnRanges[3].min,
	max: columnRanges[3].max,
	themes: {
	"default": {
	color_min: "#C80000", // Red for lower percentages
	color_mid: "#FFD700", // Gold/yellow for medium percentages
	color_max: "#10A54A" // Green for higher percentages
	}
	}
	});
	},
	// Override the default search behavior
	"search": {
	"smart": false
	},

	// Update search on input change
	"initComplete": function() {
	var table = this.api();
	$('.dataTables_filter input')
	.off() // Remove default binding
	.on('input', function() {
	table.draw();
	});
	}
	});
	});
	</script>
	</head>
	<body>
	<h1>Leaderboard</h1>
	<table id="leaderboard" class="display" style="width:100%">
	<thead>
	<tr>
	<th>Model</th>
	<th>Params</th>
	<th>Benchmark Score</th>
	<th>Percentage Questions Parseable</th>
	<th>Error</th>
	</tr>
	</thead>
	<tbody>
	"""

	# Add rows to the HTML table
	for _, row in leaderboard_df.iterrows():
	html += f"""
	<tr>
	<td>{row['Model']}</td>
	<td>{row['Params']}</td>
	<td>{row['Benchmark Score']:.2f}</td>
	<td>{row['Percentage Questions Parseable']:.2f}</td>
	<td>{row['Error']}</td>
	</tr>
	"""

	# Close the HTML tags
	html += """
	</tbody>
	</table>
	</body>
	</html>
	"""

	# Save the HTML to a file
	with open("leaderboard.html", "w") as file:
	file.write(html)

	print("HTML leaderboard generated and saved as leaderboard.html")