crumb/Llama-p-small · Hugging Face

Tasks	Version	Filter	n-shot	Metric	Value		Stderr
arc_challenge	1	none	25	acc	0.1775	±	0.0112
		none	25	acc_norm	0.2167	±	0.0120
truthfulqa_mc2	2	none	0	acc	0.4689	±	0.0156
winogrande	1	none	5	acc	0.5122	±	0.014
hellaswag	1	none	10	acc	0.2697	±	0.0044
		none	10	acc_norm	0.2827	±	0.0045

Tasks	Filter	n-shot	Metric	Value		Stderr
abstract_algebra	none	5	acc	0.2200	±	0.0416
anatomy	none	5	acc	0.3333	±	0.0407
astronomy	none	5	acc	0.1776	±	0.0311
business_ethics	none	5	acc	0.2100	±	0.0409
clinical_knowledge	none	5	acc	0.2528	±	0.0267
college_biology	none	5	acc	0.2778	±	0.0375
college_chemistry	none	5	acc	0.1800	±	0.0386
college_computer_science	none	5	acc	0.1900	±	0.0394
college_mathematics	none	5	acc	0.2200	±	0.0416
college_medicine	none	5	acc	0.1965	±	0.0303
college_physics	none	5	acc	0.2451	±	0.0428
computer_security	none	5	acc	0.2000	±	0.0402
conceptual_physics	none	5	acc	0.2511	±	0.0283
econometrics	none	5	acc	0.2719	±	0.0419
electrical_engineering	none	5	acc	0.2138	±	0.0342
elementary_mathematics	none	5	acc	0.2460	±	0.0222
formal_logic	none	5	acc	0.1905	±	0.0351
global_facts	none	5	acc	0.1500	±	0.0359
high_school_biology	none	5	acc	0.3000	±	0.0261
high_school_chemistry	none	5	acc	0.2562	±	0.0307
high_school_computer_science	none	5	acc	0.2800	±	0.0451
high_school_european_history	none	5	acc	0.2788	±	0.0350
high_school_geography	none	5	acc	0.3232	±	0.0333
high_school_government_and_politics	none	5	acc	0.3212	±	0.0337
high_school_macroeconomics	none	5	acc	0.3308	±	0.0239
high_school_mathematics	none	5	acc	0.2593	±	0.0267
high_school_microeconomics	none	5	acc	0.2815	±	0.0292
high_school_physics	none	5	acc	0.2384	±	0.0348
high_school_psychology	none	5	acc	0.2716	±	0.0191
high_school_statistics	none	5	acc	0.4769	±	0.0341
high_school_us_history	none	5	acc	0.2598	±	0.0308
high_school_world_history	none	5	acc	0.2194	±	0.0269
human_aging	none	5	acc	0.2197	±	0.0278
human_sexuality	none	5	acc	0.2748	±	0.0392
international_law	none	5	acc	0.3306	±	0.0429
jurisprudence	none	5	acc	0.2130	±	0.0396
logical_fallacies	none	5	acc	0.2331	±	0.0332
machine_learning	none	5	acc	0.2232	±	0.0395
management	none	5	acc	0.2039	±	0.0399
marketing	none	5	acc	0.1966	±	0.0260
medical_genetics	none	5	acc	0.3000	±	0.0461
miscellaneous	none	5	acc	0.2580	±	0.0156
moral_disputes	none	5	acc	0.1850	±	0.0209
moral_scenarios	none	5	acc	0.2380	±	0.0142
nutrition	none	5	acc	0.3039	±	0.0263
philosophy	none	5	acc	0.1929	±	0.0224
prehistory	none	5	acc	0.2160	±	0.0229
professional_accounting	none	5	acc	0.2518	±	0.0259
professional_law	none	5	acc	0.2419	±	0.0109
professional_medicine	none	5	acc	0.4375	±	0.0301
professional_psychology	none	5	acc	0.2190	±	0.0167
public_relations	none	5	acc	0.2273	±	0.0401
security_studies	none	5	acc	0.3633	±	0.0308
sociology	none	5	acc	0.2338	±	0.0299
us_foreign_policy	none	5	acc	0.2900	±	0.0456
virology	none	5	acc	0.2169	±	0.0321
world_religions	none	5	acc	0.1930	±	0.0303

crumb
/

Llama-p-small

Dataset used to train crumb/Llama-p-small