Stewart Slocum

Add fine-tuned model

1d1194e 15 days ago

12.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 67,
	"global_step": 67,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.014925373134328358,
	"grad_norm": 4.677140235900879,
	"learning_rate": 1e-05,
	"loss": 2.7846,
	"step": 1
	},
	{
	"epoch": 0.029850746268656716,
	"grad_norm": 4.6858649253845215,
	"learning_rate": 9.850746268656717e-06,
	"loss": 2.496,
	"step": 2
	},
	{
	"epoch": 0.04477611940298507,
	"grad_norm": 3.9940388202667236,
	"learning_rate": 9.701492537313434e-06,
	"loss": 2.582,
	"step": 3
	},
	{
	"epoch": 0.05970149253731343,
	"grad_norm": 3.8767054080963135,
	"learning_rate": 9.552238805970149e-06,
	"loss": 2.215,
	"step": 4
	},
	{
	"epoch": 0.07462686567164178,
	"grad_norm": 2.339372396469116,
	"learning_rate": 9.402985074626867e-06,
	"loss": 1.9616,
	"step": 5
	},
	{
	"epoch": 0.08955223880597014,
	"grad_norm": 2.0336525440216064,
	"learning_rate": 9.253731343283582e-06,
	"loss": 1.9218,
	"step": 6
	},
	{
	"epoch": 0.1044776119402985,
	"grad_norm": 2.4649195671081543,
	"learning_rate": 9.104477611940299e-06,
	"loss": 2.5598,
	"step": 7
	},
	{
	"epoch": 0.11940298507462686,
	"grad_norm": 1.7558526992797852,
	"learning_rate": 8.955223880597016e-06,
	"loss": 2.1746,
	"step": 8
	},
	{
	"epoch": 0.13432835820895522,
	"grad_norm": 1.5009433031082153,
	"learning_rate": 8.805970149253732e-06,
	"loss": 2.1801,
	"step": 9
	},
	{
	"epoch": 0.14925373134328357,
	"grad_norm": 1.7307460308074951,
	"learning_rate": 8.656716417910447e-06,
	"loss": 2.2179,
	"step": 10
	},
	{
	"epoch": 0.16417910447761194,
	"grad_norm": 1.31997811794281,
	"learning_rate": 8.507462686567165e-06,
	"loss": 1.9017,
	"step": 11
	},
	{
	"epoch": 0.1791044776119403,
	"grad_norm": 1.0102890729904175,
	"learning_rate": 8.35820895522388e-06,
	"loss": 1.6226,
	"step": 12
	},
	{
	"epoch": 0.19402985074626866,
	"grad_norm": 1.1635653972625732,
	"learning_rate": 8.208955223880599e-06,
	"loss": 2.0264,
	"step": 13
	},
	{
	"epoch": 0.208955223880597,
	"grad_norm": 0.9142751097679138,
	"learning_rate": 8.059701492537314e-06,
	"loss": 1.9922,
	"step": 14
	},
	{
	"epoch": 0.22388059701492538,
	"grad_norm": 1.1939051151275635,
	"learning_rate": 7.91044776119403e-06,
	"loss": 2.205,
	"step": 15
	},
	{
	"epoch": 0.23880597014925373,
	"grad_norm": 0.7413591742515564,
	"learning_rate": 7.761194029850747e-06,
	"loss": 1.9766,
	"step": 16
	},
	{
	"epoch": 0.2537313432835821,
	"grad_norm": 1.400302767753601,
	"learning_rate": 7.611940298507463e-06,
	"loss": 2.3456,
	"step": 17
	},
	{
	"epoch": 0.26865671641791045,
	"grad_norm": 0.9068132042884827,
	"learning_rate": 7.46268656716418e-06,
	"loss": 2.2168,
	"step": 18
	},
	{
	"epoch": 0.2835820895522388,
	"grad_norm": 0.865298867225647,
	"learning_rate": 7.313432835820896e-06,
	"loss": 1.9891,
	"step": 19
	},
	{
	"epoch": 0.29850746268656714,
	"grad_norm": 1.2902920246124268,
	"learning_rate": 7.164179104477612e-06,
	"loss": 2.1995,
	"step": 20
	},
	{
	"epoch": 0.31343283582089554,
	"grad_norm": 0.7621744871139526,
	"learning_rate": 7.014925373134329e-06,
	"loss": 2.1563,
	"step": 21
	},
	{
	"epoch": 0.3283582089552239,
	"grad_norm": 0.7494510412216187,
	"learning_rate": 6.865671641791045e-06,
	"loss": 1.9338,
	"step": 22
	},
	{
	"epoch": 0.34328358208955223,
	"grad_norm": 0.6722490191459656,
	"learning_rate": 6.7164179104477625e-06,
	"loss": 1.9195,
	"step": 23
	},
	{
	"epoch": 0.3582089552238806,
	"grad_norm": 0.5672370195388794,
	"learning_rate": 6.567164179104478e-06,
	"loss": 2.1004,
	"step": 24
	},
	{
	"epoch": 0.373134328358209,
	"grad_norm": 0.5260008573532104,
	"learning_rate": 6.417910447761194e-06,
	"loss": 2.0207,
	"step": 25
	},
	{
	"epoch": 0.3880597014925373,
	"grad_norm": 0.6754623651504517,
	"learning_rate": 6.2686567164179116e-06,
	"loss": 2.0735,
	"step": 26
	},
	{
	"epoch": 0.40298507462686567,
	"grad_norm": 0.5878338813781738,
	"learning_rate": 6.119402985074627e-06,
	"loss": 1.9148,
	"step": 27
	},
	{
	"epoch": 0.417910447761194,
	"grad_norm": 0.531120240688324,
	"learning_rate": 5.970149253731343e-06,
	"loss": 1.9395,
	"step": 28
	},
	{
	"epoch": 0.43283582089552236,
	"grad_norm": 0.667667806148529,
	"learning_rate": 5.820895522388061e-06,
	"loss": 2.038,
	"step": 29
	},
	{
	"epoch": 0.44776119402985076,
	"grad_norm": 0.7480222582817078,
	"learning_rate": 5.671641791044776e-06,
	"loss": 2.0045,
	"step": 30
	},
	{
	"epoch": 0.4626865671641791,
	"grad_norm": 0.9849134683609009,
	"learning_rate": 5.522388059701493e-06,
	"loss": 2.1881,
	"step": 31
	},
	{
	"epoch": 0.47761194029850745,
	"grad_norm": 0.6533071398735046,
	"learning_rate": 5.37313432835821e-06,
	"loss": 1.849,
	"step": 32
	},
	{
	"epoch": 0.4925373134328358,
	"grad_norm": 0.5160700082778931,
	"learning_rate": 5.2238805970149255e-06,
	"loss": 2.0241,
	"step": 33
	},
	{
	"epoch": 0.5074626865671642,
	"grad_norm": 0.5143930912017822,
	"learning_rate": 5.074626865671642e-06,
	"loss": 1.9619,
	"step": 34
	},
	{
	"epoch": 0.5223880597014925,
	"grad_norm": 0.6003533005714417,
	"learning_rate": 4.925373134328359e-06,
	"loss": 1.9579,
	"step": 35
	},
	{
	"epoch": 0.5373134328358209,
	"grad_norm": 0.49033546447753906,
	"learning_rate": 4.7761194029850745e-06,
	"loss": 2.1126,
	"step": 36
	},
	{
	"epoch": 0.5522388059701493,
	"grad_norm": 0.5822514891624451,
	"learning_rate": 4.626865671641791e-06,
	"loss": 1.8489,
	"step": 37
	},
	{
	"epoch": 0.5671641791044776,
	"grad_norm": 0.5790143013000488,
	"learning_rate": 4.477611940298508e-06,
	"loss": 2.0096,
	"step": 38
	},
	{
	"epoch": 0.582089552238806,
	"grad_norm": 0.41039204597473145,
	"learning_rate": 4.3283582089552236e-06,
	"loss": 1.775,
	"step": 39
	},
	{
	"epoch": 0.5970149253731343,
	"grad_norm": 0.820061206817627,
	"learning_rate": 4.17910447761194e-06,
	"loss": 2.1653,
	"step": 40
	},
	{
	"epoch": 0.6119402985074627,
	"grad_norm": 0.6350656151771545,
	"learning_rate": 4.029850746268657e-06,
	"loss": 1.982,
	"step": 41
	},
	{
	"epoch": 0.6268656716417911,
	"grad_norm": 0.41239652037620544,
	"learning_rate": 3.8805970149253735e-06,
	"loss": 1.8828,
	"step": 42
	},
	{
	"epoch": 0.6417910447761194,
	"grad_norm": 0.5652564764022827,
	"learning_rate": 3.73134328358209e-06,
	"loss": 2.0692,
	"step": 43
	},
	{
	"epoch": 0.6567164179104478,
	"grad_norm": 0.6621966361999512,
	"learning_rate": 3.582089552238806e-06,
	"loss": 2.2952,
	"step": 44
	},
	{
	"epoch": 0.6716417910447762,
	"grad_norm": 0.4039974510669708,
	"learning_rate": 3.4328358208955225e-06,
	"loss": 1.7934,
	"step": 45
	},
	{
	"epoch": 0.6865671641791045,
	"grad_norm": 0.5079028606414795,
	"learning_rate": 3.283582089552239e-06,
	"loss": 2.0361,
	"step": 46
	},
	{
	"epoch": 0.7014925373134329,
	"grad_norm": 0.41614365577697754,
	"learning_rate": 3.1343283582089558e-06,
	"loss": 1.7775,
	"step": 47
	},
	{
	"epoch": 0.7164179104477612,
	"grad_norm": 0.3995169699192047,
	"learning_rate": 2.9850746268656716e-06,
	"loss": 1.9167,
	"step": 48
	},
	{
	"epoch": 0.7313432835820896,
	"grad_norm": 0.5954918265342712,
	"learning_rate": 2.835820895522388e-06,
	"loss": 2.0694,
	"step": 49
	},
	{
	"epoch": 0.746268656716418,
	"grad_norm": 0.5778793692588806,
	"learning_rate": 2.686567164179105e-06,
	"loss": 2.0297,
	"step": 50
	},
	{
	"epoch": 0.7611940298507462,
	"grad_norm": 0.5707228183746338,
	"learning_rate": 2.537313432835821e-06,
	"loss": 2.201,
	"step": 51
	},
	{
	"epoch": 0.7761194029850746,
	"grad_norm": 0.6407202482223511,
	"learning_rate": 2.3880597014925373e-06,
	"loss": 2.4394,
	"step": 52
	},
	{
	"epoch": 0.7910447761194029,
	"grad_norm": 0.3686445355415344,
	"learning_rate": 2.238805970149254e-06,
	"loss": 2.2426,
	"step": 53
	},
	{
	"epoch": 0.8059701492537313,
	"grad_norm": 0.4780975580215454,
	"learning_rate": 2.08955223880597e-06,
	"loss": 1.888,
	"step": 54
	},
	{
	"epoch": 0.8208955223880597,
	"grad_norm": 0.5346677303314209,
	"learning_rate": 1.9402985074626867e-06,
	"loss": 1.9405,
	"step": 55
	},
	{
	"epoch": 0.835820895522388,
	"grad_norm": 0.4024548828601837,
	"learning_rate": 1.791044776119403e-06,
	"loss": 1.6834,
	"step": 56
	},
	{
	"epoch": 0.8507462686567164,
	"grad_norm": 0.501626193523407,
	"learning_rate": 1.6417910447761196e-06,
	"loss": 2.2497,
	"step": 57
	},
	{
	"epoch": 0.8656716417910447,
	"grad_norm": 0.44980672001838684,
	"learning_rate": 1.4925373134328358e-06,
	"loss": 1.8196,
	"step": 58
	},
	{
	"epoch": 0.8805970149253731,
	"grad_norm": 0.8795580863952637,
	"learning_rate": 1.3432835820895524e-06,
	"loss": 2.1529,
	"step": 59
	},
	{
	"epoch": 0.8955223880597015,
	"grad_norm": 0.5534031987190247,
	"learning_rate": 1.1940298507462686e-06,
	"loss": 2.1861,
	"step": 60
	},
	{
	"epoch": 0.9104477611940298,
	"grad_norm": 0.3944064676761627,
	"learning_rate": 1.044776119402985e-06,
	"loss": 1.7992,
	"step": 61
	},
	{
	"epoch": 0.9253731343283582,
	"grad_norm": 0.3771931231021881,
	"learning_rate": 8.955223880597015e-07,
	"loss": 1.6866,
	"step": 62
	},
	{
	"epoch": 0.9402985074626866,
	"grad_norm": 0.5111584067344666,
	"learning_rate": 7.462686567164179e-07,
	"loss": 1.995,
	"step": 63
	},
	{
	"epoch": 0.9552238805970149,
	"grad_norm": 0.5018301606178284,
	"learning_rate": 5.970149253731343e-07,
	"loss": 1.8922,
	"step": 64
	},
	{
	"epoch": 0.9701492537313433,
	"grad_norm": 0.3669991195201874,
	"learning_rate": 4.4776119402985074e-07,
	"loss": 2.0702,
	"step": 65
	},
	{
	"epoch": 0.9850746268656716,
	"grad_norm": 0.45055946707725525,
	"learning_rate": 2.9850746268656716e-07,
	"loss": 2.0245,
	"step": 66
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.5369859337806702,
	"learning_rate": 1.4925373134328358e-07,
	"loss": 2.2499,
	"step": 67
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.8387645483016968,
	"eval_runtime": 0.8427,
	"eval_samples_per_second": 43.907,
	"eval_steps_per_second": 5.933,
	"step": 67
	}
	],
	"logging_steps": 1.0,
	"max_steps": 67,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 0,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3350387805388800.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}