zephyr-7b-spin-iter3-v0 / trainer_state.json

Model save

921932e verified 8 months ago

8.17 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9805825242718447,
	"eval_steps": 25,
	"global_step": 102,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"learning_rate": 9.09090909090909e-09,
	"logits/generated": -2.911376476287842,
	"logits/real": -2.89278507232666,
	"logps/generated": -668.016845703125,
	"logps/real": -324.0830383300781,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/generated": 0.0,
	"rewards/margins": 0.0,
	"rewards/real": 0.0,
	"step": 1
	},
	{
	"epoch": 0.19,
	"learning_rate": 9.09090909090909e-08,
	"logits/generated": -2.848540782928467,
	"logits/real": -2.8350822925567627,
	"logps/generated": -617.5262451171875,
	"logps/real": -255.12559509277344,
	"loss": 0.8027,
	"rewards/accuracies": 0.6527777910232544,
	"rewards/generated": -6.766346454620361,
	"rewards/margins": 4.9929962158203125,
	"rewards/real": -1.7733497619628906,
	"step": 10
	},
	{
	"epoch": 0.39,
	"learning_rate": 9.010989010989011e-08,
	"logits/generated": -2.8388895988464355,
	"logits/real": -2.8330814838409424,
	"logps/generated": -707.9961547851562,
	"logps/real": -283.4620056152344,
	"loss": 0.2928,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/generated": -20.150367736816406,
	"rewards/margins": 17.525970458984375,
	"rewards/real": -2.6243953704833984,
	"step": 20
	},
	{
	"epoch": 0.49,
	"eval_logits/generated": -2.8098323345184326,
	"eval_logits/real": -2.8089659214019775,
	"eval_logps/generated": -700.5637817382812,
	"eval_logps/real": -278.0876159667969,
	"eval_loss": 0.3950892686843872,
	"eval_rewards/accuracies": 0.90625,
	"eval_rewards/generated": -20.326812744140625,
	"eval_rewards/margins": 17.705642700195312,
	"eval_rewards/real": -2.6211698055267334,
	"eval_runtime": 75.909,
	"eval_samples_per_second": 4.848,
	"eval_steps_per_second": 0.158,
	"step": 25
	},
	{
	"epoch": 0.58,
	"learning_rate": 7.912087912087911e-08,
	"logits/generated": -2.877678394317627,
	"logits/real": -2.8707680702209473,
	"logps/generated": -755.6437377929688,
	"logps/real": -290.04058837890625,
	"loss": 0.2615,
	"rewards/accuracies": 0.96875,
	"rewards/generated": -25.02899742126465,
	"rewards/margins": 23.474206924438477,
	"rewards/real": -1.5547949075698853,
	"step": 30
	},
	{
	"epoch": 0.78,
	"learning_rate": 6.813186813186813e-08,
	"logits/generated": -2.839968681335449,
	"logits/real": -2.8121862411499023,
	"logps/generated": -673.220703125,
	"logps/real": -257.77001953125,
	"loss": 0.1816,
	"rewards/accuracies": 0.956250011920929,
	"rewards/generated": -24.732364654541016,
	"rewards/margins": 26.96199607849121,
	"rewards/real": 2.2296276092529297,
	"step": 40
	},
	{
	"epoch": 0.97,
	"learning_rate": 5.714285714285714e-08,
	"logits/generated": -2.8406929969787598,
	"logits/real": -2.8268864154815674,
	"logps/generated": -727.8557739257812,
	"logps/real": -274.7761535644531,
	"loss": 0.1487,
	"rewards/accuracies": 0.981249988079071,
	"rewards/generated": -29.384685516357422,
	"rewards/margins": 30.1076717376709,
	"rewards/real": 0.7229812145233154,
	"step": 50
	},
	{
	"epoch": 0.97,
	"eval_logits/generated": -2.821841239929199,
	"eval_logits/real": -2.8065903186798096,
	"eval_logps/generated": -702.32763671875,
	"eval_logps/real": -278.1448974609375,
	"eval_loss": 0.131888747215271,
	"eval_rewards/accuracies": 0.9375,
	"eval_rewards/generated": -29.145910263061523,
	"eval_rewards/margins": 26.238248825073242,
	"eval_rewards/real": -2.9076578617095947,
	"eval_runtime": 74.4579,
	"eval_samples_per_second": 4.942,
	"eval_steps_per_second": 0.161,
	"step": 50
	},
	{
	"epoch": 1.17,
	"learning_rate": 4.615384615384615e-08,
	"logits/generated": -2.8634510040283203,
	"logits/real": -2.8573107719421387,
	"logps/generated": -768.2184448242188,
	"logps/real": -281.481201171875,
	"loss": 0.0249,
	"rewards/accuracies": 0.9937499761581421,
	"rewards/generated": -33.38450241088867,
	"rewards/margins": 33.606407165527344,
	"rewards/real": 0.22189739346504211,
	"step": 60
	},
	{
	"epoch": 1.36,
	"learning_rate": 3.516483516483517e-08,
	"logits/generated": -2.846198797225952,
	"logits/real": -2.818643093109131,
	"logps/generated": -667.6427001953125,
	"logps/real": -262.6141052246094,
	"loss": 0.006,
	"rewards/accuracies": 0.987500011920929,
	"rewards/generated": -29.605731964111328,
	"rewards/margins": 33.2759895324707,
	"rewards/real": 3.670259952545166,
	"step": 70
	},
	{
	"epoch": 1.46,
	"eval_logits/generated": -2.8174571990966797,
	"eval_logits/real": -2.8036582469940186,
	"eval_logps/generated": -702.328857421875,
	"eval_logps/real": -278.0840759277344,
	"eval_loss": 0.12692251801490784,
	"eval_rewards/accuracies": 0.9583333134651184,
	"eval_rewards/generated": -29.151870727539062,
	"eval_rewards/margins": 26.54817008972168,
	"eval_rewards/real": -2.6037025451660156,
	"eval_runtime": 74.2997,
	"eval_samples_per_second": 4.953,
	"eval_steps_per_second": 0.162,
	"step": 75
	},
	{
	"epoch": 1.55,
	"learning_rate": 2.4175824175824175e-08,
	"logits/generated": -2.8320305347442627,
	"logits/real": -2.810762882232666,
	"logps/generated": -708.1215209960938,
	"logps/real": -277.090576171875,
	"loss": 0.0292,
	"rewards/accuracies": 0.9937499761581421,
	"rewards/generated": -33.68733215332031,
	"rewards/margins": 36.958492279052734,
	"rewards/real": 3.271162748336792,
	"step": 80
	},
	{
	"epoch": 1.75,
	"learning_rate": 1.3186813186813187e-08,
	"logits/generated": -2.8205840587615967,
	"logits/real": -2.8130674362182617,
	"logps/generated": -704.9281005859375,
	"logps/real": -273.8406066894531,
	"loss": 0.0322,
	"rewards/accuracies": 0.987500011920929,
	"rewards/generated": -31.48798179626465,
	"rewards/margins": 33.98870849609375,
	"rewards/real": 2.500725746154785,
	"step": 90
	},
	{
	"epoch": 1.94,
	"learning_rate": 2.197802197802198e-09,
	"logits/generated": -2.872133255004883,
	"logits/real": -2.856153964996338,
	"logps/generated": -711.3128662109375,
	"logps/real": -259.7333068847656,
	"loss": 0.0086,
	"rewards/accuracies": 1.0,
	"rewards/generated": -35.352970123291016,
	"rewards/margins": 39.97649383544922,
	"rewards/real": 4.623520851135254,
	"step": 100
	},
	{
	"epoch": 1.94,
	"eval_logits/generated": -2.817664384841919,
	"eval_logits/real": -2.805149793624878,
	"eval_logps/generated": -702.4378051757812,
	"eval_logps/real": -278.1470031738281,
	"eval_loss": 0.10993197560310364,
	"eval_rewards/accuracies": 0.9270833134651184,
	"eval_rewards/generated": -29.69696617126465,
	"eval_rewards/margins": 26.778860092163086,
	"eval_rewards/real": -2.918107748031616,
	"eval_runtime": 73.9005,
	"eval_samples_per_second": 4.98,
	"eval_steps_per_second": 0.162,
	"step": 100
	},
	{
	"epoch": 1.98,
	"step": 102,
	"total_flos": 0.0,
	"train_loss": 0.1742458962578573,
	"train_runtime": 2590.1164,
	"train_samples_per_second": 2.545,
	"train_steps_per_second": 0.039
	}
	],
	"logging_steps": 10,
	"max_steps": 102,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}