lex-cross-encoder-mbert-10neg / last-checkpoint /trainer_state.json

Training in progress, epoch 7, checkpoint

eeedc58 verified 2 months ago

15.9 kB

	{
	"best_metric": 0.7979517910648003,
	"best_model_checkpoint": "checkpoint/cross_encoder_20250522_full_data/checkpoint-16219",
	"epoch": 7.0,
	"eval_steps": 500,
	"global_step": 16219,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 0.9638161659240723,
	"learning_rate": 4.315925766076824e-09,
	"loss": 0.6827,
	"step": 1
	},
	{
	"epoch": 0.09,
	"grad_norm": 2.8890857696533203,
	"learning_rate": 8.631851532153649e-07,
	"loss": 0.6745,
	"step": 200
	},
	{
	"epoch": 0.17,
	"grad_norm": 2.8610997200012207,
	"learning_rate": 1.7263703064307298e-06,
	"loss": 0.5921,
	"step": 400
	},
	{
	"epoch": 0.26,
	"grad_norm": 4.058478832244873,
	"learning_rate": 2.5895554596460943e-06,
	"loss": 0.5238,
	"step": 600
	},
	{
	"epoch": 0.35,
	"grad_norm": 2.51100492477417,
	"learning_rate": 3.4527406128614595e-06,
	"loss": 0.4943,
	"step": 800
	},
	{
	"epoch": 0.43,
	"grad_norm": 3.381241798400879,
	"learning_rate": 4.3159257660768235e-06,
	"loss": 0.4882,
	"step": 1000
	},
	{
	"epoch": 0.52,
	"grad_norm": 3.5782713890075684,
	"learning_rate": 5.179110919292189e-06,
	"loss": 0.4782,
	"step": 1200
	},
	{
	"epoch": 0.6,
	"grad_norm": 5.436559200286865,
	"learning_rate": 6.042296072507553e-06,
	"loss": 0.4719,
	"step": 1400
	},
	{
	"epoch": 0.69,
	"grad_norm": 2.6600098609924316,
	"learning_rate": 6.905481225722919e-06,
	"loss": 0.4593,
	"step": 1600
	},
	{
	"epoch": 0.78,
	"grad_norm": 4.711264610290527,
	"learning_rate": 7.768666378938283e-06,
	"loss": 0.4629,
	"step": 1800
	},
	{
	"epoch": 0.86,
	"grad_norm": 7.427570819854736,
	"learning_rate": 8.631851532153647e-06,
	"loss": 0.4549,
	"step": 2000
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.386420965194702,
	"learning_rate": 9.495036685369013e-06,
	"loss": 0.4572,
	"step": 2200
	},
	{
	"epoch": 1.0,
	"eval_f2": 0.7404627946070191,
	"eval_loss": 0.4705376923084259,
	"eval_precision": 0.47348360206208184,
	"eval_recall": 0.8619708466453674,
	"eval_runtime": 147.2641,
	"eval_samples_per_second": 816.166,
	"eval_steps_per_second": 6.376,
	"step": 2317
	},
	{
	"epoch": 1.04,
	"grad_norm": 3.0445728302001953,
	"learning_rate": 9.999609111230013e-06,
	"loss": 0.4511,
	"step": 2400
	},
	{
	"epoch": 1.12,
	"grad_norm": 2.2899084091186523,
	"learning_rate": 9.995456298935638e-06,
	"loss": 0.447,
	"step": 2600
	},
	{
	"epoch": 1.21,
	"grad_norm": 4.465543270111084,
	"learning_rate": 9.986768615435655e-06,
	"loss": 0.4405,
	"step": 2800
	},
	{
	"epoch": 1.29,
	"grad_norm": 4.2559404373168945,
	"learning_rate": 9.973553947402149e-06,
	"loss": 0.4436,
	"step": 3000
	},
	{
	"epoch": 1.38,
	"grad_norm": 4.245833873748779,
	"learning_rate": 9.955824291100119e-06,
	"loss": 0.4393,
	"step": 3200
	},
	{
	"epoch": 1.47,
	"grad_norm": 4.579006671905518,
	"learning_rate": 9.933595741497281e-06,
	"loss": 0.4376,
	"step": 3400
	},
	{
	"epoch": 1.55,
	"grad_norm": 7.389001369476318,
	"learning_rate": 9.906888477653065e-06,
	"loss": 0.4373,
	"step": 3600
	},
	{
	"epoch": 1.64,
	"grad_norm": 4.0490312576293945,
	"learning_rate": 9.875726744400081e-06,
	"loss": 0.4345,
	"step": 3800
	},
	{
	"epoch": 1.73,
	"grad_norm": 2.065431594848633,
	"learning_rate": 9.840138830334685e-06,
	"loss": 0.4327,
	"step": 4000
	},
	{
	"epoch": 1.81,
	"grad_norm": 3.0262961387634277,
	"learning_rate": 9.800157042136608e-06,
	"loss": 0.4327,
	"step": 4200
	},
	{
	"epoch": 1.9,
	"grad_norm": 2.6107230186462402,
	"learning_rate": 9.755817675240981e-06,
	"loss": 0.4294,
	"step": 4400
	},
	{
	"epoch": 1.99,
	"grad_norm": 4.621052265167236,
	"learning_rate": 9.707160980889367e-06,
	"loss": 0.4283,
	"step": 4600
	},
	{
	"epoch": 2.0,
	"eval_f2": 0.7717545519035234,
	"eval_loss": 0.4515298902988434,
	"eval_precision": 0.4774057047330478,
	"eval_recall": 0.9123901757188498,
	"eval_runtime": 148.5197,
	"eval_samples_per_second": 809.266,
	"eval_steps_per_second": 6.322,
	"step": 4634
	},
	{
	"epoch": 2.07,
	"grad_norm": 3.324246644973755,
	"learning_rate": 9.65423112958972e-06,
	"loss": 0.4244,
	"step": 4800
	},
	{
	"epoch": 2.16,
	"grad_norm": 4.125003337860107,
	"learning_rate": 9.597076171018426e-06,
	"loss": 0.4183,
	"step": 5000
	},
	{
	"epoch": 2.24,
	"grad_norm": 2.1959779262542725,
	"learning_rate": 9.535747990400856e-06,
	"loss": 0.4164,
	"step": 5200
	},
	{
	"epoch": 2.33,
	"grad_norm": 1.7736337184906006,
	"learning_rate": 9.470302261409985e-06,
	"loss": 0.4205,
	"step": 5400
	},
	{
	"epoch": 2.42,
	"grad_norm": 4.9517903327941895,
	"learning_rate": 9.400798395625894e-06,
	"loss": 0.4176,
	"step": 5600
	},
	{
	"epoch": 2.5,
	"grad_norm": 6.079417705535889,
	"learning_rate": 9.327299488601976e-06,
	"loss": 0.4202,
	"step": 5800
	},
	{
	"epoch": 2.59,
	"grad_norm": 1.3246735334396362,
	"learning_rate": 9.249872262586839e-06,
	"loss": 0.4218,
	"step": 6000
	},
	{
	"epoch": 2.68,
	"grad_norm": 2.6098692417144775,
	"learning_rate": 9.168587005953913e-06,
	"loss": 0.4182,
	"step": 6200
	},
	{
	"epoch": 2.76,
	"grad_norm": 3.9474799633026123,
	"learning_rate": 9.083517509393716e-06,
	"loss": 0.415,
	"step": 6400
	},
	{
	"epoch": 2.85,
	"grad_norm": 3.5382373332977295,
	"learning_rate": 8.994740998926724e-06,
	"loss": 0.4186,
	"step": 6600
	},
	{
	"epoch": 2.93,
	"grad_norm": 2.33327054977417,
	"learning_rate": 8.902338065797648e-06,
	"loss": 0.4115,
	"step": 6800
	},
	{
	"epoch": 3.0,
	"eval_f2": 0.7773410482632972,
	"eval_loss": 0.4485355019569397,
	"eval_precision": 0.47962529274004684,
	"eval_recall": 0.9201277955271565,
	"eval_runtime": 147.9088,
	"eval_samples_per_second": 812.609,
	"eval_steps_per_second": 6.349,
	"step": 6951
	},
	{
	"epoch": 3.02,
	"grad_norm": 3.269026517868042,
	"learning_rate": 8.806392593314781e-06,
	"loss": 0.4167,
	"step": 7000
	},
	{
	"epoch": 3.11,
	"grad_norm": 2.844139575958252,
	"learning_rate": 8.70699168070078e-06,
	"loss": 0.4101,
	"step": 7200
	},
	{
	"epoch": 3.19,
	"grad_norm": 2.2456936836242676,
	"learning_rate": 8.604225564024074e-06,
	"loss": 0.4095,
	"step": 7400
	},
	{
	"epoch": 3.28,
	"grad_norm": 2.3910915851593018,
	"learning_rate": 8.498187534282632e-06,
	"loss": 0.407,
	"step": 7600
	},
	{
	"epoch": 3.37,
	"grad_norm": 2.2186901569366455,
	"learning_rate": 8.388973852714463e-06,
	"loss": 0.4044,
	"step": 7800
	},
	{
	"epoch": 3.45,
	"grad_norm": 3.1750833988189697,
	"learning_rate": 8.276683663411758e-06,
	"loss": 0.4048,
	"step": 8000
	},
	{
	"epoch": 3.54,
	"grad_norm": 5.709492206573486,
	"learning_rate": 8.161418903317936e-06,
	"loss": 0.4061,
	"step": 8200
	},
	{
	"epoch": 3.63,
	"grad_norm": 6.942538738250732,
	"learning_rate": 8.043284209689402e-06,
	"loss": 0.4067,
	"step": 8400
	},
	{
	"epoch": 3.71,
	"grad_norm": 1.3552676439285278,
	"learning_rate": 7.922386825105899e-06,
	"loss": 0.4046,
	"step": 8600
	},
	{
	"epoch": 3.8,
	"grad_norm": 3.5627899169921875,
	"learning_rate": 7.798836500115803e-06,
	"loss": 0.407,
	"step": 8800
	},
	{
	"epoch": 3.88,
	"grad_norm": 2.0421602725982666,
	"learning_rate": 7.672745393604649e-06,
	"loss": 0.4037,
	"step": 9000
	},
	{
	"epoch": 3.97,
	"grad_norm": 4.619537830352783,
	"learning_rate": 7.544227970977395e-06,
	"loss": 0.4021,
	"step": 9200
	},
	{
	"epoch": 4.0,
	"eval_f2": 0.7901536373601518,
	"eval_loss": 0.4387025237083435,
	"eval_precision": 0.5217129071170085,
	"eval_recall": 0.9067991214057508,
	"eval_runtime": 148.7755,
	"eval_samples_per_second": 807.875,
	"eval_steps_per_second": 6.312,
	"step": 9268
	},
	{
	"epoch": 4.06,
	"grad_norm": 1.7471312284469604,
	"learning_rate": 7.413400900246815e-06,
	"loss": 0.3959,
	"step": 9400
	},
	{
	"epoch": 4.14,
	"grad_norm": 7.655578136444092,
	"learning_rate": 7.280382946122369e-06,
	"loss": 0.3996,
	"step": 9600
	},
	{
	"epoch": 4.23,
	"grad_norm": 4.281186580657959,
	"learning_rate": 7.1452948621957e-06,
	"loss": 0.3943,
	"step": 9800
	},
	{
	"epoch": 4.32,
	"grad_norm": 3.821415424346924,
	"learning_rate": 7.0082592813206175e-06,
	"loss": 0.3972,
	"step": 10000
	},
	{
	"epoch": 4.4,
	"grad_norm": 2.6942179203033447,
	"learning_rate": 6.869400604287093e-06,
	"loss": 0.3939,
	"step": 10200
	},
	{
	"epoch": 4.49,
	"grad_norm": 4.14546012878418,
	"learning_rate": 6.7288448868903225e-06,
	"loss": 0.3997,
	"step": 10400
	},
	{
	"epoch": 4.57,
	"grad_norm": 2.8214612007141113,
	"learning_rate": 6.586719725497375e-06,
	"loss": 0.3993,
	"step": 10600
	},
	{
	"epoch": 4.66,
	"grad_norm": 2.5755832195281982,
	"learning_rate": 6.443154141215318e-06,
	"loss": 0.3969,
	"step": 10800
	},
	{
	"epoch": 4.75,
	"grad_norm": 1.6153743267059326,
	"learning_rate": 6.298278462765959e-06,
	"loss": 0.3987,
	"step": 11000
	},
	{
	"epoch": 4.83,
	"grad_norm": 7.3942766189575195,
	"learning_rate": 6.152224208173533e-06,
	"loss": 0.3946,
	"step": 11200
	},
	{
	"epoch": 4.92,
	"grad_norm": 1.083901047706604,
	"learning_rate": 6.005123965372751e-06,
	"loss": 0.3918,
	"step": 11400
	},
	{
	"epoch": 5.0,
	"eval_f2": 0.7704512576415139,
	"eval_loss": 0.44662219285964966,
	"eval_precision": 0.6110967168819632,
	"eval_recall": 0.8241813099041534,
	"eval_runtime": 149.5247,
	"eval_samples_per_second": 803.827,
	"eval_steps_per_second": 6.28,
	"step": 11585
	},
	{
	"epoch": 5.01,
	"grad_norm": 3.2887141704559326,
	"learning_rate": 5.857111271845573e-06,
	"loss": 0.3935,
	"step": 11600
	},
	{
	"epoch": 5.09,
	"grad_norm": 2.212423801422119,
	"learning_rate": 5.708320493395999e-06,
	"loss": 0.3908,
	"step": 11800
	},
	{
	"epoch": 5.18,
	"grad_norm": 0.9465045928955078,
	"learning_rate": 5.558886702172891e-06,
	"loss": 0.3854,
	"step": 12000
	},
	{
	"epoch": 5.27,
	"grad_norm": 5.766241073608398,
	"learning_rate": 5.408945554051591e-06,
	"loss": 0.3912,
	"step": 12200
	},
	{
	"epoch": 5.35,
	"grad_norm": 4.334184646606445,
	"learning_rate": 5.258633165485625e-06,
	"loss": 0.3866,
	"step": 12400
	},
	{
	"epoch": 5.44,
	"grad_norm": 4.286846160888672,
	"learning_rate": 5.108085989940292e-06,
	"loss": 0.3919,
	"step": 12600
	},
	{
	"epoch": 5.52,
	"grad_norm": 1.167948603630066,
	"learning_rate": 4.95744069402033e-06,
	"loss": 0.3898,
	"step": 12800
	},
	{
	"epoch": 5.61,
	"grad_norm": 4.312135696411133,
	"learning_rate": 4.806834033404065e-06,
	"loss": 0.3894,
	"step": 13000
	},
	{
	"epoch": 5.7,
	"grad_norm": 2.726715564727783,
	"learning_rate": 4.6564027286967275e-06,
	"loss": 0.3918,
	"step": 13200
	},
	{
	"epoch": 5.78,
	"grad_norm": 2.4171202182769775,
	"learning_rate": 4.5062833413156e-06,
	"loss": 0.3917,
	"step": 13400
	},
	{
	"epoch": 5.87,
	"grad_norm": 5.957132339477539,
	"learning_rate": 4.3566121495196656e-06,
	"loss": 0.3849,
	"step": 13600
	},
	{
	"epoch": 5.96,
	"grad_norm": 4.632606029510498,
	"learning_rate": 4.20752502469631e-06,
	"loss": 0.3879,
	"step": 13800
	},
	{
	"epoch": 6.0,
	"eval_f2": 0.7946750167423844,
	"eval_loss": 0.43369919061660767,
	"eval_precision": 0.5782680276588739,
	"eval_recall": 0.8766972843450479,
	"eval_runtime": 148.7395,
	"eval_samples_per_second": 808.07,
	"eval_steps_per_second": 6.313,
	"step": 13902
	},
	{
	"epoch": 6.04,
	"grad_norm": 1.9424314498901367,
	"learning_rate": 4.0591573080173995e-06,
	"loss": 0.3873,
	"step": 14000
	},
	{
	"epoch": 6.13,
	"grad_norm": 2.831543445587158,
	"learning_rate": 3.911643687576664e-06,
	"loss": 0.3807,
	"step": 14200
	},
	{
	"epoch": 6.21,
	"grad_norm": 2.7500486373901367,
	"learning_rate": 3.7651180761199505e-06,
	"loss": 0.3801,
	"step": 14400
	},
	{
	"epoch": 6.3,
	"grad_norm": 4.015429496765137,
	"learning_rate": 3.619713489479354e-06,
	"loss": 0.3824,
	"step": 14600
	},
	{
	"epoch": 6.39,
	"grad_norm": 2.4831278324127197,
	"learning_rate": 3.4755619258215407e-06,
	"loss": 0.3808,
	"step": 14800
	},
	{
	"epoch": 6.47,
	"grad_norm": 7.442523002624512,
	"learning_rate": 3.3327942458199193e-06,
	"loss": 0.385,
	"step": 15000
	},
	{
	"epoch": 6.56,
	"grad_norm": 4.242701530456543,
	"learning_rate": 3.1915400538594333e-06,
	"loss": 0.3832,
	"step": 15200
	},
	{
	"epoch": 6.65,
	"grad_norm": 5.000258922576904,
	"learning_rate": 3.0519275803818014e-06,
	"loss": 0.3805,
	"step": 15400
	},
	{
	"epoch": 6.73,
	"grad_norm": 2.0560362339019775,
	"learning_rate": 2.914083565478024e-06,
	"loss": 0.381,
	"step": 15600
	},
	{
	"epoch": 6.82,
	"grad_norm": 1.8777313232421875,
	"learning_rate": 2.7781331438338317e-06,
	"loss": 0.3831,
	"step": 15800
	},
	{
	"epoch": 6.91,
	"grad_norm": 1.0822844505310059,
	"learning_rate": 2.6441997311325196e-06,
	"loss": 0.3797,
	"step": 16000
	},
	{
	"epoch": 6.99,
	"grad_norm": 3.2328083515167236,
	"learning_rate": 2.5124049120182916e-06,
	"loss": 0.383,
	"step": 16200
	},
	{
	"epoch": 7.0,
	"eval_f2": 0.7979517910648003,
	"eval_loss": 0.4335618019104004,
	"eval_precision": 0.5632793509486378,
	"eval_recall": 0.8907248402555911,
	"eval_runtime": 148.5629,
	"eval_samples_per_second": 809.031,
	"eval_steps_per_second": 6.321,
	"step": 16219
	}
	],
	"logging_steps": 200,
	"max_steps": 23170,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"total_flos": 5.462269789659464e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}