{ "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0, "eval_steps": 500, "global_step": 240, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.016666666666666666, "grad_norm": 4.380008697509766, "learning_rate": 8.333333333333334e-06, "loss": 3.8472, "step": 2 }, { "epoch": 0.03333333333333333, "grad_norm": 5.4320220947265625, "learning_rate": 1.6666666666666667e-05, "loss": 4.4355, "step": 4 }, { "epoch": 0.05, "grad_norm": 5.495668411254883, "learning_rate": 2.5e-05, "loss": 4.0183, "step": 6 }, { "epoch": 0.06666666666666667, "grad_norm": 5.333839416503906, "learning_rate": 3.3333333333333335e-05, "loss": 4.4543, "step": 8 }, { "epoch": 0.08333333333333333, "grad_norm": 4.8141961097717285, "learning_rate": 4.166666666666667e-05, "loss": 4.0576, "step": 10 }, { "epoch": 0.1, "grad_norm": 4.4542341232299805, "learning_rate": 5e-05, "loss": 3.3098, "step": 12 }, { "epoch": 0.11666666666666667, "grad_norm": 4.608759880065918, "learning_rate": 5.833333333333334e-05, "loss": 3.3983, "step": 14 }, { "epoch": 0.13333333333333333, "grad_norm": 3.7876033782958984, "learning_rate": 6.666666666666667e-05, "loss": 2.7265, "step": 16 }, { "epoch": 0.15, "grad_norm": 4.206045627593994, "learning_rate": 7.500000000000001e-05, "loss": 2.4786, "step": 18 }, { "epoch": 0.16666666666666666, "grad_norm": 4.687928676605225, "learning_rate": 8.333333333333334e-05, "loss": 2.2298, "step": 20 }, { "epoch": 0.18333333333333332, "grad_norm": 4.639834880828857, "learning_rate": 9.166666666666667e-05, "loss": 2.5465, "step": 22 }, { "epoch": 0.2, "grad_norm": 4.179326057434082, "learning_rate": 0.0001, "loss": 2.0804, "step": 24 }, { "epoch": 0.21666666666666667, "grad_norm": 4.4850287437438965, "learning_rate": 0.00010833333333333333, "loss": 2.0512, "step": 26 }, { "epoch": 0.23333333333333334, "grad_norm": 5.006600379943848, "learning_rate": 0.00011666666666666668, "loss": 2.1484, "step": 28 }, { "epoch": 0.25, "grad_norm": 4.475966453552246, "learning_rate": 0.000125, "loss": 1.9871, "step": 30 }, { "epoch": 0.26666666666666666, "grad_norm": 4.605421543121338, "learning_rate": 0.00013333333333333334, "loss": 2.1455, "step": 32 }, { "epoch": 0.2833333333333333, "grad_norm": 4.921014785766602, "learning_rate": 0.00014166666666666668, "loss": 1.9162, "step": 34 }, { "epoch": 0.3, "grad_norm": 4.6443634033203125, "learning_rate": 0.00015000000000000001, "loss": 2.0503, "step": 36 }, { "epoch": 0.31666666666666665, "grad_norm": 4.234635353088379, "learning_rate": 0.00015833333333333332, "loss": 2.0901, "step": 38 }, { "epoch": 0.3333333333333333, "grad_norm": 4.628840446472168, "learning_rate": 0.0001666666666666667, "loss": 1.8014, "step": 40 }, { "epoch": 0.35, "grad_norm": 3.8235278129577637, "learning_rate": 0.000175, "loss": 1.8156, "step": 42 }, { "epoch": 0.36666666666666664, "grad_norm": 5.939589500427246, "learning_rate": 0.00018333333333333334, "loss": 1.7782, "step": 44 }, { "epoch": 0.38333333333333336, "grad_norm": 4.921348571777344, "learning_rate": 0.00019166666666666667, "loss": 1.7167, "step": 46 }, { "epoch": 0.4, "grad_norm": 4.549618244171143, "learning_rate": 0.0002, "loss": 2.2041, "step": 48 }, { "epoch": 0.4166666666666667, "grad_norm": 4.085502624511719, "learning_rate": 0.00019998942319271077, "loss": 1.8483, "step": 50 }, { "epoch": 0.43333333333333335, "grad_norm": 3.6243653297424316, "learning_rate": 0.0001999576950082201, "loss": 2.0321, "step": 52 }, { "epoch": 0.45, "grad_norm": 3.530813455581665, "learning_rate": 0.0001999048221581858, "loss": 1.819, "step": 54 }, { "epoch": 0.4666666666666667, "grad_norm": 3.175443649291992, "learning_rate": 0.00019983081582712685, "loss": 1.7011, "step": 56 }, { "epoch": 0.48333333333333334, "grad_norm": 3.0620853900909424, "learning_rate": 0.00019973569167005723, "loss": 1.6158, "step": 58 }, { "epoch": 0.5, "grad_norm": 3.984229564666748, "learning_rate": 0.00019961946980917456, "loss": 1.8606, "step": 60 }, { "epoch": 0.5166666666666667, "grad_norm": 3.717822313308716, "learning_rate": 0.0001994821748296033, "loss": 1.7937, "step": 62 }, { "epoch": 0.5333333333333333, "grad_norm": 4.549349308013916, "learning_rate": 0.00019932383577419432, "loss": 1.9389, "step": 64 }, { "epoch": 0.55, "grad_norm": 4.229006767272949, "learning_rate": 0.00019914448613738106, "loss": 1.5434, "step": 66 }, { "epoch": 0.5666666666666667, "grad_norm": 3.5755157470703125, "learning_rate": 0.00019894416385809444, "loss": 1.6555, "step": 68 }, { "epoch": 0.5833333333333334, "grad_norm": 3.2299246788024902, "learning_rate": 0.00019872291131173742, "loss": 1.7088, "step": 70 }, { "epoch": 0.6, "grad_norm": 3.777369260787964, "learning_rate": 0.00019848077530122083, "loss": 1.7569, "step": 72 }, { "epoch": 0.6166666666666667, "grad_norm": 3.143406629562378, "learning_rate": 0.00019821780704706307, "loss": 1.7495, "step": 74 }, { "epoch": 0.6333333333333333, "grad_norm": 3.655970811843872, "learning_rate": 0.00019793406217655517, "loss": 1.6553, "step": 76 }, { "epoch": 0.65, "grad_norm": 3.4324283599853516, "learning_rate": 0.00019762960071199333, "loss": 1.5155, "step": 78 }, { "epoch": 0.6666666666666666, "grad_norm": 3.7328310012817383, "learning_rate": 0.00019730448705798239, "loss": 1.8168, "step": 80 }, { "epoch": 0.6833333333333333, "grad_norm": 3.8750150203704834, "learning_rate": 0.0001969587899878116, "loss": 1.705, "step": 82 }, { "epoch": 0.7, "grad_norm": 4.362231254577637, "learning_rate": 0.00019659258262890683, "loss": 1.3282, "step": 84 }, { "epoch": 0.7166666666666667, "grad_norm": 3.3029322624206543, "learning_rate": 0.00019620594244736133, "loss": 1.4785, "step": 86 }, { "epoch": 0.7333333333333333, "grad_norm": 3.272670269012451, "learning_rate": 0.0001957989512315489, "loss": 1.7328, "step": 88 }, { "epoch": 0.75, "grad_norm": 4.447598457336426, "learning_rate": 0.0001953716950748227, "loss": 1.8185, "step": 90 }, { "epoch": 0.7666666666666667, "grad_norm": 2.942129373550415, "learning_rate": 0.0001949242643573034, "loss": 1.6651, "step": 92 }, { "epoch": 0.7833333333333333, "grad_norm": 3.0011799335479736, "learning_rate": 0.0001944567537267605, "loss": 1.8555, "step": 94 }, { "epoch": 0.8, "grad_norm": 3.2934067249298096, "learning_rate": 0.00019396926207859084, "loss": 1.5531, "step": 96 }, { "epoch": 0.8166666666666667, "grad_norm": 3.1889824867248535, "learning_rate": 0.00019346189253489885, "loss": 1.8412, "step": 98 }, { "epoch": 0.8333333333333334, "grad_norm": 2.921942949295044, "learning_rate": 0.00019293475242268223, "loss": 1.4985, "step": 100 }, { "epoch": 0.85, "grad_norm": 3.1884875297546387, "learning_rate": 0.0001923879532511287, "loss": 1.5736, "step": 102 }, { "epoch": 0.8666666666666667, "grad_norm": 3.4869801998138428, "learning_rate": 0.00019182161068802741, "loss": 1.4873, "step": 104 }, { "epoch": 0.8833333333333333, "grad_norm": 2.8857343196868896, "learning_rate": 0.00019123584453530144, "loss": 1.4827, "step": 106 }, { "epoch": 0.9, "grad_norm": 4.214871406555176, "learning_rate": 0.000190630778703665, "loss": 1.6214, "step": 108 }, { "epoch": 0.9166666666666666, "grad_norm": 3.495774984359741, "learning_rate": 0.00019000654118641211, "loss": 1.6193, "step": 110 }, { "epoch": 0.9333333333333333, "grad_norm": 3.5762667655944824, "learning_rate": 0.00018936326403234125, "loss": 1.5264, "step": 112 }, { "epoch": 0.95, "grad_norm": 3.465022563934326, "learning_rate": 0.00018870108331782217, "loss": 1.6963, "step": 114 }, { "epoch": 0.9666666666666667, "grad_norm": 3.743870973587036, "learning_rate": 0.00018802013911801112, "loss": 1.6291, "step": 116 }, { "epoch": 0.9833333333333333, "grad_norm": 4.362145900726318, "learning_rate": 0.0001873205754772196, "loss": 1.3957, "step": 118 }, { "epoch": 1.0, "grad_norm": 3.093210220336914, "learning_rate": 0.00018660254037844388, "loss": 1.5895, "step": 120 }, { "epoch": 1.0166666666666666, "grad_norm": 3.2383241653442383, "learning_rate": 0.00018586618571206134, "loss": 1.1764, "step": 122 }, { "epoch": 1.0333333333333334, "grad_norm": 3.522508144378662, "learning_rate": 0.00018511166724369997, "loss": 1.225, "step": 124 }, { "epoch": 1.05, "grad_norm": 2.7789227962493896, "learning_rate": 0.0001843391445812886, "loss": 1.0999, "step": 126 }, { "epoch": 1.0666666666666667, "grad_norm": 3.2942252159118652, "learning_rate": 0.00018354878114129367, "loss": 1.1459, "step": 128 }, { "epoch": 1.0833333333333333, "grad_norm": 3.0693302154541016, "learning_rate": 0.00018274074411415105, "loss": 1.0881, "step": 130 }, { "epoch": 1.1, "grad_norm": NaN, "learning_rate": 0.00018233015127566807, "loss": 1.2143, "step": 132 }, { "epoch": 1.1166666666666667, "grad_norm": 3.5694239139556885, "learning_rate": 0.0001814959255181988, "loss": 0.9691, "step": 134 }, { "epoch": 1.1333333333333333, "grad_norm": 3.9906177520751953, "learning_rate": 0.00018064446042674828, "loss": 1.1584, "step": 136 }, { "epoch": 1.15, "grad_norm": 3.965775966644287, "learning_rate": 0.00017977593611696015, "loss": 0.985, "step": 138 }, { "epoch": 1.1666666666666667, "grad_norm": 5.350390911102295, "learning_rate": 0.00017889053631311947, "loss": 1.3574, "step": 140 }, { "epoch": 1.1833333333333333, "grad_norm": 3.8706905841827393, "learning_rate": 0.00017798844830928817, "loss": 1.159, "step": 142 }, { "epoch": 1.2, "grad_norm": 3.463747024536133, "learning_rate": 0.00017706986292968582, "loss": 1.046, "step": 144 }, { "epoch": 1.2166666666666668, "grad_norm": 3.620864152908325, "learning_rate": 0.00017613497448832312, "loss": 0.9971, "step": 146 }, { "epoch": 1.2333333333333334, "grad_norm": 3.640916347503662, "learning_rate": 0.00017518398074789775, "loss": 0.8718, "step": 148 }, { "epoch": 1.25, "grad_norm": 3.4872817993164062, "learning_rate": 0.00017421708287796017, "loss": 1.1691, "step": 150 }, { "epoch": 1.2666666666666666, "grad_norm": 4.584655284881592, "learning_rate": 0.00017323448541235924, "loss": 1.1967, "step": 152 }, { "epoch": 1.2833333333333332, "grad_norm": 3.5487728118896484, "learning_rate": 0.00017223639620597556, "loss": 1.0054, "step": 154 }, { "epoch": 1.3, "grad_norm": 5.228781223297119, "learning_rate": 0.0001712230263907531, "loss": 1.4971, "step": 156 }, { "epoch": 1.3166666666666667, "grad_norm": 3.641235828399658, "learning_rate": 0.00017019459033103682, "loss": 0.8541, "step": 158 }, { "epoch": 1.3333333333333333, "grad_norm": 3.952843427658081, "learning_rate": 0.00016915130557822695, "loss": 0.9685, "step": 160 }, { "epoch": 1.35, "grad_norm": 3.3446860313415527, "learning_rate": 0.00016809339282475904, "loss": 0.7522, "step": 162 }, { "epoch": 1.3666666666666667, "grad_norm": 2.8159420490264893, "learning_rate": 0.0001670210758574196, "loss": 0.7398, "step": 164 }, { "epoch": 1.3833333333333333, "grad_norm": 4.205153942108154, "learning_rate": 0.00016593458151000688, "loss": 1.1048, "step": 166 }, { "epoch": 1.4, "grad_norm": 3.777249336242676, "learning_rate": 0.00016483413961534762, "loss": 1.0596, "step": 168 }, { "epoch": 1.4166666666666667, "grad_norm": 4.2157440185546875, "learning_rate": 0.00016371998295667886, "loss": 0.8744, "step": 170 }, { "epoch": 1.4333333333333333, "grad_norm": 5.198025703430176, "learning_rate": 0.00016259234721840591, "loss": 1.1068, "step": 172 }, { "epoch": 1.45, "grad_norm": 4.17173957824707, "learning_rate": 0.00016145147093624677, "loss": 0.7444, "step": 174 }, { "epoch": 1.4666666666666668, "grad_norm": 5.4046311378479, "learning_rate": 0.00016029759544677297, "loss": 1.0724, "step": 176 }, { "epoch": 1.4833333333333334, "grad_norm": 3.2475147247314453, "learning_rate": 0.00015913096483635824, "loss": 0.9882, "step": 178 }, { "epoch": 1.5, "grad_norm": 3.927030324935913, "learning_rate": 0.0001579518258895455, "loss": 0.7172, "step": 180 }, { "epoch": 1.5166666666666666, "grad_norm": 3.783529758453369, "learning_rate": 0.00015676042803684288, "loss": 1.117, "step": 182 }, { "epoch": 1.5333333333333332, "grad_norm": 4.151139736175537, "learning_rate": 0.00015555702330196023, "loss": 0.8876, "step": 184 }, { "epoch": 1.55, "grad_norm": 4.858468055725098, "learning_rate": 0.000154341866248497, "loss": 0.818, "step": 186 }, { "epoch": 1.5666666666666667, "grad_norm": 5.292931079864502, "learning_rate": 0.00015311521392609282, "loss": 1.1459, "step": 188 }, { "epoch": 1.5833333333333335, "grad_norm": 5.330478668212891, "learning_rate": 0.00015187732581605217, "loss": 1.1276, "step": 190 }, { "epoch": 1.6, "grad_norm": 4.155002117156982, "learning_rate": 0.00015062846377645475, "loss": 1.0617, "step": 192 }, { "epoch": 1.6166666666666667, "grad_norm": 4.212536334991455, "learning_rate": 0.00014936889198676303, "loss": 0.7472, "step": 194 }, { "epoch": 1.6333333333333333, "grad_norm": 3.7566754817962646, "learning_rate": 0.00014809887689193877, "loss": 1.1331, "step": 196 }, { "epoch": 1.65, "grad_norm": 3.677277088165283, "learning_rate": 0.0001468186871460802, "loss": 0.7747, "step": 198 }, { "epoch": 1.6666666666666665, "grad_norm": 4.946069717407227, "learning_rate": 0.00014552859355559204, "loss": 1.333, "step": 200 }, { "epoch": 1.6833333333333333, "grad_norm": 4.023520469665527, "learning_rate": 0.00014422886902190014, "loss": 0.8673, "step": 202 }, { "epoch": 1.7, "grad_norm": 3.5782713890075684, "learning_rate": 0.00014291978848372293, "loss": 0.8761, "step": 204 }, { "epoch": 1.7166666666666668, "grad_norm": 2.9059038162231445, "learning_rate": 0.00014160162885891193, "loss": 0.7392, "step": 206 }, { "epoch": 1.7333333333333334, "grad_norm": 4.512781143188477, "learning_rate": 0.00014027466898587374, "loss": 1.0393, "step": 208 }, { "epoch": 1.75, "grad_norm": 4.064301013946533, "learning_rate": 0.00013893918956458552, "loss": 1.1425, "step": 210 }, { "epoch": 1.7666666666666666, "grad_norm": 3.854093313217163, "learning_rate": 0.0001375954730972168, "loss": 0.8584, "step": 212 }, { "epoch": 1.7833333333333332, "grad_norm": 4.655716896057129, "learning_rate": 0.00013624380382837016, "loss": 1.0068, "step": 214 }, { "epoch": 1.8, "grad_norm": 4.099919319152832, "learning_rate": 0.0001348844676849531, "loss": 1.0037, "step": 216 }, { "epoch": 1.8166666666666667, "grad_norm": 4.197730541229248, "learning_rate": 0.00013351775221569415, "loss": 0.9886, "step": 218 }, { "epoch": 1.8333333333333335, "grad_norm": 4.721825122833252, "learning_rate": 0.00013214394653031616, "loss": 0.7593, "step": 220 }, { "epoch": 1.85, "grad_norm": 3.716853618621826, "learning_rate": 0.00013076334123837883, "loss": 1.0082, "step": 222 }, { "epoch": 1.8666666666666667, "grad_norm": 3.670105218887329, "learning_rate": 0.00012937622838780444, "loss": 1.0315, "step": 224 }, { "epoch": 1.8833333333333333, "grad_norm": 4.269951343536377, "learning_rate": 0.00012798290140309923, "loss": 0.8955, "step": 226 }, { "epoch": 1.9, "grad_norm": 3.60205078125, "learning_rate": 0.0001265836550232833, "loss": 1.1489, "step": 228 }, { "epoch": 1.9166666666666665, "grad_norm": 3.538810968399048, "learning_rate": 0.00012517878523954286, "loss": 0.799, "step": 230 }, { "epoch": 1.9333333333333333, "grad_norm": 4.749423980712891, "learning_rate": 0.00012376858923261733, "loss": 1.1039, "step": 232 }, { "epoch": 1.95, "grad_norm": 4.193479537963867, "learning_rate": 0.00012235336530993474, "loss": 0.8296, "step": 234 }, { "epoch": 1.9666666666666668, "grad_norm": 4.116739273071289, "learning_rate": 0.0001209334128425092, "loss": 1.0921, "step": 236 }, { "epoch": 1.9833333333333334, "grad_norm": 4.641618728637695, "learning_rate": 0.00011950903220161285, "loss": 1.0626, "step": 238 }, { "epoch": 2.0, "grad_norm": 3.8030502796173096, "learning_rate": 0.00011808052469523654, "loss": 0.8727, "step": 240 } ], "logging_steps": 2, "max_steps": 480, "num_input_tokens_seen": 0, "num_train_epochs": 4, "save_steps": 120, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 6031789743144960.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }