|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 2.0, |
|
"eval_steps": 500, |
|
"global_step": 240, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.016666666666666666, |
|
"grad_norm": 4.380008697509766, |
|
"learning_rate": 8.333333333333334e-06, |
|
"loss": 3.8472, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 5.4320220947265625, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 4.4355, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 5.495668411254883, |
|
"learning_rate": 2.5e-05, |
|
"loss": 4.0183, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 5.333839416503906, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 4.4543, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.08333333333333333, |
|
"grad_norm": 4.8141961097717285, |
|
"learning_rate": 4.166666666666667e-05, |
|
"loss": 4.0576, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 4.4542341232299805, |
|
"learning_rate": 5e-05, |
|
"loss": 3.3098, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.11666666666666667, |
|
"grad_norm": 4.608759880065918, |
|
"learning_rate": 5.833333333333334e-05, |
|
"loss": 3.3983, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 3.7876033782958984, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 2.7265, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"grad_norm": 4.206045627593994, |
|
"learning_rate": 7.500000000000001e-05, |
|
"loss": 2.4786, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 4.687928676605225, |
|
"learning_rate": 8.333333333333334e-05, |
|
"loss": 2.2298, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.18333333333333332, |
|
"grad_norm": 4.639834880828857, |
|
"learning_rate": 9.166666666666667e-05, |
|
"loss": 2.5465, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 4.179326057434082, |
|
"learning_rate": 0.0001, |
|
"loss": 2.0804, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.21666666666666667, |
|
"grad_norm": 4.4850287437438965, |
|
"learning_rate": 0.00010833333333333333, |
|
"loss": 2.0512, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 5.006600379943848, |
|
"learning_rate": 0.00011666666666666668, |
|
"loss": 2.1484, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"grad_norm": 4.475966453552246, |
|
"learning_rate": 0.000125, |
|
"loss": 1.9871, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 4.605421543121338, |
|
"learning_rate": 0.00013333333333333334, |
|
"loss": 2.1455, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 0.2833333333333333, |
|
"grad_norm": 4.921014785766602, |
|
"learning_rate": 0.00014166666666666668, |
|
"loss": 1.9162, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 4.6443634033203125, |
|
"learning_rate": 0.00015000000000000001, |
|
"loss": 2.0503, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 0.31666666666666665, |
|
"grad_norm": 4.234635353088379, |
|
"learning_rate": 0.00015833333333333332, |
|
"loss": 2.0901, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 4.628840446472168, |
|
"learning_rate": 0.0001666666666666667, |
|
"loss": 1.8014, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"grad_norm": 3.8235278129577637, |
|
"learning_rate": 0.000175, |
|
"loss": 1.8156, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 5.939589500427246, |
|
"learning_rate": 0.00018333333333333334, |
|
"loss": 1.7782, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 0.38333333333333336, |
|
"grad_norm": 4.921348571777344, |
|
"learning_rate": 0.00019166666666666667, |
|
"loss": 1.7167, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 4.549618244171143, |
|
"learning_rate": 0.0002, |
|
"loss": 2.2041, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"grad_norm": 4.085502624511719, |
|
"learning_rate": 0.00019998942319271077, |
|
"loss": 1.8483, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.43333333333333335, |
|
"grad_norm": 3.6243653297424316, |
|
"learning_rate": 0.0001999576950082201, |
|
"loss": 2.0321, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 0.45, |
|
"grad_norm": 3.530813455581665, |
|
"learning_rate": 0.0001999048221581858, |
|
"loss": 1.819, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 3.175443649291992, |
|
"learning_rate": 0.00019983081582712685, |
|
"loss": 1.7011, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 0.48333333333333334, |
|
"grad_norm": 3.0620853900909424, |
|
"learning_rate": 0.00019973569167005723, |
|
"loss": 1.6158, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 3.984229564666748, |
|
"learning_rate": 0.00019961946980917456, |
|
"loss": 1.8606, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 0.5166666666666667, |
|
"grad_norm": 3.717822313308716, |
|
"learning_rate": 0.0001994821748296033, |
|
"loss": 1.7937, |
|
"step": 62 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 4.549349308013916, |
|
"learning_rate": 0.00019932383577419432, |
|
"loss": 1.9389, |
|
"step": 64 |
|
}, |
|
{ |
|
"epoch": 0.55, |
|
"grad_norm": 4.229006767272949, |
|
"learning_rate": 0.00019914448613738106, |
|
"loss": 1.5434, |
|
"step": 66 |
|
}, |
|
{ |
|
"epoch": 0.5666666666666667, |
|
"grad_norm": 3.5755157470703125, |
|
"learning_rate": 0.00019894416385809444, |
|
"loss": 1.6555, |
|
"step": 68 |
|
}, |
|
{ |
|
"epoch": 0.5833333333333334, |
|
"grad_norm": 3.2299246788024902, |
|
"learning_rate": 0.00019872291131173742, |
|
"loss": 1.7088, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 3.777369260787964, |
|
"learning_rate": 0.00019848077530122083, |
|
"loss": 1.7569, |
|
"step": 72 |
|
}, |
|
{ |
|
"epoch": 0.6166666666666667, |
|
"grad_norm": 3.143406629562378, |
|
"learning_rate": 0.00019821780704706307, |
|
"loss": 1.7495, |
|
"step": 74 |
|
}, |
|
{ |
|
"epoch": 0.6333333333333333, |
|
"grad_norm": 3.655970811843872, |
|
"learning_rate": 0.00019793406217655517, |
|
"loss": 1.6553, |
|
"step": 76 |
|
}, |
|
{ |
|
"epoch": 0.65, |
|
"grad_norm": 3.4324283599853516, |
|
"learning_rate": 0.00019762960071199333, |
|
"loss": 1.5155, |
|
"step": 78 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 3.7328310012817383, |
|
"learning_rate": 0.00019730448705798239, |
|
"loss": 1.8168, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 0.6833333333333333, |
|
"grad_norm": 3.8750150203704834, |
|
"learning_rate": 0.0001969587899878116, |
|
"loss": 1.705, |
|
"step": 82 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 4.362231254577637, |
|
"learning_rate": 0.00019659258262890683, |
|
"loss": 1.3282, |
|
"step": 84 |
|
}, |
|
{ |
|
"epoch": 0.7166666666666667, |
|
"grad_norm": 3.3029322624206543, |
|
"learning_rate": 0.00019620594244736133, |
|
"loss": 1.4785, |
|
"step": 86 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"grad_norm": 3.272670269012451, |
|
"learning_rate": 0.0001957989512315489, |
|
"loss": 1.7328, |
|
"step": 88 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"grad_norm": 4.447598457336426, |
|
"learning_rate": 0.0001953716950748227, |
|
"loss": 1.8185, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 0.7666666666666667, |
|
"grad_norm": 2.942129373550415, |
|
"learning_rate": 0.0001949242643573034, |
|
"loss": 1.6651, |
|
"step": 92 |
|
}, |
|
{ |
|
"epoch": 0.7833333333333333, |
|
"grad_norm": 3.0011799335479736, |
|
"learning_rate": 0.0001944567537267605, |
|
"loss": 1.8555, |
|
"step": 94 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 3.2934067249298096, |
|
"learning_rate": 0.00019396926207859084, |
|
"loss": 1.5531, |
|
"step": 96 |
|
}, |
|
{ |
|
"epoch": 0.8166666666666667, |
|
"grad_norm": 3.1889824867248535, |
|
"learning_rate": 0.00019346189253489885, |
|
"loss": 1.8412, |
|
"step": 98 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 2.921942949295044, |
|
"learning_rate": 0.00019293475242268223, |
|
"loss": 1.4985, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.85, |
|
"grad_norm": 3.1884875297546387, |
|
"learning_rate": 0.0001923879532511287, |
|
"loss": 1.5736, |
|
"step": 102 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"grad_norm": 3.4869801998138428, |
|
"learning_rate": 0.00019182161068802741, |
|
"loss": 1.4873, |
|
"step": 104 |
|
}, |
|
{ |
|
"epoch": 0.8833333333333333, |
|
"grad_norm": 2.8857343196868896, |
|
"learning_rate": 0.00019123584453530144, |
|
"loss": 1.4827, |
|
"step": 106 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 4.214871406555176, |
|
"learning_rate": 0.000190630778703665, |
|
"loss": 1.6214, |
|
"step": 108 |
|
}, |
|
{ |
|
"epoch": 0.9166666666666666, |
|
"grad_norm": 3.495774984359741, |
|
"learning_rate": 0.00019000654118641211, |
|
"loss": 1.6193, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 3.5762667655944824, |
|
"learning_rate": 0.00018936326403234125, |
|
"loss": 1.5264, |
|
"step": 112 |
|
}, |
|
{ |
|
"epoch": 0.95, |
|
"grad_norm": 3.465022563934326, |
|
"learning_rate": 0.00018870108331782217, |
|
"loss": 1.6963, |
|
"step": 114 |
|
}, |
|
{ |
|
"epoch": 0.9666666666666667, |
|
"grad_norm": 3.743870973587036, |
|
"learning_rate": 0.00018802013911801112, |
|
"loss": 1.6291, |
|
"step": 116 |
|
}, |
|
{ |
|
"epoch": 0.9833333333333333, |
|
"grad_norm": 4.362145900726318, |
|
"learning_rate": 0.0001873205754772196, |
|
"loss": 1.3957, |
|
"step": 118 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 3.093210220336914, |
|
"learning_rate": 0.00018660254037844388, |
|
"loss": 1.5895, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 1.0166666666666666, |
|
"grad_norm": 3.2383241653442383, |
|
"learning_rate": 0.00018586618571206134, |
|
"loss": 1.1764, |
|
"step": 122 |
|
}, |
|
{ |
|
"epoch": 1.0333333333333334, |
|
"grad_norm": 3.522508144378662, |
|
"learning_rate": 0.00018511166724369997, |
|
"loss": 1.225, |
|
"step": 124 |
|
}, |
|
{ |
|
"epoch": 1.05, |
|
"grad_norm": 2.7789227962493896, |
|
"learning_rate": 0.0001843391445812886, |
|
"loss": 1.0999, |
|
"step": 126 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 3.2942252159118652, |
|
"learning_rate": 0.00018354878114129367, |
|
"loss": 1.1459, |
|
"step": 128 |
|
}, |
|
{ |
|
"epoch": 1.0833333333333333, |
|
"grad_norm": 3.0693302154541016, |
|
"learning_rate": 0.00018274074411415105, |
|
"loss": 1.0881, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"grad_norm": NaN, |
|
"learning_rate": 0.00018233015127566807, |
|
"loss": 1.2143, |
|
"step": 132 |
|
}, |
|
{ |
|
"epoch": 1.1166666666666667, |
|
"grad_norm": 3.5694239139556885, |
|
"learning_rate": 0.0001814959255181988, |
|
"loss": 0.9691, |
|
"step": 134 |
|
}, |
|
{ |
|
"epoch": 1.1333333333333333, |
|
"grad_norm": 3.9906177520751953, |
|
"learning_rate": 0.00018064446042674828, |
|
"loss": 1.1584, |
|
"step": 136 |
|
}, |
|
{ |
|
"epoch": 1.15, |
|
"grad_norm": 3.965775966644287, |
|
"learning_rate": 0.00017977593611696015, |
|
"loss": 0.985, |
|
"step": 138 |
|
}, |
|
{ |
|
"epoch": 1.1666666666666667, |
|
"grad_norm": 5.350390911102295, |
|
"learning_rate": 0.00017889053631311947, |
|
"loss": 1.3574, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 1.1833333333333333, |
|
"grad_norm": 3.8706905841827393, |
|
"learning_rate": 0.00017798844830928817, |
|
"loss": 1.159, |
|
"step": 142 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 3.463747024536133, |
|
"learning_rate": 0.00017706986292968582, |
|
"loss": 1.046, |
|
"step": 144 |
|
}, |
|
{ |
|
"epoch": 1.2166666666666668, |
|
"grad_norm": 3.620864152908325, |
|
"learning_rate": 0.00017613497448832312, |
|
"loss": 0.9971, |
|
"step": 146 |
|
}, |
|
{ |
|
"epoch": 1.2333333333333334, |
|
"grad_norm": 3.640916347503662, |
|
"learning_rate": 0.00017518398074789775, |
|
"loss": 0.8718, |
|
"step": 148 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"grad_norm": 3.4872817993164062, |
|
"learning_rate": 0.00017421708287796017, |
|
"loss": 1.1691, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 1.2666666666666666, |
|
"grad_norm": 4.584655284881592, |
|
"learning_rate": 0.00017323448541235924, |
|
"loss": 1.1967, |
|
"step": 152 |
|
}, |
|
{ |
|
"epoch": 1.2833333333333332, |
|
"grad_norm": 3.5487728118896484, |
|
"learning_rate": 0.00017223639620597556, |
|
"loss": 1.0054, |
|
"step": 154 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"grad_norm": 5.228781223297119, |
|
"learning_rate": 0.0001712230263907531, |
|
"loss": 1.4971, |
|
"step": 156 |
|
}, |
|
{ |
|
"epoch": 1.3166666666666667, |
|
"grad_norm": 3.641235828399658, |
|
"learning_rate": 0.00017019459033103682, |
|
"loss": 0.8541, |
|
"step": 158 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 3.952843427658081, |
|
"learning_rate": 0.00016915130557822695, |
|
"loss": 0.9685, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 1.35, |
|
"grad_norm": 3.3446860313415527, |
|
"learning_rate": 0.00016809339282475904, |
|
"loss": 0.7522, |
|
"step": 162 |
|
}, |
|
{ |
|
"epoch": 1.3666666666666667, |
|
"grad_norm": 2.8159420490264893, |
|
"learning_rate": 0.0001670210758574196, |
|
"loss": 0.7398, |
|
"step": 164 |
|
}, |
|
{ |
|
"epoch": 1.3833333333333333, |
|
"grad_norm": 4.205153942108154, |
|
"learning_rate": 0.00016593458151000688, |
|
"loss": 1.1048, |
|
"step": 166 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 3.777249336242676, |
|
"learning_rate": 0.00016483413961534762, |
|
"loss": 1.0596, |
|
"step": 168 |
|
}, |
|
{ |
|
"epoch": 1.4166666666666667, |
|
"grad_norm": 4.2157440185546875, |
|
"learning_rate": 0.00016371998295667886, |
|
"loss": 0.8744, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 1.4333333333333333, |
|
"grad_norm": 5.198025703430176, |
|
"learning_rate": 0.00016259234721840591, |
|
"loss": 1.1068, |
|
"step": 172 |
|
}, |
|
{ |
|
"epoch": 1.45, |
|
"grad_norm": 4.17173957824707, |
|
"learning_rate": 0.00016145147093624677, |
|
"loss": 0.7444, |
|
"step": 174 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 5.4046311378479, |
|
"learning_rate": 0.00016029759544677297, |
|
"loss": 1.0724, |
|
"step": 176 |
|
}, |
|
{ |
|
"epoch": 1.4833333333333334, |
|
"grad_norm": 3.2475147247314453, |
|
"learning_rate": 0.00015913096483635824, |
|
"loss": 0.9882, |
|
"step": 178 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 3.927030324935913, |
|
"learning_rate": 0.0001579518258895455, |
|
"loss": 0.7172, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 1.5166666666666666, |
|
"grad_norm": 3.783529758453369, |
|
"learning_rate": 0.00015676042803684288, |
|
"loss": 1.117, |
|
"step": 182 |
|
}, |
|
{ |
|
"epoch": 1.5333333333333332, |
|
"grad_norm": 4.151139736175537, |
|
"learning_rate": 0.00015555702330196023, |
|
"loss": 0.8876, |
|
"step": 184 |
|
}, |
|
{ |
|
"epoch": 1.55, |
|
"grad_norm": 4.858468055725098, |
|
"learning_rate": 0.000154341866248497, |
|
"loss": 0.818, |
|
"step": 186 |
|
}, |
|
{ |
|
"epoch": 1.5666666666666667, |
|
"grad_norm": 5.292931079864502, |
|
"learning_rate": 0.00015311521392609282, |
|
"loss": 1.1459, |
|
"step": 188 |
|
}, |
|
{ |
|
"epoch": 1.5833333333333335, |
|
"grad_norm": 5.330478668212891, |
|
"learning_rate": 0.00015187732581605217, |
|
"loss": 1.1276, |
|
"step": 190 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 4.155002117156982, |
|
"learning_rate": 0.00015062846377645475, |
|
"loss": 1.0617, |
|
"step": 192 |
|
}, |
|
{ |
|
"epoch": 1.6166666666666667, |
|
"grad_norm": 4.212536334991455, |
|
"learning_rate": 0.00014936889198676303, |
|
"loss": 0.7472, |
|
"step": 194 |
|
}, |
|
{ |
|
"epoch": 1.6333333333333333, |
|
"grad_norm": 3.7566754817962646, |
|
"learning_rate": 0.00014809887689193877, |
|
"loss": 1.1331, |
|
"step": 196 |
|
}, |
|
{ |
|
"epoch": 1.65, |
|
"grad_norm": 3.677277088165283, |
|
"learning_rate": 0.0001468186871460802, |
|
"loss": 0.7747, |
|
"step": 198 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 4.946069717407227, |
|
"learning_rate": 0.00014552859355559204, |
|
"loss": 1.333, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 1.6833333333333333, |
|
"grad_norm": 4.023520469665527, |
|
"learning_rate": 0.00014422886902190014, |
|
"loss": 0.8673, |
|
"step": 202 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"grad_norm": 3.5782713890075684, |
|
"learning_rate": 0.00014291978848372293, |
|
"loss": 0.8761, |
|
"step": 204 |
|
}, |
|
{ |
|
"epoch": 1.7166666666666668, |
|
"grad_norm": 2.9059038162231445, |
|
"learning_rate": 0.00014160162885891193, |
|
"loss": 0.7392, |
|
"step": 206 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 4.512781143188477, |
|
"learning_rate": 0.00014027466898587374, |
|
"loss": 1.0393, |
|
"step": 208 |
|
}, |
|
{ |
|
"epoch": 1.75, |
|
"grad_norm": 4.064301013946533, |
|
"learning_rate": 0.00013893918956458552, |
|
"loss": 1.1425, |
|
"step": 210 |
|
}, |
|
{ |
|
"epoch": 1.7666666666666666, |
|
"grad_norm": 3.854093313217163, |
|
"learning_rate": 0.0001375954730972168, |
|
"loss": 0.8584, |
|
"step": 212 |
|
}, |
|
{ |
|
"epoch": 1.7833333333333332, |
|
"grad_norm": 4.655716896057129, |
|
"learning_rate": 0.00013624380382837016, |
|
"loss": 1.0068, |
|
"step": 214 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"grad_norm": 4.099919319152832, |
|
"learning_rate": 0.0001348844676849531, |
|
"loss": 1.0037, |
|
"step": 216 |
|
}, |
|
{ |
|
"epoch": 1.8166666666666667, |
|
"grad_norm": 4.197730541229248, |
|
"learning_rate": 0.00013351775221569415, |
|
"loss": 0.9886, |
|
"step": 218 |
|
}, |
|
{ |
|
"epoch": 1.8333333333333335, |
|
"grad_norm": 4.721825122833252, |
|
"learning_rate": 0.00013214394653031616, |
|
"loss": 0.7593, |
|
"step": 220 |
|
}, |
|
{ |
|
"epoch": 1.85, |
|
"grad_norm": 3.716853618621826, |
|
"learning_rate": 0.00013076334123837883, |
|
"loss": 1.0082, |
|
"step": 222 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 3.670105218887329, |
|
"learning_rate": 0.00012937622838780444, |
|
"loss": 1.0315, |
|
"step": 224 |
|
}, |
|
{ |
|
"epoch": 1.8833333333333333, |
|
"grad_norm": 4.269951343536377, |
|
"learning_rate": 0.00012798290140309923, |
|
"loss": 0.8955, |
|
"step": 226 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"grad_norm": 3.60205078125, |
|
"learning_rate": 0.0001265836550232833, |
|
"loss": 1.1489, |
|
"step": 228 |
|
}, |
|
{ |
|
"epoch": 1.9166666666666665, |
|
"grad_norm": 3.538810968399048, |
|
"learning_rate": 0.00012517878523954286, |
|
"loss": 0.799, |
|
"step": 230 |
|
}, |
|
{ |
|
"epoch": 1.9333333333333333, |
|
"grad_norm": 4.749423980712891, |
|
"learning_rate": 0.00012376858923261733, |
|
"loss": 1.1039, |
|
"step": 232 |
|
}, |
|
{ |
|
"epoch": 1.95, |
|
"grad_norm": 4.193479537963867, |
|
"learning_rate": 0.00012235336530993474, |
|
"loss": 0.8296, |
|
"step": 234 |
|
}, |
|
{ |
|
"epoch": 1.9666666666666668, |
|
"grad_norm": 4.116739273071289, |
|
"learning_rate": 0.0001209334128425092, |
|
"loss": 1.0921, |
|
"step": 236 |
|
}, |
|
{ |
|
"epoch": 1.9833333333333334, |
|
"grad_norm": 4.641618728637695, |
|
"learning_rate": 0.00011950903220161285, |
|
"loss": 1.0626, |
|
"step": 238 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 3.8030502796173096, |
|
"learning_rate": 0.00011808052469523654, |
|
"loss": 0.8727, |
|
"step": 240 |
|
} |
|
], |
|
"logging_steps": 2, |
|
"max_steps": 480, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 4, |
|
"save_steps": 120, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 6031789743144960.0, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|