|
{ |
|
"best_global_step": null, |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 3.0, |
|
"eval_steps": 500, |
|
"global_step": 180, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.016666666666666666, |
|
"grad_norm": 10.415586015798965, |
|
"learning_rate": 2e-05, |
|
"loss": 0.3928, |
|
"mean_token_accuracy": 0.8857417702674866, |
|
"num_tokens": 20323.0, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 10.271130520144448, |
|
"learning_rate": 1.988888888888889e-05, |
|
"loss": 0.4512, |
|
"mean_token_accuracy": 0.8707664608955383, |
|
"num_tokens": 38981.0, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 8.880344134520183, |
|
"learning_rate": 1.977777777777778e-05, |
|
"loss": 0.4737, |
|
"mean_token_accuracy": 0.8786681890487671, |
|
"num_tokens": 57347.0, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 10.667150634660754, |
|
"learning_rate": 1.9666666666666666e-05, |
|
"loss": 0.3142, |
|
"mean_token_accuracy": 0.9128794074058533, |
|
"num_tokens": 76506.0, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.08333333333333333, |
|
"grad_norm": 8.532819211594981, |
|
"learning_rate": 1.9555555555555557e-05, |
|
"loss": 0.4014, |
|
"mean_token_accuracy": 0.8839911222457886, |
|
"num_tokens": 94986.0, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 8.472325495649157, |
|
"learning_rate": 1.9444444444444445e-05, |
|
"loss": 0.2534, |
|
"mean_token_accuracy": 0.9193734526634216, |
|
"num_tokens": 115823.0, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.11666666666666667, |
|
"grad_norm": 2.303889693461022, |
|
"learning_rate": 1.9333333333333333e-05, |
|
"loss": 0.2326, |
|
"mean_token_accuracy": 0.9243853688240051, |
|
"num_tokens": 135340.0, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 1.9328717095833254, |
|
"learning_rate": 1.9222222222222225e-05, |
|
"loss": 0.2245, |
|
"mean_token_accuracy": 0.9283159375190735, |
|
"num_tokens": 155370.0, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"grad_norm": 2.822202555840132, |
|
"learning_rate": 1.9111111111111113e-05, |
|
"loss": 0.2806, |
|
"mean_token_accuracy": 0.9093520045280457, |
|
"num_tokens": 174000.0, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 1.5523434880416322, |
|
"learning_rate": 1.9e-05, |
|
"loss": 0.1998, |
|
"mean_token_accuracy": 0.935231626033783, |
|
"num_tokens": 195628.0, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.18333333333333332, |
|
"grad_norm": 2.4495550719902126, |
|
"learning_rate": 1.888888888888889e-05, |
|
"loss": 0.2645, |
|
"mean_token_accuracy": 0.9143708944320679, |
|
"num_tokens": 215718.0, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 2.271447813557674, |
|
"learning_rate": 1.877777777777778e-05, |
|
"loss": 0.2667, |
|
"mean_token_accuracy": 0.912392795085907, |
|
"num_tokens": 234724.0, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.21666666666666667, |
|
"grad_norm": 2.646542053112607, |
|
"learning_rate": 1.866666666666667e-05, |
|
"loss": 0.287, |
|
"mean_token_accuracy": 0.9045044779777527, |
|
"num_tokens": 253330.0, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 2.170153048479742, |
|
"learning_rate": 1.8555555555555557e-05, |
|
"loss": 0.2268, |
|
"mean_token_accuracy": 0.9230367541313171, |
|
"num_tokens": 272130.0, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"grad_norm": 1.8508062583233198, |
|
"learning_rate": 1.8444444444444448e-05, |
|
"loss": 0.2228, |
|
"mean_token_accuracy": 0.9244704246520996, |
|
"num_tokens": 292020.0, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 1.8770429443477359, |
|
"learning_rate": 1.8333333333333333e-05, |
|
"loss": 0.236, |
|
"mean_token_accuracy": 0.9211986660957336, |
|
"num_tokens": 311379.0, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.2833333333333333, |
|
"grad_norm": 1.9148567988930494, |
|
"learning_rate": 1.8222222222222224e-05, |
|
"loss": 0.2231, |
|
"mean_token_accuracy": 0.9292123913764954, |
|
"num_tokens": 330451.0, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 1.612193810374408, |
|
"learning_rate": 1.8111111111111112e-05, |
|
"loss": 0.2204, |
|
"mean_token_accuracy": 0.9254255294799805, |
|
"num_tokens": 349197.0, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.31666666666666665, |
|
"grad_norm": 1.833360520767258, |
|
"learning_rate": 1.8e-05, |
|
"loss": 0.255, |
|
"mean_token_accuracy": 0.9199110269546509, |
|
"num_tokens": 369434.0, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 1.89838266117527, |
|
"learning_rate": 1.7888888888888892e-05, |
|
"loss": 0.2617, |
|
"mean_token_accuracy": 0.9107837080955505, |
|
"num_tokens": 387390.0, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"grad_norm": 1.689532449309742, |
|
"learning_rate": 1.7777777777777777e-05, |
|
"loss": 0.2406, |
|
"mean_token_accuracy": 0.9206206202507019, |
|
"num_tokens": 405986.0, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 1.6883639816680873, |
|
"learning_rate": 1.7666666666666668e-05, |
|
"loss": 0.2468, |
|
"mean_token_accuracy": 0.9216131567955017, |
|
"num_tokens": 424773.0, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.38333333333333336, |
|
"grad_norm": 1.4657652178099831, |
|
"learning_rate": 1.7555555555555556e-05, |
|
"loss": 0.211, |
|
"mean_token_accuracy": 0.9315024018287659, |
|
"num_tokens": 444011.0, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 1.2496844817803525, |
|
"learning_rate": 1.7444444444444448e-05, |
|
"loss": 0.1853, |
|
"mean_token_accuracy": 0.9384945631027222, |
|
"num_tokens": 464975.0, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"grad_norm": 1.358446086201356, |
|
"learning_rate": 1.7333333333333336e-05, |
|
"loss": 0.198, |
|
"mean_token_accuracy": 0.9333889484405518, |
|
"num_tokens": 486425.0, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.43333333333333335, |
|
"grad_norm": 0.9431555050834606, |
|
"learning_rate": 1.7222222222222224e-05, |
|
"loss": 0.1392, |
|
"mean_token_accuracy": 0.9550256729125977, |
|
"num_tokens": 509794.0, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.45, |
|
"grad_norm": 1.9793286155892176, |
|
"learning_rate": 1.7111111111111112e-05, |
|
"loss": 0.2719, |
|
"mean_token_accuracy": 0.9111931324005127, |
|
"num_tokens": 527991.0, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 1.5957545211368038, |
|
"learning_rate": 1.7e-05, |
|
"loss": 0.1977, |
|
"mean_token_accuracy": 0.9349620342254639, |
|
"num_tokens": 547103.0, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.48333333333333334, |
|
"grad_norm": 3.1522248529429553, |
|
"learning_rate": 1.688888888888889e-05, |
|
"loss": 0.1857, |
|
"mean_token_accuracy": 0.9351325631141663, |
|
"num_tokens": 566491.0, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"grad_norm": 1.5505396336667892, |
|
"learning_rate": 1.677777777777778e-05, |
|
"loss": 0.2239, |
|
"mean_token_accuracy": 0.924814760684967, |
|
"num_tokens": 585075.0, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.5166666666666667, |
|
"grad_norm": 1.4311688305606354, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 0.2077, |
|
"mean_token_accuracy": 0.9314337968826294, |
|
"num_tokens": 605808.0, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 1.2265884485285432, |
|
"learning_rate": 1.6555555555555556e-05, |
|
"loss": 0.1881, |
|
"mean_token_accuracy": 0.9358243942260742, |
|
"num_tokens": 626059.0, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 0.55, |
|
"grad_norm": 0.8079478385329993, |
|
"learning_rate": 1.6444444444444444e-05, |
|
"loss": 0.1233, |
|
"mean_token_accuracy": 0.9597011208534241, |
|
"num_tokens": 650342.0, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 0.5666666666666667, |
|
"grad_norm": 1.2783396203778647, |
|
"learning_rate": 1.6333333333333335e-05, |
|
"loss": 0.2127, |
|
"mean_token_accuracy": 0.9305210709571838, |
|
"num_tokens": 670263.0, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 0.5833333333333334, |
|
"grad_norm": 0.9877687041686216, |
|
"learning_rate": 1.6222222222222223e-05, |
|
"loss": 0.1746, |
|
"mean_token_accuracy": 0.9428037405014038, |
|
"num_tokens": 691344.0, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 1.5309480298196683, |
|
"learning_rate": 1.6111111111111115e-05, |
|
"loss": 0.2611, |
|
"mean_token_accuracy": 0.9084930419921875, |
|
"num_tokens": 709722.0, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 0.6166666666666667, |
|
"grad_norm": 1.3958581151438867, |
|
"learning_rate": 1.6000000000000003e-05, |
|
"loss": 0.252, |
|
"mean_token_accuracy": 0.9160849452018738, |
|
"num_tokens": 729659.0, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 0.6333333333333333, |
|
"grad_norm": 1.4234777494453432, |
|
"learning_rate": 1.588888888888889e-05, |
|
"loss": 0.1948, |
|
"mean_token_accuracy": 0.9306625723838806, |
|
"num_tokens": 747899.0, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 0.65, |
|
"grad_norm": 1.1918567687934656, |
|
"learning_rate": 1.577777777777778e-05, |
|
"loss": 0.1923, |
|
"mean_token_accuracy": 0.9355297088623047, |
|
"num_tokens": 767996.0, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 1.4254154834768535, |
|
"learning_rate": 1.5666666666666667e-05, |
|
"loss": 0.2187, |
|
"mean_token_accuracy": 0.9221748113632202, |
|
"num_tokens": 786672.0, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.6833333333333333, |
|
"grad_norm": 1.2363741195385614, |
|
"learning_rate": 1.555555555555556e-05, |
|
"loss": 0.1894, |
|
"mean_token_accuracy": 0.933707058429718, |
|
"num_tokens": 806857.0, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"grad_norm": 1.6616933320839042, |
|
"learning_rate": 1.5444444444444446e-05, |
|
"loss": 0.2601, |
|
"mean_token_accuracy": 0.912670910358429, |
|
"num_tokens": 825411.0, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 0.7166666666666667, |
|
"grad_norm": 1.1594596021236696, |
|
"learning_rate": 1.5333333333333334e-05, |
|
"loss": 0.197, |
|
"mean_token_accuracy": 0.9320076107978821, |
|
"num_tokens": 845293.0, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"grad_norm": 1.255447405006153, |
|
"learning_rate": 1.5222222222222223e-05, |
|
"loss": 0.2177, |
|
"mean_token_accuracy": 0.9241234660148621, |
|
"num_tokens": 864080.0, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"grad_norm": 1.3555481042529305, |
|
"learning_rate": 1.5111111111111112e-05, |
|
"loss": 0.2464, |
|
"mean_token_accuracy": 0.9197713136672974, |
|
"num_tokens": 882551.0, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 0.7666666666666667, |
|
"grad_norm": 1.5287024940858407, |
|
"learning_rate": 1.5000000000000002e-05, |
|
"loss": 0.2669, |
|
"mean_token_accuracy": 0.9085003733634949, |
|
"num_tokens": 901006.0, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 0.7833333333333333, |
|
"grad_norm": 1.0365262523875451, |
|
"learning_rate": 1.488888888888889e-05, |
|
"loss": 0.1867, |
|
"mean_token_accuracy": 0.9368327260017395, |
|
"num_tokens": 920813.0, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 1.1161600400033647, |
|
"learning_rate": 1.477777777777778e-05, |
|
"loss": 0.2144, |
|
"mean_token_accuracy": 0.9287330508232117, |
|
"num_tokens": 940941.0, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 0.8166666666666667, |
|
"grad_norm": 1.2654313555050083, |
|
"learning_rate": 1.4666666666666666e-05, |
|
"loss": 0.181, |
|
"mean_token_accuracy": 0.9393802881240845, |
|
"num_tokens": 960656.0, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 0.8333333333333334, |
|
"grad_norm": 1.1999839375524808, |
|
"learning_rate": 1.4555555555555556e-05, |
|
"loss": 0.2165, |
|
"mean_token_accuracy": 0.924753725528717, |
|
"num_tokens": 979901.0, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.85, |
|
"grad_norm": 1.4358719832483007, |
|
"learning_rate": 1.4444444444444446e-05, |
|
"loss": 0.2568, |
|
"mean_token_accuracy": 0.9150856137275696, |
|
"num_tokens": 997293.0, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"grad_norm": 0.907854371432327, |
|
"learning_rate": 1.4333333333333334e-05, |
|
"loss": 0.1773, |
|
"mean_token_accuracy": 0.9409731030464172, |
|
"num_tokens": 1018152.0, |
|
"step": 52 |
|
}, |
|
{ |
|
"epoch": 0.8833333333333333, |
|
"grad_norm": 1.3658237813204563, |
|
"learning_rate": 1.4222222222222224e-05, |
|
"loss": 0.2182, |
|
"mean_token_accuracy": 0.9189878702163696, |
|
"num_tokens": 1035916.0, |
|
"step": 53 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"grad_norm": 1.0227797653853614, |
|
"learning_rate": 1.4111111111111113e-05, |
|
"loss": 0.1937, |
|
"mean_token_accuracy": 0.9301167130470276, |
|
"num_tokens": 1055995.0, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 0.9166666666666666, |
|
"grad_norm": 1.002167288276357, |
|
"learning_rate": 1.4e-05, |
|
"loss": 0.1628, |
|
"mean_token_accuracy": 0.9427170753479004, |
|
"num_tokens": 1076188.0, |
|
"step": 55 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 1.1799372070517915, |
|
"learning_rate": 1.388888888888889e-05, |
|
"loss": 0.2145, |
|
"mean_token_accuracy": 0.925633430480957, |
|
"num_tokens": 1095323.0, |
|
"step": 56 |
|
}, |
|
{ |
|
"epoch": 0.95, |
|
"grad_norm": 1.9565071620010974, |
|
"learning_rate": 1.377777777777778e-05, |
|
"loss": 0.2276, |
|
"mean_token_accuracy": 0.923713207244873, |
|
"num_tokens": 1113823.0, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 0.9666666666666667, |
|
"grad_norm": 1.3720630422421265, |
|
"learning_rate": 1.3666666666666667e-05, |
|
"loss": 0.2254, |
|
"mean_token_accuracy": 0.9204455018043518, |
|
"num_tokens": 1131913.0, |
|
"step": 58 |
|
}, |
|
{ |
|
"epoch": 0.9833333333333333, |
|
"grad_norm": 1.2312026050291756, |
|
"learning_rate": 1.3555555555555557e-05, |
|
"loss": 0.2288, |
|
"mean_token_accuracy": 0.9231975078582764, |
|
"num_tokens": 1150068.0, |
|
"step": 59 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 1.0535788172725804, |
|
"learning_rate": 1.3444444444444447e-05, |
|
"loss": 0.1853, |
|
"mean_token_accuracy": 0.9440000057220459, |
|
"num_tokens": 1165110.0, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 1.0166666666666666, |
|
"grad_norm": 1.1158002070455915, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 0.1817, |
|
"mean_token_accuracy": 0.937036395072937, |
|
"num_tokens": 1183696.0, |
|
"step": 61 |
|
}, |
|
{ |
|
"epoch": 1.0333333333333334, |
|
"grad_norm": 1.0736249727571867, |
|
"learning_rate": 1.3222222222222223e-05, |
|
"loss": 0.1726, |
|
"mean_token_accuracy": 0.936906635761261, |
|
"num_tokens": 1201818.0, |
|
"step": 62 |
|
}, |
|
{ |
|
"epoch": 1.05, |
|
"grad_norm": 0.9326362452347312, |
|
"learning_rate": 1.3111111111111113e-05, |
|
"loss": 0.1497, |
|
"mean_token_accuracy": 0.9461251497268677, |
|
"num_tokens": 1222105.0, |
|
"step": 63 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 1.0392083191471302, |
|
"learning_rate": 1.3000000000000001e-05, |
|
"loss": 0.1642, |
|
"mean_token_accuracy": 0.9368287920951843, |
|
"num_tokens": 1241483.0, |
|
"step": 64 |
|
}, |
|
{ |
|
"epoch": 1.0833333333333333, |
|
"grad_norm": 1.147040989505759, |
|
"learning_rate": 1.288888888888889e-05, |
|
"loss": 0.1752, |
|
"mean_token_accuracy": 0.9369705319404602, |
|
"num_tokens": 1260457.0, |
|
"step": 65 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"grad_norm": 0.9805982619164562, |
|
"learning_rate": 1.2777777777777777e-05, |
|
"loss": 0.1541, |
|
"mean_token_accuracy": 0.9449800252914429, |
|
"num_tokens": 1279517.0, |
|
"step": 66 |
|
}, |
|
{ |
|
"epoch": 1.1166666666666667, |
|
"grad_norm": 0.9058555751871202, |
|
"learning_rate": 1.2666666666666667e-05, |
|
"loss": 0.136, |
|
"mean_token_accuracy": 0.9510924816131592, |
|
"num_tokens": 1299484.0, |
|
"step": 67 |
|
}, |
|
{ |
|
"epoch": 1.1333333333333333, |
|
"grad_norm": 0.8685189058450895, |
|
"learning_rate": 1.2555555555555557e-05, |
|
"loss": 0.125, |
|
"mean_token_accuracy": 0.9575818777084351, |
|
"num_tokens": 1319473.0, |
|
"step": 68 |
|
}, |
|
{ |
|
"epoch": 1.15, |
|
"grad_norm": 0.7442438614909151, |
|
"learning_rate": 1.2444444444444446e-05, |
|
"loss": 0.1179, |
|
"mean_token_accuracy": 0.957948625087738, |
|
"num_tokens": 1341520.0, |
|
"step": 69 |
|
}, |
|
{ |
|
"epoch": 1.1666666666666667, |
|
"grad_norm": 1.2278003815150234, |
|
"learning_rate": 1.2333333333333334e-05, |
|
"loss": 0.186, |
|
"mean_token_accuracy": 0.9343335628509521, |
|
"num_tokens": 1359186.0, |
|
"step": 70 |
|
}, |
|
{ |
|
"epoch": 1.1833333333333333, |
|
"grad_norm": 1.0420462136657762, |
|
"learning_rate": 1.2222222222222224e-05, |
|
"loss": 0.153, |
|
"mean_token_accuracy": 0.9469709396362305, |
|
"num_tokens": 1378315.0, |
|
"step": 71 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 1.0380048193076985, |
|
"learning_rate": 1.211111111111111e-05, |
|
"loss": 0.1436, |
|
"mean_token_accuracy": 0.9483470916748047, |
|
"num_tokens": 1398153.0, |
|
"step": 72 |
|
}, |
|
{ |
|
"epoch": 1.2166666666666668, |
|
"grad_norm": 1.0084621189290743, |
|
"learning_rate": 1.2e-05, |
|
"loss": 0.1615, |
|
"mean_token_accuracy": 0.9417263865470886, |
|
"num_tokens": 1417629.0, |
|
"step": 73 |
|
}, |
|
{ |
|
"epoch": 1.2333333333333334, |
|
"grad_norm": 0.9505316501027468, |
|
"learning_rate": 1.188888888888889e-05, |
|
"loss": 0.1445, |
|
"mean_token_accuracy": 0.9472274780273438, |
|
"num_tokens": 1437025.0, |
|
"step": 74 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"grad_norm": 1.1884286204876424, |
|
"learning_rate": 1.177777777777778e-05, |
|
"loss": 0.1698, |
|
"mean_token_accuracy": 0.9374273419380188, |
|
"num_tokens": 1455251.0, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 1.2666666666666666, |
|
"grad_norm": 1.2379531503777974, |
|
"learning_rate": 1.1666666666666668e-05, |
|
"loss": 0.1899, |
|
"mean_token_accuracy": 0.9276366233825684, |
|
"num_tokens": 1473505.0, |
|
"step": 76 |
|
}, |
|
{ |
|
"epoch": 1.2833333333333332, |
|
"grad_norm": 0.9831497253026844, |
|
"learning_rate": 1.1555555555555556e-05, |
|
"loss": 0.159, |
|
"mean_token_accuracy": 0.9436038732528687, |
|
"num_tokens": 1493095.0, |
|
"step": 77 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"grad_norm": 0.9439881364034777, |
|
"learning_rate": 1.1444444444444444e-05, |
|
"loss": 0.1398, |
|
"mean_token_accuracy": 0.951481282711029, |
|
"num_tokens": 1512761.0, |
|
"step": 78 |
|
}, |
|
{ |
|
"epoch": 1.3166666666666667, |
|
"grad_norm": 1.1347468457271879, |
|
"learning_rate": 1.1333333333333334e-05, |
|
"loss": 0.1735, |
|
"mean_token_accuracy": 0.9395575523376465, |
|
"num_tokens": 1531560.0, |
|
"step": 79 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 1.3653117110046264, |
|
"learning_rate": 1.1222222222222224e-05, |
|
"loss": 0.2011, |
|
"mean_token_accuracy": 0.9258978962898254, |
|
"num_tokens": 1549916.0, |
|
"step": 80 |
|
}, |
|
{ |
|
"epoch": 1.35, |
|
"grad_norm": 0.9813633271839456, |
|
"learning_rate": 1.1111111111111113e-05, |
|
"loss": 0.1372, |
|
"mean_token_accuracy": 0.9503588676452637, |
|
"num_tokens": 1571334.0, |
|
"step": 81 |
|
}, |
|
{ |
|
"epoch": 1.3666666666666667, |
|
"grad_norm": 0.7962753001770728, |
|
"learning_rate": 1.1000000000000001e-05, |
|
"loss": 0.1172, |
|
"mean_token_accuracy": 0.9567482471466064, |
|
"num_tokens": 1592652.0, |
|
"step": 82 |
|
}, |
|
{ |
|
"epoch": 1.3833333333333333, |
|
"grad_norm": 0.913780453529574, |
|
"learning_rate": 1.088888888888889e-05, |
|
"loss": 0.1236, |
|
"mean_token_accuracy": 0.9562375545501709, |
|
"num_tokens": 1612736.0, |
|
"step": 83 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"grad_norm": 1.0378983131114818, |
|
"learning_rate": 1.0777777777777778e-05, |
|
"loss": 0.1517, |
|
"mean_token_accuracy": 0.9468337297439575, |
|
"num_tokens": 1631698.0, |
|
"step": 84 |
|
}, |
|
{ |
|
"epoch": 1.4166666666666667, |
|
"grad_norm": 0.8763910012325973, |
|
"learning_rate": 1.0666666666666667e-05, |
|
"loss": 0.1366, |
|
"mean_token_accuracy": 0.9536712169647217, |
|
"num_tokens": 1651859.0, |
|
"step": 85 |
|
}, |
|
{ |
|
"epoch": 1.4333333333333333, |
|
"grad_norm": 0.7078652833933885, |
|
"learning_rate": 1.0555555555555557e-05, |
|
"loss": 0.1024, |
|
"mean_token_accuracy": 0.9619000554084778, |
|
"num_tokens": 1673006.0, |
|
"step": 86 |
|
}, |
|
{ |
|
"epoch": 1.45, |
|
"grad_norm": 0.8659401761097084, |
|
"learning_rate": 1.0444444444444445e-05, |
|
"loss": 0.1254, |
|
"mean_token_accuracy": 0.9535650014877319, |
|
"num_tokens": 1692728.0, |
|
"step": 87 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 0.8708809194871703, |
|
"learning_rate": 1.0333333333333335e-05, |
|
"loss": 0.1439, |
|
"mean_token_accuracy": 0.9477262496948242, |
|
"num_tokens": 1712396.0, |
|
"step": 88 |
|
}, |
|
{ |
|
"epoch": 1.4833333333333334, |
|
"grad_norm": 1.012787064893325, |
|
"learning_rate": 1.0222222222222223e-05, |
|
"loss": 0.1418, |
|
"mean_token_accuracy": 0.9502722024917603, |
|
"num_tokens": 1732251.0, |
|
"step": 89 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"grad_norm": 1.20605467124662, |
|
"learning_rate": 1.0111111111111111e-05, |
|
"loss": 0.1648, |
|
"mean_token_accuracy": 0.9385513067245483, |
|
"num_tokens": 1751139.0, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 1.5166666666666666, |
|
"grad_norm": 0.7709893587047212, |
|
"learning_rate": 1e-05, |
|
"loss": 0.1143, |
|
"mean_token_accuracy": 0.9584763050079346, |
|
"num_tokens": 1772929.0, |
|
"step": 91 |
|
}, |
|
{ |
|
"epoch": 1.5333333333333332, |
|
"grad_norm": 0.9143355507406298, |
|
"learning_rate": 9.88888888888889e-06, |
|
"loss": 0.1332, |
|
"mean_token_accuracy": 0.9550284743309021, |
|
"num_tokens": 1792455.0, |
|
"step": 92 |
|
}, |
|
{ |
|
"epoch": 1.55, |
|
"grad_norm": 1.156665256897338, |
|
"learning_rate": 9.777777777777779e-06, |
|
"loss": 0.1452, |
|
"mean_token_accuracy": 0.9457477927207947, |
|
"num_tokens": 1810962.0, |
|
"step": 93 |
|
}, |
|
{ |
|
"epoch": 1.5666666666666667, |
|
"grad_norm": 1.0204063013809, |
|
"learning_rate": 9.666666666666667e-06, |
|
"loss": 0.1504, |
|
"mean_token_accuracy": 0.944669783115387, |
|
"num_tokens": 1830171.0, |
|
"step": 94 |
|
}, |
|
{ |
|
"epoch": 1.5833333333333335, |
|
"grad_norm": 1.13940818302726, |
|
"learning_rate": 9.555555555555556e-06, |
|
"loss": 0.1624, |
|
"mean_token_accuracy": 0.9425520896911621, |
|
"num_tokens": 1849120.0, |
|
"step": 95 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 1.1239662031696884, |
|
"learning_rate": 9.444444444444445e-06, |
|
"loss": 0.169, |
|
"mean_token_accuracy": 0.941411018371582, |
|
"num_tokens": 1868698.0, |
|
"step": 96 |
|
}, |
|
{ |
|
"epoch": 1.6166666666666667, |
|
"grad_norm": 0.9337438130011902, |
|
"learning_rate": 9.333333333333334e-06, |
|
"loss": 0.1127, |
|
"mean_token_accuracy": 0.9583436846733093, |
|
"num_tokens": 1889793.0, |
|
"step": 97 |
|
}, |
|
{ |
|
"epoch": 1.6333333333333333, |
|
"grad_norm": 1.2548785873636994, |
|
"learning_rate": 9.222222222222224e-06, |
|
"loss": 0.1874, |
|
"mean_token_accuracy": 0.9316017031669617, |
|
"num_tokens": 1907473.0, |
|
"step": 98 |
|
}, |
|
{ |
|
"epoch": 1.65, |
|
"grad_norm": 1.1746557760923275, |
|
"learning_rate": 9.111111111111112e-06, |
|
"loss": 0.1915, |
|
"mean_token_accuracy": 0.9325609803199768, |
|
"num_tokens": 1926318.0, |
|
"step": 99 |
|
}, |
|
{ |
|
"epoch": 1.6666666666666665, |
|
"grad_norm": 0.9306519879019831, |
|
"learning_rate": 9e-06, |
|
"loss": 0.1331, |
|
"mean_token_accuracy": 0.9495912790298462, |
|
"num_tokens": 1946708.0, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 1.6833333333333333, |
|
"grad_norm": 0.9446275954390885, |
|
"learning_rate": 8.888888888888888e-06, |
|
"loss": 0.1434, |
|
"mean_token_accuracy": 0.9497577548027039, |
|
"num_tokens": 1965342.0, |
|
"step": 101 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"grad_norm": 0.9234966150999687, |
|
"learning_rate": 8.777777777777778e-06, |
|
"loss": 0.1376, |
|
"mean_token_accuracy": 0.9505731463432312, |
|
"num_tokens": 1985111.0, |
|
"step": 102 |
|
}, |
|
{ |
|
"epoch": 1.7166666666666668, |
|
"grad_norm": 0.9537386059477831, |
|
"learning_rate": 8.666666666666668e-06, |
|
"loss": 0.1376, |
|
"mean_token_accuracy": 0.9508804678916931, |
|
"num_tokens": 2004615.0, |
|
"step": 103 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 0.9913708002681217, |
|
"learning_rate": 8.555555555555556e-06, |
|
"loss": 0.1628, |
|
"mean_token_accuracy": 0.9396049380302429, |
|
"num_tokens": 2023853.0, |
|
"step": 104 |
|
}, |
|
{ |
|
"epoch": 1.75, |
|
"grad_norm": 1.1848216877825122, |
|
"learning_rate": 8.444444444444446e-06, |
|
"loss": 0.1723, |
|
"mean_token_accuracy": 0.9336273670196533, |
|
"num_tokens": 2041684.0, |
|
"step": 105 |
|
}, |
|
{ |
|
"epoch": 1.7666666666666666, |
|
"grad_norm": 0.9897585477322013, |
|
"learning_rate": 8.333333333333334e-06, |
|
"loss": 0.14, |
|
"mean_token_accuracy": 0.9489489197731018, |
|
"num_tokens": 2060735.0, |
|
"step": 106 |
|
}, |
|
{ |
|
"epoch": 1.7833333333333332, |
|
"grad_norm": 0.6769645173431437, |
|
"learning_rate": 8.222222222222222e-06, |
|
"loss": 0.1125, |
|
"mean_token_accuracy": 0.9590517282485962, |
|
"num_tokens": 2081676.0, |
|
"step": 107 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"grad_norm": 0.9941938323842807, |
|
"learning_rate": 8.111111111111112e-06, |
|
"loss": 0.1558, |
|
"mean_token_accuracy": 0.9427565932273865, |
|
"num_tokens": 2100126.0, |
|
"step": 108 |
|
}, |
|
{ |
|
"epoch": 1.8166666666666667, |
|
"grad_norm": 1.023487530043029, |
|
"learning_rate": 8.000000000000001e-06, |
|
"loss": 0.1498, |
|
"mean_token_accuracy": 0.9459511041641235, |
|
"num_tokens": 2118412.0, |
|
"step": 109 |
|
}, |
|
{ |
|
"epoch": 1.8333333333333335, |
|
"grad_norm": 1.0442509083619982, |
|
"learning_rate": 7.88888888888889e-06, |
|
"loss": 0.1528, |
|
"mean_token_accuracy": 0.9426274299621582, |
|
"num_tokens": 2136945.0, |
|
"step": 110 |
|
}, |
|
{ |
|
"epoch": 1.85, |
|
"grad_norm": 0.7382938848577654, |
|
"learning_rate": 7.77777777777778e-06, |
|
"loss": 0.1069, |
|
"mean_token_accuracy": 0.9606086611747742, |
|
"num_tokens": 2158142.0, |
|
"step": 111 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 1.013004919544077, |
|
"learning_rate": 7.666666666666667e-06, |
|
"loss": 0.1301, |
|
"mean_token_accuracy": 0.9497557282447815, |
|
"num_tokens": 2176933.0, |
|
"step": 112 |
|
}, |
|
{ |
|
"epoch": 1.8833333333333333, |
|
"grad_norm": 1.0119787562037492, |
|
"learning_rate": 7.555555555555556e-06, |
|
"loss": 0.1566, |
|
"mean_token_accuracy": 0.9420549869537354, |
|
"num_tokens": 2196697.0, |
|
"step": 113 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"grad_norm": 0.9854931097065066, |
|
"learning_rate": 7.444444444444445e-06, |
|
"loss": 0.1534, |
|
"mean_token_accuracy": 0.9418057799339294, |
|
"num_tokens": 2215923.0, |
|
"step": 114 |
|
}, |
|
{ |
|
"epoch": 1.9166666666666665, |
|
"grad_norm": 0.7144804965252481, |
|
"learning_rate": 7.333333333333333e-06, |
|
"loss": 0.1037, |
|
"mean_token_accuracy": 0.9651133418083191, |
|
"num_tokens": 2236922.0, |
|
"step": 115 |
|
}, |
|
{ |
|
"epoch": 1.9333333333333333, |
|
"grad_norm": 0.7694761724271274, |
|
"learning_rate": 7.222222222222223e-06, |
|
"loss": 0.1138, |
|
"mean_token_accuracy": 0.9599701762199402, |
|
"num_tokens": 2258029.0, |
|
"step": 116 |
|
}, |
|
{ |
|
"epoch": 1.95, |
|
"grad_norm": 0.9606224762156166, |
|
"learning_rate": 7.111111111111112e-06, |
|
"loss": 0.1588, |
|
"mean_token_accuracy": 0.9443244338035583, |
|
"num_tokens": 2277091.0, |
|
"step": 117 |
|
}, |
|
{ |
|
"epoch": 1.9666666666666668, |
|
"grad_norm": 1.0937626624760368, |
|
"learning_rate": 7e-06, |
|
"loss": 0.1532, |
|
"mean_token_accuracy": 0.9443029761314392, |
|
"num_tokens": 2296417.0, |
|
"step": 118 |
|
}, |
|
{ |
|
"epoch": 1.9833333333333334, |
|
"grad_norm": 1.0711892173260553, |
|
"learning_rate": 6.88888888888889e-06, |
|
"loss": 0.1595, |
|
"mean_token_accuracy": 0.9443521499633789, |
|
"num_tokens": 2315489.0, |
|
"step": 119 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 0.8768653402030852, |
|
"learning_rate": 6.777777777777779e-06, |
|
"loss": 0.1165, |
|
"mean_token_accuracy": 0.9577861428260803, |
|
"num_tokens": 2329544.0, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 2.0166666666666666, |
|
"grad_norm": 0.6251281839168465, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 0.0771, |
|
"mean_token_accuracy": 0.9738717079162598, |
|
"num_tokens": 2351006.0, |
|
"step": 121 |
|
}, |
|
{ |
|
"epoch": 2.033333333333333, |
|
"grad_norm": 0.6284390720490242, |
|
"learning_rate": 6.555555555555556e-06, |
|
"loss": 0.0833, |
|
"mean_token_accuracy": 0.9683251976966858, |
|
"num_tokens": 2371636.0, |
|
"step": 122 |
|
}, |
|
{ |
|
"epoch": 2.05, |
|
"grad_norm": 0.6826995248721669, |
|
"learning_rate": 6.444444444444445e-06, |
|
"loss": 0.093, |
|
"mean_token_accuracy": 0.9684882760047913, |
|
"num_tokens": 2391742.0, |
|
"step": 123 |
|
}, |
|
{ |
|
"epoch": 2.066666666666667, |
|
"grad_norm": 0.6985483544899995, |
|
"learning_rate": 6.333333333333333e-06, |
|
"loss": 0.0874, |
|
"mean_token_accuracy": 0.9688146710395813, |
|
"num_tokens": 2411562.0, |
|
"step": 124 |
|
}, |
|
{ |
|
"epoch": 2.0833333333333335, |
|
"grad_norm": 0.7179963812086702, |
|
"learning_rate": 6.222222222222223e-06, |
|
"loss": 0.0947, |
|
"mean_token_accuracy": 0.9637842774391174, |
|
"num_tokens": 2430887.0, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 2.1, |
|
"grad_norm": 0.7340775462108364, |
|
"learning_rate": 6.111111111111112e-06, |
|
"loss": 0.0882, |
|
"mean_token_accuracy": 0.968779444694519, |
|
"num_tokens": 2450324.0, |
|
"step": 126 |
|
}, |
|
{ |
|
"epoch": 2.1166666666666667, |
|
"grad_norm": 0.6971941014215697, |
|
"learning_rate": 6e-06, |
|
"loss": 0.0865, |
|
"mean_token_accuracy": 0.966270387172699, |
|
"num_tokens": 2470605.0, |
|
"step": 127 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"grad_norm": 0.7708208981885679, |
|
"learning_rate": 5.88888888888889e-06, |
|
"loss": 0.0936, |
|
"mean_token_accuracy": 0.9645907282829285, |
|
"num_tokens": 2489281.0, |
|
"step": 128 |
|
}, |
|
{ |
|
"epoch": 2.15, |
|
"grad_norm": 1.063746925464334, |
|
"learning_rate": 5.777777777777778e-06, |
|
"loss": 0.1047, |
|
"mean_token_accuracy": 0.9620683789253235, |
|
"num_tokens": 2508213.0, |
|
"step": 129 |
|
}, |
|
{ |
|
"epoch": 2.1666666666666665, |
|
"grad_norm": 0.85374641121885, |
|
"learning_rate": 5.666666666666667e-06, |
|
"loss": 0.0934, |
|
"mean_token_accuracy": 0.9634836316108704, |
|
"num_tokens": 2526747.0, |
|
"step": 130 |
|
}, |
|
{ |
|
"epoch": 2.183333333333333, |
|
"grad_norm": 0.8620800950130304, |
|
"learning_rate": 5.555555555555557e-06, |
|
"loss": 0.1008, |
|
"mean_token_accuracy": 0.9645389914512634, |
|
"num_tokens": 2545705.0, |
|
"step": 131 |
|
}, |
|
{ |
|
"epoch": 2.2, |
|
"grad_norm": 0.7793400238647186, |
|
"learning_rate": 5.444444444444445e-06, |
|
"loss": 0.0896, |
|
"mean_token_accuracy": 0.966309130191803, |
|
"num_tokens": 2566036.0, |
|
"step": 132 |
|
}, |
|
{ |
|
"epoch": 2.216666666666667, |
|
"grad_norm": 0.8854628019833792, |
|
"learning_rate": 5.333333333333334e-06, |
|
"loss": 0.0883, |
|
"mean_token_accuracy": 0.9674826264381409, |
|
"num_tokens": 2584575.0, |
|
"step": 133 |
|
}, |
|
{ |
|
"epoch": 2.2333333333333334, |
|
"grad_norm": 0.9099694952637853, |
|
"learning_rate": 5.2222222222222226e-06, |
|
"loss": 0.1028, |
|
"mean_token_accuracy": 0.9623646140098572, |
|
"num_tokens": 2603271.0, |
|
"step": 134 |
|
}, |
|
{ |
|
"epoch": 2.25, |
|
"grad_norm": 1.2415591598728333, |
|
"learning_rate": 5.1111111111111115e-06, |
|
"loss": 0.13, |
|
"mean_token_accuracy": 0.951812744140625, |
|
"num_tokens": 2620691.0, |
|
"step": 135 |
|
}, |
|
{ |
|
"epoch": 2.2666666666666666, |
|
"grad_norm": 0.8805897450359303, |
|
"learning_rate": 5e-06, |
|
"loss": 0.0901, |
|
"mean_token_accuracy": 0.9666962623596191, |
|
"num_tokens": 2640489.0, |
|
"step": 136 |
|
}, |
|
{ |
|
"epoch": 2.283333333333333, |
|
"grad_norm": 0.6831112090735907, |
|
"learning_rate": 4.888888888888889e-06, |
|
"loss": 0.0719, |
|
"mean_token_accuracy": 0.9733719825744629, |
|
"num_tokens": 2661139.0, |
|
"step": 137 |
|
}, |
|
{ |
|
"epoch": 2.3, |
|
"grad_norm": 0.9359785185685812, |
|
"learning_rate": 4.777777777777778e-06, |
|
"loss": 0.0979, |
|
"mean_token_accuracy": 0.9644399881362915, |
|
"num_tokens": 2681134.0, |
|
"step": 138 |
|
}, |
|
{ |
|
"epoch": 2.3166666666666664, |
|
"grad_norm": 0.6982783617868149, |
|
"learning_rate": 4.666666666666667e-06, |
|
"loss": 0.0802, |
|
"mean_token_accuracy": 0.9708402156829834, |
|
"num_tokens": 2701418.0, |
|
"step": 139 |
|
}, |
|
{ |
|
"epoch": 2.3333333333333335, |
|
"grad_norm": 0.8356985024729287, |
|
"learning_rate": 4.555555555555556e-06, |
|
"loss": 0.1037, |
|
"mean_token_accuracy": 0.9611542820930481, |
|
"num_tokens": 2720773.0, |
|
"step": 140 |
|
}, |
|
{ |
|
"epoch": 2.35, |
|
"grad_norm": 0.9862372490871846, |
|
"learning_rate": 4.444444444444444e-06, |
|
"loss": 0.1067, |
|
"mean_token_accuracy": 0.9594425559043884, |
|
"num_tokens": 2739428.0, |
|
"step": 141 |
|
}, |
|
{ |
|
"epoch": 2.3666666666666667, |
|
"grad_norm": 0.623294732436491, |
|
"learning_rate": 4.333333333333334e-06, |
|
"loss": 0.0695, |
|
"mean_token_accuracy": 0.9733567833900452, |
|
"num_tokens": 2760440.0, |
|
"step": 142 |
|
}, |
|
{ |
|
"epoch": 2.3833333333333333, |
|
"grad_norm": 0.7322830332993291, |
|
"learning_rate": 4.222222222222223e-06, |
|
"loss": 0.0889, |
|
"mean_token_accuracy": 0.9665079116821289, |
|
"num_tokens": 2780009.0, |
|
"step": 143 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"grad_norm": 0.8143415765985169, |
|
"learning_rate": 4.111111111111111e-06, |
|
"loss": 0.0951, |
|
"mean_token_accuracy": 0.9636101126670837, |
|
"num_tokens": 2799989.0, |
|
"step": 144 |
|
}, |
|
{ |
|
"epoch": 2.4166666666666665, |
|
"grad_norm": 0.546869291947266, |
|
"learning_rate": 4.000000000000001e-06, |
|
"loss": 0.0651, |
|
"mean_token_accuracy": 0.9757785201072693, |
|
"num_tokens": 2821423.0, |
|
"step": 145 |
|
}, |
|
{ |
|
"epoch": 2.4333333333333336, |
|
"grad_norm": 0.8270848313125879, |
|
"learning_rate": 3.88888888888889e-06, |
|
"loss": 0.0915, |
|
"mean_token_accuracy": 0.9669610857963562, |
|
"num_tokens": 2840604.0, |
|
"step": 146 |
|
}, |
|
{ |
|
"epoch": 2.45, |
|
"grad_norm": 0.8517198133246286, |
|
"learning_rate": 3.777777777777778e-06, |
|
"loss": 0.0932, |
|
"mean_token_accuracy": 0.964799702167511, |
|
"num_tokens": 2859437.0, |
|
"step": 147 |
|
}, |
|
{ |
|
"epoch": 2.466666666666667, |
|
"grad_norm": 0.9674954444130963, |
|
"learning_rate": 3.6666666666666666e-06, |
|
"loss": 0.0995, |
|
"mean_token_accuracy": 0.9642043709754944, |
|
"num_tokens": 2878635.0, |
|
"step": 148 |
|
}, |
|
{ |
|
"epoch": 2.4833333333333334, |
|
"grad_norm": 0.8923432338281196, |
|
"learning_rate": 3.555555555555556e-06, |
|
"loss": 0.107, |
|
"mean_token_accuracy": 0.9613018035888672, |
|
"num_tokens": 2897866.0, |
|
"step": 149 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"grad_norm": 0.5948440836171763, |
|
"learning_rate": 3.444444444444445e-06, |
|
"loss": 0.0722, |
|
"mean_token_accuracy": 0.9716657996177673, |
|
"num_tokens": 2920541.0, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 2.5166666666666666, |
|
"grad_norm": 0.6997082703093433, |
|
"learning_rate": 3.3333333333333333e-06, |
|
"loss": 0.0818, |
|
"mean_token_accuracy": 0.9700831770896912, |
|
"num_tokens": 2941043.0, |
|
"step": 151 |
|
}, |
|
{ |
|
"epoch": 2.533333333333333, |
|
"grad_norm": 0.6853424324861723, |
|
"learning_rate": 3.2222222222222227e-06, |
|
"loss": 0.0699, |
|
"mean_token_accuracy": 0.9737975597381592, |
|
"num_tokens": 2962451.0, |
|
"step": 152 |
|
}, |
|
{ |
|
"epoch": 2.55, |
|
"grad_norm": 0.788856800633058, |
|
"learning_rate": 3.1111111111111116e-06, |
|
"loss": 0.0951, |
|
"mean_token_accuracy": 0.9657984972000122, |
|
"num_tokens": 2983102.0, |
|
"step": 153 |
|
}, |
|
{ |
|
"epoch": 2.5666666666666664, |
|
"grad_norm": 0.8049580781436556, |
|
"learning_rate": 3e-06, |
|
"loss": 0.0874, |
|
"mean_token_accuracy": 0.9658728837966919, |
|
"num_tokens": 3002754.0, |
|
"step": 154 |
|
}, |
|
{ |
|
"epoch": 2.5833333333333335, |
|
"grad_norm": 0.6468847476444607, |
|
"learning_rate": 2.888888888888889e-06, |
|
"loss": 0.0718, |
|
"mean_token_accuracy": 0.9740763902664185, |
|
"num_tokens": 3023792.0, |
|
"step": 155 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"grad_norm": 0.7790527794056367, |
|
"learning_rate": 2.7777777777777783e-06, |
|
"loss": 0.0907, |
|
"mean_token_accuracy": 0.9634305834770203, |
|
"num_tokens": 3043717.0, |
|
"step": 156 |
|
}, |
|
{ |
|
"epoch": 2.6166666666666667, |
|
"grad_norm": 0.7784804869782793, |
|
"learning_rate": 2.666666666666667e-06, |
|
"loss": 0.0813, |
|
"mean_token_accuracy": 0.9687763452529907, |
|
"num_tokens": 3062697.0, |
|
"step": 157 |
|
}, |
|
{ |
|
"epoch": 2.6333333333333333, |
|
"grad_norm": 0.8695866199163134, |
|
"learning_rate": 2.5555555555555557e-06, |
|
"loss": 0.1028, |
|
"mean_token_accuracy": 0.9597998857498169, |
|
"num_tokens": 3081540.0, |
|
"step": 158 |
|
}, |
|
{ |
|
"epoch": 2.65, |
|
"grad_norm": 0.8264331195451216, |
|
"learning_rate": 2.4444444444444447e-06, |
|
"loss": 0.0884, |
|
"mean_token_accuracy": 0.965327262878418, |
|
"num_tokens": 3100748.0, |
|
"step": 159 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 0.8336042061118125, |
|
"learning_rate": 2.3333333333333336e-06, |
|
"loss": 0.0938, |
|
"mean_token_accuracy": 0.9615654349327087, |
|
"num_tokens": 3119513.0, |
|
"step": 160 |
|
}, |
|
{ |
|
"epoch": 2.6833333333333336, |
|
"grad_norm": 0.774435592352755, |
|
"learning_rate": 2.222222222222222e-06, |
|
"loss": 0.0861, |
|
"mean_token_accuracy": 0.965322732925415, |
|
"num_tokens": 3138593.0, |
|
"step": 161 |
|
}, |
|
{ |
|
"epoch": 2.7, |
|
"grad_norm": 0.8708493282032755, |
|
"learning_rate": 2.1111111111111114e-06, |
|
"loss": 0.0984, |
|
"mean_token_accuracy": 0.963320791721344, |
|
"num_tokens": 3157750.0, |
|
"step": 162 |
|
}, |
|
{ |
|
"epoch": 2.716666666666667, |
|
"grad_norm": 0.6844114412472727, |
|
"learning_rate": 2.0000000000000003e-06, |
|
"loss": 0.0774, |
|
"mean_token_accuracy": 0.9710574746131897, |
|
"num_tokens": 3177887.0, |
|
"step": 163 |
|
}, |
|
{ |
|
"epoch": 2.7333333333333334, |
|
"grad_norm": 0.8269947045633131, |
|
"learning_rate": 1.888888888888889e-06, |
|
"loss": 0.0966, |
|
"mean_token_accuracy": 0.9629047513008118, |
|
"num_tokens": 3197305.0, |
|
"step": 164 |
|
}, |
|
{ |
|
"epoch": 2.75, |
|
"grad_norm": 0.9352308958030469, |
|
"learning_rate": 1.777777777777778e-06, |
|
"loss": 0.097, |
|
"mean_token_accuracy": 0.9620761871337891, |
|
"num_tokens": 3216586.0, |
|
"step": 165 |
|
}, |
|
{ |
|
"epoch": 2.7666666666666666, |
|
"grad_norm": 0.7621362303112271, |
|
"learning_rate": 1.6666666666666667e-06, |
|
"loss": 0.0907, |
|
"mean_token_accuracy": 0.9662196636199951, |
|
"num_tokens": 3235533.0, |
|
"step": 166 |
|
}, |
|
{ |
|
"epoch": 2.783333333333333, |
|
"grad_norm": 0.960964098507404, |
|
"learning_rate": 1.5555555555555558e-06, |
|
"loss": 0.1011, |
|
"mean_token_accuracy": 0.9637789130210876, |
|
"num_tokens": 3253955.0, |
|
"step": 167 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"grad_norm": 0.834114847730771, |
|
"learning_rate": 1.4444444444444445e-06, |
|
"loss": 0.0945, |
|
"mean_token_accuracy": 0.9648138880729675, |
|
"num_tokens": 3272890.0, |
|
"step": 168 |
|
}, |
|
{ |
|
"epoch": 2.8166666666666664, |
|
"grad_norm": 0.7527900787887315, |
|
"learning_rate": 1.3333333333333334e-06, |
|
"loss": 0.0856, |
|
"mean_token_accuracy": 0.9682297110557556, |
|
"num_tokens": 3291832.0, |
|
"step": 169 |
|
}, |
|
{ |
|
"epoch": 2.8333333333333335, |
|
"grad_norm": 0.962657962120987, |
|
"learning_rate": 1.2222222222222223e-06, |
|
"loss": 0.1053, |
|
"mean_token_accuracy": 0.9603788256645203, |
|
"num_tokens": 3310072.0, |
|
"step": 170 |
|
}, |
|
{ |
|
"epoch": 2.85, |
|
"grad_norm": 0.6521937551649634, |
|
"learning_rate": 1.111111111111111e-06, |
|
"loss": 0.0754, |
|
"mean_token_accuracy": 0.9735506772994995, |
|
"num_tokens": 3329622.0, |
|
"step": 171 |
|
}, |
|
{ |
|
"epoch": 2.8666666666666667, |
|
"grad_norm": 0.8085295318281304, |
|
"learning_rate": 1.0000000000000002e-06, |
|
"loss": 0.0851, |
|
"mean_token_accuracy": 0.96629399061203, |
|
"num_tokens": 3348763.0, |
|
"step": 172 |
|
}, |
|
{ |
|
"epoch": 2.8833333333333333, |
|
"grad_norm": 0.8908320452034533, |
|
"learning_rate": 8.88888888888889e-07, |
|
"loss": 0.0935, |
|
"mean_token_accuracy": 0.9675348401069641, |
|
"num_tokens": 3367256.0, |
|
"step": 173 |
|
}, |
|
{ |
|
"epoch": 2.9, |
|
"grad_norm": 0.7445211886068831, |
|
"learning_rate": 7.777777777777779e-07, |
|
"loss": 0.0855, |
|
"mean_token_accuracy": 0.968561053276062, |
|
"num_tokens": 3386924.0, |
|
"step": 174 |
|
}, |
|
{ |
|
"epoch": 2.9166666666666665, |
|
"grad_norm": 0.8905272321287844, |
|
"learning_rate": 6.666666666666667e-07, |
|
"loss": 0.0945, |
|
"mean_token_accuracy": 0.9635922312736511, |
|
"num_tokens": 3405338.0, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 2.9333333333333336, |
|
"grad_norm": 0.884095334873471, |
|
"learning_rate": 5.555555555555555e-07, |
|
"loss": 0.1016, |
|
"mean_token_accuracy": 0.9620562791824341, |
|
"num_tokens": 3424120.0, |
|
"step": 176 |
|
}, |
|
{ |
|
"epoch": 2.95, |
|
"grad_norm": 0.9696647110949745, |
|
"learning_rate": 4.444444444444445e-07, |
|
"loss": 0.1085, |
|
"mean_token_accuracy": 0.9581360220909119, |
|
"num_tokens": 3442456.0, |
|
"step": 177 |
|
}, |
|
{ |
|
"epoch": 2.966666666666667, |
|
"grad_norm": 0.8575382869374056, |
|
"learning_rate": 3.3333333333333335e-07, |
|
"loss": 0.0944, |
|
"mean_token_accuracy": 0.9630635380744934, |
|
"num_tokens": 3461044.0, |
|
"step": 178 |
|
}, |
|
{ |
|
"epoch": 2.9833333333333334, |
|
"grad_norm": 0.8796554050600224, |
|
"learning_rate": 2.2222222222222224e-07, |
|
"loss": 0.0965, |
|
"mean_token_accuracy": 0.9649972319602966, |
|
"num_tokens": 3479478.0, |
|
"step": 179 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"grad_norm": 0.47092378589770406, |
|
"learning_rate": 1.1111111111111112e-07, |
|
"loss": 0.0489, |
|
"mean_token_accuracy": 0.9833430051803589, |
|
"num_tokens": 3496156.0, |
|
"step": 180 |
|
} |
|
], |
|
"logging_steps": 1, |
|
"max_steps": 180, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 3, |
|
"save_steps": 500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 8670117072896.0, |
|
"train_batch_size": 4, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|