Training in progress, epoch 9, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1948 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8248ceafbddeeaf0df4157c3f181132dfa26a631f3ff91bd3e0a9ef5fa3f1569
 size 201352688

 version https://git-lfs.github.com/spec/v1
+oid sha256:90a3f56c55cef5851e6e24ff2b7b8fa38c8acb2aefbe1748255e5c7947d86a90
 size 201352688

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b922fcdd30412293c1c1779e58026219228bda4ab3b2774e95d2071abc2b3fc
 size 402815162

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff416b710d3e4584a937232df5b16b2a162f2e5b98bee596b744dc41388136a1
 size 402815162

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e2736cb34d10c46f7acc0e360b64ff520ba91b517f3c7a6c3ba907cc8d212d7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2dfdbe0760a458a4a4179393e5eabb7411f4ee7f6fa21362c3a9a65d716108a8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95bb70dcc716030f970fe717af8ff186a0b99796d4344bf7533bdf257cd938e9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d7c1449d2327688a19dc22c5f7f05a942f96806eecbd37990c97f51073c6b8d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.0,
   "eval_steps": 1,
-  "global_step": 1936,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15567,6 +15567,1951 @@
       "eval_samples_per_second": 23.971,
       "eval_steps_per_second": 4.794,
       "step": 1936
     }
   ],
   "logging_steps": 1,
@@ -15586,7 +17531,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.954025232590766e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.0,
   "eval_steps": 1,
+  "global_step": 2178,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.971,
       "eval_steps_per_second": 4.794,
       "step": 1936
+    },
+    {
+      "epoch": 8.00413223140496,
+      "grad_norm": 0.05322222039103508,
+      "learning_rate": 1.0501045177070335e-06,
+      "loss": 0.2053,
+      "mean_token_accuracy": 0.9290907979011536,
+      "step": 1937
+    },
+    {
+      "epoch": 8.008264462809917,
+      "grad_norm": 0.07542014122009277,
+      "learning_rate": 1.0459189581655864e-06,
+      "loss": 0.2204,
+      "mean_token_accuracy": 0.9238471388816833,
+      "step": 1938
+    },
+    {
+      "epoch": 8.012396694214877,
+      "grad_norm": 0.07172047346830368,
+      "learning_rate": 1.0417407822095266e-06,
+      "loss": 0.2185,
+      "mean_token_accuracy": 0.9246459007263184,
+      "step": 1939
+    },
+    {
+      "epoch": 8.016528925619834,
+      "grad_norm": 0.07066302001476288,
+      "learning_rate": 1.037569997640896e-06,
+      "loss": 0.1789,
+      "mean_token_accuracy": 0.9409568905830383,
+      "step": 1940
+    },
+    {
+      "epoch": 8.020661157024794,
+      "grad_norm": 0.07975345849990845,
+      "learning_rate": 1.0334066122479403e-06,
+      "loss": 0.2232,
+      "mean_token_accuracy": 0.9241645336151123,
+      "step": 1941
+    },
+    {
+      "epoch": 8.024793388429751,
+      "grad_norm": 0.06827311962842941,
+      "learning_rate": 1.0292506338050834e-06,
+      "loss": 0.1683,
+      "mean_token_accuracy": 0.9441187381744385,
+      "step": 1942
+    },
+    {
+      "epoch": 8.02892561983471,
+      "grad_norm": 0.08944051712751389,
+      "learning_rate": 1.0251020700729209e-06,
+      "loss": 0.1975,
+      "mean_token_accuracy": 0.9320717453956604,
+      "step": 1943
+    },
+    {
+      "epoch": 8.03305785123967,
+      "grad_norm": 0.09352165460586548,
+      "learning_rate": 1.0209609287982047e-06,
+      "loss": 0.1943,
+      "mean_token_accuracy": 0.9347447752952576,
+      "step": 1944
+    },
+    {
+      "epoch": 8.037190082644628,
+      "grad_norm": 0.07383626699447632,
+      "learning_rate": 1.01682721771382e-06,
+      "loss": 0.1209,
+      "mean_token_accuracy": 0.9616514444351196,
+      "step": 1945
+    },
+    {
+      "epoch": 8.041322314049587,
+      "grad_norm": 0.08939805626869202,
+      "learning_rate": 1.0127009445387836e-06,
+      "loss": 0.1748,
+      "mean_token_accuracy": 0.9405485391616821,
+      "step": 1946
+    },
+    {
+      "epoch": 8.045454545454545,
+      "grad_norm": 0.0925152450799942,
+      "learning_rate": 1.00858211697822e-06,
+      "loss": 0.1767,
+      "mean_token_accuracy": 0.9380128979682922,
+      "step": 1947
+    },
+    {
+      "epoch": 8.049586776859504,
+      "grad_norm": 0.07704450935125351,
+      "learning_rate": 1.004470742723353e-06,
+      "loss": 0.1219,
+      "mean_token_accuracy": 0.965753436088562,
+      "step": 1948
+    },
+    {
+      "epoch": 8.053719008264462,
+      "grad_norm": 0.08180603384971619,
+      "learning_rate": 1.0003668294514845e-06,
+      "loss": 0.1327,
+      "mean_token_accuracy": 0.9580827355384827,
+      "step": 1949
+    },
+    {
+      "epoch": 8.057851239669422,
+      "grad_norm": 0.08901241421699524,
+      "learning_rate": 9.962703848259887e-07,
+      "loss": 0.1494,
+      "mean_token_accuracy": 0.9514312148094177,
+      "step": 1950
+    },
+    {
+      "epoch": 8.061983471074381,
+      "grad_norm": 0.07941275835037231,
+      "learning_rate": 9.921814164962878e-07,
+      "loss": 0.103,
+      "mean_token_accuracy": 0.9707224369049072,
+      "step": 1951
+    },
+    {
+      "epoch": 8.066115702479339,
+      "grad_norm": 0.09194760769605637,
+      "learning_rate": 9.880999320978495e-07,
+      "loss": 0.1495,
+      "mean_token_accuracy": 0.9521530866622925,
+      "step": 1952
+    },
+    {
+      "epoch": 8.070247933884298,
+      "grad_norm": 0.09634792059659958,
+      "learning_rate": 9.84025939252164e-07,
+      "loss": 0.1544,
+      "mean_token_accuracy": 0.9550842046737671,
+      "step": 1953
+    },
+    {
+      "epoch": 8.074380165289256,
+      "grad_norm": 0.09481213241815567,
+      "learning_rate": 9.799594455667293e-07,
+      "loss": 0.1367,
+      "mean_token_accuracy": 0.9575821757316589,
+      "step": 1954
+    },
+    {
+      "epoch": 8.078512396694215,
+      "grad_norm": 0.09061330556869507,
+      "learning_rate": 9.759004586350456e-07,
+      "loss": 0.0852,
+      "mean_token_accuracy": 0.9757155179977417,
+      "step": 1955
+    },
+    {
+      "epoch": 8.082644628099173,
+      "grad_norm": 0.09262175112962723,
+      "learning_rate": 9.718489860365882e-07,
+      "loss": 0.0997,
+      "mean_token_accuracy": 0.9744042158126831,
+      "step": 1956
+    },
+    {
+      "epoch": 8.086776859504132,
+      "grad_norm": 0.07662644982337952,
+      "learning_rate": 9.678050353368106e-07,
+      "loss": 0.093,
+      "mean_token_accuracy": 0.9729189872741699,
+      "step": 1957
+    },
+    {
+      "epoch": 8.090909090909092,
+      "grad_norm": 0.1026345044374466,
+      "learning_rate": 9.637686140871121e-07,
+      "loss": 0.1111,
+      "mean_token_accuracy": 0.9670698642730713,
+      "step": 1958
+    },
+    {
+      "epoch": 8.09504132231405,
+      "grad_norm": 0.09648612886667252,
+      "learning_rate": 9.59739729824833e-07,
+      "loss": 0.1283,
+      "mean_token_accuracy": 0.9622212052345276,
+      "step": 1959
+    },
+    {
+      "epoch": 8.099173553719009,
+      "grad_norm": 0.09148698300123215,
+      "learning_rate": 9.557183900732425e-07,
+      "loss": 0.0953,
+      "mean_token_accuracy": 0.9743001461029053,
+      "step": 1960
+    },
+    {
+      "epoch": 8.103305785123966,
+      "grad_norm": 0.07736257463693619,
+      "learning_rate": 9.517046023415205e-07,
+      "loss": 0.079,
+      "mean_token_accuracy": 0.9799261689186096,
+      "step": 1961
+    },
+    {
+      "epoch": 8.107438016528926,
+      "grad_norm": 0.0846625566482544,
+      "learning_rate": 9.476983741247464e-07,
+      "loss": 0.0875,
+      "mean_token_accuracy": 0.9742388725280762,
+      "step": 1962
+    },
+    {
+      "epoch": 8.111570247933884,
+      "grad_norm": 0.10327938944101334,
+      "learning_rate": 9.436997129038783e-07,
+      "loss": 0.1394,
+      "mean_token_accuracy": 0.957582950592041,
+      "step": 1963
+    },
+    {
+      "epoch": 8.115702479338843,
+      "grad_norm": 0.0965140238404274,
+      "learning_rate": 9.397086261457511e-07,
+      "loss": 0.112,
+      "mean_token_accuracy": 0.9647870659828186,
+      "step": 1964
+    },
+    {
+      "epoch": 8.119834710743802,
+      "grad_norm": 0.09479817748069763,
+      "learning_rate": 9.357251213030489e-07,
+      "loss": 0.0908,
+      "mean_token_accuracy": 0.973259449005127,
+      "step": 1965
+    },
+    {
+      "epoch": 8.12396694214876,
+      "grad_norm": 0.08082997798919678,
+      "learning_rate": 9.317492058143024e-07,
+      "loss": 0.0831,
+      "mean_token_accuracy": 0.9776373505592346,
+      "step": 1966
+    },
+    {
+      "epoch": 8.12809917355372,
+      "grad_norm": 0.0902785211801529,
+      "learning_rate": 9.277808871038713e-07,
+      "loss": 0.0966,
+      "mean_token_accuracy": 0.9756577610969543,
+      "step": 1967
+    },
+    {
+      "epoch": 8.132231404958677,
+      "grad_norm": 0.0910555049777031,
+      "learning_rate": 9.238201725819235e-07,
+      "loss": 0.1005,
+      "mean_token_accuracy": 0.9727723002433777,
+      "step": 1968
+    },
+    {
+      "epoch": 8.136363636363637,
+      "grad_norm": 0.08586708456277847,
+      "learning_rate": 9.198670696444339e-07,
+      "loss": 0.0843,
+      "mean_token_accuracy": 0.9773631691932678,
+      "step": 1969
+    },
+    {
+      "epoch": 8.140495867768594,
+      "grad_norm": 0.11421328037977219,
+      "learning_rate": 9.159215856731607e-07,
+      "loss": 0.0998,
+      "mean_token_accuracy": 0.9735649824142456,
+      "step": 1970
+    },
+    {
+      "epoch": 8.144628099173554,
+      "grad_norm": 0.10374422371387482,
+      "learning_rate": 9.11983728035637e-07,
+      "loss": 0.0972,
+      "mean_token_accuracy": 0.9747347235679626,
+      "step": 1971
+    },
+    {
+      "epoch": 8.148760330578513,
+      "grad_norm": 0.13511402904987335,
+      "learning_rate": 9.080535040851518e-07,
+      "loss": 0.2081,
+      "mean_token_accuracy": 0.9311926364898682,
+      "step": 1972
+    },
+    {
+      "epoch": 8.152892561983471,
+      "grad_norm": 0.10286667943000793,
+      "learning_rate": 9.04130921160743e-07,
+      "loss": 0.1673,
+      "mean_token_accuracy": 0.9480319023132324,
+      "step": 1973
+    },
+    {
+      "epoch": 8.15702479338843,
+      "grad_norm": 0.08978980779647827,
+      "learning_rate": 9.002159865871762e-07,
+      "loss": 0.0977,
+      "mean_token_accuracy": 0.9703608155250549,
+      "step": 1974
+    },
+    {
+      "epoch": 8.161157024793388,
+      "grad_norm": 0.12502841651439667,
+      "learning_rate": 8.963087076749389e-07,
+      "loss": 0.145,
+      "mean_token_accuracy": 0.9607588648796082,
+      "step": 1975
+    },
+    {
+      "epoch": 8.165289256198347,
+      "grad_norm": 0.10160111635923386,
+      "learning_rate": 8.924090917202228e-07,
+      "loss": 0.0783,
+      "mean_token_accuracy": 0.9801255464553833,
+      "step": 1976
+    },
+    {
+      "epoch": 8.169421487603305,
+      "grad_norm": 0.1070442870259285,
+      "learning_rate": 8.885171460049058e-07,
+      "loss": 0.0906,
+      "mean_token_accuracy": 0.973698079586029,
+      "step": 1977
+    },
+    {
+      "epoch": 8.173553719008265,
+      "grad_norm": 0.09609609842300415,
+      "learning_rate": 8.846328777965468e-07,
+      "loss": 0.0893,
+      "mean_token_accuracy": 0.9760192036628723,
+      "step": 1978
+    },
+    {
+      "epoch": 8.177685950413224,
+      "grad_norm": 0.10213906317949295,
+      "learning_rate": 8.807562943483683e-07,
+      "loss": 0.0904,
+      "mean_token_accuracy": 0.9757412672042847,
+      "step": 1979
+    },
+    {
+      "epoch": 8.181818181818182,
+      "grad_norm": 0.09828820079565048,
+      "learning_rate": 8.768874028992431e-07,
+      "loss": 0.0897,
+      "mean_token_accuracy": 0.9777717590332031,
+      "step": 1980
+    },
+    {
+      "epoch": 8.185950413223141,
+      "grad_norm": 0.09995172917842865,
+      "learning_rate": 8.730262106736775e-07,
+      "loss": 0.0848,
+      "mean_token_accuracy": 0.9790863990783691,
+      "step": 1981
+    },
+    {
+      "epoch": 8.190082644628099,
+      "grad_norm": 0.09710147231817245,
+      "learning_rate": 8.691727248818016e-07,
+      "loss": 0.0926,
+      "mean_token_accuracy": 0.9745739102363586,
+      "step": 1982
+    },
+    {
+      "epoch": 8.194214876033058,
+      "grad_norm": 0.10639967769384384,
+      "learning_rate": 8.65326952719357e-07,
+      "loss": 0.0934,
+      "mean_token_accuracy": 0.9727582335472107,
+      "step": 1983
+    },
+    {
+      "epoch": 8.198347107438016,
+      "grad_norm": 0.10266918689012527,
+      "learning_rate": 8.614889013676803e-07,
+      "loss": 0.0922,
+      "mean_token_accuracy": 0.9762585759162903,
+      "step": 1984
+    },
+    {
+      "epoch": 8.202479338842975,
+      "grad_norm": 0.10627970099449158,
+      "learning_rate": 8.576585779936924e-07,
+      "loss": 0.0983,
+      "mean_token_accuracy": 0.9713375568389893,
+      "step": 1985
+    },
+    {
+      "epoch": 8.206611570247935,
+      "grad_norm": 0.12172595411539078,
+      "learning_rate": 8.538359897498793e-07,
+      "loss": 0.1657,
+      "mean_token_accuracy": 0.9538551568984985,
+      "step": 1986
+    },
+    {
+      "epoch": 8.210743801652892,
+      "grad_norm": 0.06621988117694855,
+      "learning_rate": 8.500211437742878e-07,
+      "loss": 0.2023,
+      "mean_token_accuracy": 0.9292741417884827,
+      "step": 1987
+    },
+    {
+      "epoch": 8.214876033057852,
+      "grad_norm": 0.06165366619825363,
+      "learning_rate": 8.462140471905034e-07,
+      "loss": 0.1687,
+      "mean_token_accuracy": 0.9438784718513489,
+      "step": 1988
+    },
+    {
+      "epoch": 8.21900826446281,
+      "grad_norm": 0.0728682428598404,
+      "learning_rate": 8.424147071076427e-07,
+      "loss": 0.1858,
+      "mean_token_accuracy": 0.9376370906829834,
+      "step": 1989
+    },
+    {
+      "epoch": 8.223140495867769,
+      "grad_norm": 0.0772644579410553,
+      "learning_rate": 8.386231306203402e-07,
+      "loss": 0.2246,
+      "mean_token_accuracy": 0.924739420413971,
+      "step": 1990
+    },
+    {
+      "epoch": 8.227272727272727,
+      "grad_norm": 0.09445520490407944,
+      "learning_rate": 8.348393248087289e-07,
+      "loss": 0.2536,
+      "mean_token_accuracy": 0.9166355133056641,
+      "step": 1991
+    },
+    {
+      "epoch": 8.231404958677686,
+      "grad_norm": 0.08564960211515427,
+      "learning_rate": 8.310632967384341e-07,
+      "loss": 0.2014,
+      "mean_token_accuracy": 0.9372698664665222,
+      "step": 1992
+    },
+    {
+      "epoch": 8.235537190082646,
+      "grad_norm": 0.09126199036836624,
+      "learning_rate": 8.272950534605573e-07,
+      "loss": 0.2703,
+      "mean_token_accuracy": 0.9054905772209167,
+      "step": 1993
+    },
+    {
+      "epoch": 8.239669421487603,
+      "grad_norm": 0.07200663536787033,
+      "learning_rate": 8.235346020116647e-07,
+      "loss": 0.1584,
+      "mean_token_accuracy": 0.9474515914916992,
+      "step": 1994
+    },
+    {
+      "epoch": 8.243801652892563,
+      "grad_norm": 0.07638365030288696,
+      "learning_rate": 8.197819494137677e-07,
+      "loss": 0.1827,
+      "mean_token_accuracy": 0.9400560259819031,
+      "step": 1995
+    },
+    {
+      "epoch": 8.24793388429752,
+      "grad_norm": 0.07526237517595291,
+      "learning_rate": 8.160371026743202e-07,
+      "loss": 0.1255,
+      "mean_token_accuracy": 0.9592936038970947,
+      "step": 1996
+    },
+    {
+      "epoch": 8.25206611570248,
+      "grad_norm": 0.09531582146883011,
+      "learning_rate": 8.123000687861959e-07,
+      "loss": 0.2096,
+      "mean_token_accuracy": 0.932683527469635,
+      "step": 1997
+    },
+    {
+      "epoch": 8.256198347107437,
+      "grad_norm": 0.09303406625986099,
+      "learning_rate": 8.08570854727681e-07,
+      "loss": 0.2018,
+      "mean_token_accuracy": 0.9328662157058716,
+      "step": 1998
+    },
+    {
+      "epoch": 8.260330578512397,
+      "grad_norm": 0.08916998654603958,
+      "learning_rate": 8.048494674624613e-07,
+      "loss": 0.1273,
+      "mean_token_accuracy": 0.9591379165649414,
+      "step": 1999
+    },
+    {
+      "epoch": 8.264462809917354,
+      "grad_norm": 0.08668152987957001,
+      "learning_rate": 8.01135913939603e-07,
+      "loss": 0.137,
+      "mean_token_accuracy": 0.955795168876648,
+      "step": 2000
+    },
+    {
+      "epoch": 8.268595041322314,
+      "grad_norm": 0.08069667220115662,
+      "learning_rate": 7.97430201093547e-07,
+      "loss": 0.1229,
+      "mean_token_accuracy": 0.9618644118309021,
+      "step": 2001
+    },
+    {
+      "epoch": 8.272727272727273,
+      "grad_norm": 0.09162264317274094,
+      "learning_rate": 7.937323358440935e-07,
+      "loss": 0.1378,
+      "mean_token_accuracy": 0.9560089707374573,
+      "step": 2002
+    },
+    {
+      "epoch": 8.276859504132231,
+      "grad_norm": 0.07887725532054901,
+      "learning_rate": 7.90042325096389e-07,
+      "loss": 0.0963,
+      "mean_token_accuracy": 0.9715953469276428,
+      "step": 2003
+    },
+    {
+      "epoch": 8.28099173553719,
+      "grad_norm": 0.10365016013383865,
+      "learning_rate": 7.863601757409095e-07,
+      "loss": 0.166,
+      "mean_token_accuracy": 0.9484246373176575,
+      "step": 2004
+    },
+    {
+      "epoch": 8.285123966942148,
+      "grad_norm": 0.10023301839828491,
+      "learning_rate": 7.826858946534532e-07,
+      "loss": 0.1623,
+      "mean_token_accuracy": 0.9505438208580017,
+      "step": 2005
+    },
+    {
+      "epoch": 8.289256198347108,
+      "grad_norm": 0.08399416506290436,
+      "learning_rate": 7.790194886951268e-07,
+      "loss": 0.0924,
+      "mean_token_accuracy": 0.9722627997398376,
+      "step": 2006
+    },
+    {
+      "epoch": 8.293388429752067,
+      "grad_norm": 0.09842690825462341,
+      "learning_rate": 7.753609647123305e-07,
+      "loss": 0.0925,
+      "mean_token_accuracy": 0.9722222089767456,
+      "step": 2007
+    },
+    {
+      "epoch": 8.297520661157025,
+      "grad_norm": 0.09228594601154327,
+      "learning_rate": 7.717103295367473e-07,
+      "loss": 0.1104,
+      "mean_token_accuracy": 0.9669243693351746,
+      "step": 2008
+    },
+    {
+      "epoch": 8.301652892561984,
+      "grad_norm": 0.09433568269014359,
+      "learning_rate": 7.680675899853258e-07,
+      "loss": 0.1252,
+      "mean_token_accuracy": 0.9608188271522522,
+      "step": 2009
+    },
+    {
+      "epoch": 8.305785123966942,
+      "grad_norm": 0.10079663246870041,
+      "learning_rate": 7.644327528602757e-07,
+      "loss": 0.1536,
+      "mean_token_accuracy": 0.949020504951477,
+      "step": 2010
+    },
+    {
+      "epoch": 8.309917355371901,
+      "grad_norm": 0.09348037093877792,
+      "learning_rate": 7.608058249490457e-07,
+      "loss": 0.1049,
+      "mean_token_accuracy": 0.9676030874252319,
+      "step": 2011
+    },
+    {
+      "epoch": 8.314049586776859,
+      "grad_norm": 0.09227565675973892,
+      "learning_rate": 7.571868130243176e-07,
+      "loss": 0.1086,
+      "mean_token_accuracy": 0.96882164478302,
+      "step": 2012
+    },
+    {
+      "epoch": 8.318181818181818,
+      "grad_norm": 0.10619546473026276,
+      "learning_rate": 7.535757238439939e-07,
+      "loss": 0.1186,
+      "mean_token_accuracy": 0.9638972282409668,
+      "step": 2013
+    },
+    {
+      "epoch": 8.322314049586776,
+      "grad_norm": 0.09314385056495667,
+      "learning_rate": 7.499725641511762e-07,
+      "loss": 0.0847,
+      "mean_token_accuracy": 0.9747040867805481,
+      "step": 2014
+    },
+    {
+      "epoch": 8.326446280991735,
+      "grad_norm": 0.09095818549394608,
+      "learning_rate": 7.463773406741648e-07,
+      "loss": 0.0946,
+      "mean_token_accuracy": 0.9727653861045837,
+      "step": 2015
+    },
+    {
+      "epoch": 8.330578512396695,
+      "grad_norm": 0.08989793807268143,
+      "learning_rate": 7.427900601264388e-07,
+      "loss": 0.1041,
+      "mean_token_accuracy": 0.970187783241272,
+      "step": 2016
+    },
+    {
+      "epoch": 8.334710743801653,
+      "grad_norm": 0.1408630758523941,
+      "learning_rate": 7.392107292066452e-07,
+      "loss": 0.2269,
+      "mean_token_accuracy": 0.9238230586051941,
+      "step": 2017
+    },
+    {
+      "epoch": 8.338842975206612,
+      "grad_norm": 0.07676363736391068,
+      "learning_rate": 7.356393545985862e-07,
+      "loss": 0.0831,
+      "mean_token_accuracy": 0.977846622467041,
+      "step": 2018
+    },
+    {
+      "epoch": 8.34297520661157,
+      "grad_norm": 0.11591339856386185,
+      "learning_rate": 7.320759429712048e-07,
+      "loss": 0.1068,
+      "mean_token_accuracy": 0.9673469662666321,
+      "step": 2019
+    },
+    {
+      "epoch": 8.347107438016529,
+      "grad_norm": 0.10131556540727615,
+      "learning_rate": 7.285205009785784e-07,
+      "loss": 0.0927,
+      "mean_token_accuracy": 0.9739193320274353,
+      "step": 2020
+    },
+    {
+      "epoch": 8.351239669421487,
+      "grad_norm": 0.09023724496364594,
+      "learning_rate": 7.249730352599e-07,
+      "loss": 0.0889,
+      "mean_token_accuracy": 0.9725528359413147,
+      "step": 2021
+    },
+    {
+      "epoch": 8.355371900826446,
+      "grad_norm": 0.0897325649857521,
+      "learning_rate": 7.214335524394706e-07,
+      "loss": 0.0785,
+      "mean_token_accuracy": 0.9799548983573914,
+      "step": 2022
+    },
+    {
+      "epoch": 8.359504132231406,
+      "grad_norm": 0.09022372215986252,
+      "learning_rate": 7.179020591266794e-07,
+      "loss": 0.1125,
+      "mean_token_accuracy": 0.9685359001159668,
+      "step": 2023
+    },
+    {
+      "epoch": 8.363636363636363,
+      "grad_norm": 0.08698549121618271,
+      "learning_rate": 7.143785619160026e-07,
+      "loss": 0.0951,
+      "mean_token_accuracy": 0.9732397794723511,
+      "step": 2024
+    },
+    {
+      "epoch": 8.367768595041323,
+      "grad_norm": 0.0980365052819252,
+      "learning_rate": 7.108630673869805e-07,
+      "loss": 0.1058,
+      "mean_token_accuracy": 0.9667887091636658,
+      "step": 2025
+    },
+    {
+      "epoch": 8.37190082644628,
+      "grad_norm": 0.10169877111911774,
+      "learning_rate": 7.073555821042139e-07,
+      "loss": 0.1002,
+      "mean_token_accuracy": 0.9713459610939026,
+      "step": 2026
+    },
+    {
+      "epoch": 8.37603305785124,
+      "grad_norm": 0.10198129713535309,
+      "learning_rate": 7.038561126173437e-07,
+      "loss": 0.1045,
+      "mean_token_accuracy": 0.9714058637619019,
+      "step": 2027
+    },
+    {
+      "epoch": 8.380165289256198,
+      "grad_norm": 0.10014763474464417,
+      "learning_rate": 7.003646654610424e-07,
+      "loss": 0.0886,
+      "mean_token_accuracy": 0.9751999974250793,
+      "step": 2028
+    },
+    {
+      "epoch": 8.384297520661157,
+      "grad_norm": 0.09548249840736389,
+      "learning_rate": 6.968812471550063e-07,
+      "loss": 0.0837,
+      "mean_token_accuracy": 0.9789416790008545,
+      "step": 2029
+    },
+    {
+      "epoch": 8.388429752066116,
+      "grad_norm": 0.10720735043287277,
+      "learning_rate": 6.93405864203936e-07,
+      "loss": 0.0906,
+      "mean_token_accuracy": 0.9760934710502625,
+      "step": 2030
+    },
+    {
+      "epoch": 8.392561983471074,
+      "grad_norm": 0.09425859898328781,
+      "learning_rate": 6.899385230975297e-07,
+      "loss": 0.0918,
+      "mean_token_accuracy": 0.9751161932945251,
+      "step": 2031
+    },
+    {
+      "epoch": 8.396694214876034,
+      "grad_norm": 0.11633366346359253,
+      "learning_rate": 6.864792303104651e-07,
+      "loss": 0.0996,
+      "mean_token_accuracy": 0.9741970896720886,
+      "step": 2032
+    },
+    {
+      "epoch": 8.400826446280991,
+      "grad_norm": 0.10742107778787613,
+      "learning_rate": 6.830279923023946e-07,
+      "loss": 0.0864,
+      "mean_token_accuracy": 0.9759535789489746,
+      "step": 2033
+    },
+    {
+      "epoch": 8.40495867768595,
+      "grad_norm": 0.10091706365346909,
+      "learning_rate": 6.795848155179274e-07,
+      "loss": 0.0884,
+      "mean_token_accuracy": 0.9769123792648315,
+      "step": 2034
+    },
+    {
+      "epoch": 8.409090909090908,
+      "grad_norm": 0.1497029811143875,
+      "learning_rate": 6.761497063866207e-07,
+      "loss": 0.1978,
+      "mean_token_accuracy": 0.9377990365028381,
+      "step": 2035
+    },
+    {
+      "epoch": 8.413223140495868,
+      "grad_norm": 0.10804083943367004,
+      "learning_rate": 6.727226713229684e-07,
+      "loss": 0.1319,
+      "mean_token_accuracy": 0.9585747122764587,
+      "step": 2036
+    },
+    {
+      "epoch": 8.417355371900827,
+      "grad_norm": 0.05786946043372154,
+      "learning_rate": 6.693037167263828e-07,
+      "loss": 0.2503,
+      "mean_token_accuracy": 0.9130831360816956,
+      "step": 2037
+    },
+    {
+      "epoch": 8.421487603305785,
+      "grad_norm": 0.07212464511394501,
+      "learning_rate": 6.658928489811912e-07,
+      "loss": 0.2339,
+      "mean_token_accuracy": 0.9204217195510864,
+      "step": 2038
+    },
+    {
+      "epoch": 8.425619834710744,
+      "grad_norm": 0.06576870381832123,
+      "learning_rate": 6.624900744566193e-07,
+      "loss": 0.2209,
+      "mean_token_accuracy": 0.9230567812919617,
+      "step": 2039
+    },
+    {
+      "epoch": 8.429752066115702,
+      "grad_norm": 0.07833580672740936,
+      "learning_rate": 6.590953995067812e-07,
+      "loss": 0.2051,
+      "mean_token_accuracy": 0.9266378879547119,
+      "step": 2040
+    },
+    {
+      "epoch": 8.433884297520661,
+      "grad_norm": 0.06369439512491226,
+      "learning_rate": 6.557088304706627e-07,
+      "loss": 0.1654,
+      "mean_token_accuracy": 0.9431931376457214,
+      "step": 2041
+    },
+    {
+      "epoch": 8.438016528925619,
+      "grad_norm": 0.08336784690618515,
+      "learning_rate": 6.523303736721154e-07,
+      "loss": 0.2379,
+      "mean_token_accuracy": 0.9195821285247803,
+      "step": 2042
+    },
+    {
+      "epoch": 8.442148760330578,
+      "grad_norm": 0.07352302968502045,
+      "learning_rate": 6.489600354198433e-07,
+      "loss": 0.1511,
+      "mean_token_accuracy": 0.950443685054779,
+      "step": 2043
+    },
+    {
+      "epoch": 8.446280991735538,
+      "grad_norm": 0.09255903214216232,
+      "learning_rate": 6.455978220073895e-07,
+      "loss": 0.2586,
+      "mean_token_accuracy": 0.9118536710739136,
+      "step": 2044
+    },
+    {
+      "epoch": 8.450413223140496,
+      "grad_norm": 0.07923895865678787,
+      "learning_rate": 6.422437397131265e-07,
+      "loss": 0.1312,
+      "mean_token_accuracy": 0.9583396911621094,
+      "step": 2045
+    },
+    {
+      "epoch": 8.454545454545455,
+      "grad_norm": 0.08579988032579422,
+      "learning_rate": 6.388977948002406e-07,
+      "loss": 0.1845,
+      "mean_token_accuracy": 0.9370260238647461,
+      "step": 2046
+    },
+    {
+      "epoch": 8.458677685950413,
+      "grad_norm": 0.08608614653348923,
+      "learning_rate": 6.355599935167256e-07,
+      "loss": 0.1863,
+      "mean_token_accuracy": 0.9352179169654846,
+      "step": 2047
+    },
+    {
+      "epoch": 8.462809917355372,
+      "grad_norm": 0.08685126155614853,
+      "learning_rate": 6.322303420953673e-07,
+      "loss": 0.1521,
+      "mean_token_accuracy": 0.9517453908920288,
+      "step": 2048
+    },
+    {
+      "epoch": 8.46694214876033,
+      "grad_norm": 0.09084443747997284,
+      "learning_rate": 6.289088467537341e-07,
+      "loss": 0.1344,
+      "mean_token_accuracy": 0.955075740814209,
+      "step": 2049
+    },
+    {
+      "epoch": 8.47107438016529,
+      "grad_norm": 0.10212317854166031,
+      "learning_rate": 6.255955136941627e-07,
+      "loss": 0.1827,
+      "mean_token_accuracy": 0.9430245161056519,
+      "step": 2050
+    },
+    {
+      "epoch": 8.475206611570249,
+      "grad_norm": 0.09634598344564438,
+      "learning_rate": 6.222903491037474e-07,
+      "loss": 0.1735,
+      "mean_token_accuracy": 0.9435832500457764,
+      "step": 2051
+    },
+    {
+      "epoch": 8.479338842975206,
+      "grad_norm": 0.07654455304145813,
+      "learning_rate": 6.189933591543318e-07,
+      "loss": 0.1052,
+      "mean_token_accuracy": 0.9696394801139832,
+      "step": 2052
+    },
+    {
+      "epoch": 8.483471074380166,
+      "grad_norm": 0.08662577718496323,
+      "learning_rate": 6.157045500024933e-07,
+      "loss": 0.1196,
+      "mean_token_accuracy": 0.9640316367149353,
+      "step": 2053
+    },
+    {
+      "epoch": 8.487603305785123,
+      "grad_norm": 0.0935806855559349,
+      "learning_rate": 6.124239277895344e-07,
+      "loss": 0.1112,
+      "mean_token_accuracy": 0.9642053842544556,
+      "step": 2054
+    },
+    {
+      "epoch": 8.491735537190083,
+      "grad_norm": 0.0817096158862114,
+      "learning_rate": 6.091514986414665e-07,
+      "loss": 0.0977,
+      "mean_token_accuracy": 0.9727157354354858,
+      "step": 2055
+    },
+    {
+      "epoch": 8.49586776859504,
+      "grad_norm": 0.08830783516168594,
+      "learning_rate": 6.058872686690048e-07,
+      "loss": 0.0979,
+      "mean_token_accuracy": 0.9704757928848267,
+      "step": 2056
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 0.09076707810163498,
+      "learning_rate": 6.026312439675553e-07,
+      "loss": 0.0942,
+      "mean_token_accuracy": 0.971440851688385,
+      "step": 2057
+    },
+    {
+      "epoch": 8.50413223140496,
+      "grad_norm": 0.09585954248905182,
+      "learning_rate": 5.993834306171964e-07,
+      "loss": 0.1453,
+      "mean_token_accuracy": 0.9532176852226257,
+      "step": 2058
+    },
+    {
+      "epoch": 8.508264462809917,
+      "grad_norm": 0.10207119584083557,
+      "learning_rate": 5.961438346826792e-07,
+      "loss": 0.1159,
+      "mean_token_accuracy": 0.9636322855949402,
+      "step": 2059
+    },
+    {
+      "epoch": 8.512396694214877,
+      "grad_norm": 0.10537750273942947,
+      "learning_rate": 5.929124622134058e-07,
+      "loss": 0.1239,
+      "mean_token_accuracy": 0.9623029232025146,
+      "step": 2060
+    },
+    {
+      "epoch": 8.516528925619834,
+      "grad_norm": 0.08574347198009491,
+      "learning_rate": 5.896893192434249e-07,
+      "loss": 0.0818,
+      "mean_token_accuracy": 0.97648686170578,
+      "step": 2061
+    },
+    {
+      "epoch": 8.520661157024794,
+      "grad_norm": 0.1016509085893631,
+      "learning_rate": 5.864744117914179e-07,
+      "loss": 0.1009,
+      "mean_token_accuracy": 0.9712011218070984,
+      "step": 2062
+    },
+    {
+      "epoch": 8.524793388429751,
+      "grad_norm": 0.09164122492074966,
+      "learning_rate": 5.832677458606867e-07,
+      "loss": 0.0942,
+      "mean_token_accuracy": 0.9732291102409363,
+      "step": 2063
+    },
+    {
+      "epoch": 8.52892561983471,
+      "grad_norm": 0.08601871877908707,
+      "learning_rate": 5.800693274391439e-07,
+      "loss": 0.0799,
+      "mean_token_accuracy": 0.9785696864128113,
+      "step": 2064
+    },
+    {
+      "epoch": 8.53305785123967,
+      "grad_norm": 0.11451072990894318,
+      "learning_rate": 5.768791624993003e-07,
+      "loss": 0.159,
+      "mean_token_accuracy": 0.9517607092857361,
+      "step": 2065
+    },
+    {
+      "epoch": 8.537190082644628,
+      "grad_norm": 0.10741297900676727,
+      "learning_rate": 5.736972569982558e-07,
+      "loss": 0.1089,
+      "mean_token_accuracy": 0.9691147804260254,
+      "step": 2066
+    },
+    {
+      "epoch": 8.541322314049587,
+      "grad_norm": 0.11344994604587555,
+      "learning_rate": 5.705236168776879e-07,
+      "loss": 0.1463,
+      "mean_token_accuracy": 0.9595220685005188,
+      "step": 2067
+    },
+    {
+      "epoch": 8.545454545454545,
+      "grad_norm": 0.10220891237258911,
+      "learning_rate": 5.673582480638395e-07,
+      "loss": 0.1063,
+      "mean_token_accuracy": 0.9685812592506409,
+      "step": 2068
+    },
+    {
+      "epoch": 8.549586776859504,
+      "grad_norm": 0.08758968859910965,
+      "learning_rate": 5.642011564675065e-07,
+      "loss": 0.0872,
+      "mean_token_accuracy": 0.9768015742301941,
+      "step": 2069
+    },
+    {
+      "epoch": 8.553719008264462,
+      "grad_norm": 0.10929395258426666,
+      "learning_rate": 5.610523479840297e-07,
+      "loss": 0.0947,
+      "mean_token_accuracy": 0.9717923402786255,
+      "step": 2070
+    },
+    {
+      "epoch": 8.557851239669422,
+      "grad_norm": 0.11096024513244629,
+      "learning_rate": 5.579118284932844e-07,
+      "loss": 0.1365,
+      "mean_token_accuracy": 0.9577394127845764,
+      "step": 2071
+    },
+    {
+      "epoch": 8.561983471074381,
+      "grad_norm": 0.0956474244594574,
+      "learning_rate": 5.547796038596637e-07,
+      "loss": 0.1036,
+      "mean_token_accuracy": 0.9721804261207581,
+      "step": 2072
+    },
+    {
+      "epoch": 8.566115702479339,
+      "grad_norm": 0.09017419070005417,
+      "learning_rate": 5.51655679932075e-07,
+      "loss": 0.0806,
+      "mean_token_accuracy": 0.9797005653381348,
+      "step": 2073
+    },
+    {
+      "epoch": 8.570247933884298,
+      "grad_norm": 0.10327083617448807,
+      "learning_rate": 5.485400625439219e-07,
+      "loss": 0.1038,
+      "mean_token_accuracy": 0.9685261249542236,
+      "step": 2074
+    },
+    {
+      "epoch": 8.574380165289256,
+      "grad_norm": 0.10319899022579193,
+      "learning_rate": 5.454327575131007e-07,
+      "loss": 0.0907,
+      "mean_token_accuracy": 0.9753340482711792,
+      "step": 2075
+    },
+    {
+      "epoch": 8.578512396694215,
+      "grad_norm": 0.10876299440860748,
+      "learning_rate": 5.423337706419846e-07,
+      "loss": 0.1003,
+      "mean_token_accuracy": 0.9718273282051086,
+      "step": 2076
+    },
+    {
+      "epoch": 8.582644628099173,
+      "grad_norm": 0.10647837072610855,
+      "learning_rate": 5.392431077174131e-07,
+      "loss": 0.1686,
+      "mean_token_accuracy": 0.948123037815094,
+      "step": 2077
+    },
+    {
+      "epoch": 8.586776859504132,
+      "grad_norm": 0.09515678137540817,
+      "learning_rate": 5.361607745106817e-07,
+      "loss": 0.0908,
+      "mean_token_accuracy": 0.9741514325141907,
+      "step": 2078
+    },
+    {
+      "epoch": 8.590909090909092,
+      "grad_norm": 0.10034073889255524,
+      "learning_rate": 5.330867767775333e-07,
+      "loss": 0.0898,
+      "mean_token_accuracy": 0.9729089736938477,
+      "step": 2079
+    },
+    {
+      "epoch": 8.59504132231405,
+      "grad_norm": 0.09543359279632568,
+      "learning_rate": 5.300211202581451e-07,
+      "loss": 0.0814,
+      "mean_token_accuracy": 0.9785924553871155,
+      "step": 2080
+    },
+    {
+      "epoch": 8.599173553719009,
+      "grad_norm": 0.11278136074542999,
+      "learning_rate": 5.269638106771174e-07,
+      "loss": 0.1497,
+      "mean_token_accuracy": 0.9543736577033997,
+      "step": 2081
+    },
+    {
+      "epoch": 8.603305785123966,
+      "grad_norm": 0.08995888382196426,
+      "learning_rate": 5.239148537434658e-07,
+      "loss": 0.094,
+      "mean_token_accuracy": 0.9726177453994751,
+      "step": 2082
+    },
+    {
+      "epoch": 8.607438016528926,
+      "grad_norm": 0.10781515389680862,
+      "learning_rate": 5.208742551506057e-07,
+      "loss": 0.0955,
+      "mean_token_accuracy": 0.9749103784561157,
+      "step": 2083
+    },
+    {
+      "epoch": 8.611570247933884,
+      "grad_norm": 0.1258586049079895,
+      "learning_rate": 5.178420205763484e-07,
+      "loss": 0.1392,
+      "mean_token_accuracy": 0.958977222442627,
+      "step": 2084
+    },
+    {
+      "epoch": 8.615702479338843,
+      "grad_norm": 0.11668509989976883,
+      "learning_rate": 5.148181556828847e-07,
+      "loss": 0.0891,
+      "mean_token_accuracy": 0.977047324180603,
+      "step": 2085
+    },
+    {
+      "epoch": 8.619834710743802,
+      "grad_norm": 0.12788750231266022,
+      "learning_rate": 5.118026661167774e-07,
+      "loss": 0.1437,
+      "mean_token_accuracy": 0.9538551568984985,
+      "step": 2086
+    },
+    {
+      "epoch": 8.62396694214876,
+      "grad_norm": 0.05820296332240105,
+      "learning_rate": 5.087955575089493e-07,
+      "loss": 0.2225,
+      "mean_token_accuracy": 0.9198437333106995,
+      "step": 2087
+    },
+    {
+      "epoch": 8.62809917355372,
+      "grad_norm": 0.05990159511566162,
+      "learning_rate": 5.057968354746706e-07,
+      "loss": 0.2175,
+      "mean_token_accuracy": 0.9251121282577515,
+      "step": 2088
+    },
+    {
+      "epoch": 8.632231404958677,
+      "grad_norm": 0.06292181462049484,
+      "learning_rate": 5.028065056135561e-07,
+      "loss": 0.2055,
+      "mean_token_accuracy": 0.9290311932563782,
+      "step": 2089
+    },
+    {
+      "epoch": 8.636363636363637,
+      "grad_norm": 0.0732082948088646,
+      "learning_rate": 4.998245735095459e-07,
+      "loss": 0.2348,
+      "mean_token_accuracy": 0.9177881479263306,
+      "step": 2090
+    },
+    {
+      "epoch": 8.640495867768594,
+      "grad_norm": 0.06980929523706436,
+      "learning_rate": 4.968510447309005e-07,
+      "loss": 0.1921,
+      "mean_token_accuracy": 0.9333738684654236,
+      "step": 2091
+    },
+    {
+      "epoch": 8.644628099173554,
+      "grad_norm": 0.07125243544578552,
+      "learning_rate": 4.938859248301863e-07,
+      "loss": 0.1748,
+      "mean_token_accuracy": 0.9390982389450073,
+      "step": 2092
+    },
+    {
+      "epoch": 8.648760330578511,
+      "grad_norm": 0.07631165534257889,
+      "learning_rate": 4.909292193442705e-07,
+      "loss": 0.1969,
+      "mean_token_accuracy": 0.9327918887138367,
+      "step": 2093
+    },
+    {
+      "epoch": 8.652892561983471,
+      "grad_norm": 0.0754714235663414,
+      "learning_rate": 4.87980933794307e-07,
+      "loss": 0.179,
+      "mean_token_accuracy": 0.942600429058075,
+      "step": 2094
+    },
+    {
+      "epoch": 8.65702479338843,
+      "grad_norm": 0.10651316493749619,
+      "learning_rate": 4.850410736857236e-07,
+      "loss": 0.2142,
+      "mean_token_accuracy": 0.9307475090026855,
+      "step": 2095
+    },
+    {
+      "epoch": 8.661157024793388,
+      "grad_norm": 0.08369658142328262,
+      "learning_rate": 4.821096445082208e-07,
+      "loss": 0.1839,
+      "mean_token_accuracy": 0.9419768452644348,
+      "step": 2096
+    },
+    {
+      "epoch": 8.665289256198347,
+      "grad_norm": 0.08058687299489975,
+      "learning_rate": 4.791866517357491e-07,
+      "loss": 0.1606,
+      "mean_token_accuracy": 0.950334906578064,
+      "step": 2097
+    },
+    {
+      "epoch": 8.669421487603305,
+      "grad_norm": 0.08795657008886337,
+      "learning_rate": 4.762721008265114e-07,
+      "loss": 0.1745,
+      "mean_token_accuracy": 0.9430282115936279,
+      "step": 2098
+    },
+    {
+      "epoch": 8.673553719008265,
+      "grad_norm": 0.08912398666143417,
+      "learning_rate": 4.733659972229437e-07,
+      "loss": 0.1724,
+      "mean_token_accuracy": 0.9450215101242065,
+      "step": 2099
+    },
+    {
+      "epoch": 8.677685950413224,
+      "grad_norm": 0.08674637228250504,
+      "learning_rate": 4.7046834635170956e-07,
+      "loss": 0.1258,
+      "mean_token_accuracy": 0.9621280431747437,
+      "step": 2100
+    },
+    {
+      "epoch": 8.681818181818182,
+      "grad_norm": 0.0879029706120491,
+      "learning_rate": 4.6757915362368567e-07,
+      "loss": 0.1673,
+      "mean_token_accuracy": 0.9448676109313965,
+      "step": 2101
+    },
+    {
+      "epoch": 8.685950413223141,
+      "grad_norm": 0.07600904256105423,
+      "learning_rate": 4.646984244339575e-07,
+      "loss": 0.0938,
+      "mean_token_accuracy": 0.9702988266944885,
+      "step": 2102
+    },
+    {
+      "epoch": 8.690082644628099,
+      "grad_norm": 0.07806258648633957,
+      "learning_rate": 4.61826164161806e-07,
+      "loss": 0.1091,
+      "mean_token_accuracy": 0.9627501964569092,
+      "step": 2103
+    },
+    {
+      "epoch": 8.694214876033058,
+      "grad_norm": 0.09047354757785797,
+      "learning_rate": 4.589623781706959e-07,
+      "loss": 0.1213,
+      "mean_token_accuracy": 0.9610835313796997,
+      "step": 2104
+    },
+    {
+      "epoch": 8.698347107438016,
+      "grad_norm": 0.0882289707660675,
+      "learning_rate": 4.5610707180826996e-07,
+      "loss": 0.0973,
+      "mean_token_accuracy": 0.9684313535690308,
+      "step": 2105
+    },
+    {
+      "epoch": 8.702479338842975,
+      "grad_norm": 0.07399041950702667,
+      "learning_rate": 4.532602504063344e-07,
+      "loss": 0.1023,
+      "mean_token_accuracy": 0.9700278043746948,
+      "step": 2106
+    },
+    {
+      "epoch": 8.706611570247933,
+      "grad_norm": 0.0878264531493187,
+      "learning_rate": 4.504219192808529e-07,
+      "loss": 0.0977,
+      "mean_token_accuracy": 0.970322847366333,
+      "step": 2107
+    },
+    {
+      "epoch": 8.710743801652892,
+      "grad_norm": 0.0884372815489769,
+      "learning_rate": 4.4759208373193365e-07,
+      "loss": 0.1047,
+      "mean_token_accuracy": 0.9682474136352539,
+      "step": 2108
+    },
+    {
+      "epoch": 8.714876033057852,
+      "grad_norm": 0.09372899681329727,
+      "learning_rate": 4.447707490438236e-07,
+      "loss": 0.1364,
+      "mean_token_accuracy": 0.957731306552887,
+      "step": 2109
+    },
+    {
+      "epoch": 8.71900826446281,
+      "grad_norm": 0.09550356864929199,
+      "learning_rate": 4.4195792048489226e-07,
+      "loss": 0.1414,
+      "mean_token_accuracy": 0.9544153213500977,
+      "step": 2110
+    },
+    {
+      "epoch": 8.723140495867769,
+      "grad_norm": 0.07899662107229233,
+      "learning_rate": 4.39153603307626e-07,
+      "loss": 0.0792,
+      "mean_token_accuracy": 0.9783337116241455,
+      "step": 2111
+    },
+    {
+      "epoch": 8.727272727272727,
+      "grad_norm": 0.09830790758132935,
+      "learning_rate": 4.363578027486187e-07,
+      "loss": 0.1541,
+      "mean_token_accuracy": 0.9491906762123108,
+      "step": 2112
+    },
+    {
+      "epoch": 8.731404958677686,
+      "grad_norm": 0.09043899923563004,
+      "learning_rate": 4.335705240285609e-07,
+      "loss": 0.102,
+      "mean_token_accuracy": 0.9689905047416687,
+      "step": 2113
+    },
+    {
+      "epoch": 8.735537190082646,
+      "grad_norm": 0.09777707606554031,
+      "learning_rate": 4.307917723522315e-07,
+      "loss": 0.1352,
+      "mean_token_accuracy": 0.9594070911407471,
+      "step": 2114
+    },
+    {
+      "epoch": 8.739669421487603,
+      "grad_norm": 0.10187830775976181,
+      "learning_rate": 4.2802155290848133e-07,
+      "loss": 0.0885,
+      "mean_token_accuracy": 0.9753796458244324,
+      "step": 2115
+    },
+    {
+      "epoch": 8.743801652892563,
+      "grad_norm": 0.09098262339830399,
+      "learning_rate": 4.2525987087023433e-07,
+      "loss": 0.0822,
+      "mean_token_accuracy": 0.9769821166992188,
+      "step": 2116
+    },
+    {
+      "epoch": 8.74793388429752,
+      "grad_norm": 0.08996855467557907,
+      "learning_rate": 4.225067313944703e-07,
+      "loss": 0.097,
+      "mean_token_accuracy": 0.9690431356430054,
+      "step": 2117
+    },
+    {
+      "epoch": 8.75206611570248,
+      "grad_norm": 0.09314204007387161,
+      "learning_rate": 4.1976213962221513e-07,
+      "loss": 0.0865,
+      "mean_token_accuracy": 0.9770414233207703,
+      "step": 2118
+    },
+    {
+      "epoch": 8.756198347107437,
+      "grad_norm": 0.10382431000471115,
+      "learning_rate": 4.1702610067853756e-07,
+      "loss": 0.1087,
+      "mean_token_accuracy": 0.9670014381408691,
+      "step": 2119
+    },
+    {
+      "epoch": 8.760330578512397,
+      "grad_norm": 0.08995066583156586,
+      "learning_rate": 4.1429861967253073e-07,
+      "loss": 0.102,
+      "mean_token_accuracy": 0.9701564311981201,
+      "step": 2120
+    },
+    {
+      "epoch": 8.764462809917354,
+      "grad_norm": 0.11203364282846451,
+      "learning_rate": 4.1157970169731057e-07,
+      "loss": 0.1025,
+      "mean_token_accuracy": 0.9696673154830933,
+      "step": 2121
+    },
+    {
+      "epoch": 8.768595041322314,
+      "grad_norm": 0.111559197306633,
+      "learning_rate": 4.088693518300019e-07,
+      "loss": 0.1204,
+      "mean_token_accuracy": 0.9662195444107056,
+      "step": 2122
+    },
+    {
+      "epoch": 8.772727272727273,
+      "grad_norm": 0.10789839178323746,
+      "learning_rate": 4.0616757513173123e-07,
+      "loss": 0.1253,
+      "mean_token_accuracy": 0.9634451866149902,
+      "step": 2123
+    },
+    {
+      "epoch": 8.776859504132231,
+      "grad_norm": 0.0962676927447319,
+      "learning_rate": 4.0347437664761237e-07,
+      "loss": 0.1044,
+      "mean_token_accuracy": 0.9675620794296265,
+      "step": 2124
+    },
+    {
+      "epoch": 8.78099173553719,
+      "grad_norm": 0.09367375820875168,
+      "learning_rate": 4.0078976140674465e-07,
+      "loss": 0.0944,
+      "mean_token_accuracy": 0.9761354923248291,
+      "step": 2125
+    },
+    {
+      "epoch": 8.785123966942148,
+      "grad_norm": 0.09414532035589218,
+      "learning_rate": 3.981137344221986e-07,
+      "loss": 0.0882,
+      "mean_token_accuracy": 0.9753566980361938,
+      "step": 2126
+    },
+    {
+      "epoch": 8.789256198347108,
+      "grad_norm": 0.10240423679351807,
+      "learning_rate": 3.9544630069100644e-07,
+      "loss": 0.0886,
+      "mean_token_accuracy": 0.9755526781082153,
+      "step": 2127
+    },
+    {
+      "epoch": 8.793388429752067,
+      "grad_norm": 0.10124680399894714,
+      "learning_rate": 3.9278746519415655e-07,
+      "loss": 0.0851,
+      "mean_token_accuracy": 0.9779295921325684,
+      "step": 2128
+    },
+    {
+      "epoch": 8.797520661157025,
+      "grad_norm": 0.11509440094232559,
+      "learning_rate": 3.901372328965769e-07,
+      "loss": 0.0877,
+      "mean_token_accuracy": 0.9781274795532227,
+      "step": 2129
+    },
+    {
+      "epoch": 8.801652892561984,
+      "grad_norm": 0.12082704156637192,
+      "learning_rate": 3.874956087471354e-07,
+      "loss": 0.108,
+      "mean_token_accuracy": 0.9729946255683899,
+      "step": 2130
+    },
+    {
+      "epoch": 8.805785123966942,
+      "grad_norm": 0.0965445339679718,
+      "learning_rate": 3.8486259767862243e-07,
+      "loss": 0.0809,
+      "mean_token_accuracy": 0.9787408113479614,
+      "step": 2131
+    },
+    {
+      "epoch": 8.809917355371901,
+      "grad_norm": 0.11878959834575653,
+      "learning_rate": 3.822382046077483e-07,
+      "loss": 0.1459,
+      "mean_token_accuracy": 0.9578744769096375,
+      "step": 2132
+    },
+    {
+      "epoch": 8.814049586776859,
+      "grad_norm": 0.10381490737199783,
+      "learning_rate": 3.7962243443512627e-07,
+      "loss": 0.0811,
+      "mean_token_accuracy": 0.9788123965263367,
+      "step": 2133
+    },
+    {
+      "epoch": 8.818181818181818,
+      "grad_norm": 0.11626556515693665,
+      "learning_rate": 3.7701529204526856e-07,
+      "loss": 0.1372,
+      "mean_token_accuracy": 0.9591605067253113,
+      "step": 2134
+    },
+    {
+      "epoch": 8.822314049586776,
+      "grad_norm": 0.10921085625886917,
+      "learning_rate": 3.744167823065814e-07,
+      "loss": 0.0944,
+      "mean_token_accuracy": 0.9741052985191345,
+      "step": 2135
+    },
+    {
+      "epoch": 8.826446280991735,
+      "grad_norm": 0.1696995347738266,
+      "learning_rate": 3.718269100713445e-07,
+      "loss": 0.1855,
+      "mean_token_accuracy": 0.9409846663475037,
+      "step": 2136
+    },
+    {
+      "epoch": 8.830578512396695,
+      "grad_norm": 0.06852439790964127,
+      "learning_rate": 3.692456801757133e-07,
+      "loss": 0.2206,
+      "mean_token_accuracy": 0.9229573011398315,
+      "step": 2137
+    },
+    {
+      "epoch": 8.834710743801653,
+      "grad_norm": 0.07205780595541,
+      "learning_rate": 3.6667309743970147e-07,
+      "loss": 0.2139,
+      "mean_token_accuracy": 0.9254477024078369,
+      "step": 2138
+    },
+    {
+      "epoch": 8.838842975206612,
+      "grad_norm": 0.07377646863460541,
+      "learning_rate": 3.641091666671781e-07,
+      "loss": 0.1921,
+      "mean_token_accuracy": 0.9347940683364868,
+      "step": 2139
+    },
+    {
+      "epoch": 8.84297520661157,
+      "grad_norm": 0.08118410408496857,
+      "learning_rate": 3.615538926458556e-07,
+      "loss": 0.2315,
+      "mean_token_accuracy": 0.9196543097496033,
+      "step": 2140
+    },
+    {
+      "epoch": 8.847107438016529,
+      "grad_norm": 0.0802064910531044,
+      "learning_rate": 3.5900728014728046e-07,
+      "loss": 0.2082,
+      "mean_token_accuracy": 0.9265360832214355,
+      "step": 2141
+    },
+    {
+      "epoch": 8.851239669421489,
+      "grad_norm": 0.07559309154748917,
+      "learning_rate": 3.564693339268266e-07,
+      "loss": 0.2115,
+      "mean_token_accuracy": 0.9263385534286499,
+      "step": 2142
+    },
+    {
+      "epoch": 8.855371900826446,
+      "grad_norm": 0.07263598591089249,
+      "learning_rate": 3.539400587236824e-07,
+      "loss": 0.1836,
+      "mean_token_accuracy": 0.9360730648040771,
+      "step": 2143
+    },
+    {
+      "epoch": 8.859504132231406,
+      "grad_norm": 0.0771942138671875,
+      "learning_rate": 3.514194592608489e-07,
+      "loss": 0.1768,
+      "mean_token_accuracy": 0.9406779408454895,
+      "step": 2144
+    },
+    {
+      "epoch": 8.863636363636363,
+      "grad_norm": 0.1021052822470665,
+      "learning_rate": 3.4890754024512254e-07,
+      "loss": 0.2382,
+      "mean_token_accuracy": 0.9189664721488953,
+      "step": 2145
+    },
+    {
+      "epoch": 8.867768595041323,
+      "grad_norm": 0.07152920961380005,
+      "learning_rate": 3.464043063670941e-07,
+      "loss": 0.176,
+      "mean_token_accuracy": 0.9418604373931885,
+      "step": 2146
+    },
+    {
+      "epoch": 8.87190082644628,
+      "grad_norm": 0.09480854123830795,
+      "learning_rate": 3.439097623011328e-07,
+      "loss": 0.227,
+      "mean_token_accuracy": 0.9247565865516663,
+      "step": 2147
+    },
+    {
+      "epoch": 8.87603305785124,
+      "grad_norm": 0.06957484036684036,
+      "learning_rate": 3.41423912705382e-07,
+      "loss": 0.1406,
+      "mean_token_accuracy": 0.9543790221214294,
+      "step": 2148
+    },
+    {
+      "epoch": 8.880165289256198,
+      "grad_norm": 0.08442248404026031,
+      "learning_rate": 3.389467622217524e-07,
+      "loss": 0.1655,
+      "mean_token_accuracy": 0.9483348727226257,
+      "step": 2149
+    },
+    {
+      "epoch": 8.884297520661157,
+      "grad_norm": 0.08726052194833755,
+      "learning_rate": 3.3647831547590714e-07,
+      "loss": 0.171,
+      "mean_token_accuracy": 0.9444353580474854,
+      "step": 2150
+    },
+    {
+      "epoch": 8.888429752066116,
+      "grad_norm": 0.0831826776266098,
+      "learning_rate": 3.340185770772586e-07,
+      "loss": 0.1653,
+      "mean_token_accuracy": 0.9473860859870911,
+      "step": 2151
+    },
+    {
+      "epoch": 8.892561983471074,
+      "grad_norm": 0.07340402901172638,
+      "learning_rate": 3.3156755161895647e-07,
+      "loss": 0.126,
+      "mean_token_accuracy": 0.9628297090530396,
+      "step": 2152
+    },
+    {
+      "epoch": 8.896694214876034,
+      "grad_norm": 0.08021709322929382,
+      "learning_rate": 3.2912524367788077e-07,
+      "loss": 0.1286,
+      "mean_token_accuracy": 0.9604715704917908,
+      "step": 2153
+    },
+    {
+      "epoch": 8.900826446280991,
+      "grad_norm": 0.09082391858100891,
+      "learning_rate": 3.26691657814634e-07,
+      "loss": 0.1633,
+      "mean_token_accuracy": 0.9478123188018799,
+      "step": 2154
+    },
+    {
+      "epoch": 8.90495867768595,
+      "grad_norm": 0.07327866554260254,
+      "learning_rate": 3.2426679857353205e-07,
+      "loss": 0.1074,
+      "mean_token_accuracy": 0.9684982895851135,
+      "step": 2155
+    },
+    {
+      "epoch": 8.909090909090908,
+      "grad_norm": 0.10244060307741165,
+      "learning_rate": 3.2185067048259245e-07,
+      "loss": 0.2105,
+      "mean_token_accuracy": 0.9306122660636902,
+      "step": 2156
+    },
+    {
+      "epoch": 8.913223140495868,
+      "grad_norm": 0.10891727358102798,
+      "learning_rate": 3.194432780535295e-07,
+      "loss": 0.1737,
+      "mean_token_accuracy": 0.9447806477546692,
+      "step": 2157
+    },
+    {
+      "epoch": 8.917355371900827,
+      "grad_norm": 0.08316652476787567,
+      "learning_rate": 3.1704462578174945e-07,
+      "loss": 0.0987,
+      "mean_token_accuracy": 0.9734411239624023,
+      "step": 2158
+    },
+    {
+      "epoch": 8.921487603305785,
+      "grad_norm": 0.09768752753734589,
+      "learning_rate": 3.146547181463322e-07,
+      "loss": 0.1241,
+      "mean_token_accuracy": 0.9615846276283264,
+      "step": 2159
+    },
+    {
+      "epoch": 8.925619834710744,
+      "grad_norm": 0.09764862805604935,
+      "learning_rate": 3.1227355961003183e-07,
+      "loss": 0.1175,
+      "mean_token_accuracy": 0.962368905544281,
+      "step": 2160
+    },
+    {
+      "epoch": 8.929752066115702,
+      "grad_norm": 0.09442981332540512,
+      "learning_rate": 3.099011546192621e-07,
+      "loss": 0.1053,
+      "mean_token_accuracy": 0.9669612646102905,
+      "step": 2161
+    },
+    {
+      "epoch": 8.933884297520661,
+      "grad_norm": 0.08316774666309357,
+      "learning_rate": 3.075375076040943e-07,
+      "loss": 0.092,
+      "mean_token_accuracy": 0.971761167049408,
+      "step": 2162
+    },
+    {
+      "epoch": 8.938016528925619,
+      "grad_norm": 0.09355759620666504,
+      "learning_rate": 3.051826229782451e-07,
+      "loss": 0.1264,
+      "mean_token_accuracy": 0.9610360860824585,
+      "step": 2163
+    },
+    {
+      "epoch": 8.942148760330578,
+      "grad_norm": 0.08833235502243042,
+      "learning_rate": 3.0283650513906524e-07,
+      "loss": 0.0889,
+      "mean_token_accuracy": 0.9773091673851013,
+      "step": 2164
+    },
+    {
+      "epoch": 8.946280991735538,
+      "grad_norm": 0.1082148551940918,
+      "learning_rate": 3.0049915846753983e-07,
+      "loss": 0.0873,
+      "mean_token_accuracy": 0.9752772450447083,
+      "step": 2165
+    },
+    {
+      "epoch": 8.950413223140496,
+      "grad_norm": 0.09726337343454361,
+      "learning_rate": 2.981705873282714e-07,
+      "loss": 0.0871,
+      "mean_token_accuracy": 0.97633957862854,
+      "step": 2166
+    },
+    {
+      "epoch": 8.954545454545455,
+      "grad_norm": 0.09049960970878601,
+      "learning_rate": 2.9585079606947843e-07,
+      "loss": 0.1021,
+      "mean_token_accuracy": 0.9693925380706787,
+      "step": 2167
+    },
+    {
+      "epoch": 8.958677685950413,
+      "grad_norm": 0.10062138736248016,
+      "learning_rate": 2.9353978902298296e-07,
+      "loss": 0.1027,
+      "mean_token_accuracy": 0.9701105952262878,
+      "step": 2168
+    },
+    {
+      "epoch": 8.962809917355372,
+      "grad_norm": 0.09967434406280518,
+      "learning_rate": 2.9123757050420476e-07,
+      "loss": 0.106,
+      "mean_token_accuracy": 0.9688540101051331,
+      "step": 2169
+    },
+    {
+      "epoch": 8.96694214876033,
+      "grad_norm": 0.08865738660097122,
+      "learning_rate": 2.889441448121516e-07,
+      "loss": 0.1013,
+      "mean_token_accuracy": 0.970402717590332,
+      "step": 2170
+    },
+    {
+      "epoch": 8.97107438016529,
+      "grad_norm": 0.11323466897010803,
+      "learning_rate": 2.8665951622941225e-07,
+      "loss": 0.138,
+      "mean_token_accuracy": 0.9595091938972473,
+      "step": 2171
+    },
+    {
+      "epoch": 8.975206611570249,
+      "grad_norm": 0.08644384145736694,
+      "learning_rate": 2.843836890221502e-07,
+      "loss": 0.0865,
+      "mean_token_accuracy": 0.9795562028884888,
+      "step": 2172
+    },
+    {
+      "epoch": 8.979338842975206,
+      "grad_norm": 0.10215216130018234,
+      "learning_rate": 2.821166674400905e-07,
+      "loss": 0.1145,
+      "mean_token_accuracy": 0.9649077653884888,
+      "step": 2173
+    },
+    {
+      "epoch": 8.983471074380166,
+      "grad_norm": 0.11719004064798355,
+      "learning_rate": 2.798584557165185e-07,
+      "loss": 0.1057,
+      "mean_token_accuracy": 0.969704806804657,
+      "step": 2174
+    },
+    {
+      "epoch": 8.987603305785123,
+      "grad_norm": 0.10035425424575806,
+      "learning_rate": 2.7760905806826554e-07,
+      "loss": 0.095,
+      "mean_token_accuracy": 0.9760020971298218,
+      "step": 2175
+    },
+    {
+      "epoch": 8.991735537190083,
+      "grad_norm": 0.12130289524793625,
+      "learning_rate": 2.753684786957067e-07,
+      "loss": 0.1554,
+      "mean_token_accuracy": 0.951777994632721,
+      "step": 2176
+    },
+    {
+      "epoch": 8.99586776859504,
+      "grad_norm": 0.0855918899178505,
+      "learning_rate": 2.7313672178274906e-07,
+      "loss": 0.0821,
+      "mean_token_accuracy": 0.9829513430595398,
+      "step": 2177
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.12811078131198883,
+      "learning_rate": 2.7091379149682683e-07,
+      "loss": 0.1026,
+      "mean_token_accuracy": 0.973548173904419,
+      "step": 2178
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.1644172966480255,
+      "eval_mean_token_accuracy": 0.9770992398262024,
+      "eval_runtime": 0.2104,
+      "eval_samples_per_second": 23.768,
+      "eval_steps_per_second": 4.754,
+      "step": 2178
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.0074075399098204e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null