Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c027dfb2dbfd104e7a1c9635b43a433f2c3324f5993a92a3d8df8ab0750434e
 size 78207176

 version https://git-lfs.github.com/spec/v1
+oid sha256:17dd12ccc4edab5612b37b8279b9c38369e73abaecd142f86e6526c852b46400
 size 78207176

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc257ec324b14a41034c9d2596eda899ccae8d6d603d9bf9cee562e02a582807
 size 40177764

 version https://git-lfs.github.com/spec/v1
+oid sha256:80d185261203b02163bf268d37dd9685680ec8577214859703dca23446c018de
 size 40177764

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fec91de91e5f57becbf1d6a75e5476fb68ea566628ed5fa952fa2ebe50e8eb6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:88dbc236c500062b328da7c75fdeb7d199dd658d4e28f80b5279062b2466234b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc4a786186a574bdc543ff4b4563aab7c5e0b442c74c85899bb42a25553c5d0c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca62d85cf5423834480d3c20680f93b185c8e6574a8a14021d285e0b05c7449f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.16181236505508423,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 1.1513409961685823,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 64.297,
       "eval_steps_per_second": 16.074,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1470,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5420245979234304.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.15735851228237152,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 1.5344827586206895,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 64.297,
       "eval_steps_per_second": 16.074,
       "step": 150
+    },
+    {
+      "epoch": 1.1590038314176245,
+      "grad_norm": 0.09190652519464493,
+      "learning_rate": 9.319397726443026e-06,
+      "loss": 0.08,
+      "step": 151
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "grad_norm": 0.08560865372419357,
+      "learning_rate": 8.962896471825342e-06,
+      "loss": 0.1018,
+      "step": 152
+    },
+    {
+      "epoch": 1.1743295019157087,
+      "grad_norm": 0.09749860316514969,
+      "learning_rate": 8.61214655125809e-06,
+      "loss": 0.0997,
+      "step": 153
+    },
+    {
+      "epoch": 1.181992337164751,
+      "grad_norm": 0.0863884836435318,
+      "learning_rate": 8.267243856267331e-06,
+      "loss": 0.1043,
+      "step": 154
+    },
+    {
+      "epoch": 1.1896551724137931,
+      "grad_norm": 0.09674271196126938,
+      "learning_rate": 7.928282679806052e-06,
+      "loss": 0.0869,
+      "step": 155
+    },
+    {
+      "epoch": 1.1973180076628354,
+      "grad_norm": 0.09813065826892853,
+      "learning_rate": 7.595355690475393e-06,
+      "loss": 0.115,
+      "step": 156
+    },
+    {
+      "epoch": 1.2049808429118773,
+      "grad_norm": 0.11123661696910858,
+      "learning_rate": 7.268553907189964e-06,
+      "loss": 0.1153,
+      "step": 157
+    },
+    {
+      "epoch": 1.2126436781609196,
+      "grad_norm": 0.1099216416478157,
+      "learning_rate": 6.947966674294236e-06,
+      "loss": 0.1313,
+      "step": 158
+    },
+    {
+      "epoch": 1.2203065134099618,
+      "grad_norm": 0.12104592472314835,
+      "learning_rate": 6.6336816371366305e-06,
+      "loss": 0.175,
+      "step": 159
+    },
+    {
+      "epoch": 1.2279693486590038,
+      "grad_norm": 0.14585037529468536,
+      "learning_rate": 6.325784718108196e-06,
+      "loss": 0.1442,
+      "step": 160
+    },
+    {
+      "epoch": 1.235632183908046,
+      "grad_norm": 0.162072092294693,
+      "learning_rate": 6.0243600931522595e-06,
+      "loss": 0.1529,
+      "step": 161
+    },
+    {
+      "epoch": 1.2432950191570882,
+      "grad_norm": 0.22925086319446564,
+      "learning_rate": 5.72949016875158e-06,
+      "loss": 0.1984,
+      "step": 162
+    },
+    {
+      "epoch": 1.2509578544061304,
+      "grad_norm": 0.13616731762886047,
+      "learning_rate": 5.44125555939923e-06,
+      "loss": 0.2254,
+      "step": 163
+    },
+    {
+      "epoch": 1.2586206896551724,
+      "grad_norm": 0.14947763085365295,
+      "learning_rate": 5.159735065559399e-06,
+      "loss": 0.379,
+      "step": 164
+    },
+    {
+      "epoch": 1.2662835249042146,
+      "grad_norm": 0.10282624512910843,
+      "learning_rate": 4.885005652124144e-06,
+      "loss": 0.3126,
+      "step": 165
+    },
+    {
+      "epoch": 1.2739463601532566,
+      "grad_norm": 0.12892718613147736,
+      "learning_rate": 4.617142427371934e-06,
+      "loss": 0.4403,
+      "step": 166
+    },
+    {
+      "epoch": 1.2816091954022988,
+      "grad_norm": 0.09580893069505692,
+      "learning_rate": 4.3562186224338265e-06,
+      "loss": 0.2804,
+      "step": 167
+    },
+    {
+      "epoch": 1.289272030651341,
+      "grad_norm": 0.07744543999433517,
+      "learning_rate": 4.102305571272783e-06,
+      "loss": 0.2067,
+      "step": 168
+    },
+    {
+      "epoch": 1.2969348659003832,
+      "grad_norm": 0.08755867183208466,
+      "learning_rate": 3.855472691181678e-06,
+      "loss": 0.2504,
+      "step": 169
+    },
+    {
+      "epoch": 1.3045977011494254,
+      "grad_norm": 0.07829572260379791,
+      "learning_rate": 3.615787463805331e-06,
+      "loss": 0.1686,
+      "step": 170
+    },
+    {
+      "epoch": 1.3122605363984674,
+      "grad_norm": 0.06435937434434891,
+      "learning_rate": 3.383315416691646e-06,
+      "loss": 0.1323,
+      "step": 171
+    },
+    {
+      "epoch": 1.3199233716475096,
+      "grad_norm": 0.11443574726581573,
+      "learning_rate": 3.158120105377096e-06,
+      "loss": 0.1042,
+      "step": 172
+    },
+    {
+      "epoch": 1.3275862068965516,
+      "grad_norm": 0.0844988003373146,
+      "learning_rate": 2.940263096011233e-06,
+      "loss": 0.1191,
+      "step": 173
+    },
+    {
+      "epoch": 1.3352490421455938,
+      "grad_norm": 0.07520398497581482,
+      "learning_rate": 2.729803948525125e-06,
+      "loss": 0.0742,
+      "step": 174
+    },
+    {
+      "epoch": 1.342911877394636,
+      "grad_norm": 0.08877892047166824,
+      "learning_rate": 2.526800200348275e-06,
+      "loss": 0.1036,
+      "step": 175
+    },
+    {
+      "epoch": 1.3505747126436782,
+      "grad_norm": 0.09079942852258682,
+      "learning_rate": 2.3313073506784575e-06,
+      "loss": 0.1974,
+      "step": 176
+    },
+    {
+      "epoch": 1.3582375478927204,
+      "grad_norm": 0.06422315537929535,
+      "learning_rate": 2.143378845308791e-06,
+      "loss": 0.0846,
+      "step": 177
+    },
+    {
+      "epoch": 1.3659003831417624,
+      "grad_norm": 0.08929227292537689,
+      "learning_rate": 1.9630660620161777e-06,
+      "loss": 0.2096,
+      "step": 178
+    },
+    {
+      "epoch": 1.3735632183908046,
+      "grad_norm": 0.0649232268333435,
+      "learning_rate": 1.790418296515165e-06,
+      "loss": 0.0711,
+      "step": 179
+    },
+    {
+      "epoch": 1.3812260536398466,
+      "grad_norm": 0.06585374474525452,
+      "learning_rate": 1.625482748980961e-06,
+      "loss": 0.0756,
+      "step": 180
+    },
+    {
+      "epoch": 1.3888888888888888,
+      "grad_norm": 0.08487678319215775,
+      "learning_rate": 1.4683045111453942e-06,
+      "loss": 0.1589,
+      "step": 181
+    },
+    {
+      "epoch": 1.396551724137931,
+      "grad_norm": 0.08722589910030365,
+      "learning_rate": 1.3189265539692707e-06,
+      "loss": 0.0999,
+      "step": 182
+    },
+    {
+      "epoch": 1.4042145593869733,
+      "grad_norm": 0.066057488322258,
+      "learning_rate": 1.1773897158945557e-06,
+      "loss": 0.0952,
+      "step": 183
+    },
+    {
+      "epoch": 1.4118773946360152,
+      "grad_norm": 0.07314711809158325,
+      "learning_rate": 1.0437326916795432e-06,
+      "loss": 0.0918,
+      "step": 184
+    },
+    {
+      "epoch": 1.4195402298850575,
+      "grad_norm": 0.08497738838195801,
+      "learning_rate": 9.179920218200888e-07,
+      "loss": 0.0882,
+      "step": 185
+    },
+    {
+      "epoch": 1.4272030651340997,
+      "grad_norm": 0.08262482285499573,
+      "learning_rate": 8.002020825598277e-07,
+      "loss": 0.0782,
+      "step": 186
+    },
+    {
+      "epoch": 1.4348659003831417,
+      "grad_norm": 0.10725460946559906,
+      "learning_rate": 6.90395076492022e-07,
+      "loss": 0.1653,
+      "step": 187
+    },
+    {
+      "epoch": 1.4425287356321839,
+      "grad_norm": 0.0954778790473938,
+      "learning_rate": 5.886010237557194e-07,
+      "loss": 0.1031,
+      "step": 188
+    },
+    {
+      "epoch": 1.450191570881226,
+      "grad_norm": 0.08982761204242706,
+      "learning_rate": 4.94847753828529e-07,
+      "loss": 0.0956,
+      "step": 189
+    },
+    {
+      "epoch": 1.4578544061302683,
+      "grad_norm": 0.10045281052589417,
+      "learning_rate": 4.091608979183303e-07,
+      "loss": 0.1225,
+      "step": 190
+    },
+    {
+      "epoch": 1.4655172413793103,
+      "grad_norm": 0.11967014521360397,
+      "learning_rate": 3.315638819559452e-07,
+      "loss": 0.1291,
+      "step": 191
+    },
+    {
+      "epoch": 1.4731800766283525,
+      "grad_norm": 0.15871833264827728,
+      "learning_rate": 2.6207792019074414e-07,
+      "loss": 0.1136,
+      "step": 192
+    },
+    {
+      "epoch": 1.4808429118773947,
+      "grad_norm": 0.15147604048252106,
+      "learning_rate": 2.0072200939085573e-07,
+      "loss": 0.1825,
+      "step": 193
+    },
+    {
+      "epoch": 1.4885057471264367,
+      "grad_norm": 0.19062329828739166,
+      "learning_rate": 1.475129236496575e-07,
+      "loss": 0.176,
+      "step": 194
+    },
+    {
+      "epoch": 1.496168582375479,
+      "grad_norm": 0.10360642522573471,
+      "learning_rate": 1.0246520979990459e-07,
+      "loss": 0.2787,
+      "step": 195
+    },
+    {
+      "epoch": 1.503831417624521,
+      "grad_norm": 0.09995601326227188,
+      "learning_rate": 6.559118343676396e-08,
+      "loss": 0.2528,
+      "step": 196
+    },
+    {
+      "epoch": 1.5114942528735633,
+      "grad_norm": 0.11199713498353958,
+      "learning_rate": 3.690092555085789e-08,
+      "loss": 0.2772,
+      "step": 197
+    },
+    {
+      "epoch": 1.5191570881226055,
+      "grad_norm": 0.09361888468265533,
+      "learning_rate": 1.640227977221853e-08,
+      "loss": 0.2773,
+      "step": 198
+    },
+    {
+      "epoch": 1.5268199233716475,
+      "grad_norm": 0.09406208992004395,
+      "learning_rate": 4.1008502259298755e-09,
+      "loss": 0.2662,
+      "step": 199
+    },
+    {
+      "epoch": 1.5344827586206895,
+      "grad_norm": 0.10898585617542267,
+      "learning_rate": 0.0,
+      "loss": 0.3079,
+      "step": 200
+    },
+    {
+      "epoch": 1.5344827586206895,
+      "eval_loss": 0.15735851228237152,
+      "eval_runtime": 3.4239,
+      "eval_samples_per_second": 64.254,
+      "eval_steps_per_second": 16.064,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7132227890577408.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null