Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2e51f5f4538350a6f179a87f417f031cb7af5887e3e1f94d6bd2db7e520bf97
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c60584909ab9c079a2d2f45fa91ef8c10998451e936862f3bc5e7905a7d9083
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e0dd8834ca5bb294a1b1e14604fca66afffc728d7412e7bd4ee6b6b50c07a09
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e81045a6f90e100c1615eb826d237e8be40972c91885415e3978461b8b16b5e
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bddb512bf47500fb7a32bb11cfef90381320b777d157329304a0456e3ae85973
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a2a0566251f47efc458496d1238069ef27f8f65f7170968d4facb52dab2120b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb15fdd4c0ab874f4afa0ea95fae119cbc74554df5fbe92ab825fe27063eaa04
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.5051064491271973,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.056818181818181816,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 109.08,
       "eval_steps_per_second": 13.69,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1024023922212864.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.4689817428588867,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.11363636363636363,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 109.08,
       "eval_steps_per_second": 13.69,
       "step": 25
+    },
+    {
+      "epoch": 0.05909090909090909,
+      "grad_norm": 2.0927062034606934,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 2.2257,
+      "step": 26
+    },
+    {
+      "epoch": 0.06136363636363636,
+      "grad_norm": 2.312185049057007,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 2.1917,
+      "step": 27
+    },
+    {
+      "epoch": 0.06363636363636363,
+      "grad_norm": 2.3717732429504395,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 2.2485,
+      "step": 28
+    },
+    {
+      "epoch": 0.0659090909090909,
+      "grad_norm": 2.3789658546447754,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 2.3248,
+      "step": 29
+    },
+    {
+      "epoch": 0.06818181818181818,
+      "grad_norm": 2.333639621734619,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 2.2749,
+      "step": 30
+    },
+    {
+      "epoch": 0.07045454545454545,
+      "grad_norm": 2.7359251976013184,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 2.4323,
+      "step": 31
+    },
+    {
+      "epoch": 0.07272727272727272,
+      "grad_norm": 2.6724472045898438,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.6001,
+      "step": 32
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 2.704455614089966,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 2.3212,
+      "step": 33
+    },
+    {
+      "epoch": 0.07727272727272727,
+      "grad_norm": 2.7967569828033447,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.245,
+      "step": 34
+    },
+    {
+      "epoch": 0.07954545454545454,
+      "grad_norm": 2.7874977588653564,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.0644,
+      "step": 35
+    },
+    {
+      "epoch": 0.08181818181818182,
+      "grad_norm": 3.0134224891662598,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 2.2045,
+      "step": 36
+    },
+    {
+      "epoch": 0.08409090909090909,
+      "grad_norm": 3.377096652984619,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 2.0878,
+      "step": 37
+    },
+    {
+      "epoch": 0.08636363636363636,
+      "grad_norm": 3.990339517593384,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 2.3226,
+      "step": 38
+    },
+    {
+      "epoch": 0.08863636363636364,
+      "grad_norm": 3.2142210006713867,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 2.0823,
+      "step": 39
+    },
+    {
+      "epoch": 0.09090909090909091,
+      "grad_norm": 3.8085083961486816,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 2.4723,
+      "step": 40
+    },
+    {
+      "epoch": 0.09318181818181819,
+      "grad_norm": 3.704538106918335,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 2.1217,
+      "step": 41
+    },
+    {
+      "epoch": 0.09545454545454546,
+      "grad_norm": 3.812995195388794,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 1.9568,
+      "step": 42
+    },
+    {
+      "epoch": 0.09772727272727273,
+      "grad_norm": 4.169566631317139,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 2.2289,
+      "step": 43
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 4.201821327209473,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 2.184,
+      "step": 44
+    },
+    {
+      "epoch": 0.10227272727272728,
+      "grad_norm": 4.2996907234191895,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 2.4758,
+      "step": 45
+    },
+    {
+      "epoch": 0.10454545454545454,
+      "grad_norm": 4.644790172576904,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 2.1504,
+      "step": 46
+    },
+    {
+      "epoch": 0.10681818181818181,
+      "grad_norm": 5.309967041015625,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 2.0347,
+      "step": 47
+    },
+    {
+      "epoch": 0.10909090909090909,
+      "grad_norm": 7.990983009338379,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 2.2895,
+      "step": 48
+    },
+    {
+      "epoch": 0.11136363636363636,
+      "grad_norm": 10.469155311584473,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 2.84,
+      "step": 49
+    },
+    {
+      "epoch": 0.11363636363636363,
+      "grad_norm": 20.095691680908203,
+      "learning_rate": 0.0,
+      "loss": 3.1589,
+      "step": 50
+    },
+    {
+      "epoch": 0.11363636363636363,
+      "eval_loss": 2.4689817428588867,
+      "eval_runtime": 6.7551,
+      "eval_samples_per_second": 109.694,
+      "eval_steps_per_second": 13.767,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1990084226187264.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null