Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ecebc9fd9c0270d4af5ffbd4a53066c70b3ae60b25aecf5f845d586e0780d4b
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:6040de2f26ada3d5fad8f31b76d301218640cb36d86cc8ca15aecc196a6d0472
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5563f6f5b550906c52015dc91a9c62954bfd6ad5c0a0a50ee208917e5ae68e36
 size 591208618

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b32f5d3e4f02a546825ebdb9c51050b058164190857a929e7ae44018bcbf36c
 size 591208618

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61a1376c44ff39c239fd1cdd69a4f9c61362956e696de95463462b6f930f2288
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:def1384904803df0cc1c175855e87221b2861c262b2bea0032e3d7cc4ca9ee9c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1f8727232a90a6db300fcb2bdb06d9b7cd6b135efb90aa1d4dcb2f1febaca86
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed47ba34ee61eca082fa0183bd896d41774544d93f1490e0c3f0abadca82f2f6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3898102045059204,
-  "best_model_checkpoint": "miner_id_24/checkpoint-1500",
-  "epoch": 0.241196333815726,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -249,6 +249,84 @@
       "eval_samples_per_second": 24.273,
       "eval_steps_per_second": 6.069,
       "step": 1500
     }
   ],
   "logging_steps": 50,
@@ -272,12 +350,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.0821709602816e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3815141916275024,
+  "best_model_checkpoint": "miner_id_24/checkpoint-2000",
+  "epoch": 0.32159511175430133,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.273,
       "eval_steps_per_second": 6.069,
       "step": 1500
+    },
+    {
+      "epoch": 0.24923621160958354,
+      "grad_norm": 0.6956173777580261,
+      "learning_rate": 2.8013265468648052e-05,
+      "loss": 1.398,
+      "step": 1550
+    },
+    {
+      "epoch": 0.25727608940344104,
+      "grad_norm": 0.8307960629463196,
+      "learning_rate": 2.2351106003982295e-05,
+      "loss": 1.38,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2653159671972986,
+      "grad_norm": 0.6814916729927063,
+      "learning_rate": 1.7260353304171974e-05,
+      "loss": 1.4301,
+      "step": 1650
+    },
+    {
+      "epoch": 0.2733558449911561,
+      "grad_norm": 0.8441957235336304,
+      "learning_rate": 1.277578237211217e-05,
+      "loss": 1.422,
+      "step": 1700
+    },
+    {
+      "epoch": 0.2813957227850137,
+      "grad_norm": 0.7750621438026428,
+      "learning_rate": 8.928027374563904e-06,
+      "loss": 1.3458,
+      "step": 1750
+    },
+    {
+      "epoch": 0.2894356005788712,
+      "grad_norm": 0.7339411973953247,
+      "learning_rate": 5.743372379732728e-06,
+      "loss": 1.3787,
+      "step": 1800
+    },
+    {
+      "epoch": 0.29747547837272875,
+      "grad_norm": 0.7997561693191528,
+      "learning_rate": 3.2435718104309803e-06,
+      "loss": 1.3861,
+      "step": 1850
+    },
+    {
+      "epoch": 0.30551535616658626,
+      "grad_norm": 0.7548067569732666,
+      "learning_rate": 1.4457018393114339e-06,
+      "loss": 1.3984,
+      "step": 1900
+    },
+    {
+      "epoch": 0.3135552339604438,
+      "grad_norm": 0.824309766292572,
+      "learning_rate": 3.620437412929962e-07,
+      "loss": 1.3905,
+      "step": 1950
+    },
+    {
+      "epoch": 0.32159511175430133,
+      "grad_norm": 0.7960425019264221,
+      "learning_rate": 0.0,
+      "loss": 1.3743,
+      "step": 2000
+    },
+    {
+      "epoch": 0.32159511175430133,
+      "eval_loss": 1.3815141916275024,
+      "eval_runtime": 431.4937,
+      "eval_samples_per_second": 24.276,
+      "eval_steps_per_second": 6.07,
+      "step": 2000
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.4428946137088e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null