Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +135 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a5e7dea7fe298f2244e4d1bcb914ecc65c16b9a7fbbd7a988143f8098c39aaf
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:5702d846e4f6077640ecdebddad5bc665be8001af6f27480d35f866b61181a9f
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1477cb53e58f7c719ae010191e299f05f66e2e80fae8f908d26e2f5067181df1
 size 170920532

 version https://git-lfs.github.com/spec/v1
+oid sha256:8176bb84759dd32a4242934c26908aeaa8cf1ee315a666aa242e0086d81c72ac
 size 170920532

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a41c5e264f01fb6957f992fd4eb0516dc59794255b639c5ba46d3fc78811a6b8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:56d93664c54172d47deefb6d681c4993e3cf45262d905a17a98a5dc353462021
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd6612e1be5fc1a945d1a2e93ec2df274cca4c095f65d292f5fd095af43ba016
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9636ae38b683f4b5b714bdf172e563b0c593e0efe94f07eea78547963bfbfae
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.6560232639312744,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.4580152671755725,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,135 @@
       "eval_samples_per_second": 7.012,
       "eval_steps_per_second": 1.755,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -296,12 +425,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.717132133543444e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.6095619201660156,
+  "best_model_checkpoint": "miner_id_24/checkpoint-450",
+  "epoch": 0.6870229007633588,
   "eval_steps": 50,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.012,
       "eval_steps_per_second": 1.755,
       "step": 300
+    },
+    {
+      "epoch": 0.4732824427480916,
+      "grad_norm": 1.1040153503417969,
+      "learning_rate": 2.296795912722014e-05,
+      "loss": 3.2846,
+      "step": 310
+    },
+    {
+      "epoch": 0.48854961832061067,
+      "grad_norm": 0.8363544940948486,
+      "learning_rate": 2.0036116674432654e-05,
+      "loss": 3.4512,
+      "step": 320
+    },
+    {
+      "epoch": 0.5038167938931297,
+      "grad_norm": 0.765163779258728,
+      "learning_rate": 1.725696330273575e-05,
+      "loss": 3.6178,
+      "step": 330
+    },
+    {
+      "epoch": 0.5190839694656488,
+      "grad_norm": 0.7469673156738281,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 3.8003,
+      "step": 340
+    },
+    {
+      "epoch": 0.5343511450381679,
+      "grad_norm": 1.1227352619171143,
+      "learning_rate": 1.2212521282287092e-05,
+      "loss": 3.9736,
+      "step": 350
+    },
+    {
+      "epoch": 0.5343511450381679,
+      "eval_loss": 3.635017156600952,
+      "eval_runtime": 157.5605,
+      "eval_samples_per_second": 7.0,
+      "eval_steps_per_second": 1.752,
+      "step": 350
+    },
+    {
+      "epoch": 0.549618320610687,
+      "grad_norm": 1.4024746417999268,
+      "learning_rate": 9.972937953781986e-06,
+      "loss": 3.303,
+      "step": 360
+    },
+    {
+      "epoch": 0.5648854961832062,
+      "grad_norm": 0.6063048839569092,
+      "learning_rate": 7.937323358440935e-06,
+      "loss": 3.4773,
+      "step": 370
+    },
+    {
+      "epoch": 0.5801526717557252,
+      "grad_norm": 0.6280887722969055,
+      "learning_rate": 6.116050521637218e-06,
+      "loss": 3.6061,
+      "step": 380
+    },
+    {
+      "epoch": 0.5954198473282443,
+      "grad_norm": 0.9937138557434082,
+      "learning_rate": 4.5184002322740785e-06,
+      "loss": 3.8028,
+      "step": 390
+    },
+    {
+      "epoch": 0.6106870229007634,
+      "grad_norm": 0.5624496340751648,
+      "learning_rate": 3.1525137500119207e-06,
+      "loss": 3.9382,
+      "step": 400
+    },
+    {
+      "epoch": 0.6106870229007634,
+      "eval_loss": 3.6097166538238525,
+      "eval_runtime": 157.2981,
+      "eval_samples_per_second": 7.012,
+      "eval_steps_per_second": 1.755,
+      "step": 400
+    },
+    {
+      "epoch": 0.6259541984732825,
+      "grad_norm": 0.7010018825531006,
+      "learning_rate": 2.0253513192751373e-06,
+      "loss": 3.2375,
+      "step": 410
+    },
+    {
+      "epoch": 0.6412213740458015,
+      "grad_norm": 0.677352249622345,
+      "learning_rate": 1.1426567014420297e-06,
+      "loss": 3.4612,
+      "step": 420
+    },
+    {
+      "epoch": 0.6564885496183206,
+      "grad_norm": 0.6535240411758423,
+      "learning_rate": 5.089279059533658e-07,
+      "loss": 3.624,
+      "step": 430
+    },
+    {
+      "epoch": 0.6717557251908397,
+      "grad_norm": 0.7329846620559692,
+      "learning_rate": 1.2739426948732424e-07,
+      "loss": 3.7894,
+      "step": 440
+    },
+    {
+      "epoch": 0.6870229007633588,
+      "grad_norm": 0.5955124497413635,
+      "learning_rate": 0.0,
+      "loss": 3.9668,
+      "step": 450
+    },
+    {
+      "epoch": 0.6870229007633588,
+      "eval_loss": 3.6095619201660156,
+      "eval_runtime": 157.5572,
+      "eval_samples_per_second": 7.001,
+      "eval_steps_per_second": 1.752,
+      "step": 450
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.3085023330967224e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null