Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3903b5024dc5f0d8b8a92afcd0bc0705ec18ecf50f06a8aa9c295580586eed35
 size 550593184

 version https://git-lfs.github.com/spec/v1
+oid sha256:c152cb6a91e6eb19cce5696bb5aab7af49b1436d63206846d7950a059f6829cc
 size 550593184

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1305feada2e21237b6b96d8fdac7c8b019d61f4f01ce1a6acc73cb4f4e23185b
-size 280341460

 version https://git-lfs.github.com/spec/v1
+oid sha256:61f1d7db0293fb74147f7fe567624adc37460bac20ea378baaff44290172671e
+size 280342100

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fb9850f80127889f9cca1b5407738ecf32e2907f409d68234d66eb9d18ab953
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:30497404fbe87652d1676a91ddfb5d898aa726c54fd96fe0a00ea56154a09678
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc33e131fa6defcf31352ebc1dc63541771f8d9732b2772a4a16ecb6c33c3697
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd6612e1be5fc1a945d1a2e93ec2df274cca4c095f65d292f5fd095af43ba016
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.30073416233062744,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.04601579875757343,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,135 @@
       "eval_samples_per_second": 7.168,
       "eval_steps_per_second": 1.793,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -172,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.277954354746491e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2922627031803131,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.09203159751514686,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.168,
       "eval_steps_per_second": 1.793,
       "step": 150
+    },
+    {
+      "epoch": 0.049083518674744996,
+      "grad_norm": 0.09948628395795822,
+      "learning_rate": 7.396244933600285e-05,
+      "loss": 0.28,
+      "step": 160
+    },
+    {
+      "epoch": 0.05215123859191656,
+      "grad_norm": 0.10903914272785187,
+      "learning_rate": 7.077075065009433e-05,
+      "loss": 0.3643,
+      "step": 170
+    },
+    {
+      "epoch": 0.05521895850908812,
+      "grad_norm": 0.11725682765245438,
+      "learning_rate": 6.747320897995493e-05,
+      "loss": 0.3636,
+      "step": 180
+    },
+    {
+      "epoch": 0.05828667842625968,
+      "grad_norm": 0.10994742065668106,
+      "learning_rate": 6.408662784207149e-05,
+      "loss": 0.2732,
+      "step": 190
+    },
+    {
+      "epoch": 0.061354398343431246,
+      "grad_norm": 0.251674085855484,
+      "learning_rate": 6.062826447764883e-05,
+      "loss": 0.2081,
+      "step": 200
+    },
+    {
+      "epoch": 0.061354398343431246,
+      "eval_loss": 0.295357346534729,
+      "eval_runtime": 767.7606,
+      "eval_samples_per_second": 7.151,
+      "eval_steps_per_second": 1.788,
+      "step": 200
+    },
+    {
+      "epoch": 0.0644221182606028,
+      "grad_norm": 0.09594530612230301,
+      "learning_rate": 5.7115741913664264e-05,
+      "loss": 0.2597,
+      "step": 210
+    },
+    {
+      "epoch": 0.06748983817777437,
+      "grad_norm": 0.10894957929849625,
+      "learning_rate": 5.3566959159961615e-05,
+      "loss": 0.3608,
+      "step": 220
+    },
+    {
+      "epoch": 0.07055755809494593,
+      "grad_norm": 0.103450708091259,
+      "learning_rate": 5e-05,
+      "loss": 0.3554,
+      "step": 230
+    },
+    {
+      "epoch": 0.07362527801211749,
+      "grad_norm": 0.1029270738363266,
+      "learning_rate": 4.643304084003839e-05,
+      "loss": 0.282,
+      "step": 240
+    },
+    {
+      "epoch": 0.07669299792928906,
+      "grad_norm": 0.35574325919151306,
+      "learning_rate": 4.288425808633575e-05,
+      "loss": 0.2095,
+      "step": 250
+    },
+    {
+      "epoch": 0.07669299792928906,
+      "eval_loss": 0.29382532835006714,
+      "eval_runtime": 766.7704,
+      "eval_samples_per_second": 7.16,
+      "eval_steps_per_second": 1.791,
+      "step": 250
+    },
+    {
+      "epoch": 0.07976071784646062,
+      "grad_norm": 0.08866327255964279,
+      "learning_rate": 3.937173552235117e-05,
+      "loss": 0.2725,
+      "step": 260
+    },
+    {
+      "epoch": 0.08282843776363218,
+      "grad_norm": 0.10799609124660492,
+      "learning_rate": 3.591337215792852e-05,
+      "loss": 0.3543,
+      "step": 270
+    },
+    {
+      "epoch": 0.08589615768080375,
+      "grad_norm": 0.10899989306926727,
+      "learning_rate": 3.2526791020045086e-05,
+      "loss": 0.3616,
+      "step": 280
+    },
+    {
+      "epoch": 0.0889638775979753,
+      "grad_norm": 0.1085992082953453,
+      "learning_rate": 2.9229249349905684e-05,
+      "loss": 0.292,
+      "step": 290
+    },
+    {
+      "epoch": 0.09203159751514686,
+      "grad_norm": 0.2433381974697113,
+      "learning_rate": 2.603755066399718e-05,
+      "loss": 0.2056,
+      "step": 300
+    },
+    {
+      "epoch": 0.09203159751514686,
+      "eval_loss": 0.2922627031803131,
+      "eval_runtime": 766.4427,
+      "eval_samples_per_second": 7.163,
+      "eval_steps_per_second": 1.791,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.56285344058835e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null