Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad7f15aa7cf92ae92aacba4d59c18a316c824b0a86c252777d42fe24882c3f2b
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a5e7dea7fe298f2244e4d1bcb914ecc65c16b9a7fbbd7a988143f8098c39aaf
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7162f7c324b135b25b7c94bf7500e10ee7cdec98014427c18dd7c9433c4facda
-size 170920084

 version https://git-lfs.github.com/spec/v1
+oid sha256:1477cb53e58f7c719ae010191e299f05f66e2e80fae8f908d26e2f5067181df1
+size 170920532

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b067a5979c14304aadd7c21f2a9649c1655c45b1704aec24c06feb0d8680648
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a41c5e264f01fb6957f992fd4eb0516dc59794255b639c5ba46d3fc78811a6b8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc33e131fa6defcf31352ebc1dc63541771f8d9732b2772a4a16ecb6c33c3697
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd6612e1be5fc1a945d1a2e93ec2df274cca4c095f65d292f5fd095af43ba016
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.6887431144714355,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.22900763358778625,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,135 @@
       "eval_samples_per_second": 7.004,
       "eval_steps_per_second": 1.753,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -172,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.356701040641311e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.6560232639312744,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.4580152671755725,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.004,
       "eval_steps_per_second": 1.753,
       "step": 150
+    },
+    {
+      "epoch": 0.24427480916030533,
+      "grad_norm": 0.778315544128418,
+      "learning_rate": 7.396244933600285e-05,
+      "loss": 3.26,
+      "step": 160
+    },
+    {
+      "epoch": 0.2595419847328244,
+      "grad_norm": 0.7379830479621887,
+      "learning_rate": 7.077075065009433e-05,
+      "loss": 3.4725,
+      "step": 170
+    },
+    {
+      "epoch": 0.2748091603053435,
+      "grad_norm": 0.6918920278549194,
+      "learning_rate": 6.747320897995493e-05,
+      "loss": 3.6311,
+      "step": 180
+    },
+    {
+      "epoch": 0.2900763358778626,
+      "grad_norm": 0.7601252198219299,
+      "learning_rate": 6.408662784207149e-05,
+      "loss": 3.8022,
+      "step": 190
+    },
+    {
+      "epoch": 0.3053435114503817,
+      "grad_norm": 4.902952194213867,
+      "learning_rate": 6.062826447764883e-05,
+      "loss": 3.9776,
+      "step": 200
+    },
+    {
+      "epoch": 0.3053435114503817,
+      "eval_loss": 3.7500429153442383,
+      "eval_runtime": 157.5227,
+      "eval_samples_per_second": 7.002,
+      "eval_steps_per_second": 1.752,
+      "step": 200
+    },
+    {
+      "epoch": 0.32061068702290074,
+      "grad_norm": 0.9840830564498901,
+      "learning_rate": 5.7115741913664264e-05,
+      "loss": 3.3361,
+      "step": 210
+    },
+    {
+      "epoch": 0.33587786259541985,
+      "grad_norm": 0.5701741576194763,
+      "learning_rate": 5.3566959159961615e-05,
+      "loss": 3.4737,
+      "step": 220
+    },
+    {
+      "epoch": 0.3511450381679389,
+      "grad_norm": 0.6126981973648071,
+      "learning_rate": 5e-05,
+      "loss": 3.6109,
+      "step": 230
+    },
+    {
+      "epoch": 0.366412213740458,
+      "grad_norm": 0.8289356827735901,
+      "learning_rate": 4.643304084003839e-05,
+      "loss": 3.7844,
+      "step": 240
+    },
+    {
+      "epoch": 0.3816793893129771,
+      "grad_norm": 2.696506977081299,
+      "learning_rate": 4.288425808633575e-05,
+      "loss": 3.9399,
+      "step": 250
+    },
+    {
+      "epoch": 0.3816793893129771,
+      "eval_loss": 3.704169750213623,
+      "eval_runtime": 157.5177,
+      "eval_samples_per_second": 7.002,
+      "eval_steps_per_second": 1.752,
+      "step": 250
+    },
+    {
+      "epoch": 0.3969465648854962,
+      "grad_norm": 0.8667080998420715,
+      "learning_rate": 3.937173552235117e-05,
+      "loss": 3.3077,
+      "step": 260
+    },
+    {
+      "epoch": 0.4122137404580153,
+      "grad_norm": 0.8480358719825745,
+      "learning_rate": 3.591337215792852e-05,
+      "loss": 3.4585,
+      "step": 270
+    },
+    {
+      "epoch": 0.42748091603053434,
+      "grad_norm": 0.7193460464477539,
+      "learning_rate": 3.2526791020045086e-05,
+      "loss": 3.6021,
+      "step": 280
+    },
+    {
+      "epoch": 0.44274809160305345,
+      "grad_norm": 0.6467528939247131,
+      "learning_rate": 2.9229249349905684e-05,
+      "loss": 3.7745,
+      "step": 290
+    },
+    {
+      "epoch": 0.4580152671755725,
+      "grad_norm": 2.210923671722412,
+      "learning_rate": 2.603755066399718e-05,
+      "loss": 3.9242,
+      "step": 300
+    },
+    {
+      "epoch": 0.4580152671755725,
+      "eval_loss": 3.6560232639312744,
+      "eval_runtime": 157.2956,
+      "eval_samples_per_second": 7.012,
+      "eval_steps_per_second": 1.755,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.717132133543444e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null