Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b37e3cd5f660df95241862c24a3e48f163ec6a69ea3025479a20f8d32d0953b4
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ecebc9fd9c0270d4af5ffbd4a53066c70b3ae60b25aecf5f845d586e0780d4b
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e00c470aa5105cee62da4df302be149ac58d2be246bd8830a07a9c4e72906d0
 size 591208618

 version https://git-lfs.github.com/spec/v1
+oid sha256:5563f6f5b550906c52015dc91a9c62954bfd6ad5c0a0a50ee208917e5ae68e36
 size 591208618

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b3a88ea4899f7ac3673d86679a655d1cf11b984715b6f9e4a333cdbfcd48577
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:61a1376c44ff39c239fd1cdd69a4f9c61362956e696de95463462b6f930f2288
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5294c8c5f0577845a3a17162958d210fca6dc9ef5073daed3bd9ec3ff96435c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1f8727232a90a6db300fcb2bdb06d9b7cd6b135efb90aa1d4dcb2f1febaca86
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.4277774095535278,
-  "best_model_checkpoint": "miner_id_24/checkpoint-1000",
-  "epoch": 0.16079755587715067,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -171,6 +171,84 @@
       "eval_samples_per_second": 24.29,
       "eval_steps_per_second": 6.073,
       "step": 1000
     }
   ],
   "logging_steps": 50,
@@ -199,7 +277,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.7214473068544e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3898102045059204,
+  "best_model_checkpoint": "miner_id_24/checkpoint-1500",
+  "epoch": 0.241196333815726,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.29,
       "eval_steps_per_second": 6.073,
       "step": 1000
+    },
+    {
+      "epoch": 0.1688374336710082,
+      "grad_norm": 0.7347446084022522,
+      "learning_rate": 0.000106,
+      "loss": 1.4432,
+      "step": 1050
+    },
+    {
+      "epoch": 0.17687731146486574,
+      "grad_norm": 0.8061316013336182,
+      "learning_rate": 9.724658937993278e-05,
+      "loss": 1.4889,
+      "step": 1100
+    },
+    {
+      "epoch": 0.18491718925872327,
+      "grad_norm": 0.9965606927871704,
+      "learning_rate": 8.855297343024219e-05,
+      "loss": 1.4394,
+      "step": 1150
+    },
+    {
+      "epoch": 0.1929570670525808,
+      "grad_norm": 0.6851484179496765,
+      "learning_rate": 7.99785383630753e-05,
+      "loss": 1.416,
+      "step": 1200
+    },
+    {
+      "epoch": 0.20099694484643835,
+      "grad_norm": 0.7076012492179871,
+      "learning_rate": 7.158185626430357e-05,
+      "loss": 1.4108,
+      "step": 1250
+    },
+    {
+      "epoch": 0.20903682264029586,
+      "grad_norm": 0.818530797958374,
+      "learning_rate": 6.342028498678525e-05,
+      "loss": 1.4205,
+      "step": 1300
+    },
+    {
+      "epoch": 0.2170767004341534,
+      "grad_norm": 0.7673355937004089,
+      "learning_rate": 5.5549576338070204e-05,
+      "loss": 1.4441,
+      "step": 1350
+    },
+    {
+      "epoch": 0.22511657822801093,
+      "grad_norm": 0.7837012410163879,
+      "learning_rate": 4.802349523902277e-05,
+      "loss": 1.4046,
+      "step": 1400
+    },
+    {
+      "epoch": 0.23315645602186846,
+      "grad_norm": 0.9885613918304443,
+      "learning_rate": 4.0893452454895215e-05,
+      "loss": 1.3865,
+      "step": 1450
+    },
+    {
+      "epoch": 0.241196333815726,
+      "grad_norm": 0.6985939145088196,
+      "learning_rate": 3.420815340767147e-05,
+      "loss": 1.3805,
+      "step": 1500
+    },
+    {
+      "epoch": 0.241196333815726,
+      "eval_loss": 1.3898102045059204,
+      "eval_runtime": 431.5472,
+      "eval_samples_per_second": 24.273,
+      "eval_steps_per_second": 6.069,
+      "step": 1500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.0821709602816e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null