Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dda7e55a26d144a191c31234eb9f8603e01f0d9e53ae3a82a88cb795d27b9152
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e25fcd6390ae4a55fac64e2db42c9fb7ea02c1f5ad36ba5890c1060f5470a5e
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02234e84d895cf9967f14c8b5f34683d67fca9a68fa6e7a771138f1b8fb1c493
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:4967b03396bb0c0abcdf3b8448eafd1e88cc60024c2e2f5cf760817eb3bee9de
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18c7a63a4b6cd8b76701fccf068ac098d7a327c3213bb53e80845e470b1bfbbc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ec5d1ffc26a7b66d8c70795a6082209d4aef1dc433ce20fdd9dc102c1aa1b60
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.1971940994262695,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.3996003996003996,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 57.231,
       "eval_steps_per_second": 14.376,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7728482431795200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.1309282779693604,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.5994005994005994,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.231,
       "eval_steps_per_second": 14.376,
       "step": 100
+    },
+    {
+      "epoch": 0.4035964035964036,
+      "grad_norm": 2.137390375137329,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 1.7543,
+      "step": 101
+    },
+    {
+      "epoch": 0.4075924075924076,
+      "grad_norm": 2.097003698348999,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 1.6215,
+      "step": 102
+    },
+    {
+      "epoch": 0.4115884115884116,
+      "grad_norm": 2.1690244674682617,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 1.6602,
+      "step": 103
+    },
+    {
+      "epoch": 0.4155844155844156,
+      "grad_norm": 2.294987678527832,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 1.8769,
+      "step": 104
+    },
+    {
+      "epoch": 0.4195804195804196,
+      "grad_norm": 2.4727396965026855,
+      "learning_rate": 5e-05,
+      "loss": 1.9594,
+      "step": 105
+    },
+    {
+      "epoch": 0.42357642357642356,
+      "grad_norm": 2.6860365867614746,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 2.1873,
+      "step": 106
+    },
+    {
+      "epoch": 0.4275724275724276,
+      "grad_norm": 2.7127106189727783,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 2.3708,
+      "step": 107
+    },
+    {
+      "epoch": 0.43156843156843155,
+      "grad_norm": 2.6260106563568115,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 2.2876,
+      "step": 108
+    },
+    {
+      "epoch": 0.4355644355644356,
+      "grad_norm": 2.768350601196289,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 2.3566,
+      "step": 109
+    },
+    {
+      "epoch": 0.43956043956043955,
+      "grad_norm": 3.178553342819214,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 2.6334,
+      "step": 110
+    },
+    {
+      "epoch": 0.4435564435564436,
+      "grad_norm": 3.3227720260620117,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 2.5637,
+      "step": 111
+    },
+    {
+      "epoch": 0.44755244755244755,
+      "grad_norm": 3.1499240398406982,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 2.4859,
+      "step": 112
+    },
+    {
+      "epoch": 0.4515484515484515,
+      "grad_norm": 2.7684566974639893,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 2.1494,
+      "step": 113
+    },
+    {
+      "epoch": 0.45554445554445555,
+      "grad_norm": 3.4616615772247314,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 2.1193,
+      "step": 114
+    },
+    {
+      "epoch": 0.4595404595404595,
+      "grad_norm": 3.2123327255249023,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 2.5909,
+      "step": 115
+    },
+    {
+      "epoch": 0.46353646353646355,
+      "grad_norm": 3.047816753387451,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 2.0229,
+      "step": 116
+    },
+    {
+      "epoch": 0.4675324675324675,
+      "grad_norm": 3.488494396209717,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 2.2963,
+      "step": 117
+    },
+    {
+      "epoch": 0.47152847152847155,
+      "grad_norm": 3.587735891342163,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 2.2049,
+      "step": 118
+    },
+    {
+      "epoch": 0.4755244755244755,
+      "grad_norm": 3.056833505630493,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 1.8591,
+      "step": 119
+    },
+    {
+      "epoch": 0.47952047952047955,
+      "grad_norm": 3.218198776245117,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 2.2895,
+      "step": 120
+    },
+    {
+      "epoch": 0.4835164835164835,
+      "grad_norm": 3.371720314025879,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 2.4071,
+      "step": 121
+    },
+    {
+      "epoch": 0.4875124875124875,
+      "grad_norm": 3.7063543796539307,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 2.2914,
+      "step": 122
+    },
+    {
+      "epoch": 0.4915084915084915,
+      "grad_norm": 3.269237518310547,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 2.2477,
+      "step": 123
+    },
+    {
+      "epoch": 0.4955044955044955,
+      "grad_norm": 3.816117525100708,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.3856,
+      "step": 124
+    },
+    {
+      "epoch": 0.4995004995004995,
+      "grad_norm": 3.4660842418670654,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 2.0488,
+      "step": 125
+    },
+    {
+      "epoch": 0.5034965034965035,
+      "grad_norm": 3.094273328781128,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 2.1264,
+      "step": 126
+    },
+    {
+      "epoch": 0.5074925074925075,
+      "grad_norm": 3.5829083919525146,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 2.1837,
+      "step": 127
+    },
+    {
+      "epoch": 0.5114885114885115,
+      "grad_norm": 4.308327674865723,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 2.1031,
+      "step": 128
+    },
+    {
+      "epoch": 0.5154845154845155,
+      "grad_norm": 3.1789207458496094,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 2.2333,
+      "step": 129
+    },
+    {
+      "epoch": 0.5194805194805194,
+      "grad_norm": 3.8885791301727295,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 2.266,
+      "step": 130
+    },
+    {
+      "epoch": 0.5234765234765235,
+      "grad_norm": 4.62883186340332,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 2.3179,
+      "step": 131
+    },
+    {
+      "epoch": 0.5274725274725275,
+      "grad_norm": 4.235198497772217,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 2.2452,
+      "step": 132
+    },
+    {
+      "epoch": 0.5314685314685315,
+      "grad_norm": 3.6604795455932617,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 2.2782,
+      "step": 133
+    },
+    {
+      "epoch": 0.5354645354645354,
+      "grad_norm": 3.711357831954956,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 2.3947,
+      "step": 134
+    },
+    {
+      "epoch": 0.5394605394605395,
+      "grad_norm": 3.2384161949157715,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 1.8946,
+      "step": 135
+    },
+    {
+      "epoch": 0.5434565434565435,
+      "grad_norm": 3.569737672805786,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 2.1051,
+      "step": 136
+    },
+    {
+      "epoch": 0.5474525474525475,
+      "grad_norm": 4.256958961486816,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 1.8519,
+      "step": 137
+    },
+    {
+      "epoch": 0.5514485514485514,
+      "grad_norm": 3.9488539695739746,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 2.3631,
+      "step": 138
+    },
+    {
+      "epoch": 0.5554445554445554,
+      "grad_norm": 3.606555223464966,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 1.8756,
+      "step": 139
+    },
+    {
+      "epoch": 0.5594405594405595,
+      "grad_norm": 3.8353779315948486,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 2.2032,
+      "step": 140
+    },
+    {
+      "epoch": 0.5634365634365635,
+      "grad_norm": 2.9946072101593018,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 1.5247,
+      "step": 141
+    },
+    {
+      "epoch": 0.5674325674325674,
+      "grad_norm": 4.481592655181885,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 2.3981,
+      "step": 142
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 3.6957621574401855,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.1031,
+      "step": 143
+    },
+    {
+      "epoch": 0.5754245754245755,
+      "grad_norm": 4.094795227050781,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 1.5181,
+      "step": 144
+    },
+    {
+      "epoch": 0.5794205794205795,
+      "grad_norm": 4.133942127227783,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 1.9686,
+      "step": 145
+    },
+    {
+      "epoch": 0.5834165834165834,
+      "grad_norm": 3.659259557723999,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 1.7523,
+      "step": 146
+    },
+    {
+      "epoch": 0.5874125874125874,
+      "grad_norm": 3.222001791000366,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 1.6258,
+      "step": 147
+    },
+    {
+      "epoch": 0.5914085914085914,
+      "grad_norm": 3.470677614212036,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 1.5365,
+      "step": 148
+    },
+    {
+      "epoch": 0.5954045954045954,
+      "grad_norm": 4.083232402801514,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 2.005,
+      "step": 149
+    },
+    {
+      "epoch": 0.5994005994005994,
+      "grad_norm": 4.134530544281006,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 1.5766,
+      "step": 150
+    },
+    {
+      "epoch": 0.5994005994005994,
+      "eval_loss": 2.1309282779693604,
+      "eval_runtime": 7.3681,
+      "eval_samples_per_second": 57.274,
+      "eval_steps_per_second": 14.386,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.15927236476928e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null