Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ac6c4baaf5a4dedccbb5d0ee3c4a935b07164bdab13c76c0b17af75fcf9edcf
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:63f9c561d26913b0d45756fcfafa8863a23122c66e0dbe7dbc82ffcc042b2537
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4824398b19798b4ce658c79f89b1b5319d088d9a43ae16e9918eec8e6747b3
 size 198011252

 version https://git-lfs.github.com/spec/v1
+oid sha256:9973fa49dd1818e61fab7b962848c47b97ec0a22af70fe2755a32ce360687c55
 size 198011252

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30063c1786bea61bdde622638c6279790e0239b563d5fa59c5ecff53192b48b0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:741b188532d5ed7f83ef7d58a413d797deb4f38779f0427ddda8341b9145f402
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b0f0591a54513981f9045153a7608f989005ce4fb6ed2c798b085bae23c1094
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed88ff7cbe02e7c054abfce3510882248a01917e1eb8cf2c358f612dd7312357
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.833295226097107,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0019212480427285566,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 22.8,
       "eval_steps_per_second": 5.7,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.933753135058125e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.8138833045959473,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.0028818720640928345,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.8,
       "eval_steps_per_second": 5.7,
       "step": 100
+    },
+    {
+      "epoch": 0.001940460523155842,
+      "grad_norm": 0.38725751638412476,
+      "learning_rate": 4.797407629465648e-05,
+      "loss": 2.036,
+      "step": 101
+    },
+    {
+      "epoch": 0.0019596730035831276,
+      "grad_norm": 0.4056459665298462,
+      "learning_rate": 4.7231268960295003e-05,
+      "loss": 2.2175,
+      "step": 102
+    },
+    {
+      "epoch": 0.001978885484010413,
+      "grad_norm": 0.6771987676620483,
+      "learning_rate": 4.648785161927887e-05,
+      "loss": 1.6623,
+      "step": 103
+    },
+    {
+      "epoch": 0.001998097964437699,
+      "grad_norm": 1.075822353363037,
+      "learning_rate": 4.574402751448614e-05,
+      "loss": 1.1344,
+      "step": 104
+    },
+    {
+      "epoch": 0.0020173104448649843,
+      "grad_norm": 1.1966012716293335,
+      "learning_rate": 4.5e-05,
+      "loss": 1.2106,
+      "step": 105
+    },
+    {
+      "epoch": 0.0020365229252922697,
+      "grad_norm": 0.6514367461204529,
+      "learning_rate": 4.425597248551387e-05,
+      "loss": 2.4871,
+      "step": 106
+    },
+    {
+      "epoch": 0.0020557354057195555,
+      "grad_norm": 1.3281652927398682,
+      "learning_rate": 4.3512148380721134e-05,
+      "loss": 2.1116,
+      "step": 107
+    },
+    {
+      "epoch": 0.002074947886146841,
+      "grad_norm": 1.0242716073989868,
+      "learning_rate": 4.2768731039704995e-05,
+      "loss": 1.9819,
+      "step": 108
+    },
+    {
+      "epoch": 0.0020941603665741264,
+      "grad_norm": 0.9406623840332031,
+      "learning_rate": 4.202592370534353e-05,
+      "loss": 2.2307,
+      "step": 109
+    },
+    {
+      "epoch": 0.0021133728470014122,
+      "grad_norm": 1.036744475364685,
+      "learning_rate": 4.128392945374505e-05,
+      "loss": 1.3772,
+      "step": 110
+    },
+    {
+      "epoch": 0.0021325853274286976,
+      "grad_norm": 1.084477186203003,
+      "learning_rate": 4.0542951138729184e-05,
+      "loss": 1.8637,
+      "step": 111
+    },
+    {
+      "epoch": 0.002151797807855983,
+      "grad_norm": 1.1325368881225586,
+      "learning_rate": 3.980319133636863e-05,
+      "loss": 1.0554,
+      "step": 112
+    },
+    {
+      "epoch": 0.002171010288283269,
+      "grad_norm": 1.1569682359695435,
+      "learning_rate": 3.9064852289606895e-05,
+      "loss": 1.6565,
+      "step": 113
+    },
+    {
+      "epoch": 0.0021902227687105543,
+      "grad_norm": 1.3950432538986206,
+      "learning_rate": 3.832813585296711e-05,
+      "loss": 0.3665,
+      "step": 114
+    },
+    {
+      "epoch": 0.0022094352491378397,
+      "grad_norm": 1.0858311653137207,
+      "learning_rate": 3.759324343736697e-05,
+      "loss": 1.1037,
+      "step": 115
+    },
+    {
+      "epoch": 0.0022286477295651256,
+      "grad_norm": 1.3634651899337769,
+      "learning_rate": 3.686037595505507e-05,
+      "loss": 1.5144,
+      "step": 116
+    },
+    {
+      "epoch": 0.002247860209992411,
+      "grad_norm": 1.4642441272735596,
+      "learning_rate": 3.612973376468339e-05,
+      "loss": 1.4407,
+      "step": 117
+    },
+    {
+      "epoch": 0.0022670726904196964,
+      "grad_norm": 1.508213758468628,
+      "learning_rate": 3.54015166165314e-05,
+      "loss": 1.2446,
+      "step": 118
+    },
+    {
+      "epoch": 0.0022862851708469823,
+      "grad_norm": 1.3166296482086182,
+      "learning_rate": 3.4675923597896184e-05,
+      "loss": 1.8091,
+      "step": 119
+    },
+    {
+      "epoch": 0.0023054976512742677,
+      "grad_norm": 1.141366958618164,
+      "learning_rate": 3.395315307866404e-05,
+      "loss": 1.2671,
+      "step": 120
+    },
+    {
+      "epoch": 0.0023247101317015535,
+      "grad_norm": 1.3715970516204834,
+      "learning_rate": 3.3233402657078116e-05,
+      "loss": 1.0325,
+      "step": 121
+    },
+    {
+      "epoch": 0.002343922612128839,
+      "grad_norm": 0.9950500130653381,
+      "learning_rate": 3.2516869105717005e-05,
+      "loss": 1.4616,
+      "step": 122
+    },
+    {
+      "epoch": 0.0023631350925561244,
+      "grad_norm": 1.3959550857543945,
+      "learning_rate": 3.1803748317699093e-05,
+      "loss": 1.3512,
+      "step": 123
+    },
+    {
+      "epoch": 0.0023823475729834102,
+      "grad_norm": 1.3552947044372559,
+      "learning_rate": 3.1094235253127374e-05,
+      "loss": 0.9966,
+      "step": 124
+    },
+    {
+      "epoch": 0.0024015600534106956,
+      "grad_norm": 1.4716287851333618,
+      "learning_rate": 3.038852388578925e-05,
+      "loss": 1.2362,
+      "step": 125
+    },
+    {
+      "epoch": 0.002420772533837981,
+      "grad_norm": 1.1937332153320312,
+      "learning_rate": 2.9686807150126064e-05,
+      "loss": 1.6868,
+      "step": 126
+    },
+    {
+      "epoch": 0.002439985014265267,
+      "grad_norm": 1.4279030561447144,
+      "learning_rate": 2.8989276888486755e-05,
+      "loss": 1.3592,
+      "step": 127
+    },
+    {
+      "epoch": 0.0024591974946925523,
+      "grad_norm": 1.4244630336761475,
+      "learning_rate": 2.829612379868006e-05,
+      "loss": 1.6008,
+      "step": 128
+    },
+    {
+      "epoch": 0.0024784099751198377,
+      "grad_norm": 1.6446768045425415,
+      "learning_rate": 2.760753738183966e-05,
+      "loss": 1.1883,
+      "step": 129
+    },
+    {
+      "epoch": 0.0024976224555471236,
+      "grad_norm": 1.3861147165298462,
+      "learning_rate": 2.6923705890616385e-05,
+      "loss": 1.2918,
+      "step": 130
+    },
+    {
+      "epoch": 0.002516834935974409,
+      "grad_norm": 1.2332127094268799,
+      "learning_rate": 2.6244816277711943e-05,
+      "loss": 1.2566,
+      "step": 131
+    },
+    {
+      "epoch": 0.0025360474164016944,
+      "grad_norm": 1.2724624872207642,
+      "learning_rate": 2.5571054144767825e-05,
+      "loss": 0.9582,
+      "step": 132
+    },
+    {
+      "epoch": 0.0025552598968289803,
+      "grad_norm": 1.575805425643921,
+      "learning_rate": 2.4902603691623712e-05,
+      "loss": 1.3997,
+      "step": 133
+    },
+    {
+      "epoch": 0.0025744723772562657,
+      "grad_norm": 1.768161654472351,
+      "learning_rate": 2.4239647665959058e-05,
+      "loss": 1.0172,
+      "step": 134
+    },
+    {
+      "epoch": 0.002593684857683551,
+      "grad_norm": 1.6644028425216675,
+      "learning_rate": 2.358236731333169e-05,
+      "loss": 1.5184,
+      "step": 135
+    },
+    {
+      "epoch": 0.002612897338110837,
+      "grad_norm": 2.4780852794647217,
+      "learning_rate": 2.293094232762715e-05,
+      "loss": 1.5998,
+      "step": 136
+    },
+    {
+      "epoch": 0.0026321098185381224,
+      "grad_norm": 1.552331566810608,
+      "learning_rate": 2.2285550801932047e-05,
+      "loss": 0.9399,
+      "step": 137
+    },
+    {
+      "epoch": 0.0026513222989654078,
+      "grad_norm": 1.4867897033691406,
+      "learning_rate": 2.164636917984533e-05,
+      "loss": 1.0078,
+      "step": 138
+    },
+    {
+      "epoch": 0.0026705347793926936,
+      "grad_norm": 2.0035929679870605,
+      "learning_rate": 2.1013572207240293e-05,
+      "loss": 1.6794,
+      "step": 139
+    },
+    {
+      "epoch": 0.002689747259819979,
+      "grad_norm": 1.5320886373519897,
+      "learning_rate": 2.03873328844908e-05,
+      "loss": 1.4663,
+      "step": 140
+    },
+    {
+      "epoch": 0.0027089597402472645,
+      "grad_norm": 2.784316301345825,
+      "learning_rate": 1.9767822419174733e-05,
+      "loss": 1.6031,
+      "step": 141
+    },
+    {
+      "epoch": 0.0027281722206745503,
+      "grad_norm": 1.9862154722213745,
+      "learning_rate": 1.915521017926754e-05,
+      "loss": 1.4249,
+      "step": 142
+    },
+    {
+      "epoch": 0.0027473847011018357,
+      "grad_norm": 2.684689998626709,
+      "learning_rate": 1.8549663646838714e-05,
+      "loss": 1.3566,
+      "step": 143
+    },
+    {
+      "epoch": 0.002766597181529121,
+      "grad_norm": 2.400099277496338,
+      "learning_rate": 1.7951348372263872e-05,
+      "loss": 1.6717,
+      "step": 144
+    },
+    {
+      "epoch": 0.002785809661956407,
+      "grad_norm": 2.823960304260254,
+      "learning_rate": 1.7360427928964948e-05,
+      "loss": 2.1536,
+      "step": 145
+    },
+    {
+      "epoch": 0.0028050221423836924,
+      "grad_norm": 2.5241665840148926,
+      "learning_rate": 1.6777063868690835e-05,
+      "loss": 2.198,
+      "step": 146
+    },
+    {
+      "epoch": 0.002824234622810978,
+      "grad_norm": 4.04758358001709,
+      "learning_rate": 1.6201415677350752e-05,
+      "loss": 2.2812,
+      "step": 147
+    },
+    {
+      "epoch": 0.0028434471032382637,
+      "grad_norm": 3.2880547046661377,
+      "learning_rate": 1.563364073141241e-05,
+      "loss": 2.3492,
+      "step": 148
+    },
+    {
+      "epoch": 0.002862659583665549,
+      "grad_norm": 3.0113375186920166,
+      "learning_rate": 1.5073894254876825e-05,
+      "loss": 2.4835,
+      "step": 149
+    },
+    {
+      "epoch": 0.0028818720640928345,
+      "grad_norm": 4.216464519500732,
+      "learning_rate": 1.452232927684166e-05,
+      "loss": 3.0384,
+      "step": 150
+    },
+    {
+      "epoch": 0.0028818720640928345,
+      "eval_loss": 1.8138833045959473,
+      "eval_runtime": 3841.3252,
+      "eval_samples_per_second": 22.821,
+      "eval_steps_per_second": 5.705,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.900629702587187e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null