Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d561497c736e2816736609ddeae1b14309f35ec7e8b6f4d73b0379be0cce77b
 size 800116456

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa94b20e98465ff50becad5b95af7319e7d524361503c6dddeb8c4b911d810df
 size 800116456

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aefd8a34c144f8298e72c1c15b3f26487203a974eb4e98c9b0e8daa16ded6e9
 size 406743412

 version https://git-lfs.github.com/spec/v1
+oid sha256:67fe41bcfdb8dbdfd4f8abcec82e6a75ae6e39a18131ff23f98c3fbc4de03878
 size 406743412

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcbf7d5e4aa7b38b8ebe707846794c5b3732e8a4cdd09857174a2fb83ed221a8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ba8ede8b1ce1289bd047fa1b015e236ff2970647049d9ac45b408f024313221
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3388093bd4c4d331382d0016aa94fd7868af3fa4dd50305298d21879ce809e93
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c16a9a2b8856e8f64eb7194578c6fcbc8625033d1caa318cc7b80ad824088880
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0389878749847412,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0035031791350650715,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 5.871,
       "eval_steps_per_second": 1.468,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.236995582748262e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9562696814537048,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.005254768702597608,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.871,
       "eval_steps_per_second": 1.468,
       "step": 100
+    },
+    {
+      "epoch": 0.0035382109264157223,
+      "grad_norm": 4.139260292053223,
+      "learning_rate": 5.219384210526315e-05,
+      "loss": 0.9736,
+      "step": 101
+    },
+    {
+      "epoch": 0.003573242717766373,
+      "grad_norm": 6.691173553466797,
+      "learning_rate": 5.1666631578947374e-05,
+      "loss": 1.3439,
+      "step": 102
+    },
+    {
+      "epoch": 0.0036082745091170236,
+      "grad_norm": 6.3341522216796875,
+      "learning_rate": 5.113942105263158e-05,
+      "loss": 1.0342,
+      "step": 103
+    },
+    {
+      "epoch": 0.0036433063004676744,
+      "grad_norm": 4.959275722503662,
+      "learning_rate": 5.061221052631579e-05,
+      "loss": 0.9322,
+      "step": 104
+    },
+    {
+      "epoch": 0.0036783380918183253,
+      "grad_norm": 6.011504173278809,
+      "learning_rate": 5.0085e-05,
+      "loss": 0.9757,
+      "step": 105
+    },
+    {
+      "epoch": 0.0037133698831689757,
+      "grad_norm": 4.780364513397217,
+      "learning_rate": 4.955778947368421e-05,
+      "loss": 0.9653,
+      "step": 106
+    },
+    {
+      "epoch": 0.0037484016745196265,
+      "grad_norm": 5.768011093139648,
+      "learning_rate": 4.903057894736842e-05,
+      "loss": 0.9648,
+      "step": 107
+    },
+    {
+      "epoch": 0.0037834334658702774,
+      "grad_norm": 4.847964763641357,
+      "learning_rate": 4.850336842105263e-05,
+      "loss": 0.8899,
+      "step": 108
+    },
+    {
+      "epoch": 0.003818465257220928,
+      "grad_norm": 6.667684555053711,
+      "learning_rate": 4.797615789473684e-05,
+      "loss": 1.184,
+      "step": 109
+    },
+    {
+      "epoch": 0.0038534970485715786,
+      "grad_norm": 9.475594520568848,
+      "learning_rate": 4.744894736842105e-05,
+      "loss": 1.221,
+      "step": 110
+    },
+    {
+      "epoch": 0.0038885288399222295,
+      "grad_norm": 7.665887832641602,
+      "learning_rate": 4.692173684210526e-05,
+      "loss": 1.4043,
+      "step": 111
+    },
+    {
+      "epoch": 0.00392356063127288,
+      "grad_norm": 7.966034889221191,
+      "learning_rate": 4.639452631578947e-05,
+      "loss": 1.38,
+      "step": 112
+    },
+    {
+      "epoch": 0.003958592422623531,
+      "grad_norm": 9.061517715454102,
+      "learning_rate": 4.586731578947368e-05,
+      "loss": 1.5917,
+      "step": 113
+    },
+    {
+      "epoch": 0.0039936242139741816,
+      "grad_norm": 7.534801006317139,
+      "learning_rate": 4.5340105263157894e-05,
+      "loss": 1.2386,
+      "step": 114
+    },
+    {
+      "epoch": 0.004028656005324832,
+      "grad_norm": 7.485569477081299,
+      "learning_rate": 4.48128947368421e-05,
+      "loss": 1.1133,
+      "step": 115
+    },
+    {
+      "epoch": 0.004063687796675483,
+      "grad_norm": 7.044865608215332,
+      "learning_rate": 4.428568421052632e-05,
+      "loss": 1.0751,
+      "step": 116
+    },
+    {
+      "epoch": 0.004098719588026134,
+      "grad_norm": 12.4927978515625,
+      "learning_rate": 4.3758473684210525e-05,
+      "loss": 2.0563,
+      "step": 117
+    },
+    {
+      "epoch": 0.004133751379376784,
+      "grad_norm": 11.97059440612793,
+      "learning_rate": 4.323126315789474e-05,
+      "loss": 2.2443,
+      "step": 118
+    },
+    {
+      "epoch": 0.004168783170727435,
+      "grad_norm": 9.851146697998047,
+      "learning_rate": 4.270405263157895e-05,
+      "loss": 1.248,
+      "step": 119
+    },
+    {
+      "epoch": 0.004203814962078086,
+      "grad_norm": 5.306776523590088,
+      "learning_rate": 4.217684210526316e-05,
+      "loss": 0.8181,
+      "step": 120
+    },
+    {
+      "epoch": 0.004238846753428736,
+      "grad_norm": 6.5675506591796875,
+      "learning_rate": 4.164963157894737e-05,
+      "loss": 1.0159,
+      "step": 121
+    },
+    {
+      "epoch": 0.0042738785447793875,
+      "grad_norm": 5.773453235626221,
+      "learning_rate": 4.112242105263158e-05,
+      "loss": 0.9144,
+      "step": 122
+    },
+    {
+      "epoch": 0.004308910336130038,
+      "grad_norm": 5.412302017211914,
+      "learning_rate": 4.059521052631579e-05,
+      "loss": 0.7352,
+      "step": 123
+    },
+    {
+      "epoch": 0.004343942127480689,
+      "grad_norm": 5.474285125732422,
+      "learning_rate": 4.0068e-05,
+      "loss": 0.8086,
+      "step": 124
+    },
+    {
+      "epoch": 0.0043789739188313396,
+      "grad_norm": 4.669981002807617,
+      "learning_rate": 3.954078947368421e-05,
+      "loss": 0.6895,
+      "step": 125
+    },
+    {
+      "epoch": 0.00441400571018199,
+      "grad_norm": 7.121860504150391,
+      "learning_rate": 3.901357894736842e-05,
+      "loss": 0.9757,
+      "step": 126
+    },
+    {
+      "epoch": 0.004449037501532641,
+      "grad_norm": 4.613837718963623,
+      "learning_rate": 3.848636842105263e-05,
+      "loss": 0.7938,
+      "step": 127
+    },
+    {
+      "epoch": 0.004484069292883292,
+      "grad_norm": 4.65328311920166,
+      "learning_rate": 3.795915789473684e-05,
+      "loss": 0.6167,
+      "step": 128
+    },
+    {
+      "epoch": 0.004519101084233942,
+      "grad_norm": 7.203744411468506,
+      "learning_rate": 3.743194736842105e-05,
+      "loss": 0.7682,
+      "step": 129
+    },
+    {
+      "epoch": 0.004554132875584593,
+      "grad_norm": 5.1857523918151855,
+      "learning_rate": 3.690473684210526e-05,
+      "loss": 0.659,
+      "step": 130
+    },
+    {
+      "epoch": 0.004589164666935244,
+      "grad_norm": 5.471020698547363,
+      "learning_rate": 3.6377526315789475e-05,
+      "loss": 0.6832,
+      "step": 131
+    },
+    {
+      "epoch": 0.004624196458285894,
+      "grad_norm": 5.253795146942139,
+      "learning_rate": 3.585031578947368e-05,
+      "loss": 0.7885,
+      "step": 132
+    },
+    {
+      "epoch": 0.0046592282496365454,
+      "grad_norm": 5.277398586273193,
+      "learning_rate": 3.532310526315789e-05,
+      "loss": 0.7519,
+      "step": 133
+    },
+    {
+      "epoch": 0.004694260040987196,
+      "grad_norm": 5.456074237823486,
+      "learning_rate": 3.4795894736842106e-05,
+      "loss": 0.6701,
+      "step": 134
+    },
+    {
+      "epoch": 0.004729291832337846,
+      "grad_norm": 6.075155735015869,
+      "learning_rate": 3.4268684210526314e-05,
+      "loss": 0.93,
+      "step": 135
+    },
+    {
+      "epoch": 0.0047643236236884975,
+      "grad_norm": 5.472695350646973,
+      "learning_rate": 3.374147368421052e-05,
+      "loss": 0.7305,
+      "step": 136
+    },
+    {
+      "epoch": 0.004799355415039148,
+      "grad_norm": 5.368462562561035,
+      "learning_rate": 3.321426315789473e-05,
+      "loss": 0.626,
+      "step": 137
+    },
+    {
+      "epoch": 0.004834387206389798,
+      "grad_norm": 6.139542102813721,
+      "learning_rate": 3.2687052631578946e-05,
+      "loss": 0.8074,
+      "step": 138
+    },
+    {
+      "epoch": 0.00486941899774045,
+      "grad_norm": 4.907921314239502,
+      "learning_rate": 3.2159842105263154e-05,
+      "loss": 0.691,
+      "step": 139
+    },
+    {
+      "epoch": 0.0049044507890911,
+      "grad_norm": 4.76326322555542,
+      "learning_rate": 3.163263157894737e-05,
+      "loss": 0.5767,
+      "step": 140
+    },
+    {
+      "epoch": 0.0049394825804417505,
+      "grad_norm": 5.597925186157227,
+      "learning_rate": 3.110542105263158e-05,
+      "loss": 0.9885,
+      "step": 141
+    },
+    {
+      "epoch": 0.004974514371792402,
+      "grad_norm": 7.026127338409424,
+      "learning_rate": 3.057821052631579e-05,
+      "loss": 0.9067,
+      "step": 142
+    },
+    {
+      "epoch": 0.005009546163143052,
+      "grad_norm": 5.715368270874023,
+      "learning_rate": 3.0050999999999997e-05,
+      "loss": 1.187,
+      "step": 143
+    },
+    {
+      "epoch": 0.0050445779544937034,
+      "grad_norm": 5.7752580642700195,
+      "learning_rate": 2.9523789473684206e-05,
+      "loss": 0.8954,
+      "step": 144
+    },
+    {
+      "epoch": 0.005079609745844354,
+      "grad_norm": 3.6325674057006836,
+      "learning_rate": 2.899657894736842e-05,
+      "loss": 0.4463,
+      "step": 145
+    },
+    {
+      "epoch": 0.005114641537195004,
+      "grad_norm": 4.1365766525268555,
+      "learning_rate": 2.846936842105263e-05,
+      "loss": 0.6405,
+      "step": 146
+    },
+    {
+      "epoch": 0.0051496733285456555,
+      "grad_norm": 5.4132232666015625,
+      "learning_rate": 2.794215789473684e-05,
+      "loss": 0.5272,
+      "step": 147
+    },
+    {
+      "epoch": 0.005184705119896306,
+      "grad_norm": 4.7377400398254395,
+      "learning_rate": 2.7414947368421056e-05,
+      "loss": 0.6192,
+      "step": 148
+    },
+    {
+      "epoch": 0.005219736911246956,
+      "grad_norm": 5.025594711303711,
+      "learning_rate": 2.6887736842105264e-05,
+      "loss": 0.6358,
+      "step": 149
+    },
+    {
+      "epoch": 0.005254768702597608,
+      "grad_norm": 5.432887077331543,
+      "learning_rate": 2.6360526315789472e-05,
+      "loss": 0.9462,
+      "step": 150
+    },
+    {
+      "epoch": 0.005254768702597608,
+      "eval_loss": 0.9562696814537048,
+      "eval_runtime": 2045.0876,
+      "eval_samples_per_second": 5.877,
+      "eval_steps_per_second": 1.469,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.914116459003904e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null