Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1318a6af4bf5730c00d0851e18e28fcbdfb1462dd1271af87e4c39c6c99ec16c
 size 191968

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aaaaae8220a3280392fc0c0a626fc39efbef173acf183c9e12d71040d67bcf7
 size 191968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66bb5b55b7876853e30802e4d8d471102516a754541cdf3bb1f3f030d488d908
 size 253144

 version https://git-lfs.github.com/spec/v1
+oid sha256:605344cba474dbaeca1b86b7bbec27c59206b3dd5212bda658109e72df02e210
 size 253144

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6785c6f8dd654afac42891492ae5633f608cac76e9423997e5f2c062a95168e1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0631ec79f48e6df806e25edf38ffd27fdc412ba9ec78c9e9570dfd72e0fe2d83
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c16c2a0a7f4d1c317518a0a40a7c58dbcf9237e9297de7a3c67a0a8ebfbe5ded
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01c5525f1d8420ca8a81a7fd2ec397a508131d03210dfd36c7ac5758b0e6313b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 10.351698875427246,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.02767017155506364,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 96.014,
       "eval_steps_per_second": 24.035,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2816654180352.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 10.350841522216797,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.04150525733259546,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 96.014,
       "eval_steps_per_second": 24.035,
       "step": 100
+    },
+    {
+      "epoch": 0.027946873270614278,
+      "grad_norm": 0.14280512928962708,
+      "learning_rate": 5.231368421052631e-05,
+      "loss": 10.3587,
+      "step": 101
+    },
+    {
+      "epoch": 0.028223574986164915,
+      "grad_norm": 0.11392911523580551,
+      "learning_rate": 5.178526315789474e-05,
+      "loss": 10.361,
+      "step": 102
+    },
+    {
+      "epoch": 0.02850027670171555,
+      "grad_norm": 0.11263832449913025,
+      "learning_rate": 5.1256842105263165e-05,
+      "loss": 10.3613,
+      "step": 103
+    },
+    {
+      "epoch": 0.02877697841726619,
+      "grad_norm": 0.13879412412643433,
+      "learning_rate": 5.072842105263158e-05,
+      "loss": 10.3606,
+      "step": 104
+    },
+    {
+      "epoch": 0.029053680132816822,
+      "grad_norm": 0.12684401869773865,
+      "learning_rate": 5.02e-05,
+      "loss": 10.3576,
+      "step": 105
+    },
+    {
+      "epoch": 0.02933038184836746,
+      "grad_norm": 0.11932656913995743,
+      "learning_rate": 4.967157894736842e-05,
+      "loss": 10.3547,
+      "step": 106
+    },
+    {
+      "epoch": 0.029607083563918096,
+      "grad_norm": 0.10179711133241653,
+      "learning_rate": 4.914315789473684e-05,
+      "loss": 10.3571,
+      "step": 107
+    },
+    {
+      "epoch": 0.029883785279468732,
+      "grad_norm": 0.12076177448034286,
+      "learning_rate": 4.861473684210526e-05,
+      "loss": 10.357,
+      "step": 108
+    },
+    {
+      "epoch": 0.03016048699501937,
+      "grad_norm": 0.07408250123262405,
+      "learning_rate": 4.8086315789473686e-05,
+      "loss": 10.3571,
+      "step": 109
+    },
+    {
+      "epoch": 0.030437188710570006,
+      "grad_norm": 0.12372420728206635,
+      "learning_rate": 4.7557894736842104e-05,
+      "loss": 10.3543,
+      "step": 110
+    },
+    {
+      "epoch": 0.030713890426120643,
+      "grad_norm": 0.08638908714056015,
+      "learning_rate": 4.702947368421053e-05,
+      "loss": 10.3485,
+      "step": 111
+    },
+    {
+      "epoch": 0.03099059214167128,
+      "grad_norm": 0.12098588794469833,
+      "learning_rate": 4.6501052631578946e-05,
+      "loss": 10.3535,
+      "step": 112
+    },
+    {
+      "epoch": 0.03126729385722191,
+      "grad_norm": 0.10554546117782593,
+      "learning_rate": 4.5972631578947364e-05,
+      "loss": 10.3475,
+      "step": 113
+    },
+    {
+      "epoch": 0.03154399557277255,
+      "grad_norm": 0.07617288827896118,
+      "learning_rate": 4.544421052631579e-05,
+      "loss": 10.3547,
+      "step": 114
+    },
+    {
+      "epoch": 0.03182069728832319,
+      "grad_norm": 0.10432225465774536,
+      "learning_rate": 4.4915789473684213e-05,
+      "loss": 10.3502,
+      "step": 115
+    },
+    {
+      "epoch": 0.032097399003873824,
+      "grad_norm": 0.09122877568006516,
+      "learning_rate": 4.438736842105263e-05,
+      "loss": 10.3551,
+      "step": 116
+    },
+    {
+      "epoch": 0.03237410071942446,
+      "grad_norm": 0.09355830401182175,
+      "learning_rate": 4.3858947368421056e-05,
+      "loss": 10.3508,
+      "step": 117
+    },
+    {
+      "epoch": 0.0326508024349751,
+      "grad_norm": 0.11909081041812897,
+      "learning_rate": 4.3330526315789474e-05,
+      "loss": 10.3474,
+      "step": 118
+    },
+    {
+      "epoch": 0.032927504150525734,
+      "grad_norm": 0.0938921570777893,
+      "learning_rate": 4.280210526315789e-05,
+      "loss": 10.3453,
+      "step": 119
+    },
+    {
+      "epoch": 0.03320420586607637,
+      "grad_norm": 0.09045830368995667,
+      "learning_rate": 4.2273684210526317e-05,
+      "loss": 10.3474,
+      "step": 120
+    },
+    {
+      "epoch": 0.03348090758162701,
+      "grad_norm": 0.11095123738050461,
+      "learning_rate": 4.174526315789474e-05,
+      "loss": 10.3544,
+      "step": 121
+    },
+    {
+      "epoch": 0.033757609297177645,
+      "grad_norm": 0.08681843429803848,
+      "learning_rate": 4.121684210526316e-05,
+      "loss": 10.3565,
+      "step": 122
+    },
+    {
+      "epoch": 0.03403431101272828,
+      "grad_norm": 0.06601341813802719,
+      "learning_rate": 4.068842105263158e-05,
+      "loss": 10.3457,
+      "step": 123
+    },
+    {
+      "epoch": 0.03431101272827892,
+      "grad_norm": 0.08264271169900894,
+      "learning_rate": 4.016e-05,
+      "loss": 10.3572,
+      "step": 124
+    },
+    {
+      "epoch": 0.034587714443829555,
+      "grad_norm": 0.06502602994441986,
+      "learning_rate": 3.963157894736842e-05,
+      "loss": 10.3484,
+      "step": 125
+    },
+    {
+      "epoch": 0.034864416159380185,
+      "grad_norm": 0.08391563594341278,
+      "learning_rate": 3.9103157894736844e-05,
+      "loss": 10.3514,
+      "step": 126
+    },
+    {
+      "epoch": 0.03514111787493082,
+      "grad_norm": 0.08374013006687164,
+      "learning_rate": 3.857473684210526e-05,
+      "loss": 10.3485,
+      "step": 127
+    },
+    {
+      "epoch": 0.03541781959048146,
+      "grad_norm": 0.09567815065383911,
+      "learning_rate": 3.804631578947369e-05,
+      "loss": 10.3476,
+      "step": 128
+    },
+    {
+      "epoch": 0.035694521306032095,
+      "grad_norm": 0.09184671938419342,
+      "learning_rate": 3.7517894736842105e-05,
+      "loss": 10.3477,
+      "step": 129
+    },
+    {
+      "epoch": 0.03597122302158273,
+      "grad_norm": 0.09309260547161102,
+      "learning_rate": 3.698947368421052e-05,
+      "loss": 10.3535,
+      "step": 130
+    },
+    {
+      "epoch": 0.03624792473713337,
+      "grad_norm": 0.11253216862678528,
+      "learning_rate": 3.646105263157895e-05,
+      "loss": 10.3553,
+      "step": 131
+    },
+    {
+      "epoch": 0.036524626452684006,
+      "grad_norm": 0.07496535778045654,
+      "learning_rate": 3.593263157894737e-05,
+      "loss": 10.3417,
+      "step": 132
+    },
+    {
+      "epoch": 0.03680132816823464,
+      "grad_norm": 0.11139296740293503,
+      "learning_rate": 3.540421052631579e-05,
+      "loss": 10.3447,
+      "step": 133
+    },
+    {
+      "epoch": 0.03707802988378528,
+      "grad_norm": 0.10377196967601776,
+      "learning_rate": 3.4875789473684215e-05,
+      "loss": 10.3484,
+      "step": 134
+    },
+    {
+      "epoch": 0.037354731599335916,
+      "grad_norm": 0.09641505777835846,
+      "learning_rate": 3.434736842105263e-05,
+      "loss": 10.3467,
+      "step": 135
+    },
+    {
+      "epoch": 0.03763143331488655,
+      "grad_norm": 0.1256895661354065,
+      "learning_rate": 3.381894736842105e-05,
+      "loss": 10.3542,
+      "step": 136
+    },
+    {
+      "epoch": 0.03790813503043719,
+      "grad_norm": 0.10770992189645767,
+      "learning_rate": 3.329052631578947e-05,
+      "loss": 10.3487,
+      "step": 137
+    },
+    {
+      "epoch": 0.03818483674598783,
+      "grad_norm": 0.11906769126653671,
+      "learning_rate": 3.27621052631579e-05,
+      "loss": 10.3482,
+      "step": 138
+    },
+    {
+      "epoch": 0.038461538461538464,
+      "grad_norm": 0.1397065669298172,
+      "learning_rate": 3.223368421052632e-05,
+      "loss": 10.353,
+      "step": 139
+    },
+    {
+      "epoch": 0.0387382401770891,
+      "grad_norm": 0.10772430896759033,
+      "learning_rate": 3.1705263157894736e-05,
+      "loss": 10.3423,
+      "step": 140
+    },
+    {
+      "epoch": 0.03901494189263974,
+      "grad_norm": 0.10745060443878174,
+      "learning_rate": 3.117684210526316e-05,
+      "loss": 10.351,
+      "step": 141
+    },
+    {
+      "epoch": 0.039291643608190374,
+      "grad_norm": 0.09514959156513214,
+      "learning_rate": 3.064842105263158e-05,
+      "loss": 10.3492,
+      "step": 142
+    },
+    {
+      "epoch": 0.039568345323741004,
+      "grad_norm": 0.16483455896377563,
+      "learning_rate": 3.012e-05,
+      "loss": 10.3444,
+      "step": 143
+    },
+    {
+      "epoch": 0.03984504703929164,
+      "grad_norm": 0.14660082757472992,
+      "learning_rate": 2.9591578947368418e-05,
+      "loss": 10.3414,
+      "step": 144
+    },
+    {
+      "epoch": 0.04012174875484228,
+      "grad_norm": 0.14518006145954132,
+      "learning_rate": 2.9063157894736842e-05,
+      "loss": 10.3534,
+      "step": 145
+    },
+    {
+      "epoch": 0.040398450470392915,
+      "grad_norm": 0.11700974404811859,
+      "learning_rate": 2.8534736842105264e-05,
+      "loss": 10.3541,
+      "step": 146
+    },
+    {
+      "epoch": 0.04067515218594355,
+      "grad_norm": 0.1969076544046402,
+      "learning_rate": 2.800631578947368e-05,
+      "loss": 10.3477,
+      "step": 147
+    },
+    {
+      "epoch": 0.04095185390149419,
+      "grad_norm": 0.18599028885364532,
+      "learning_rate": 2.7477894736842106e-05,
+      "loss": 10.3502,
+      "step": 148
+    },
+    {
+      "epoch": 0.041228555617044825,
+      "grad_norm": 0.12765298783779144,
+      "learning_rate": 2.6949473684210527e-05,
+      "loss": 10.3463,
+      "step": 149
+    },
+    {
+      "epoch": 0.04150525733259546,
+      "grad_norm": 0.22577303647994995,
+      "learning_rate": 2.6421052631578945e-05,
+      "loss": 10.3555,
+      "step": 150
+    },
+    {
+      "epoch": 0.04150525733259546,
+      "eval_loss": 10.350841522216797,
+      "eval_runtime": 15.8399,
+      "eval_samples_per_second": 96.087,
+      "eval_steps_per_second": 24.053,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4211037437952.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null