Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e95b0e962e31121ab55f9d6ea1e8451d4c0ae7da9efa2ec7137f15c305ff41a
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d1e6f28e93fcc68d8bf026107844e3dc6b82078ac2361244ab58ef51f5a48b4
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78038e895ee663f09683ae49f7ee99304b4f0242d324c73513dabcc19742b2c3
 size 198011252

 version https://git-lfs.github.com/spec/v1
+oid sha256:dab9bc5472bb100dc765e57fa0d6e543428b706ad65208c0119afc1530873a1c
 size 198011252

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd52ed773117db2548e14e7e15ad8b98ea927708d98fddbe65a4cbd116f52fac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa8f84b6794e1cd8014d0da9ab663e16738b7cc504167512ce7be788196eeb5b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7188636064529419,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.009493745994825909,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 15.234,
       "eval_steps_per_second": 3.809,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.68563864696914e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6873039603233337,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.014240618992238862,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.234,
       "eval_steps_per_second": 3.809,
       "step": 100
+    },
+    {
+      "epoch": 0.009588683454774167,
+      "grad_norm": 0.262162446975708,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 0.5949,
+      "step": 101
+    },
+    {
+      "epoch": 0.009683620914722427,
+      "grad_norm": 0.3056875765323639,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 0.5478,
+      "step": 102
+    },
+    {
+      "epoch": 0.009778558374670687,
+      "grad_norm": 0.3404836654663086,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 0.6003,
+      "step": 103
+    },
+    {
+      "epoch": 0.009873495834618945,
+      "grad_norm": 0.3518320322036743,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 0.6374,
+      "step": 104
+    },
+    {
+      "epoch": 0.009968433294567204,
+      "grad_norm": 0.35517260432243347,
+      "learning_rate": 5e-05,
+      "loss": 0.6345,
+      "step": 105
+    },
+    {
+      "epoch": 0.010063370754515463,
+      "grad_norm": 0.33211418986320496,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 0.66,
+      "step": 106
+    },
+    {
+      "epoch": 0.010158308214463722,
+      "grad_norm": 0.376034677028656,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 0.7352,
+      "step": 107
+    },
+    {
+      "epoch": 0.01025324567441198,
+      "grad_norm": 0.33594802021980286,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 0.7592,
+      "step": 108
+    },
+    {
+      "epoch": 0.01034818313436024,
+      "grad_norm": 0.34336787462234497,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 0.6384,
+      "step": 109
+    },
+    {
+      "epoch": 0.010443120594308498,
+      "grad_norm": 0.40107351541519165,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 0.6868,
+      "step": 110
+    },
+    {
+      "epoch": 0.010538058054256758,
+      "grad_norm": 0.6450880169868469,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 0.7392,
+      "step": 111
+    },
+    {
+      "epoch": 0.010632995514205018,
+      "grad_norm": 0.3932429850101471,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.7374,
+      "step": 112
+    },
+    {
+      "epoch": 0.010727932974153276,
+      "grad_norm": 0.37924253940582275,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 0.7595,
+      "step": 113
+    },
+    {
+      "epoch": 0.010822870434101536,
+      "grad_norm": 0.38906195759773254,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 0.6517,
+      "step": 114
+    },
+    {
+      "epoch": 0.010917807894049794,
+      "grad_norm": 0.41941317915916443,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 0.7181,
+      "step": 115
+    },
+    {
+      "epoch": 0.011012745353998054,
+      "grad_norm": 0.42237669229507446,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 0.7399,
+      "step": 116
+    },
+    {
+      "epoch": 0.011107682813946312,
+      "grad_norm": 0.4199109673500061,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 0.6972,
+      "step": 117
+    },
+    {
+      "epoch": 0.011202620273894572,
+      "grad_norm": 0.43909701704978943,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 0.6862,
+      "step": 118
+    },
+    {
+      "epoch": 0.011297557733842832,
+      "grad_norm": 0.4287319779396057,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 0.7394,
+      "step": 119
+    },
+    {
+      "epoch": 0.01139249519379109,
+      "grad_norm": 0.5357159972190857,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 0.7993,
+      "step": 120
+    },
+    {
+      "epoch": 0.01148743265373935,
+      "grad_norm": 0.4030955731868744,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 0.6689,
+      "step": 121
+    },
+    {
+      "epoch": 0.011582370113687608,
+      "grad_norm": 0.4994092583656311,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 0.7805,
+      "step": 122
+    },
+    {
+      "epoch": 0.011677307573635868,
+      "grad_norm": 0.5699156522750854,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 0.8274,
+      "step": 123
+    },
+    {
+      "epoch": 0.011772245033584126,
+      "grad_norm": 0.7980059385299683,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.6721,
+      "step": 124
+    },
+    {
+      "epoch": 0.011867182493532386,
+      "grad_norm": 0.36257463693618774,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 0.7177,
+      "step": 125
+    },
+    {
+      "epoch": 0.011962119953480645,
+      "grad_norm": 0.39041903614997864,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 0.6868,
+      "step": 126
+    },
+    {
+      "epoch": 0.012057057413428903,
+      "grad_norm": 0.40323406457901,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 0.7554,
+      "step": 127
+    },
+    {
+      "epoch": 0.012151994873377163,
+      "grad_norm": 0.41979482769966125,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 0.6953,
+      "step": 128
+    },
+    {
+      "epoch": 0.012246932333325421,
+      "grad_norm": 0.392555296421051,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 0.759,
+      "step": 129
+    },
+    {
+      "epoch": 0.012341869793273681,
+      "grad_norm": 0.39178863167762756,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 0.7017,
+      "step": 130
+    },
+    {
+      "epoch": 0.01243680725322194,
+      "grad_norm": 0.4052543044090271,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 0.7917,
+      "step": 131
+    },
+    {
+      "epoch": 0.0125317447131702,
+      "grad_norm": 0.37675926089286804,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 0.5898,
+      "step": 132
+    },
+    {
+      "epoch": 0.012626682173118459,
+      "grad_norm": 0.4015160799026489,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 0.7128,
+      "step": 133
+    },
+    {
+      "epoch": 0.012721619633066717,
+      "grad_norm": 0.41348764300346375,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 0.789,
+      "step": 134
+    },
+    {
+      "epoch": 0.012816557093014977,
+      "grad_norm": 0.4197676479816437,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 0.7832,
+      "step": 135
+    },
+    {
+      "epoch": 0.012911494552963235,
+      "grad_norm": 0.4502415060997009,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 0.7892,
+      "step": 136
+    },
+    {
+      "epoch": 0.013006432012911495,
+      "grad_norm": 0.4396166205406189,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 0.7513,
+      "step": 137
+    },
+    {
+      "epoch": 0.013101369472859753,
+      "grad_norm": 0.4914814233779907,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 0.7425,
+      "step": 138
+    },
+    {
+      "epoch": 0.013196306932808013,
+      "grad_norm": 0.449947714805603,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 0.7403,
+      "step": 139
+    },
+    {
+      "epoch": 0.013291244392756273,
+      "grad_norm": 0.4686639606952667,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 0.7091,
+      "step": 140
+    },
+    {
+      "epoch": 0.01338618185270453,
+      "grad_norm": 0.5162703990936279,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 0.812,
+      "step": 141
+    },
+    {
+      "epoch": 0.01348111931265279,
+      "grad_norm": 0.524587869644165,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 0.7092,
+      "step": 142
+    },
+    {
+      "epoch": 0.013576056772601049,
+      "grad_norm": 0.4877658188343048,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.7545,
+      "step": 143
+    },
+    {
+      "epoch": 0.013670994232549308,
+      "grad_norm": 0.4884006083011627,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 0.6984,
+      "step": 144
+    },
+    {
+      "epoch": 0.013765931692497567,
+      "grad_norm": 0.5572161674499512,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 0.703,
+      "step": 145
+    },
+    {
+      "epoch": 0.013860869152445826,
+      "grad_norm": 0.5526790022850037,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 0.7167,
+      "step": 146
+    },
+    {
+      "epoch": 0.013955806612394086,
+      "grad_norm": 0.5765847563743591,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 0.6563,
+      "step": 147
+    },
+    {
+      "epoch": 0.014050744072342344,
+      "grad_norm": 0.7077249884605408,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 0.6601,
+      "step": 148
+    },
+    {
+      "epoch": 0.014145681532290604,
+      "grad_norm": 0.5818340182304382,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 0.5735,
+      "step": 149
+    },
+    {
+      "epoch": 0.014240618992238862,
+      "grad_norm": 0.6904491186141968,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 0.6129,
+      "step": 150
+    },
+    {
+      "epoch": 0.014240618992238862,
+      "eval_loss": 0.6873039603233337,
+      "eval_runtime": 1164.2998,
+      "eval_samples_per_second": 15.237,
+      "eval_steps_per_second": 3.809,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.3014125233412506e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null