Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54ed7b8b42d40f11c2f580c9cd262dde4db53db7ceb1f262a12f59ade9e7c817
 size 800116456

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccefee88c54541f301311c86f1be0803483435c3b0c9c054cd730f79b3d434f8
 size 800116456

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06ad5de9ed4603ab87a7f8290603f0e90d2034d9825d3520c566ea9bf2cc046e
 size 1600457770

 version https://git-lfs.github.com/spec/v1
+oid sha256:540ff9580f88d769a1b032df546ce751b81e4def2d9abbd50c573c15b1dadcc2
 size 1600457770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9471442a7716775dcadd3b7b25518aa54b25a0063da9ab1ee48e034cea1d67dd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:087da13190edd4196442c151ef6484e93ffd9a7810a35817267db14c20356567
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 4.623364448547363,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.039545229856648545,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 10.865,
       "eval_steps_per_second": 5.434,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5671904691657114e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.9510750770568848,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.05931784478497281,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.865,
       "eval_steps_per_second": 5.434,
       "step": 100
+    },
+    {
+      "epoch": 0.039940682155215027,
+      "grad_norm": 18.333959579467773,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 3.9954,
+      "step": 101
+    },
+    {
+      "epoch": 0.040336134453781515,
+      "grad_norm": 19.20036506652832,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 3.7772,
+      "step": 102
+    },
+    {
+      "epoch": 0.040731586752348,
+      "grad_norm": 12.907011985778809,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 3.6466,
+      "step": 103
+    },
+    {
+      "epoch": 0.041127039050914485,
+      "grad_norm": 9.121061325073242,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 3.3037,
+      "step": 104
+    },
+    {
+      "epoch": 0.04152249134948097,
+      "grad_norm": 6.192619323730469,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 3.4751,
+      "step": 105
+    },
+    {
+      "epoch": 0.041917943648047455,
+      "grad_norm": 5.470525741577148,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 3.2908,
+      "step": 106
+    },
+    {
+      "epoch": 0.04231339594661394,
+      "grad_norm": 4.912865161895752,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 3.3674,
+      "step": 107
+    },
+    {
+      "epoch": 0.042708848245180425,
+      "grad_norm": 6.219501495361328,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 3.3247,
+      "step": 108
+    },
+    {
+      "epoch": 0.043104300543746914,
+      "grad_norm": 5.533361911773682,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 3.2192,
+      "step": 109
+    },
+    {
+      "epoch": 0.043499752842313395,
+      "grad_norm": 5.150146961212158,
+      "learning_rate": 5e-05,
+      "loss": 3.2276,
+      "step": 110
+    },
+    {
+      "epoch": 0.043895205140879884,
+      "grad_norm": 6.297917366027832,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 3.2143,
+      "step": 111
+    },
+    {
+      "epoch": 0.044290657439446365,
+      "grad_norm": 4.9847092628479,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 3.3206,
+      "step": 112
+    },
+    {
+      "epoch": 0.044686109738012854,
+      "grad_norm": 5.420544624328613,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 3.3323,
+      "step": 113
+    },
+    {
+      "epoch": 0.045081562036579335,
+      "grad_norm": 5.19870138168335,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 3.4153,
+      "step": 114
+    },
+    {
+      "epoch": 0.045477014335145824,
+      "grad_norm": 5.492611408233643,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 3.4046,
+      "step": 115
+    },
+    {
+      "epoch": 0.045872466633712305,
+      "grad_norm": 5.3474626541137695,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 3.3075,
+      "step": 116
+    },
+    {
+      "epoch": 0.046267918932278794,
+      "grad_norm": 5.2586565017700195,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 3.2221,
+      "step": 117
+    },
+    {
+      "epoch": 0.04666337123084528,
+      "grad_norm": 5.411025524139404,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 3.395,
+      "step": 118
+    },
+    {
+      "epoch": 0.047058823529411764,
+      "grad_norm": 5.472652912139893,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 3.5103,
+      "step": 119
+    },
+    {
+      "epoch": 0.04745427582797825,
+      "grad_norm": 6.056737899780273,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 3.3631,
+      "step": 120
+    },
+    {
+      "epoch": 0.047849728126544734,
+      "grad_norm": 5.721058368682861,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 3.6028,
+      "step": 121
+    },
+    {
+      "epoch": 0.04824518042511122,
+      "grad_norm": 5.954742908477783,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 3.2906,
+      "step": 122
+    },
+    {
+      "epoch": 0.048640632723677704,
+      "grad_norm": 6.200694561004639,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 3.6514,
+      "step": 123
+    },
+    {
+      "epoch": 0.04903608502224419,
+      "grad_norm": 5.939252853393555,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 3.3949,
+      "step": 124
+    },
+    {
+      "epoch": 0.049431537320810674,
+      "grad_norm": 5.715896129608154,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 3.4874,
+      "step": 125
+    },
+    {
+      "epoch": 0.04982698961937716,
+      "grad_norm": 6.621534824371338,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 3.622,
+      "step": 126
+    },
+    {
+      "epoch": 0.05022244191794365,
+      "grad_norm": 5.691868782043457,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 3.3411,
+      "step": 127
+    },
+    {
+      "epoch": 0.05061789421651013,
+      "grad_norm": 7.734787940979004,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 3.4587,
+      "step": 128
+    },
+    {
+      "epoch": 0.05101334651507662,
+      "grad_norm": 7.939478397369385,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 3.657,
+      "step": 129
+    },
+    {
+      "epoch": 0.0514087988136431,
+      "grad_norm": 6.357771873474121,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 3.768,
+      "step": 130
+    },
+    {
+      "epoch": 0.05180425111220959,
+      "grad_norm": 6.53624153137207,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 3.7699,
+      "step": 131
+    },
+    {
+      "epoch": 0.05219970341077607,
+      "grad_norm": 6.4100775718688965,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 3.4689,
+      "step": 132
+    },
+    {
+      "epoch": 0.05259515570934256,
+      "grad_norm": 7.020034313201904,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 3.8192,
+      "step": 133
+    },
+    {
+      "epoch": 0.05299060800790904,
+      "grad_norm": 5.715200424194336,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 3.504,
+      "step": 134
+    },
+    {
+      "epoch": 0.05338606030647553,
+      "grad_norm": 7.633635520935059,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 3.4469,
+      "step": 135
+    },
+    {
+      "epoch": 0.05378151260504202,
+      "grad_norm": 7.177755832672119,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 3.7712,
+      "step": 136
+    },
+    {
+      "epoch": 0.0541769649036085,
+      "grad_norm": 7.435923099517822,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 3.4619,
+      "step": 137
+    },
+    {
+      "epoch": 0.05457241720217499,
+      "grad_norm": 6.788026332855225,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 3.618,
+      "step": 138
+    },
+    {
+      "epoch": 0.05496786950074147,
+      "grad_norm": 7.051691055297852,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 3.6792,
+      "step": 139
+    },
+    {
+      "epoch": 0.05536332179930796,
+      "grad_norm": 7.430070400238037,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 3.7134,
+      "step": 140
+    },
+    {
+      "epoch": 0.05575877409787444,
+      "grad_norm": 8.32129192352295,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 3.6942,
+      "step": 141
+    },
+    {
+      "epoch": 0.05615422639644093,
+      "grad_norm": 7.975091457366943,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 3.6997,
+      "step": 142
+    },
+    {
+      "epoch": 0.05654967869500741,
+      "grad_norm": 7.947182655334473,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 3.5279,
+      "step": 143
+    },
+    {
+      "epoch": 0.0569451309935739,
+      "grad_norm": 9.00294017791748,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 4.1178,
+      "step": 144
+    },
+    {
+      "epoch": 0.05734058329214039,
+      "grad_norm": 9.13553524017334,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 4.1206,
+      "step": 145
+    },
+    {
+      "epoch": 0.05773603559070687,
+      "grad_norm": 10.592865943908691,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.7745,
+      "step": 146
+    },
+    {
+      "epoch": 0.05813148788927336,
+      "grad_norm": 8.685091972351074,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 4.1589,
+      "step": 147
+    },
+    {
+      "epoch": 0.05852694018783984,
+      "grad_norm": 9.462773323059082,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 4.2342,
+      "step": 148
+    },
+    {
+      "epoch": 0.05892239248640633,
+      "grad_norm": 16.12278938293457,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 4.337,
+      "step": 149
+    },
+    {
+      "epoch": 0.05931784478497281,
+      "grad_norm": 25.154678344726562,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 4.3972,
+      "step": 150
+    },
+    {
+      "epoch": 0.05931784478497281,
+      "eval_loss": 3.9510750770568848,
+      "eval_runtime": 391.2119,
+      "eval_samples_per_second": 10.887,
+      "eval_steps_per_second": 5.445,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.3488316009191834e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null