Training in progress, step 1050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:686c2baefc99317843ca16b54b88b2e76160991d944cc00803f7f08a289215cb
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:59266812baaf7d8e90c63f0bb7ca8c79f2b5b010097451c73c885e1f300daf35
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb850aa633249af1404c19533fb60dabbd3a6700aa8b9a66912558b1ed529914
 size 198011700

 version https://git-lfs.github.com/spec/v1
+oid sha256:a927c375ee983878c51e7210ed2422e48b31710cb736d343bcb2185df58c66ae
 size 198011700

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac891541b8baaf3cdb8037980b509b8620ed381d4ed63ca08ac8517d1928ff03
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8de91cf14d0d38fb6339c62deb3669ffdf5c3c5a71414c1585f253bcb3233eae
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f791a846752ffe0fc581ae9fe60078e654108249fdbba946c80897dc152a53ff
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:88236662c0aa97434d741d8e87aa4b49487e3d51a7d8edb811a91fbf0268db4c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8035673499107361,
-  "best_model_checkpoint": "miner_id_24/checkpoint-900",
-  "epoch": 0.011964067916025537,
   "eval_steps": 150,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -693,6 +693,119 @@
       "eval_samples_per_second": 43.135,
       "eval_steps_per_second": 10.784,
       "step": 900
     }
   ],
   "logging_steps": 10,
@@ -721,7 +834,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.589208946493358e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7980687022209167,
+  "best_model_checkpoint": "miner_id_24/checkpoint-1050",
+  "epoch": 0.013958079235363127,
   "eval_steps": 150,
+  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 43.135,
       "eval_steps_per_second": 10.784,
       "step": 900
+    },
+    {
+      "epoch": 0.012097002003981377,
+      "grad_norm": 0.820439338684082,
+      "learning_rate": 9.106417448664306e-05,
+      "loss": 0.8856,
+      "step": 910
+    },
+    {
+      "epoch": 0.012229936091937215,
+      "grad_norm": 1.0313884019851685,
+      "learning_rate": 9.086176605071805e-05,
+      "loss": 0.8814,
+      "step": 920
+    },
+    {
+      "epoch": 0.012362870179893055,
+      "grad_norm": 1.2534911632537842,
+      "learning_rate": 9.06573210649077e-05,
+      "loss": 0.8069,
+      "step": 930
+    },
+    {
+      "epoch": 0.012495804267848893,
+      "grad_norm": 1.3286960124969482,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.7651,
+      "step": 940
+    },
+    {
+      "epoch": 0.012628738355804733,
+      "grad_norm": 3.241807460784912,
+      "learning_rate": 9.024236230276629e-05,
+      "loss": 0.8244,
+      "step": 950
+    },
+    {
+      "epoch": 0.012761672443760572,
+      "grad_norm": 0.8718632459640503,
+      "learning_rate": 9.003186920797452e-05,
+      "loss": 0.8792,
+      "step": 960
+    },
+    {
+      "epoch": 0.012894606531716412,
+      "grad_norm": 0.9083179235458374,
+      "learning_rate": 8.981938092534517e-05,
+      "loss": 0.8644,
+      "step": 970
+    },
+    {
+      "epoch": 0.013027540619672252,
+      "grad_norm": 1.1338489055633545,
+      "learning_rate": 8.960490804529144e-05,
+      "loss": 0.8368,
+      "step": 980
+    },
+    {
+      "epoch": 0.01316047470762809,
+      "grad_norm": 1.466839075088501,
+      "learning_rate": 8.938846125713891e-05,
+      "loss": 0.7183,
+      "step": 990
+    },
+    {
+      "epoch": 0.01329340879558393,
+      "grad_norm": 2.3635900020599365,
+      "learning_rate": 8.917005134859263e-05,
+      "loss": 0.7475,
+      "step": 1000
+    },
+    {
+      "epoch": 0.013426342883539768,
+      "grad_norm": 0.8753401041030884,
+      "learning_rate": 8.894968920519959e-05,
+      "loss": 0.9097,
+      "step": 1010
+    },
+    {
+      "epoch": 0.013559276971495608,
+      "grad_norm": 1.0394352674484253,
+      "learning_rate": 8.872738580980615e-05,
+      "loss": 0.8533,
+      "step": 1020
+    },
+    {
+      "epoch": 0.013692211059451448,
+      "grad_norm": 1.3622921705245972,
+      "learning_rate": 8.850315224201063e-05,
+      "loss": 0.8018,
+      "step": 1030
+    },
+    {
+      "epoch": 0.013825145147407287,
+      "grad_norm": 1.4305646419525146,
+      "learning_rate": 8.827699967761108e-05,
+      "loss": 0.8168,
+      "step": 1040
+    },
+    {
+      "epoch": 0.013958079235363127,
+      "grad_norm": 2.2436411380767822,
+      "learning_rate": 8.80489393880484e-05,
+      "loss": 0.7678,
+      "step": 1050
+    },
+    {
+      "epoch": 0.013958079235363127,
+      "eval_loss": 0.7980687022209167,
+      "eval_runtime": 2936.4148,
+      "eval_samples_per_second": 43.146,
+      "eval_steps_per_second": 10.787,
+      "step": 1050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.0206243314335744e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null