Training in progress, step 400, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +70 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7eced52aa2c423e2da98c5c68cea8565571c95d0e0bc7a8b82c0b1f02af2b8a
 size 241895584

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2e2114ed459673c5d749b3341367ae547a46e47116edf106c055bdfeeb40c75
 size 241895584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a0dce4fdf7d2d43ab1ea719583b4c0129f2ef348f80168ba453433f86c022c4
-size 123395444

 version https://git-lfs.github.com/spec/v1
+oid sha256:a75a00d2da06bb833cc02da4ff6c961ed115d1cbf6f02daa086895025ed79392
+size 123395956

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88e269cd7a6a06e5a6a648ce7905663c7cc1b97fad46cefa26d6b9bdc5fd61c4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb9e13c66b191c8148e2133ca2784e9c043469b5ff2bff6f0d53e0b29915063b
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bd55b3848d82967a207e0805911c79200c6adce71e3b37fd24549a718f75738
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:c801982aae9be06d302403c1fff693e53dedf89c1d3b689ee29fedad84a96d23
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae3ca1d06eff714814ac96bbe64c47bca9cc2f08c621be7ae587ea940b62b902
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad56050a9daa3d98b30fc2273c514f21e48c6fc2b3fdd6f82fd1518d879c7d05
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 200,
-  "best_metric": 0.6404113173484802,
-  "best_model_checkpoint": "outputs/checkpoint-200",
-  "epoch": 0.31520882584712373,
   "eval_steps": 200,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -72,6 +72,70 @@
       "eval_samples_per_second": 6.564,
       "eval_steps_per_second": 1.646,
       "step": 200
     }
   ],
   "logging_steps": 25,
@@ -91,7 +155,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.3901686843572224e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 400,
+  "best_metric": 0.6293139457702637,
+  "best_model_checkpoint": "outputs/checkpoint-400",
+  "epoch": 0.6304176516942475,
   "eval_steps": 200,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.564,
       "eval_steps_per_second": 1.646,
       "step": 200
+    },
+    {
+      "epoch": 0.3546099290780142,
+      "grad_norm": 0.3037702739238739,
+      "learning_rate": 0.00019077774785329087,
+      "loss": 0.6451,
+      "step": 225
+    },
+    {
+      "epoch": 0.39401103230890466,
+      "grad_norm": 0.2634023427963257,
+      "learning_rate": 0.00018677654533689287,
+      "loss": 0.6248,
+      "step": 250
+    },
+    {
+      "epoch": 0.43341213553979513,
+      "grad_norm": 0.2869561016559601,
+      "learning_rate": 0.00018211492091337042,
+      "loss": 0.6454,
+      "step": 275
+    },
+    {
+      "epoch": 0.4728132387706856,
+      "grad_norm": 0.3140774965286255,
+      "learning_rate": 0.00017682835235935236,
+      "loss": 0.6345,
+      "step": 300
+    },
+    {
+      "epoch": 0.512214342001576,
+      "grad_norm": 0.2564923167228699,
+      "learning_rate": 0.0001709570736536521,
+      "loss": 0.6483,
+      "step": 325
+    },
+    {
+      "epoch": 0.5516154452324665,
+      "grad_norm": 0.2636582553386688,
+      "learning_rate": 0.00016454576877239507,
+      "loss": 0.656,
+      "step": 350
+    },
+    {
+      "epoch": 0.5910165484633569,
+      "grad_norm": 0.24333670735359192,
+      "learning_rate": 0.00015764323161697935,
+      "loss": 0.6371,
+      "step": 375
+    },
+    {
+      "epoch": 0.6304176516942475,
+      "grad_norm": 0.4404401481151581,
+      "learning_rate": 0.00015030199466302353,
+      "loss": 0.6426,
+      "step": 400
+    },
+    {
+      "epoch": 0.6304176516942475,
+      "eval_loss": 0.6293139457702637,
+      "eval_runtime": 162.8568,
+      "eval_samples_per_second": 6.564,
+      "eval_steps_per_second": 1.646,
+      "step": 400
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 4.752881759404032e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null