Training in progress, step 5000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7066ad238f161a22d0683e51ba0e6258706bc9aa90c5787542555b1a4a97128d
 size 141303176

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee9cd99fd4e0bce962b6a15a1efc71256eb22dd10414b17bbba9e4d7ba5afef6
 size 141303176

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:163c91ff02e2ddb5dacee5972ca6bb5038e19cbb07bed2cea725f9d8a4a6a70f
 size 282653387

 version https://git-lfs.github.com/spec/v1
+oid sha256:99dda54b707289404dfd51e3037728795d5829b695ffde00ebd856d63ac56334
 size 282653387

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b652c6269b998b96ab924b2734c0818fab436c642524e13fc6cd4d9082e62b5
 size 14455

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a86db31fed9ea7cb26ae0c97afab5343450ff022d57fcc9367fce247f2ff49e
 size 14455

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77fc95ff7d80af03c17939ca85b9568e652a4cf9d2e9aaf323a942fee4510f31
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e60c4242800a43debb114b88afb278b08fae0786db1dbcddf2d0081073c925c
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0805199801384049,
   "eval_steps": 500,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -710,6 +710,84 @@
       "eval_samples_per_second": 10.826,
       "eval_steps_per_second": 2.707,
       "step": 4500
     }
   ],
   "logging_steps": 50,
@@ -729,7 +807,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6735071633408e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08946664459822766,
   "eval_steps": 500,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.826,
       "eval_steps_per_second": 2.707,
       "step": 4500
+    },
+    {
+      "epoch": 0.08141464658438717,
+      "grad_norm": 0.6884807348251343,
+      "learning_rate": 4.521868787276342e-05,
+      "loss": 0.5328,
+      "step": 4550
+    },
+    {
+      "epoch": 0.08230931303036945,
+      "grad_norm": 0.8444722890853882,
+      "learning_rate": 4.5715705765407554e-05,
+      "loss": 0.5296,
+      "step": 4600
+    },
+    {
+      "epoch": 0.08320397947635173,
+      "grad_norm": 0.7077602744102478,
+      "learning_rate": 4.621272365805169e-05,
+      "loss": 0.5303,
+      "step": 4650
+    },
+    {
+      "epoch": 0.084098645922334,
+      "grad_norm": 0.6824318766593933,
+      "learning_rate": 4.670974155069583e-05,
+      "loss": 0.5311,
+      "step": 4700
+    },
+    {
+      "epoch": 0.08499331236831628,
+      "grad_norm": 0.8206039071083069,
+      "learning_rate": 4.720675944333996e-05,
+      "loss": 0.5283,
+      "step": 4750
+    },
+    {
+      "epoch": 0.08588797881429856,
+      "grad_norm": 0.7358501553535461,
+      "learning_rate": 4.7703777335984095e-05,
+      "loss": 0.5325,
+      "step": 4800
+    },
+    {
+      "epoch": 0.08678264526028083,
+      "grad_norm": 0.5400606393814087,
+      "learning_rate": 4.8200795228628234e-05,
+      "loss": 0.5271,
+      "step": 4850
+    },
+    {
+      "epoch": 0.08767731170626311,
+      "grad_norm": 0.6589324474334717,
+      "learning_rate": 4.8697813121272365e-05,
+      "loss": 0.5265,
+      "step": 4900
+    },
+    {
+      "epoch": 0.08857197815224539,
+      "grad_norm": 0.6744178533554077,
+      "learning_rate": 4.9194831013916504e-05,
+      "loss": 0.5186,
+      "step": 4950
+    },
+    {
+      "epoch": 0.08946664459822766,
+      "grad_norm": 0.7791246771812439,
+      "learning_rate": 4.969184890656064e-05,
+      "loss": 0.5273,
+      "step": 5000
+    },
+    {
+      "epoch": 0.08946664459822766,
+      "eval_loss": 0.503763735294342,
+      "eval_runtime": 833.0418,
+      "eval_samples_per_second": 10.843,
+      "eval_steps_per_second": 2.712,
+      "step": 5000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.859452403712e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null