Training in progress, step 4500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a04e15b8643b4c494ce4eb0063c82104b4508cb5e6567ed58c27b238b56f6c53
 size 141303176

 version https://git-lfs.github.com/spec/v1
+oid sha256:7066ad238f161a22d0683e51ba0e6258706bc9aa90c5787542555b1a4a97128d
 size 141303176

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a500937edc6135ea093707089bbb73d696f423887f0a26cbb5eaf549882a8e4
 size 282653387

 version https://git-lfs.github.com/spec/v1
+oid sha256:163c91ff02e2ddb5dacee5972ca6bb5038e19cbb07bed2cea725f9d8a4a6a70f
 size 282653387

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74b5a01f40080db725add4e3d836250ec8c7db0a9e994d36deb55546885f2ea9
 size 14455

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b652c6269b998b96ab924b2734c0818fab436c642524e13fc6cd4d9082e62b5
 size 14455

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e2af7e9421c7a30caace99544c124328400803d9b4a09499769e6d71fad6ae9
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:77fc95ff7d80af03c17939ca85b9568e652a4cf9d2e9aaf323a942fee4510f31
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07157331567858213,
   "eval_steps": 500,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -632,6 +632,84 @@
       "eval_samples_per_second": 10.579,
       "eval_steps_per_second": 2.646,
       "step": 4000
     }
   ],
   "logging_steps": 50,
@@ -651,7 +729,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4875619229696e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0805199801384049,
   "eval_steps": 500,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.579,
       "eval_steps_per_second": 2.646,
       "step": 4000
+    },
+    {
+      "epoch": 0.07246798212456441,
+      "grad_norm": 0.6943932175636292,
+      "learning_rate": 4.024850894632207e-05,
+      "loss": 0.5381,
+      "step": 4050
+    },
+    {
+      "epoch": 0.07336264857054668,
+      "grad_norm": 0.7221015095710754,
+      "learning_rate": 4.07455268389662e-05,
+      "loss": 0.5521,
+      "step": 4100
+    },
+    {
+      "epoch": 0.07425731501652896,
+      "grad_norm": 0.6903452277183533,
+      "learning_rate": 4.124254473161034e-05,
+      "loss": 0.5389,
+      "step": 4150
+    },
+    {
+      "epoch": 0.07515198146251124,
+      "grad_norm": 0.7749171853065491,
+      "learning_rate": 4.173956262425447e-05,
+      "loss": 0.539,
+      "step": 4200
+    },
+    {
+      "epoch": 0.07604664790849351,
+      "grad_norm": 0.7912935614585876,
+      "learning_rate": 4.223658051689861e-05,
+      "loss": 0.5363,
+      "step": 4250
+    },
+    {
+      "epoch": 0.07694131435447579,
+      "grad_norm": 0.7532743811607361,
+      "learning_rate": 4.273359840954275e-05,
+      "loss": 0.5376,
+      "step": 4300
+    },
+    {
+      "epoch": 0.07783598080045807,
+      "grad_norm": 0.6006184220314026,
+      "learning_rate": 4.323061630218688e-05,
+      "loss": 0.5348,
+      "step": 4350
+    },
+    {
+      "epoch": 0.07873064724644034,
+      "grad_norm": 0.6265826225280762,
+      "learning_rate": 4.372763419483102e-05,
+      "loss": 0.5346,
+      "step": 4400
+    },
+    {
+      "epoch": 0.07962531369242262,
+      "grad_norm": 0.6724209189414978,
+      "learning_rate": 4.422465208747515e-05,
+      "loss": 0.5312,
+      "step": 4450
+    },
+    {
+      "epoch": 0.0805199801384049,
+      "grad_norm": 0.8128370046615601,
+      "learning_rate": 4.472166998011928e-05,
+      "loss": 0.5365,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0805199801384049,
+      "eval_loss": 0.509487509727478,
+      "eval_runtime": 834.3525,
+      "eval_samples_per_second": 10.826,
+      "eval_steps_per_second": 2.707,
+      "step": 4500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.6735071633408e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null