Training in progress, step 1900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +135 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ffea88dc725e20729d532103e571a95a4de3551370932d9d4e61da3ea133608
 size 66690264

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b697653fb1fadb3338a18ba8ca2e508da3603eebebb92cd2d4d0a19bf2b728f
 size 66690264

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f7af3b482cdc49aae6cc245c60e2136652a9553b92d1c5fe46630580e99a200
 size 133393631

 version https://git-lfs.github.com/spec/v1
+oid sha256:741805ded654520994730dcf337a922e9f9e0b80f29b4d60e7af05b2ee502050
 size 133393631

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45acb58335aba7afa287af2edce6d3a48d6f29a6175f1f95ebd9de42d1629344
 size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:69ac6cc9f96cb23f38dad14b3c8b94857940a2c54443bb178825363cab7260c0
 size 13990

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d20175a7ce58b36f63cec288bb82ff2aed63eaabfb6a48072fbb4e518a9945a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2375bb704062abe009d16c81c5208b4a77486ea2b7e1b6be5a4f624a4401587f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 1000,
   "best_metric": 9.911575317382812,
   "best_model_checkpoint": "./models/v-001/checkpoint-1000",
-  "epoch": 51.65217391304348,
   "eval_steps": 100,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -712,6 +712,138 @@
       "eval_samples_per_second": 9.516,
       "eval_steps_per_second": 0.599,
       "step": 1600
     }
   ],
   "logging_steps": 20,
@@ -731,7 +863,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2088670266432000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 1000,
   "best_metric": 9.911575317382812,
   "best_model_checkpoint": "./models/v-001/checkpoint-1000",
+  "epoch": 61.32608695652174,
   "eval_steps": 100,
+  "global_step": 1900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.516,
       "eval_steps_per_second": 0.599,
       "step": 1600
+    },
+    {
+      "epoch": 52.29347826086956,
+      "grad_norm": 0.8501729369163513,
+      "learning_rate": 1.7187640879434553e-05,
+      "loss": 3.7589,
+      "step": 1620
+    },
+    {
+      "epoch": 52.94565217391305,
+      "grad_norm": 0.8114346861839294,
+      "learning_rate": 1.552805187300389e-05,
+      "loss": 3.8172,
+      "step": 1640
+    },
+    {
+      "epoch": 53.58695652173913,
+      "grad_norm": 0.8227590918540955,
+      "learning_rate": 1.3937884782483484e-05,
+      "loss": 3.6933,
+      "step": 1660
+    },
+    {
+      "epoch": 54.22826086956522,
+      "grad_norm": 0.7768607139587402,
+      "learning_rate": 1.242034199277008e-05,
+      "loss": 3.8079,
+      "step": 1680
+    },
+    {
+      "epoch": 54.880434782608695,
+      "grad_norm": 0.8110019564628601,
+      "learning_rate": 1.097847963308351e-05,
+      "loss": 3.681,
+      "step": 1700
+    },
+    {
+      "epoch": 54.880434782608695,
+      "eval_accuracy": 0.0008273447429635729,
+      "eval_loss": 10.178533554077148,
+      "eval_runtime": 31.6166,
+      "eval_samples_per_second": 9.552,
+      "eval_steps_per_second": 0.601,
+      "step": 1700
+    },
+    {
+      "epoch": 55.52173913043478,
+      "grad_norm": 0.8320772647857666,
+      "learning_rate": 9.615201422329406e-06,
+      "loss": 3.6494,
+      "step": 1720
+    },
+    {
+      "epoch": 56.16304347826087,
+      "grad_norm": 0.7713989019393921,
+      "learning_rate": 8.333252821395526e-06,
+      "loss": 3.7021,
+      "step": 1740
+    },
+    {
+      "epoch": 56.81521739130435,
+      "grad_norm": 0.7743974924087524,
+      "learning_rate": 7.135215504159115e-06,
+      "loss": 3.7404,
+      "step": 1760
+    },
+    {
+      "epoch": 57.45652173913044,
+      "grad_norm": 0.7438375353813171,
+      "learning_rate": 6.023502158339078e-06,
+      "loss": 3.6467,
+      "step": 1780
+    },
+    {
+      "epoch": 58.09782608695652,
+      "grad_norm": 0.8585782051086426,
+      "learning_rate": 5.000351626664207e-06,
+      "loss": 3.688,
+      "step": 1800
+    },
+    {
+      "epoch": 58.09782608695652,
+      "eval_accuracy": 0.0008273447429635729,
+      "eval_loss": 10.187094688415527,
+      "eval_runtime": 31.7031,
+      "eval_samples_per_second": 9.526,
+      "eval_steps_per_second": 0.599,
+      "step": 1800
+    },
+    {
+      "epoch": 58.75,
+      "grad_norm": 0.7883967161178589,
+      "learning_rate": 4.067824398141701e-06,
+      "loss": 3.6471,
+      "step": 1820
+    },
+    {
+      "epoch": 59.391304347826086,
+      "grad_norm": 0.7768418192863464,
+      "learning_rate": 3.2277984585066366e-06,
+      "loss": 3.6824,
+      "step": 1840
+    },
+    {
+      "epoch": 60.03260869565217,
+      "grad_norm": 0.7814875245094299,
+      "learning_rate": 2.4819655082085835e-06,
+      "loss": 3.6767,
+      "step": 1860
+    },
+    {
+      "epoch": 60.68478260869565,
+      "grad_norm": 0.8055542707443237,
+      "learning_rate": 1.8318275555520237e-06,
+      "loss": 3.5899,
+      "step": 1880
+    },
+    {
+      "epoch": 61.32608695652174,
+      "grad_norm": 0.8155117630958557,
+      "learning_rate": 1.2786938918515568e-06,
+      "loss": 3.6685,
+      "step": 1900
+    },
+    {
+      "epoch": 61.32608695652174,
+      "eval_accuracy": 0.0008233479084565024,
+      "eval_loss": 10.19116497039795,
+      "eval_runtime": 36.7079,
+      "eval_samples_per_second": 8.227,
+      "eval_steps_per_second": 0.518,
+      "step": 1900
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 2479524451392000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null