Training in progress, step 600, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +70 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2e2114ed459673c5d749b3341367ae547a46e47116edf106c055bdfeeb40c75
 size 241895584

 version https://git-lfs.github.com/spec/v1
+oid sha256:19f3eef8107983dcdb7b94a197dbed9a47e97bf01ac4eb936a9e72d9cea52879
 size 241895584

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a75a00d2da06bb833cc02da4ff6c961ed115d1cbf6f02daa086895025ed79392
 size 123395956

 version https://git-lfs.github.com/spec/v1
+oid sha256:519ee3684a19a9f21410539bf0e644d7e22660a5cb4b39c9cd795c4b68b2be8f
 size 123395956

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb9e13c66b191c8148e2133ca2784e9c043469b5ff2bff6f0d53e0b29915063b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:76875aafaba767c932aae353ebc72177db545cf762563fd52735ca887bf41e31
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c801982aae9be06d302403c1fff693e53dedf89c1d3b689ee29fedad84a96d23
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:e32b8db4f4cba2b7b0157ab60a064591c3802a9067529d5fddbb1c6c1e99660b
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad56050a9daa3d98b30fc2273c514f21e48c6fc2b3fdd6f82fd1518d879c7d05
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f35971308ea7f5d5ad9cac94f24500885f98d8e3244f123fe54daa3c39fed470
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 400,
-  "best_metric": 0.6293139457702637,
-  "best_model_checkpoint": "outputs/checkpoint-400",
-  "epoch": 0.6304176516942475,
   "eval_steps": 200,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -136,6 +136,70 @@
       "eval_samples_per_second": 6.564,
       "eval_steps_per_second": 1.646,
       "step": 400
     }
   ],
   "logging_steps": 25,
@@ -155,7 +219,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.752881759404032e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 600,
+  "best_metric": 0.619783341884613,
+  "best_model_checkpoint": "outputs/checkpoint-600",
+  "epoch": 0.9456264775413712,
   "eval_steps": 200,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.564,
       "eval_steps_per_second": 1.646,
       "step": 400
+    },
+    {
+      "epoch": 0.6698187549251379,
+      "grad_norm": 0.26333087682724,
+      "learning_rate": 0.00014257792915650728,
+      "loss": 0.6544,
+      "step": 425
+    },
+    {
+      "epoch": 0.7092198581560284,
+      "grad_norm": 0.21821129322052002,
+      "learning_rate": 0.00013452981989985348,
+      "loss": 0.6227,
+      "step": 450
+    },
+    {
+      "epoch": 0.7486209613869188,
+      "grad_norm": 0.25767773389816284,
+      "learning_rate": 0.00012621891786408648,
+      "loss": 0.6508,
+      "step": 475
+    },
+    {
+      "epoch": 0.7880220646178093,
+      "grad_norm": 0.36362728476524353,
+      "learning_rate": 0.00011770847403195834,
+      "loss": 0.6246,
+      "step": 500
+    },
+    {
+      "epoch": 0.8274231678486997,
+      "grad_norm": 0.2877989113330841,
+      "learning_rate": 0.00010906325801977804,
+      "loss": 0.637,
+      "step": 525
+    },
+    {
+      "epoch": 0.8668242710795903,
+      "grad_norm": 0.24531076848506927,
+      "learning_rate": 0.00010034906514152238,
+      "loss": 0.6278,
+      "step": 550
+    },
+    {
+      "epoch": 0.9062253743104807,
+      "grad_norm": 0.29258039593696594,
+      "learning_rate": 9.163221566676847e-05,
+      "loss": 0.6357,
+      "step": 575
+    },
+    {
+      "epoch": 0.9456264775413712,
+      "grad_norm": 0.28367385268211365,
+      "learning_rate": 8.297905008339677e-05,
+      "loss": 0.6301,
+      "step": 600
+    },
+    {
+      "epoch": 0.9456264775413712,
+      "eval_loss": 0.619783341884613,
+      "eval_runtime": 162.108,
+      "eval_samples_per_second": 6.594,
+      "eval_steps_per_second": 1.653,
+      "step": 600
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 7.119511154412749e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null