Training in progress, epoch 1

Browse files

Files changed (13) hide show

config.json +1 -1
model.safetensors +1 -1
run-0/checkpoint-156/config.json +1 -1
run-0/checkpoint-156/model.safetensors +1 -1
run-0/checkpoint-156/optimizer.pt +1 -1
run-0/checkpoint-156/scheduler.pt +1 -1
run-0/checkpoint-156/trainer_state.json +10 -13
run-0/checkpoint-156/training_args.bin +2 -2
run-0/checkpoint-312/config.json +1 -1
run-0/checkpoint-312/trainer_state.json +16 -19
runs/Apr03_13-50-26_435476ce9a2d/events.out.tfevents.1743689409.435476ce9a2d.544.3 +2 -2
runs/Apr03_13-50-26_435476ce9a2d/events.out.tfevents.1743690454.435476ce9a2d.544.4 +3 -0
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -5,7 +5,7 @@
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
   "hidden_size": 512,
   "initializer_range": 0.02,
   "intermediate_size": 2048,

   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.3817407923797774,
   "hidden_size": 512,
   "initializer_range": 0.02,
   "intermediate_size": 2048,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39971be058254b6fcaad09fd5a497f8f24dfc938a10ed4bf826735827a210d84
 size 165512728

 version https://git-lfs.github.com/spec/v1
+oid sha256:363bac08b799d41f49c5dd03f3ea37d5862ca0691f193d70f68e52fc64b4e076
 size 165512728

run-0/checkpoint-156/config.json CHANGED Viewed

@@ -5,7 +5,7 @@
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1891988684237177,
   "hidden_size": 512,
   "initializer_range": 0.02,
   "intermediate_size": 2048,

   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.3817407923797774,
   "hidden_size": 512,
   "initializer_range": 0.02,
   "intermediate_size": 2048,

run-0/checkpoint-156/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e523ef390379259e2d519e2d17198780a1cde58ae8503b3aba68131e7af118d0
 size 165512728

 version https://git-lfs.github.com/spec/v1
+oid sha256:363bac08b799d41f49c5dd03f3ea37d5862ca0691f193d70f68e52fc64b4e076
 size 165512728

run-0/checkpoint-156/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f751b3beeba64cf089f013861f9f46c10c3a7a35cc7d1fbe1d9a54c6499cb452
 size 331108474

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf9752a3ef956476a550a50f14fba0f487b5ab49a96516c41a197f5511dae44c
 size 331108474

run-0/checkpoint-156/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4c504aa00e570dc675c82f1818a4568fe15a929890ef14b78d7e6d653a6ea55
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a29afde6d2148f5bed68a601216924711accd006df1a59fa931b8b5c921299c4
 size 1064

run-0/checkpoint-156/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 156,
-  "best_metric": 0.5090252707581228,
   "best_model_checkpoint": "bert_uncased_L-8_H-512_A-8-finetuned-rte-run_1/run-0/checkpoint-156",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -11,18 +11,18 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5090252707581228,
-      "eval_loss": 0.690215528011322,
-      "eval_runtime": 0.9783,
-      "eval_samples_per_second": 283.148,
-      "eval_steps_per_second": 5.111,
       "step": 156
     }
   ],
   "logging_steps": 500,
-  "max_steps": 624,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -40,10 +40,7 @@
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "classifier_dropout": 0.1891988684237177,
-    "learning_rate": 4.546022869296215e-06,
-    "max_length": 256,
-    "num_train_epochs": 4,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_global_step": 156,
+  "best_metric": 0.4981949458483754,
   "best_model_checkpoint": "bert_uncased_L-8_H-512_A-8-finetuned-rte-run_1/run-0/checkpoint-156",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4981949458483754,
+      "eval_loss": 0.6968499422073364,
+      "eval_runtime": 0.9678,
+      "eval_samples_per_second": 286.225,
+      "eval_steps_per_second": 5.167,
       "step": 156
     }
   ],
   "logging_steps": 500,
+  "max_steps": 312,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "classifier_dropout": 0.3817407923797774,
+    "learning_rate": 2e-05
   }
 }

run-0/checkpoint-156/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c5f34da6ceb66aad0eb63c414662f43a60eed98b09cbecadb2699ba48e9f997
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:23ca9a06a8c3177f164972aa5dcabf054195fcaa9e67baf9fe5bbdd8dca15278
+size 5496

run-0/checkpoint-312/config.json CHANGED Viewed

@@ -5,7 +5,7 @@
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1891988684237177,
   "hidden_size": 512,
   "initializer_range": 0.02,
   "intermediate_size": 2048,

   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.3817407923797774,
   "hidden_size": 512,
   "initializer_range": 0.02,
   "intermediate_size": 2048,

run-0/checkpoint-312/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 312,
-  "best_metric": 0.5703971119133574,
   "best_model_checkpoint": "bert_uncased_L-8_H-512_A-8-finetuned-rte-run_1/run-0/checkpoint-312",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -11,27 +11,27 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5090252707581228,
-      "eval_loss": 0.690215528011322,
-      "eval_runtime": 0.9783,
-      "eval_samples_per_second": 283.148,
-      "eval_steps_per_second": 5.111,
       "step": 156
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5703971119133574,
-      "eval_loss": 0.6809557676315308,
-      "eval_runtime": 0.9817,
-      "eval_samples_per_second": 282.165,
-      "eval_steps_per_second": 5.093,
       "step": 312
     }
   ],
   "logging_steps": 500,
-  "max_steps": 624,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -40,7 +40,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
@@ -49,10 +49,7 @@
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "classifier_dropout": 0.1891988684237177,
-    "learning_rate": 4.546022869296215e-06,
-    "max_length": 256,
-    "num_train_epochs": 4,
-    "per_device_train_batch_size": 16
   }
 }

 {
   "best_global_step": 312,
+  "best_metric": 0.5487364620938628,
   "best_model_checkpoint": "bert_uncased_L-8_H-512_A-8-finetuned-rte-run_1/run-0/checkpoint-312",
   "epoch": 2.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4981949458483754,
+      "eval_loss": 0.6968499422073364,
+      "eval_runtime": 0.9678,
+      "eval_samples_per_second": 286.225,
+      "eval_steps_per_second": 5.167,
       "step": 156
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5487364620938628,
+      "eval_loss": 0.6850671768188477,
+      "eval_runtime": 0.9382,
+      "eval_samples_per_second": 295.242,
+      "eval_steps_per_second": 5.329,
       "step": 312
     }
   ],
   "logging_steps": 500,
+  "max_steps": 312,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "classifier_dropout": 0.3817407923797774,
+    "learning_rate": 2e-05
   }
 }

runs/Apr03_13-50-26_435476ce9a2d/events.out.tfevents.1743689409.435476ce9a2d.544.3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daa0f02a71e24cf003b9c885f440ab79464d985dce99c217652b93ab31a4c47a
-size 5358

 version https://git-lfs.github.com/spec/v1
+oid sha256:f59007e7572973eae7dc27eaee6dcafe5a5e7532addc0a33506805113e4bc42c
+size 6035

runs/Apr03_13-50-26_435476ce9a2d/events.out.tfevents.1743690454.435476ce9a2d.544.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95996e35ee57ec423edbbf6d704f81372680d56ba3fe61b15266f3fa5eef2836
+size 5356

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a9555b45eb015cc8e38ce35ebfb7784a11973e590d59045ce2963614c8b84b7
 size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:23ca9a06a8c3177f164972aa5dcabf054195fcaa9e67baf9fe5bbdd8dca15278
 size 5496