End of training

Browse files

Files changed (9) hide show

README.md +42 -42
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/Dec02_11-23-24_DESKTOP-SKBE9FB/events.out.tfevents.1733160205.DESKTOP-SKBE9FB.19844.0 +3 -0
runs/Dec02_11-23-24_DESKTOP-SKBE9FB/events.out.tfevents.1733160656.DESKTOP-SKBE9FB.19844.1 +3 -0
train_results.json +4 -4
trainer_state.json +217 -217
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.45161290322580644
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 4.2860
-- Accuracy: 0.4516
 ## Model description
@@ -51,7 +51,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.1
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
@@ -63,44 +63,44 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 0.89  | 4    | 1107108.5       | 0.3226   |
-| No log        | 2.0   | 9    | 6932819.5       | 0.0806   |
-| 85.3671       | 2.89  | 13   | 164.3687        | 0.3065   |
-| 85.3671       | 4.0   | 18   | 94.7157         | 0.3226   |
-| 17.1959       | 4.89  | 22   | 15.0014         | 0.3226   |
-| 17.1959       | 6.0   | 27   | 14.2037         | 0.3226   |
-| 5.0119        | 6.89  | 31   | 9.6017          | 0.3226   |
-| 5.0119        | 8.0   | 36   | 3.5761          | 0.1452   |
-| 4.5338        | 8.89  | 40   | 6.3193          | 0.3226   |
-| 4.5338        | 10.0  | 45   | 6.0539          | 0.3226   |
-| 4.5338        | 10.89 | 49   | 4.3710          | 0.1452   |
-| 3.8092        | 12.0  | 54   | 2.4122          | 0.3226   |
-| 3.8092        | 12.89 | 58   | 4.2860          | 0.4516   |
-| 3.9126        | 14.0  | 63   | 2.8649          | 0.3226   |
-| 3.9126        | 14.89 | 67   | 2.8482          | 0.4516   |
-| 2.3835        | 16.0  | 72   | 1.7011          | 0.4516   |
-| 2.3835        | 16.89 | 76   | 2.2730          | 0.3226   |
-| 1.5977        | 18.0  | 81   | 22.8877         | 0.0806   |
-| 1.5977        | 18.89 | 85   | 13.0729         | 0.0806   |
-| 1.538         | 20.0  | 90   | 9.3500          | 0.0806   |
-| 1.538         | 20.89 | 94   | 4.1034          | 0.0806   |
-| 1.538         | 22.0  | 99   | 2.0537          | 0.0806   |
-| 1.98          | 22.89 | 103  | 2.4364          | 0.3226   |
-| 1.98          | 24.0  | 108  | 1.4017          | 0.4516   |
-| 1.9173        | 24.89 | 112  | 2.1187          | 0.4516   |
-| 1.9173        | 26.0  | 117  | 1.6016          | 0.3226   |
-| 1.4335        | 26.89 | 121  | 1.7112          | 0.4516   |
-| 1.4335        | 28.0  | 126  | 1.3195          | 0.4516   |
-| 1.5525        | 28.89 | 130  | 1.5629          | 0.4516   |
-| 1.5525        | 30.0  | 135  | 1.2883          | 0.4516   |
-| 1.5525        | 30.89 | 139  | 1.4228          | 0.3226   |
-| 1.3748        | 32.0  | 144  | 1.2587          | 0.4516   |
-| 1.3748        | 32.89 | 148  | 1.3212          | 0.3226   |
-| 1.2849        | 34.0  | 153  | 1.2401          | 0.4516   |
-| 1.2849        | 34.89 | 157  | 1.2035          | 0.4516   |
-| 1.2221        | 35.56 | 160  | 1.1935          | 0.4516   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.6129032258064516
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1064469725184.0
+- Accuracy: 0.6129
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1.5e-05
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 ### Training results
+| Training Loss   | Epoch | Step | Validation Loss | Accuracy |
+|:---------------:|:-----:|:----:|:---------------:|:--------:|
+| No log          | 0.89  | 4    | 1064469725184.0 | 0.5484   |
+| No log          | 2.0   | 9    | 1064469725184.0 | 0.6129   |
+| 1134325609267.2 | 2.89  | 13   | 1064469725184.0 | 0.5806   |
+| 1134325609267.2 | 4.0   | 18   | 1064469725184.0 | 0.5645   |
+| 1175573862809.6 | 4.89  | 22   | 1064469725184.0 | 0.5484   |
+| 1175573862809.6 | 6.0   | 27   | 1064469725184.0 | 0.5645   |
+| 1175573967667.2 | 6.89  | 31   | 1064469725184.0 | 0.5323   |
+| 1175573967667.2 | 8.0   | 36   | 1064469725184.0 | 0.5323   |
+| 1093077460582.4 | 8.89  | 40   | 1064469725184.0 | 0.5484   |
+| 1093077460582.4 | 10.0  | 45   | 1064469725184.0 | 0.5484   |
+| 1093077460582.4 | 10.89 | 49   | 1064469725184.0 | 0.5323   |
+| 1134325399552.0 | 12.0  | 54   | 1064469725184.0 | 0.5806   |
+| 1134325399552.0 | 12.89 | 58   | 1064469725184.0 | 0.5806   |
+| 1134325609267.2 | 14.0  | 63   | 1064469725184.0 | 0.5645   |
+| 1134325609267.2 | 14.89 | 67   | 1064469725184.0 | 0.5484   |
+| 1154949736038.4 | 16.0  | 72   | 1064469725184.0 | 0.5968   |
+| 1154949736038.4 | 16.89 | 76   | 1064469725184.0 | 0.5645   |
+| 1093077355724.8 | 18.0  | 81   | 1064469725184.0 | 0.5484   |
+| 1093077355724.8 | 18.89 | 85   | 1064469725184.0 | 0.5161   |
+| 1216822116352.0 | 20.0  | 90   | 1064469725184.0 | 0.5484   |
+| 1216822116352.0 | 20.89 | 94   | 1064469725184.0 | 0.5323   |
+| 1216822116352.0 | 22.0  | 99   | 1064469725184.0 | 0.5968   |
+| 1134325609267.2 | 22.89 | 103  | 1064469725184.0 | 0.5806   |
+| 1134325609267.2 | 24.0  | 108  | 1064469725184.0 | 0.5484   |
+| 1196197884723.2 | 24.89 | 112  | 1064469725184.0 | 0.5484   |
+| 1196197884723.2 | 26.0  | 117  | 1064469725184.0 | 0.5323   |
+| 1072453333811.2 | 26.89 | 121  | 1064469725184.0 | 0.5645   |
+| 1072453333811.2 | 28.0  | 126  | 1064469725184.0 | 0.5484   |
+| 1175573862809.6 | 28.89 | 130  | 1064469725184.0 | 0.5323   |
+| 1175573862809.6 | 30.0  | 135  | 1064469725184.0 | 0.5484   |
+| 1175573862809.6 | 30.89 | 139  | 1064469725184.0 | 0.5484   |
+| 1134325609267.2 | 32.0  | 144  | 1064469725184.0 | 0.5323   |
+| 1134325609267.2 | 32.89 | 148  | 1064469725184.0 | 0.5484   |
+| 1216822011494.4 | 34.0  | 153  | 1064469725184.0 | 0.5323   |
+| 1216822011494.4 | 34.89 | 157  | 1064469725184.0 | 0.5323   |
+| 1051829102182.4 | 35.56 | 160  | 1064469725184.0 | 0.5323   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 35.56,
-    "eval_accuracy": 0.45161290322580644,
-    "eval_loss": 4.285992622375488,
-    "eval_runtime": 2.2878,
-    "eval_samples_per_second": 27.101,
-    "eval_steps_per_second": 1.748,
-    "train_loss": 8.507176971435547,
-    "train_runtime": 445.2603,
-    "train_samples_per_second": 25.873,
-    "train_steps_per_second": 0.359
 }

 {
     "epoch": 35.56,
+    "eval_accuracy": 0.6129032258064516,
+    "eval_loss": 1064469725184.0,
+    "eval_runtime": 2.1855,
+    "eval_samples_per_second": 28.369,
+    "eval_steps_per_second": 1.83,
+    "train_loss": 1143348658176.0,
+    "train_runtime": 448.7824,
+    "train_samples_per_second": 25.669,
+    "train_steps_per_second": 0.357
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 35.56,
-    "eval_accuracy": 0.45161290322580644,
-    "eval_loss": 4.285992622375488,
-    "eval_runtime": 2.2878,
-    "eval_samples_per_second": 27.101,
-    "eval_steps_per_second": 1.748
 }

 {
     "epoch": 35.56,
+    "eval_accuracy": 0.6129032258064516,
+    "eval_loss": 1064469725184.0,
+    "eval_runtime": 2.1855,
+    "eval_samples_per_second": 28.369,
+    "eval_steps_per_second": 1.83
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:494f4498c2eaf731a0ca9fe7923786e7eb74d9092cbdd9322d1062db17972c9c
 size 12203648

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4fbc425797df76034fbcbf070ccc3b206a5df727efd25a94bfe5cde03a7307c
 size 12203648

runs/Dec02_11-23-24_DESKTOP-SKBE9FB/events.out.tfevents.1733160205.DESKTOP-SKBE9FB.19844.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06f06f9cb8ecf13d9420ef56245ab8ef0513f1a11a2da70eb9be4b1820d8aaf1
+size 18844

runs/Dec02_11-23-24_DESKTOP-SKBE9FB/events.out.tfevents.1733160656.DESKTOP-SKBE9FB.19844.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea33030e3c2957f91897698e9767905f2c29318ddc3d0279ed60d2309517d3cf
+size 411

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 35.56,
-    "train_loss": 8.507176971435547,
-    "train_runtime": 445.2603,
-    "train_samples_per_second": 25.873,
-    "train_steps_per_second": 0.359
 }

 {
     "epoch": 35.56,
+    "train_loss": 1143348658176.0,
+    "train_runtime": 448.7824,
+    "train_samples_per_second": 25.669,
+    "train_steps_per_second": 0.357
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.45161290322580644,
-  "best_model_checkpoint": "swiftformer-xs-OT\\checkpoint-58",
   "epoch": 35.55555555555556,
   "eval_steps": 500,
   "global_step": 160,
@@ -10,432 +10,432 @@
   "log_history": [
     {
       "epoch": 0.89,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 1107108.5,
-      "eval_runtime": 2.147,
-      "eval_samples_per_second": 28.877,
-      "eval_steps_per_second": 1.863,
       "step": 4
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.08064516129032258,
-      "eval_loss": 6932819.5,
-      "eval_runtime": 2.0075,
-      "eval_samples_per_second": 30.885,
-      "eval_steps_per_second": 1.993,
       "step": 9
     },
     {
       "epoch": 2.22,
-      "learning_rate": 0.09375,
-      "loss": 85.3671,
       "step": 10
     },
     {
       "epoch": 2.89,
-      "eval_accuracy": 0.3064516129032258,
-      "eval_loss": 164.3686981201172,
-      "eval_runtime": 2.0995,
-      "eval_samples_per_second": 29.531,
-      "eval_steps_per_second": 1.905,
       "step": 13
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 94.71566772460938,
-      "eval_runtime": 2.1915,
-      "eval_samples_per_second": 28.291,
-      "eval_steps_per_second": 1.825,
       "step": 18
     },
     {
       "epoch": 4.44,
-      "learning_rate": 0.08750000000000001,
-      "loss": 17.1959,
       "step": 20
     },
     {
       "epoch": 4.89,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 15.001376152038574,
-      "eval_runtime": 2.123,
-      "eval_samples_per_second": 29.204,
-      "eval_steps_per_second": 1.884,
       "step": 22
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 14.203704833984375,
-      "eval_runtime": 1.9425,
-      "eval_samples_per_second": 31.918,
-      "eval_steps_per_second": 2.059,
       "step": 27
     },
     {
       "epoch": 6.67,
-      "learning_rate": 0.08125,
-      "loss": 5.0119,
       "step": 30
     },
     {
       "epoch": 6.89,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 9.601675033569336,
-      "eval_runtime": 2.1205,
-      "eval_samples_per_second": 29.238,
-      "eval_steps_per_second": 1.886,
       "step": 31
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.14516129032258066,
-      "eval_loss": 3.5760791301727295,
-      "eval_runtime": 1.986,
-      "eval_samples_per_second": 31.218,
-      "eval_steps_per_second": 2.014,
       "step": 36
     },
     {
       "epoch": 8.89,
-      "learning_rate": 0.07500000000000001,
-      "loss": 4.5338,
       "step": 40
     },
     {
       "epoch": 8.89,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 6.319271087646484,
-      "eval_runtime": 2.1545,
-      "eval_samples_per_second": 28.777,
-      "eval_steps_per_second": 1.857,
       "step": 40
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 6.053876876831055,
-      "eval_runtime": 2.0175,
-      "eval_samples_per_second": 30.731,
-      "eval_steps_per_second": 1.983,
       "step": 45
     },
     {
       "epoch": 10.89,
-      "eval_accuracy": 0.14516129032258066,
-      "eval_loss": 4.370992183685303,
-      "eval_runtime": 2.0745,
-      "eval_samples_per_second": 29.887,
-      "eval_steps_per_second": 1.928,
       "step": 49
     },
     {
       "epoch": 11.11,
-      "learning_rate": 0.06875,
-      "loss": 3.8092,
       "step": 50
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 2.4121696949005127,
-      "eval_runtime": 1.9905,
-      "eval_samples_per_second": 31.148,
-      "eval_steps_per_second": 2.01,
       "step": 54
     },
     {
       "epoch": 12.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 4.285992622375488,
-      "eval_runtime": 1.937,
-      "eval_samples_per_second": 32.009,
-      "eval_steps_per_second": 2.065,
       "step": 58
     },
     {
       "epoch": 13.33,
-      "learning_rate": 0.0625,
-      "loss": 3.9126,
       "step": 60
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 2.8649463653564453,
-      "eval_runtime": 1.965,
-      "eval_samples_per_second": 31.553,
-      "eval_steps_per_second": 2.036,
       "step": 63
     },
     {
       "epoch": 14.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 2.8482446670532227,
-      "eval_runtime": 2.215,
-      "eval_samples_per_second": 27.991,
-      "eval_steps_per_second": 1.806,
       "step": 67
     },
     {
       "epoch": 15.56,
-      "learning_rate": 0.05625,
-      "loss": 2.3835,
       "step": 70
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.701102375984192,
-      "eval_runtime": 2.132,
-      "eval_samples_per_second": 29.081,
-      "eval_steps_per_second": 1.876,
       "step": 72
     },
     {
       "epoch": 16.89,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 2.2729971408843994,
-      "eval_runtime": 2.0795,
-      "eval_samples_per_second": 29.815,
-      "eval_steps_per_second": 1.924,
       "step": 76
     },
     {
       "epoch": 17.78,
-      "learning_rate": 0.05,
-      "loss": 1.5977,
       "step": 80
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.08064516129032258,
-      "eval_loss": 22.88765525817871,
-      "eval_runtime": 2.0645,
-      "eval_samples_per_second": 30.032,
-      "eval_steps_per_second": 1.938,
       "step": 81
     },
     {
       "epoch": 18.89,
-      "eval_accuracy": 0.08064516129032258,
-      "eval_loss": 13.072916984558105,
-      "eval_runtime": 1.9475,
-      "eval_samples_per_second": 31.836,
-      "eval_steps_per_second": 2.054,
       "step": 85
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.043750000000000004,
-      "loss": 1.538,
       "step": 90
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.08064516129032258,
-      "eval_loss": 9.349954605102539,
-      "eval_runtime": 2.0785,
-      "eval_samples_per_second": 29.829,
-      "eval_steps_per_second": 1.924,
       "step": 90
     },
     {
       "epoch": 20.89,
-      "eval_accuracy": 0.08064516129032258,
-      "eval_loss": 4.103433609008789,
-      "eval_runtime": 1.946,
-      "eval_samples_per_second": 31.861,
-      "eval_steps_per_second": 2.056,
       "step": 94
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.08064516129032258,
-      "eval_loss": 2.053744077682495,
-      "eval_runtime": 1.9975,
-      "eval_samples_per_second": 31.039,
-      "eval_steps_per_second": 2.003,
       "step": 99
     },
     {
       "epoch": 22.22,
-      "learning_rate": 0.037500000000000006,
-      "loss": 1.98,
       "step": 100
     },
     {
       "epoch": 22.89,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 2.4363696575164795,
-      "eval_runtime": 2.071,
-      "eval_samples_per_second": 29.937,
-      "eval_steps_per_second": 1.931,
       "step": 103
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.4017163515090942,
-      "eval_runtime": 2.0465,
-      "eval_samples_per_second": 30.296,
-      "eval_steps_per_second": 1.955,
       "step": 108
     },
     {
       "epoch": 24.44,
-      "learning_rate": 0.03125,
-      "loss": 1.9173,
       "step": 110
     },
     {
       "epoch": 24.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 2.11865234375,
-      "eval_runtime": 1.8829,
-      "eval_samples_per_second": 32.927,
-      "eval_steps_per_second": 2.124,
       "step": 112
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 1.6016442775726318,
-      "eval_runtime": 2.0465,
-      "eval_samples_per_second": 30.296,
-      "eval_steps_per_second": 1.955,
       "step": 117
     },
     {
       "epoch": 26.67,
-      "learning_rate": 0.025,
-      "loss": 1.4335,
       "step": 120
     },
     {
       "epoch": 26.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.7111594676971436,
-      "eval_runtime": 1.9185,
-      "eval_samples_per_second": 32.318,
-      "eval_steps_per_second": 2.085,
       "step": 121
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.3195487260818481,
-      "eval_runtime": 1.8439,
-      "eval_samples_per_second": 33.624,
-      "eval_steps_per_second": 2.169,
       "step": 126
     },
     {
       "epoch": 28.89,
-      "learning_rate": 0.018750000000000003,
-      "loss": 1.5525,
       "step": 130
     },
     {
       "epoch": 28.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.5628976821899414,
-      "eval_runtime": 1.933,
-      "eval_samples_per_second": 32.075,
-      "eval_steps_per_second": 2.069,
       "step": 130
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.288311243057251,
-      "eval_runtime": 2.036,
-      "eval_samples_per_second": 30.452,
-      "eval_steps_per_second": 1.965,
       "step": 135
     },
     {
       "epoch": 30.89,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 1.422782301902771,
-      "eval_runtime": 2.1235,
-      "eval_samples_per_second": 29.197,
-      "eval_steps_per_second": 1.884,
       "step": 139
     },
     {
       "epoch": 31.11,
-      "learning_rate": 0.0125,
-      "loss": 1.3748,
       "step": 140
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.258745789527893,
-      "eval_runtime": 1.916,
-      "eval_samples_per_second": 32.36,
-      "eval_steps_per_second": 2.088,
       "step": 144
     },
     {
       "epoch": 32.89,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 1.3211716413497925,
-      "eval_runtime": 1.9079,
-      "eval_samples_per_second": 32.496,
-      "eval_steps_per_second": 2.096,
       "step": 148
     },
     {
       "epoch": 33.33,
-      "learning_rate": 0.00625,
-      "loss": 1.2849,
       "step": 150
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.2401268482208252,
-      "eval_runtime": 1.933,
-      "eval_samples_per_second": 32.075,
-      "eval_steps_per_second": 2.069,
       "step": 153
     },
     {
       "epoch": 34.89,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.203456163406372,
-      "eval_runtime": 2.085,
-      "eval_samples_per_second": 29.736,
-      "eval_steps_per_second": 1.918,
       "step": 157
     },
     {
       "epoch": 35.56,
       "learning_rate": 0.0,
-      "loss": 1.2221,
       "step": 160
     },
     {
       "epoch": 35.56,
-      "eval_accuracy": 0.45161290322580644,
-      "eval_loss": 1.1935251951217651,
-      "eval_runtime": 2.0055,
-      "eval_samples_per_second": 30.915,
-      "eval_steps_per_second": 1.995,
       "step": 160
     },
     {
       "epoch": 35.56,
       "step": 160,
       "total_flos": 2.807020017156096e+16,
-      "train_loss": 8.507176971435547,
-      "train_runtime": 445.2603,
-      "train_samples_per_second": 25.873,
-      "train_steps_per_second": 0.359
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.6129032258064516,
+  "best_model_checkpoint": "swiftformer-xs-OT\\checkpoint-9",
   "epoch": 35.55555555555556,
   "eval_steps": 500,
   "global_step": 160,
   "log_history": [
     {
       "epoch": 0.89,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.21,
+      "eval_samples_per_second": 28.054,
+      "eval_steps_per_second": 1.81,
       "step": 4
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6129032258064516,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.2095,
+      "eval_samples_per_second": 28.06,
+      "eval_steps_per_second": 1.81,
       "step": 9
     },
     {
       "epoch": 2.22,
+      "learning_rate": 1.40625e-05,
+      "loss": 1134325609267.2,
       "step": 10
     },
     {
       "epoch": 2.89,
+      "eval_accuracy": 0.5806451612903226,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.153,
+      "eval_samples_per_second": 28.797,
+      "eval_steps_per_second": 1.858,
       "step": 13
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.5645161290322581,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.9785,
+      "eval_samples_per_second": 31.337,
+      "eval_steps_per_second": 2.022,
       "step": 18
     },
     {
       "epoch": 4.44,
+      "learning_rate": 1.3125e-05,
+      "loss": 1175573862809.6,
       "step": 20
     },
     {
       "epoch": 4.89,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.109,
+      "eval_samples_per_second": 29.398,
+      "eval_steps_per_second": 1.897,
       "step": 22
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.5645161290322581,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.1312,
+      "eval_samples_per_second": 29.091,
+      "eval_steps_per_second": 1.877,
       "step": 27
     },
     {
       "epoch": 6.67,
+      "learning_rate": 1.21875e-05,
+      "loss": 1175573967667.2,
       "step": 30
     },
     {
       "epoch": 6.89,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.0865,
+      "eval_samples_per_second": 29.715,
+      "eval_steps_per_second": 1.917,
       "step": 31
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.1275,
+      "eval_samples_per_second": 29.142,
+      "eval_steps_per_second": 1.88,
       "step": 36
     },
     {
       "epoch": 8.89,
+      "learning_rate": 1.125e-05,
+      "loss": 1093077460582.4,
       "step": 40
     },
     {
       "epoch": 8.89,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.995,
+      "eval_samples_per_second": 31.078,
+      "eval_steps_per_second": 2.005,
       "step": 40
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.964,
+      "eval_samples_per_second": 31.569,
+      "eval_steps_per_second": 2.037,
       "step": 45
     },
     {
       "epoch": 10.89,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.145,
+      "eval_samples_per_second": 28.904,
+      "eval_steps_per_second": 1.865,
       "step": 49
     },
     {
       "epoch": 11.11,
+      "learning_rate": 1.03125e-05,
+      "loss": 1134325399552.0,
       "step": 50
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.5806451612903226,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.2306,
+      "eval_samples_per_second": 27.795,
+      "eval_steps_per_second": 1.793,
       "step": 54
     },
     {
       "epoch": 12.89,
+      "eval_accuracy": 0.5806451612903226,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.0875,
+      "eval_samples_per_second": 29.701,
+      "eval_steps_per_second": 1.916,
       "step": 58
     },
     {
       "epoch": 13.33,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 1134325609267.2,
       "step": 60
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.5645161290322581,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.1535,
+      "eval_samples_per_second": 28.79,
+      "eval_steps_per_second": 1.857,
       "step": 63
     },
     {
       "epoch": 14.89,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.2291,
+      "eval_samples_per_second": 27.814,
+      "eval_steps_per_second": 1.794,
       "step": 67
     },
     {
       "epoch": 15.56,
+      "learning_rate": 8.4375e-06,
+      "loss": 1154949736038.4,
       "step": 70
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.5967741935483871,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.08,
+      "eval_samples_per_second": 29.808,
+      "eval_steps_per_second": 1.923,
       "step": 72
     },
     {
       "epoch": 16.89,
+      "eval_accuracy": 0.5645161290322581,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.035,
+      "eval_samples_per_second": 30.467,
+      "eval_steps_per_second": 1.966,
       "step": 76
     },
     {
       "epoch": 17.78,
+      "learning_rate": 7.5e-06,
+      "loss": 1093077355724.8,
       "step": 80
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.2025,
+      "eval_samples_per_second": 28.149,
+      "eval_steps_per_second": 1.816,
       "step": 81
     },
     {
       "epoch": 18.89,
+      "eval_accuracy": 0.5161290322580645,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.971,
+      "eval_samples_per_second": 31.457,
+      "eval_steps_per_second": 2.029,
       "step": 85
     },
     {
       "epoch": 20.0,
+      "learning_rate": 6.5625e-06,
+      "loss": 1216822116352.0,
       "step": 90
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.985,
+      "eval_samples_per_second": 31.235,
+      "eval_steps_per_second": 2.015,
       "step": 90
     },
     {
       "epoch": 20.89,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.9935,
+      "eval_samples_per_second": 31.101,
+      "eval_steps_per_second": 2.007,
       "step": 94
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.5967741935483871,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.075,
+      "eval_samples_per_second": 29.88,
+      "eval_steps_per_second": 1.928,
       "step": 99
     },
     {
       "epoch": 22.22,
+      "learning_rate": 5.625e-06,
+      "loss": 1134325609267.2,
       "step": 100
     },
     {
       "epoch": 22.89,
+      "eval_accuracy": 0.5806451612903226,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.0175,
+      "eval_samples_per_second": 30.731,
+      "eval_steps_per_second": 1.983,
       "step": 103
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.0675,
+      "eval_samples_per_second": 29.988,
+      "eval_steps_per_second": 1.935,
       "step": 108
     },
     {
       "epoch": 24.44,
+      "learning_rate": 4.6875000000000004e-06,
+      "loss": 1196197884723.2,
       "step": 110
     },
     {
       "epoch": 24.89,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.075,
+      "eval_samples_per_second": 29.879,
+      "eval_steps_per_second": 1.928,
       "step": 112
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.1282,
+      "eval_samples_per_second": 29.133,
+      "eval_steps_per_second": 1.88,
       "step": 117
     },
     {
       "epoch": 26.67,
+      "learning_rate": 3.75e-06,
+      "loss": 1072453333811.2,
       "step": 120
     },
     {
       "epoch": 26.89,
+      "eval_accuracy": 0.5645161290322581,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.9508,
+      "eval_samples_per_second": 31.782,
+      "eval_steps_per_second": 2.05,
       "step": 121
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.9533,
+      "eval_samples_per_second": 31.742,
+      "eval_steps_per_second": 2.048,
       "step": 126
     },
     {
       "epoch": 28.89,
+      "learning_rate": 2.8125e-06,
+      "loss": 1175573862809.6,
       "step": 130
     },
     {
       "epoch": 28.89,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.1424,
+      "eval_samples_per_second": 28.94,
+      "eval_steps_per_second": 1.867,
       "step": 130
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.0848,
+      "eval_samples_per_second": 29.739,
+      "eval_steps_per_second": 1.919,
       "step": 135
     },
     {
       "epoch": 30.89,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.9558,
+      "eval_samples_per_second": 31.7,
+      "eval_steps_per_second": 2.045,
       "step": 139
     },
     {
       "epoch": 31.11,
+      "learning_rate": 1.875e-06,
+      "loss": 1134325609267.2,
       "step": 140
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.9384,
+      "eval_samples_per_second": 31.984,
+      "eval_steps_per_second": 2.064,
       "step": 144
     },
     {
       "epoch": 32.89,
+      "eval_accuracy": 0.5483870967741935,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.997,
+      "eval_samples_per_second": 31.046,
+      "eval_steps_per_second": 2.003,
       "step": 148
     },
     {
       "epoch": 33.33,
+      "learning_rate": 9.375e-07,
+      "loss": 1216822011494.4,
       "step": 150
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 2.2368,
+      "eval_samples_per_second": 27.718,
+      "eval_steps_per_second": 1.788,
       "step": 153
     },
     {
       "epoch": 34.89,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.9757,
+      "eval_samples_per_second": 31.382,
+      "eval_steps_per_second": 2.025,
       "step": 157
     },
     {
       "epoch": 35.56,
       "learning_rate": 0.0,
+      "loss": 1051829102182.4,
       "step": 160
     },
     {
       "epoch": 35.56,
+      "eval_accuracy": 0.532258064516129,
+      "eval_loss": 1064469725184.0,
+      "eval_runtime": 1.937,
+      "eval_samples_per_second": 32.009,
+      "eval_steps_per_second": 2.065,
       "step": 160
     },
     {
       "epoch": 35.56,
       "step": 160,
       "total_flos": 2.807020017156096e+16,
+      "train_loss": 1143348658176.0,
+      "train_runtime": 448.7824,
+      "train_samples_per_second": 25.669,
+      "train_steps_per_second": 0.357
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf38d914e5eaa698758645526a9651b15c22134f6ea1860cf5f99a8d040ef183
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d0202a7e131b7554da06d99dc90e4f4622b4cd33fba64e736dbc93ac4016a88
 size 4728