Augusto777 commited on Dec 2, 2024

Commit

81437cc

verified ·

1 Parent(s): 5547f07

End of training

Browse files

Files changed (18) hide show

README.md +111 -0
all_results.json +12 -0
config.json +50 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +22 -0
runs/Dec01_18-49-50_DESKTOP-SKBE9FB/events.out.tfevents.1733100591.DESKTOP-SKBE9FB.3628.0 +3 -0
runs/Dec01_18-51-58_DESKTOP-SKBE9FB/events.out.tfevents.1733100719.DESKTOP-SKBE9FB.7024.0 +3 -0
runs/Dec01_19-09-57_DESKTOP-SKBE9FB/events.out.tfevents.1733101798.DESKTOP-SKBE9FB.2372.0 +3 -0
runs/Dec02_10-31-18_DESKTOP-SKBE9FB/events.out.tfevents.1733157079.DESKTOP-SKBE9FB.4544.0 +3 -0
runs/Dec02_11-09-12_DESKTOP-SKBE9FB/events.out.tfevents.1733159353.DESKTOP-SKBE9FB.16760.0 +3 -0
runs/Dec02_11-09-55_DESKTOP-SKBE9FB/events.out.tfevents.1733159396.DESKTOP-SKBE9FB.2540.0 +3 -0
runs/Dec02_11-10-42_DESKTOP-SKBE9FB/events.out.tfevents.1733159443.DESKTOP-SKBE9FB.7692.0 +3 -0
runs/Dec02_11-15-28_DESKTOP-SKBE9FB/events.out.tfevents.1733159729.DESKTOP-SKBE9FB.11340.0 +3 -0
runs/Dec02_11-15-28_DESKTOP-SKBE9FB/events.out.tfevents.1733160176.DESKTOP-SKBE9FB.11340.1 +3 -0
train_results.json +7 -0
trainer_state.json +450 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,111 @@

+---
+base_model: MBZUAI/swiftformer-xs
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: swiftformer-xs-OT
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: validation
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.45161290322580644
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# swiftformer-xs-OT
+This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 4.2860
+- Accuracy: 0.4516
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.1
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 40
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 0.89  | 4    | 1107108.5       | 0.3226   |
+| No log        | 2.0   | 9    | 6932819.5       | 0.0806   |
+| 85.3671       | 2.89  | 13   | 164.3687        | 0.3065   |
+| 85.3671       | 4.0   | 18   | 94.7157         | 0.3226   |
+| 17.1959       | 4.89  | 22   | 15.0014         | 0.3226   |
+| 17.1959       | 6.0   | 27   | 14.2037         | 0.3226   |
+| 5.0119        | 6.89  | 31   | 9.6017          | 0.3226   |
+| 5.0119        | 8.0   | 36   | 3.5761          | 0.1452   |
+| 4.5338        | 8.89  | 40   | 6.3193          | 0.3226   |
+| 4.5338        | 10.0  | 45   | 6.0539          | 0.3226   |
+| 4.5338        | 10.89 | 49   | 4.3710          | 0.1452   |
+| 3.8092        | 12.0  | 54   | 2.4122          | 0.3226   |
+| 3.8092        | 12.89 | 58   | 4.2860          | 0.4516   |
+| 3.9126        | 14.0  | 63   | 2.8649          | 0.3226   |
+| 3.9126        | 14.89 | 67   | 2.8482          | 0.4516   |
+| 2.3835        | 16.0  | 72   | 1.7011          | 0.4516   |
+| 2.3835        | 16.89 | 76   | 2.2730          | 0.3226   |
+| 1.5977        | 18.0  | 81   | 22.8877         | 0.0806   |
+| 1.5977        | 18.89 | 85   | 13.0729         | 0.0806   |
+| 1.538         | 20.0  | 90   | 9.3500          | 0.0806   |
+| 1.538         | 20.89 | 94   | 4.1034          | 0.0806   |
+| 1.538         | 22.0  | 99   | 2.0537          | 0.0806   |
+| 1.98          | 22.89 | 103  | 2.4364          | 0.3226   |
+| 1.98          | 24.0  | 108  | 1.4017          | 0.4516   |
+| 1.9173        | 24.89 | 112  | 2.1187          | 0.4516   |
+| 1.9173        | 26.0  | 117  | 1.6016          | 0.3226   |
+| 1.4335        | 26.89 | 121  | 1.7112          | 0.4516   |
+| 1.4335        | 28.0  | 126  | 1.3195          | 0.4516   |
+| 1.5525        | 28.89 | 130  | 1.5629          | 0.4516   |
+| 1.5525        | 30.0  | 135  | 1.2883          | 0.4516   |
+| 1.5525        | 30.89 | 139  | 1.4228          | 0.3226   |
+| 1.3748        | 32.0  | 144  | 1.2587          | 0.4516   |
+| 1.3748        | 32.89 | 148  | 1.3212          | 0.3226   |
+| 1.2849        | 34.0  | 153  | 1.2401          | 0.4516   |
+| 1.2849        | 34.89 | 157  | 1.2035          | 0.4516   |
+| 1.2221        | 35.56 | 160  | 1.1935          | 0.4516   |
+### Framework versions
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu118
+- Datasets 2.16.1
+- Tokenizers 0.15.0

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 35.56,
+    "eval_accuracy": 0.45161290322580644,
+    "eval_loss": 4.285992622375488,
+    "eval_runtime": 2.2878,
+    "eval_samples_per_second": 27.101,
+    "eval_steps_per_second": 1.748,
+    "train_loss": 8.507176971435547,
+    "train_runtime": 445.2603,
+    "train_samples_per_second": 25.873,
+    "train_steps_per_second": 0.359
+}

config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "_name_or_path": "MBZUAI/swiftformer-xs",
+  "architectures": [
+    "SwiftFormerForImageClassification"
+  ],
+  "batch_norm_eps": 1e-05,
+  "depths": [
+    3,
+    3,
+    6,
+    4
+  ],
+  "down_pad": 1,
+  "down_patch_size": 3,
+  "down_stride": 2,
+  "downsamples": [
+    true,
+    true,
+    true,
+    true
+  ],
+  "drop_path_rate": 0.0,
+  "embed_dims": [
+    48,
+    56,
+    112,
+    220
+  ],
+  "hidden_act": "gelu",
+  "id2label": {
+    "0": "active",
+    "1": "active-inactive",
+    "2": "healthy",
+    "3": "inactive"
+  },
+  "label2id": {
+    "active": 0,
+    "active-inactive": 1,
+    "healthy": 2,
+    "inactive": 3
+  },
+  "layer_scale_init_value": 1e-05,
+  "mlp_ratio": 4,
+  "model_type": "swiftformer",
+  "num_channels": 3,
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "use_layer_scale": true
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 35.56,
+    "eval_accuracy": 0.45161290322580644,
+    "eval_loss": 4.285992622375488,
+    "eval_runtime": 2.2878,
+    "eval_samples_per_second": 27.101,
+    "eval_steps_per_second": 1.748
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:494f4498c2eaf731a0ca9fe7923786e7eb74d9092cbdd9322d1062db17972c9c
+size 12203648

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

runs/Dec01_18-49-50_DESKTOP-SKBE9FB/events.out.tfevents.1733100591.DESKTOP-SKBE9FB.3628.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a26fa941ec95e4928651e4f20e94a4ea772e64f8ee3e350fd743236a2c785499
+size 7553

runs/Dec01_18-51-58_DESKTOP-SKBE9FB/events.out.tfevents.1733100719.DESKTOP-SKBE9FB.7024.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2e17ee5770f6c4aff8760dee0ec6877ec8cfd6c8a2085c7d748e50ca55dc840
+size 5343

runs/Dec01_19-09-57_DESKTOP-SKBE9FB/events.out.tfevents.1733101798.DESKTOP-SKBE9FB.2372.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea48033cab0f86131449fdee62256c07d55f4538e971504bdcfe1f48c60a58d6
+size 5343

runs/Dec02_10-31-18_DESKTOP-SKBE9FB/events.out.tfevents.1733157079.DESKTOP-SKBE9FB.4544.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8662b10659943dd3e28d0517f2bb21a9365b3a4affb61c353e08862ccd9616e3
+size 7235

runs/Dec02_11-09-12_DESKTOP-SKBE9FB/events.out.tfevents.1733159353.DESKTOP-SKBE9FB.16760.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db18520a0ef361491684a50fa9b228c0c9b59369f57bb1499a9356416d8099c4
+size 4551

runs/Dec02_11-09-55_DESKTOP-SKBE9FB/events.out.tfevents.1733159396.DESKTOP-SKBE9FB.2540.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d0c52f95404d3b83c5d8ca9f305be78de18229ce975a1d56312479ccfd93c17
+size 4551

runs/Dec02_11-10-42_DESKTOP-SKBE9FB/events.out.tfevents.1733159443.DESKTOP-SKBE9FB.7692.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c77cb8baa48b40a05eb6ca0bb55c5f7882ad52728b6568d3d68d9fac442dee59
+size 5657

runs/Dec02_11-15-28_DESKTOP-SKBE9FB/events.out.tfevents.1733159729.DESKTOP-SKBE9FB.11340.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b348930635d2621d431c4abf5e48c56cdc306bb56f143a09f8baf3e3d22054b
+size 18840

runs/Dec02_11-15-28_DESKTOP-SKBE9FB/events.out.tfevents.1733160176.DESKTOP-SKBE9FB.11340.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc2116e81a1b3146229064714be962a0df154b42ba5f27189a9077bb982cac0a
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 35.56,
+    "train_loss": 8.507176971435547,
+    "train_runtime": 445.2603,
+    "train_samples_per_second": 25.873,
+    "train_steps_per_second": 0.359
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,450 @@

+{
+  "best_metric": 0.45161290322580644,
+  "best_model_checkpoint": "swiftformer-xs-OT\\checkpoint-58",
+  "epoch": 35.55555555555556,
+  "eval_steps": 500,
+  "global_step": 160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.89,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 1107108.5,
+      "eval_runtime": 2.147,
+      "eval_samples_per_second": 28.877,
+      "eval_steps_per_second": 1.863,
+      "step": 4
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 6932819.5,
+      "eval_runtime": 2.0075,
+      "eval_samples_per_second": 30.885,
+      "eval_steps_per_second": 1.993,
+      "step": 9
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.09375,
+      "loss": 85.3671,
+      "step": 10
+    },
+    {
+      "epoch": 2.89,
+      "eval_accuracy": 0.3064516129032258,
+      "eval_loss": 164.3686981201172,
+      "eval_runtime": 2.0995,
+      "eval_samples_per_second": 29.531,
+      "eval_steps_per_second": 1.905,
+      "step": 13
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 94.71566772460938,
+      "eval_runtime": 2.1915,
+      "eval_samples_per_second": 28.291,
+      "eval_steps_per_second": 1.825,
+      "step": 18
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 0.08750000000000001,
+      "loss": 17.1959,
+      "step": 20
+    },
+    {
+      "epoch": 4.89,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 15.001376152038574,
+      "eval_runtime": 2.123,
+      "eval_samples_per_second": 29.204,
+      "eval_steps_per_second": 1.884,
+      "step": 22
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 14.203704833984375,
+      "eval_runtime": 1.9425,
+      "eval_samples_per_second": 31.918,
+      "eval_steps_per_second": 2.059,
+      "step": 27
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 0.08125,
+      "loss": 5.0119,
+      "step": 30
+    },
+    {
+      "epoch": 6.89,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 9.601675033569336,
+      "eval_runtime": 2.1205,
+      "eval_samples_per_second": 29.238,
+      "eval_steps_per_second": 1.886,
+      "step": 31
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.14516129032258066,
+      "eval_loss": 3.5760791301727295,
+      "eval_runtime": 1.986,
+      "eval_samples_per_second": 31.218,
+      "eval_steps_per_second": 2.014,
+      "step": 36
+    },
+    {
+      "epoch": 8.89,
+      "learning_rate": 0.07500000000000001,
+      "loss": 4.5338,
+      "step": 40
+    },
+    {
+      "epoch": 8.89,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 6.319271087646484,
+      "eval_runtime": 2.1545,
+      "eval_samples_per_second": 28.777,
+      "eval_steps_per_second": 1.857,
+      "step": 40
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 6.053876876831055,
+      "eval_runtime": 2.0175,
+      "eval_samples_per_second": 30.731,
+      "eval_steps_per_second": 1.983,
+      "step": 45
+    },
+    {
+      "epoch": 10.89,
+      "eval_accuracy": 0.14516129032258066,
+      "eval_loss": 4.370992183685303,
+      "eval_runtime": 2.0745,
+      "eval_samples_per_second": 29.887,
+      "eval_steps_per_second": 1.928,
+      "step": 49
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 0.06875,
+      "loss": 3.8092,
+      "step": 50
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 2.4121696949005127,
+      "eval_runtime": 1.9905,
+      "eval_samples_per_second": 31.148,
+      "eval_steps_per_second": 2.01,
+      "step": 54
+    },
+    {
+      "epoch": 12.89,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 4.285992622375488,
+      "eval_runtime": 1.937,
+      "eval_samples_per_second": 32.009,
+      "eval_steps_per_second": 2.065,
+      "step": 58
+    },
+    {
+      "epoch": 13.33,
+      "learning_rate": 0.0625,
+      "loss": 3.9126,
+      "step": 60
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 2.8649463653564453,
+      "eval_runtime": 1.965,
+      "eval_samples_per_second": 31.553,
+      "eval_steps_per_second": 2.036,
+      "step": 63
+    },
+    {
+      "epoch": 14.89,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 2.8482446670532227,
+      "eval_runtime": 2.215,
+      "eval_samples_per_second": 27.991,
+      "eval_steps_per_second": 1.806,
+      "step": 67
+    },
+    {
+      "epoch": 15.56,
+      "learning_rate": 0.05625,
+      "loss": 2.3835,
+      "step": 70
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.701102375984192,
+      "eval_runtime": 2.132,
+      "eval_samples_per_second": 29.081,
+      "eval_steps_per_second": 1.876,
+      "step": 72
+    },
+    {
+      "epoch": 16.89,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 2.2729971408843994,
+      "eval_runtime": 2.0795,
+      "eval_samples_per_second": 29.815,
+      "eval_steps_per_second": 1.924,
+      "step": 76
+    },
+    {
+      "epoch": 17.78,
+      "learning_rate": 0.05,
+      "loss": 1.5977,
+      "step": 80
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 22.88765525817871,
+      "eval_runtime": 2.0645,
+      "eval_samples_per_second": 30.032,
+      "eval_steps_per_second": 1.938,
+      "step": 81
+    },
+    {
+      "epoch": 18.89,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 13.072916984558105,
+      "eval_runtime": 1.9475,
+      "eval_samples_per_second": 31.836,
+      "eval_steps_per_second": 2.054,
+      "step": 85
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 0.043750000000000004,
+      "loss": 1.538,
+      "step": 90
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 9.349954605102539,
+      "eval_runtime": 2.0785,
+      "eval_samples_per_second": 29.829,
+      "eval_steps_per_second": 1.924,
+      "step": 90
+    },
+    {
+      "epoch": 20.89,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 4.103433609008789,
+      "eval_runtime": 1.946,
+      "eval_samples_per_second": 31.861,
+      "eval_steps_per_second": 2.056,
+      "step": 94
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.08064516129032258,
+      "eval_loss": 2.053744077682495,
+      "eval_runtime": 1.9975,
+      "eval_samples_per_second": 31.039,
+      "eval_steps_per_second": 2.003,
+      "step": 99
+    },
+    {
+      "epoch": 22.22,
+      "learning_rate": 0.037500000000000006,
+      "loss": 1.98,
+      "step": 100
+    },
+    {
+      "epoch": 22.89,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 2.4363696575164795,
+      "eval_runtime": 2.071,
+      "eval_samples_per_second": 29.937,
+      "eval_steps_per_second": 1.931,
+      "step": 103
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.4017163515090942,
+      "eval_runtime": 2.0465,
+      "eval_samples_per_second": 30.296,
+      "eval_steps_per_second": 1.955,
+      "step": 108
+    },
+    {
+      "epoch": 24.44,
+      "learning_rate": 0.03125,
+      "loss": 1.9173,
+      "step": 110
+    },
+    {
+      "epoch": 24.89,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 2.11865234375,
+      "eval_runtime": 1.8829,
+      "eval_samples_per_second": 32.927,
+      "eval_steps_per_second": 2.124,
+      "step": 112
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 1.6016442775726318,
+      "eval_runtime": 2.0465,
+      "eval_samples_per_second": 30.296,
+      "eval_steps_per_second": 1.955,
+      "step": 117
+    },
+    {
+      "epoch": 26.67,
+      "learning_rate": 0.025,
+      "loss": 1.4335,
+      "step": 120
+    },
+    {
+      "epoch": 26.89,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.7111594676971436,
+      "eval_runtime": 1.9185,
+      "eval_samples_per_second": 32.318,
+      "eval_steps_per_second": 2.085,
+      "step": 121
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.3195487260818481,
+      "eval_runtime": 1.8439,
+      "eval_samples_per_second": 33.624,
+      "eval_steps_per_second": 2.169,
+      "step": 126
+    },
+    {
+      "epoch": 28.89,
+      "learning_rate": 0.018750000000000003,
+      "loss": 1.5525,
+      "step": 130
+    },
+    {
+      "epoch": 28.89,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.5628976821899414,
+      "eval_runtime": 1.933,
+      "eval_samples_per_second": 32.075,
+      "eval_steps_per_second": 2.069,
+      "step": 130
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.288311243057251,
+      "eval_runtime": 2.036,
+      "eval_samples_per_second": 30.452,
+      "eval_steps_per_second": 1.965,
+      "step": 135
+    },
+    {
+      "epoch": 30.89,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 1.422782301902771,
+      "eval_runtime": 2.1235,
+      "eval_samples_per_second": 29.197,
+      "eval_steps_per_second": 1.884,
+      "step": 139
+    },
+    {
+      "epoch": 31.11,
+      "learning_rate": 0.0125,
+      "loss": 1.3748,
+      "step": 140
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.258745789527893,
+      "eval_runtime": 1.916,
+      "eval_samples_per_second": 32.36,
+      "eval_steps_per_second": 2.088,
+      "step": 144
+    },
+    {
+      "epoch": 32.89,
+      "eval_accuracy": 0.3225806451612903,
+      "eval_loss": 1.3211716413497925,
+      "eval_runtime": 1.9079,
+      "eval_samples_per_second": 32.496,
+      "eval_steps_per_second": 2.096,
+      "step": 148
+    },
+    {
+      "epoch": 33.33,
+      "learning_rate": 0.00625,
+      "loss": 1.2849,
+      "step": 150
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.2401268482208252,
+      "eval_runtime": 1.933,
+      "eval_samples_per_second": 32.075,
+      "eval_steps_per_second": 2.069,
+      "step": 153
+    },
+    {
+      "epoch": 34.89,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.203456163406372,
+      "eval_runtime": 2.085,
+      "eval_samples_per_second": 29.736,
+      "eval_steps_per_second": 1.918,
+      "step": 157
+    },
+    {
+      "epoch": 35.56,
+      "learning_rate": 0.0,
+      "loss": 1.2221,
+      "step": 160
+    },
+    {
+      "epoch": 35.56,
+      "eval_accuracy": 0.45161290322580644,
+      "eval_loss": 1.1935251951217651,
+      "eval_runtime": 2.0055,
+      "eval_samples_per_second": 30.915,
+      "eval_steps_per_second": 1.995,
+      "step": 160
+    },
+    {
+      "epoch": 35.56,
+      "step": 160,
+      "total_flos": 2.807020017156096e+16,
+      "train_loss": 8.507176971435547,
+      "train_runtime": 445.2603,
+      "train_samples_per_second": 25.873,
+      "train_steps_per_second": 0.359
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "total_flos": 2.807020017156096e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf38d914e5eaa698758645526a9651b15c22134f6ea1860cf5f99a8d040ef183
+size 4728