Training in progress, epoch 1

Browse files

Files changed (9) hide show

README.md +83 -0
all_results.json +16 -0
config.json +222 -0
eval_results.json +10 -0
model.safetensors +3 -0
preprocessor_config.json +9 -0
train_results.json +9 -0
trainer_state.json +873 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,83 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: facebook/wav2vec2-base
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: esc50-wav2vec2-attn
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# esc50-wav2vec2-attn
+This model is a fine-tuned version of [facebook/wav2vec2-base](https://huggingface.co/facebook/wav2vec2-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6556
+- Accuracy: 0.875
+- F1 Macro: 0.8752
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 450
+- num_epochs: 20.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 Macro |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------:|
+| 3.7226        | 1.0   | 225  | 3.6235          | 0.205    | 0.1414   |
+| 3.0002        | 2.0   | 450  | 2.8299          | 0.435    | 0.3782   |
+| 2.2889        | 3.0   | 675  | 2.0599          | 0.585    | 0.5339   |
+| 1.6197        | 4.0   | 900  | 1.5775          | 0.7      | 0.66     |
+| 1.1835        | 5.0   | 1125 | 1.3031          | 0.72     | 0.7070   |
+| 0.7858        | 6.0   | 1350 | 1.2474          | 0.7      | 0.6953   |
+| 0.5843        | 7.0   | 1575 | 0.9818          | 0.76     | 0.7385   |
+| 0.4295        | 8.0   | 1800 | 0.8253          | 0.8      | 0.7958   |
+| 0.3041        | 9.0   | 2025 | 0.8176          | 0.8      | 0.7926   |
+| 0.2178        | 10.0  | 2250 | 0.8450          | 0.795    | 0.7861   |
+| 0.1874        | 11.0  | 2475 | 0.7450          | 0.81     | 0.8045   |
+| 0.1225        | 12.0  | 2700 | 0.7663          | 0.845    | 0.8409   |
+| 0.0818        | 13.0  | 2925 | 0.7127          | 0.855    | 0.8531   |
+| 0.0874        | 14.0  | 3150 | 0.7242          | 0.84     | 0.8396   |
+| 0.0469        | 15.0  | 3375 | 0.6220          | 0.855    | 0.8562   |
+| 0.0531        | 16.0  | 3600 | 0.5916          | 0.875    | 0.8743   |
+| 0.0351        | 17.0  | 3825 | 0.6738          | 0.85     | 0.8485   |
+| 0.0205        | 18.0  | 4050 | 0.6656          | 0.865    | 0.8666   |
+| 0.0207        | 19.0  | 4275 | 0.6556          | 0.875    | 0.8752   |
+| 0.0194        | 20.0  | 4500 | 0.6624          | 0.875    | 0.8752   |
+### Framework versions
+- Transformers 4.56.1
+- Pytorch 2.8.0+cu128
+- Datasets 2.19.0
+- Tokenizers 0.22.0

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.875,
+    "eval_f1_macro": 0.8751587301587301,
+    "eval_loss": 0.655569851398468,
+    "eval_runtime": 2.9004,
+    "eval_samples": 200,
+    "eval_samples_per_second": 68.957,
+    "eval_steps_per_second": 8.62,
+    "total_flos": 1.64162630016e+18,
+    "train_loss": 0.7825442723168267,
+    "train_runtime": 840.5538,
+    "train_samples": 1800,
+    "train_samples_per_second": 42.829,
+    "train_steps_per_second": 5.354
+}

config.json ADDED Viewed

	@@ -0,0 +1,222 @@

+{
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": false,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "finetuning_task": "esc50-audio-classification",
+  "freeze_feat_extract_train": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "airplane",
+    "1": "breathing",
+    "2": "brushing_teeth",
+    "3": "can_opening",
+    "4": "car_horn",
+    "5": "cat",
+    "6": "chainsaw",
+    "7": "chirping_birds",
+    "8": "church_bells",
+    "9": "clapping",
+    "10": "clock_alarm",
+    "11": "clock_tick",
+    "12": "coughing",
+    "13": "cow",
+    "14": "crackling_fire",
+    "15": "crickets",
+    "16": "crow",
+    "17": "crying_baby",
+    "18": "dog",
+    "19": "door_wood_creaks",
+    "20": "door_wood_knock",
+    "21": "drinking_sipping",
+    "22": "engine",
+    "23": "fireworks",
+    "24": "footsteps",
+    "25": "frog",
+    "26": "glass_breaking",
+    "27": "hand_saw",
+    "28": "helicopter",
+    "29": "hen",
+    "30": "insects",
+    "31": "keyboard_typing",
+    "32": "laughing",
+    "33": "mouse_click",
+    "34": "pig",
+    "35": "pouring_water",
+    "36": "rain",
+    "37": "rooster",
+    "38": "sea_waves",
+    "39": "sheep",
+    "40": "siren",
+    "41": "sneezing",
+    "42": "snoring",
+    "43": "thunderstorm",
+    "44": "toilet_flush",
+    "45": "train",
+    "46": "vacuum_cleaner",
+    "47": "washing_machine",
+    "48": "water_drops",
+    "49": "wind"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "airplane": 0,
+    "breathing": 1,
+    "brushing_teeth": 2,
+    "can_opening": 3,
+    "car_horn": 4,
+    "cat": 5,
+    "chainsaw": 6,
+    "chirping_birds": 7,
+    "church_bells": 8,
+    "clapping": 9,
+    "clock_alarm": 10,
+    "clock_tick": 11,
+    "coughing": 12,
+    "cow": 13,
+    "crackling_fire": 14,
+    "crickets": 15,
+    "crow": 16,
+    "crying_baby": 17,
+    "dog": 18,
+    "door_wood_creaks": 19,
+    "door_wood_knock": 20,
+    "drinking_sipping": 21,
+    "engine": 22,
+    "fireworks": 23,
+    "footsteps": 24,
+    "frog": 25,
+    "glass_breaking": 26,
+    "hand_saw": 27,
+    "helicopter": 28,
+    "hen": 29,
+    "insects": 30,
+    "keyboard_typing": 31,
+    "laughing": 32,
+    "mouse_click": 33,
+    "pig": 34,
+    "pouring_water": 35,
+    "rain": 36,
+    "rooster": 37,
+    "sea_waves": 38,
+    "sheep": 39,
+    "siren": 40,
+    "sneezing": 41,
+    "snoring": 42,
+    "thunderstorm": 43,
+    "toilet_flush": 44,
+    "train": 45,
+    "vacuum_cleaner": 46,
+    "washing_machine": 47,
+    "water_drops": 48,
+    "wind": 49
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "no_mask_channel_overlap": false,
+  "no_mask_time_overlap": false,
+  "num_adapter_layers": 3,
+  "num_attention_heads": 12,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 12,
+  "num_negatives": 100,
+  "output_hidden_size": 768,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 256,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "transformers_version": "4.56.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.875,
+    "eval_f1_macro": 0.8751587301587301,
+    "eval_loss": 0.655569851398468,
+    "eval_runtime": 2.9004,
+    "eval_samples": 200,
+    "eval_samples_per_second": 68.957,
+    "eval_steps_per_second": 8.62
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45707f7e593430122518253e21adb4de88e579ce7e9cf4b9f263e5e8aa31cdc0
+size 378351720

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 20.0,
+    "total_flos": 1.64162630016e+18,
+    "train_loss": 0.7825442723168267,
+    "train_runtime": 840.5538,
+    "train_samples": 1800,
+    "train_samples_per_second": 42.829,
+    "train_steps_per_second": 5.354
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,873 @@

+{
+  "best_global_step": 4275,
+  "best_metric": 0.8751587301587301,
+  "best_model_checkpoint": "./esc50-wav2vec2-attn/checkpoint-4275",
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 4500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 4.362800598144531,
+      "learning_rate": 3.2666666666666666e-06,
+      "loss": 3.9144,
+      "step": 50
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": Infinity,
+      "learning_rate": 6.6e-06,
+      "loss": 3.8743,
+      "step": 100
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 4.956060409545898,
+      "learning_rate": 9.933333333333334e-06,
+      "loss": 3.8406,
+      "step": 150
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 9.889445304870605,
+      "learning_rate": 1.3266666666666668e-05,
+      "loss": 3.7226,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.205,
+      "eval_f1_macro": 0.14144966384623137,
+      "eval_loss": 3.6234569549560547,
+      "eval_runtime": 2.8782,
+      "eval_samples_per_second": 69.489,
+      "eval_steps_per_second": 8.686,
+      "step": 225
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 5.627626419067383,
+      "learning_rate": 1.66e-05,
+      "loss": 3.5617,
+      "step": 250
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 6.8414154052734375,
+      "learning_rate": 1.993333333333333e-05,
+      "loss": 3.4209,
+      "step": 300
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 7.82706356048584,
+      "learning_rate": 2.326666666666667e-05,
+      "loss": 3.2577,
+      "step": 350
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 8.264775276184082,
+      "learning_rate": 2.6600000000000003e-05,
+      "loss": 3.1186,
+      "step": 400
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 8.502516746520996,
+      "learning_rate": 2.9933333333333334e-05,
+      "loss": 3.0002,
+      "step": 450
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.435,
+      "eval_f1_macro": 0.3781537935748462,
+      "eval_loss": 2.8298535346984863,
+      "eval_runtime": 2.8565,
+      "eval_samples_per_second": 70.015,
+      "eval_steps_per_second": 8.752,
+      "step": 450
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 9.52200698852539,
+      "learning_rate": 2.963703703703704e-05,
+      "loss": 2.6937,
+      "step": 500
+    },
+    {
+      "epoch": 2.4444444444444446,
+      "grad_norm": 8.961172103881836,
+      "learning_rate": 2.9266666666666665e-05,
+      "loss": 2.4869,
+      "step": 550
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 12.154603004455566,
+      "learning_rate": 2.8896296296296298e-05,
+      "loss": 2.4099,
+      "step": 600
+    },
+    {
+      "epoch": 2.888888888888889,
+      "grad_norm": 10.498632431030273,
+      "learning_rate": 2.8525925925925924e-05,
+      "loss": 2.2889,
+      "step": 650
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.585,
+      "eval_f1_macro": 0.533888888888889,
+      "eval_loss": 2.0598816871643066,
+      "eval_runtime": 2.8698,
+      "eval_samples_per_second": 69.691,
+      "eval_steps_per_second": 8.711,
+      "step": 675
+    },
+    {
+      "epoch": 3.111111111111111,
+      "grad_norm": 7.486043930053711,
+      "learning_rate": 2.8155555555555556e-05,
+      "loss": 2.055,
+      "step": 700
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 9.043672561645508,
+      "learning_rate": 2.7785185185185185e-05,
+      "loss": 1.8778,
+      "step": 750
+    },
+    {
+      "epoch": 3.5555555555555554,
+      "grad_norm": 12.435341835021973,
+      "learning_rate": 2.7414814814814815e-05,
+      "loss": 1.8209,
+      "step": 800
+    },
+    {
+      "epoch": 3.7777777777777777,
+      "grad_norm": 18.719287872314453,
+      "learning_rate": 2.7044444444444444e-05,
+      "loss": 1.5985,
+      "step": 850
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 11.806514739990234,
+      "learning_rate": 2.6674074074074076e-05,
+      "loss": 1.6197,
+      "step": 900
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7,
+      "eval_f1_macro": 0.66,
+      "eval_loss": 1.5774518251419067,
+      "eval_runtime": 2.8913,
+      "eval_samples_per_second": 69.172,
+      "eval_steps_per_second": 8.647,
+      "step": 900
+    },
+    {
+      "epoch": 4.222222222222222,
+      "grad_norm": 11.915701866149902,
+      "learning_rate": 2.6303703703703702e-05,
+      "loss": 1.2872,
+      "step": 950
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 26.78908920288086,
+      "learning_rate": 2.5933333333333335e-05,
+      "loss": 1.2329,
+      "step": 1000
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 9.02193546295166,
+      "learning_rate": 2.5562962962962964e-05,
+      "loss": 1.2363,
+      "step": 1050
+    },
+    {
+      "epoch": 4.888888888888889,
+      "grad_norm": 7.637599468231201,
+      "learning_rate": 2.5192592592592593e-05,
+      "loss": 1.1835,
+      "step": 1100
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.72,
+      "eval_f1_macro": 0.7070447330447331,
+      "eval_loss": 1.303067684173584,
+      "eval_runtime": 2.8767,
+      "eval_samples_per_second": 69.525,
+      "eval_steps_per_second": 8.691,
+      "step": 1125
+    },
+    {
+      "epoch": 5.111111111111111,
+      "grad_norm": 31.952880859375,
+      "learning_rate": 2.4822222222222222e-05,
+      "loss": 1.0582,
+      "step": 1150
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 11.701904296875,
+      "learning_rate": 2.4451851851851855e-05,
+      "loss": 0.8821,
+      "step": 1200
+    },
+    {
+      "epoch": 5.555555555555555,
+      "grad_norm": 13.303455352783203,
+      "learning_rate": 2.408148148148148e-05,
+      "loss": 0.9102,
+      "step": 1250
+    },
+    {
+      "epoch": 5.777777777777778,
+      "grad_norm": 12.172894477844238,
+      "learning_rate": 2.3711111111111113e-05,
+      "loss": 0.8899,
+      "step": 1300
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 17.647672653198242,
+      "learning_rate": 2.334074074074074e-05,
+      "loss": 0.7858,
+      "step": 1350
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7,
+      "eval_f1_macro": 0.6953009213009212,
+      "eval_loss": 1.2473626136779785,
+      "eval_runtime": 2.9867,
+      "eval_samples_per_second": 66.963,
+      "eval_steps_per_second": 8.37,
+      "step": 1350
+    },
+    {
+      "epoch": 6.222222222222222,
+      "grad_norm": 3.5193300247192383,
+      "learning_rate": 2.297037037037037e-05,
+      "loss": 0.6652,
+      "step": 1400
+    },
+    {
+      "epoch": 6.444444444444445,
+      "grad_norm": 5.703717231750488,
+      "learning_rate": 2.26e-05,
+      "loss": 0.6172,
+      "step": 1450
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 5.758047103881836,
+      "learning_rate": 2.222962962962963e-05,
+      "loss": 0.67,
+      "step": 1500
+    },
+    {
+      "epoch": 6.888888888888889,
+      "grad_norm": 33.762943267822266,
+      "learning_rate": 2.185925925925926e-05,
+      "loss": 0.5843,
+      "step": 1550
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.76,
+      "eval_f1_macro": 0.7385472305472305,
+      "eval_loss": 0.9817761182785034,
+      "eval_runtime": 2.8876,
+      "eval_samples_per_second": 69.261,
+      "eval_steps_per_second": 8.658,
+      "step": 1575
+    },
+    {
+      "epoch": 7.111111111111111,
+      "grad_norm": 13.375953674316406,
+      "learning_rate": 2.148888888888889e-05,
+      "loss": 0.5566,
+      "step": 1600
+    },
+    {
+      "epoch": 7.333333333333333,
+      "grad_norm": 10.450238227844238,
+      "learning_rate": 2.1118518518518517e-05,
+      "loss": 0.4772,
+      "step": 1650
+    },
+    {
+      "epoch": 7.555555555555555,
+      "grad_norm": 9.287495613098145,
+      "learning_rate": 2.074814814814815e-05,
+      "loss": 0.4799,
+      "step": 1700
+    },
+    {
+      "epoch": 7.777777777777778,
+      "grad_norm": 8.345856666564941,
+      "learning_rate": 2.037777777777778e-05,
+      "loss": 0.467,
+      "step": 1750
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 7.566125869750977,
+      "learning_rate": 2.0007407407407408e-05,
+      "loss": 0.4295,
+      "step": 1800
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8,
+      "eval_f1_macro": 0.7957647907647908,
+      "eval_loss": 0.8252587914466858,
+      "eval_runtime": 2.8766,
+      "eval_samples_per_second": 69.525,
+      "eval_steps_per_second": 8.691,
+      "step": 1800
+    },
+    {
+      "epoch": 8.222222222222221,
+      "grad_norm": 15.532505989074707,
+      "learning_rate": 1.9637037037037037e-05,
+      "loss": 0.3501,
+      "step": 1850
+    },
+    {
+      "epoch": 8.444444444444445,
+      "grad_norm": 6.413458824157715,
+      "learning_rate": 1.926666666666667e-05,
+      "loss": 0.3558,
+      "step": 1900
+    },
+    {
+      "epoch": 8.666666666666666,
+      "grad_norm": 4.636125564575195,
+      "learning_rate": 1.8896296296296295e-05,
+      "loss": 0.3139,
+      "step": 1950
+    },
+    {
+      "epoch": 8.88888888888889,
+      "grad_norm": 0.6558843851089478,
+      "learning_rate": 1.8525925925925928e-05,
+      "loss": 0.3041,
+      "step": 2000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8,
+      "eval_f1_macro": 0.7926046176046176,
+      "eval_loss": 0.8176364302635193,
+      "eval_runtime": 2.8845,
+      "eval_samples_per_second": 69.336,
+      "eval_steps_per_second": 8.667,
+      "step": 2025
+    },
+    {
+      "epoch": 9.11111111111111,
+      "grad_norm": 18.850481033325195,
+      "learning_rate": 1.8155555555555554e-05,
+      "loss": 0.3166,
+      "step": 2050
+    },
+    {
+      "epoch": 9.333333333333334,
+      "grad_norm": 22.011247634887695,
+      "learning_rate": 1.7785185185185186e-05,
+      "loss": 0.2472,
+      "step": 2100
+    },
+    {
+      "epoch": 9.555555555555555,
+      "grad_norm": 0.4794563353061676,
+      "learning_rate": 1.7414814814814815e-05,
+      "loss": 0.2419,
+      "step": 2150
+    },
+    {
+      "epoch": 9.777777777777779,
+      "grad_norm": 1.2854745388031006,
+      "learning_rate": 1.7044444444444445e-05,
+      "loss": 0.1906,
+      "step": 2200
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 18.808258056640625,
+      "learning_rate": 1.6674074074074074e-05,
+      "loss": 0.2178,
+      "step": 2250
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.795,
+      "eval_f1_macro": 0.7861341991341991,
+      "eval_loss": 0.845029890537262,
+      "eval_runtime": 2.8982,
+      "eval_samples_per_second": 69.008,
+      "eval_steps_per_second": 8.626,
+      "step": 2250
+    },
+    {
+      "epoch": 10.222222222222221,
+      "grad_norm": 0.6055029630661011,
+      "learning_rate": 1.6303703703703706e-05,
+      "loss": 0.2369,
+      "step": 2300
+    },
+    {
+      "epoch": 10.444444444444445,
+      "grad_norm": 0.2815465033054352,
+      "learning_rate": 1.5933333333333332e-05,
+      "loss": 0.1514,
+      "step": 2350
+    },
+    {
+      "epoch": 10.666666666666666,
+      "grad_norm": 0.5796032547950745,
+      "learning_rate": 1.5562962962962965e-05,
+      "loss": 0.1704,
+      "step": 2400
+    },
+    {
+      "epoch": 10.88888888888889,
+      "grad_norm": 15.787017822265625,
+      "learning_rate": 1.5192592592592592e-05,
+      "loss": 0.1874,
+      "step": 2450
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.81,
+      "eval_f1_macro": 0.8044646464646463,
+      "eval_loss": 0.7450368404388428,
+      "eval_runtime": 2.8672,
+      "eval_samples_per_second": 69.755,
+      "eval_steps_per_second": 8.719,
+      "step": 2475
+    },
+    {
+      "epoch": 11.11111111111111,
+      "grad_norm": 5.2899017333984375,
+      "learning_rate": 1.4822222222222221e-05,
+      "loss": 0.1407,
+      "step": 2500
+    },
+    {
+      "epoch": 11.333333333333334,
+      "grad_norm": 1.0392882823944092,
+      "learning_rate": 1.4451851851851852e-05,
+      "loss": 0.1423,
+      "step": 2550
+    },
+    {
+      "epoch": 11.555555555555555,
+      "grad_norm": 0.22039936482906342,
+      "learning_rate": 1.4081481481481481e-05,
+      "loss": 0.1214,
+      "step": 2600
+    },
+    {
+      "epoch": 11.777777777777779,
+      "grad_norm": 1.2269922494888306,
+      "learning_rate": 1.371111111111111e-05,
+      "loss": 0.1706,
+      "step": 2650
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.16958917677402496,
+      "learning_rate": 1.3340740740740741e-05,
+      "loss": 0.1225,
+      "step": 2700
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.845,
+      "eval_f1_macro": 0.8408946608946608,
+      "eval_loss": 0.7663388848304749,
+      "eval_runtime": 2.8819,
+      "eval_samples_per_second": 69.398,
+      "eval_steps_per_second": 8.675,
+      "step": 2700
+    },
+    {
+      "epoch": 12.222222222222221,
+      "grad_norm": 16.176551818847656,
+      "learning_rate": 1.297037037037037e-05,
+      "loss": 0.1082,
+      "step": 2750
+    },
+    {
+      "epoch": 12.444444444444445,
+      "grad_norm": 0.7906608581542969,
+      "learning_rate": 1.26e-05,
+      "loss": 0.0837,
+      "step": 2800
+    },
+    {
+      "epoch": 12.666666666666666,
+      "grad_norm": 0.1822936087846756,
+      "learning_rate": 1.2229629629629629e-05,
+      "loss": 0.0779,
+      "step": 2850
+    },
+    {
+      "epoch": 12.88888888888889,
+      "grad_norm": 0.1906086951494217,
+      "learning_rate": 1.185925925925926e-05,
+      "loss": 0.0818,
+      "step": 2900
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.855,
+      "eval_f1_macro": 0.8530952380952379,
+      "eval_loss": 0.7127139568328857,
+      "eval_runtime": 2.8693,
+      "eval_samples_per_second": 69.703,
+      "eval_steps_per_second": 8.713,
+      "step": 2925
+    },
+    {
+      "epoch": 13.11111111111111,
+      "grad_norm": 0.28385430574417114,
+      "learning_rate": 1.1488888888888889e-05,
+      "loss": 0.0873,
+      "step": 2950
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 0.17537418007850647,
+      "learning_rate": 1.1118518518518518e-05,
+      "loss": 0.0536,
+      "step": 3000
+    },
+    {
+      "epoch": 13.555555555555555,
+      "grad_norm": 0.2917730212211609,
+      "learning_rate": 1.0748148148148149e-05,
+      "loss": 0.0555,
+      "step": 3050
+    },
+    {
+      "epoch": 13.777777777777779,
+      "grad_norm": 0.14240045845508575,
+      "learning_rate": 1.0377777777777778e-05,
+      "loss": 0.0579,
+      "step": 3100
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.5113584399223328,
+      "learning_rate": 1.0007407407407407e-05,
+      "loss": 0.0874,
+      "step": 3150
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.84,
+      "eval_f1_macro": 0.8395616605616606,
+      "eval_loss": 0.7242352366447449,
+      "eval_runtime": 2.8999,
+      "eval_samples_per_second": 68.968,
+      "eval_steps_per_second": 8.621,
+      "step": 3150
+    },
+    {
+      "epoch": 14.222222222222221,
+      "grad_norm": 0.14713504910469055,
+      "learning_rate": 9.637037037037036e-06,
+      "loss": 0.035,
+      "step": 3200
+    },
+    {
+      "epoch": 14.444444444444445,
+      "grad_norm": 0.18145354092121124,
+      "learning_rate": 9.266666666666667e-06,
+      "loss": 0.0658,
+      "step": 3250
+    },
+    {
+      "epoch": 14.666666666666666,
+      "grad_norm": 0.14780841767787933,
+      "learning_rate": 8.896296296296296e-06,
+      "loss": 0.0424,
+      "step": 3300
+    },
+    {
+      "epoch": 14.88888888888889,
+      "grad_norm": 0.2982366383075714,
+      "learning_rate": 8.525925925925925e-06,
+      "loss": 0.0469,
+      "step": 3350
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.855,
+      "eval_f1_macro": 0.8562178932178931,
+      "eval_loss": 0.6220372915267944,
+      "eval_runtime": 2.8763,
+      "eval_samples_per_second": 69.534,
+      "eval_steps_per_second": 8.692,
+      "step": 3375
+    },
+    {
+      "epoch": 15.11111111111111,
+      "grad_norm": 0.11205285787582397,
+      "learning_rate": 8.155555555555556e-06,
+      "loss": 0.0355,
+      "step": 3400
+    },
+    {
+      "epoch": 15.333333333333334,
+      "grad_norm": 0.11701209098100662,
+      "learning_rate": 7.785185185185185e-06,
+      "loss": 0.0311,
+      "step": 3450
+    },
+    {
+      "epoch": 15.555555555555555,
+      "grad_norm": 0.15519364178180695,
+      "learning_rate": 7.414814814814815e-06,
+      "loss": 0.0252,
+      "step": 3500
+    },
+    {
+      "epoch": 15.777777777777779,
+      "grad_norm": 0.2080957293510437,
+      "learning_rate": 7.044444444444445e-06,
+      "loss": 0.0355,
+      "step": 3550
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.16233320534229279,
+      "learning_rate": 6.674074074074074e-06,
+      "loss": 0.0531,
+      "step": 3600
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.875,
+      "eval_f1_macro": 0.8743174603174602,
+      "eval_loss": 0.5916269421577454,
+      "eval_runtime": 2.9356,
+      "eval_samples_per_second": 68.13,
+      "eval_steps_per_second": 8.516,
+      "step": 3600
+    },
+    {
+      "epoch": 16.22222222222222,
+      "grad_norm": 0.15035021305084229,
+      "learning_rate": 6.303703703703704e-06,
+      "loss": 0.0239,
+      "step": 3650
+    },
+    {
+      "epoch": 16.444444444444443,
+      "grad_norm": 0.12058259546756744,
+      "learning_rate": 5.933333333333333e-06,
+      "loss": 0.0233,
+      "step": 3700
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 0.11992493271827698,
+      "learning_rate": 5.562962962962963e-06,
+      "loss": 0.0254,
+      "step": 3750
+    },
+    {
+      "epoch": 16.88888888888889,
+      "grad_norm": 0.1040111556649208,
+      "learning_rate": 5.192592592592593e-06,
+      "loss": 0.0351,
+      "step": 3800
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.85,
+      "eval_f1_macro": 0.8484761904761904,
+      "eval_loss": 0.673793613910675,
+      "eval_runtime": 2.9183,
+      "eval_samples_per_second": 68.534,
+      "eval_steps_per_second": 8.567,
+      "step": 3825
+    },
+    {
+      "epoch": 17.11111111111111,
+      "grad_norm": 0.14537616074085236,
+      "learning_rate": 4.822222222222222e-06,
+      "loss": 0.0222,
+      "step": 3850
+    },
+    {
+      "epoch": 17.333333333333332,
+      "grad_norm": 0.14161454141139984,
+      "learning_rate": 4.451851851851852e-06,
+      "loss": 0.0209,
+      "step": 3900
+    },
+    {
+      "epoch": 17.555555555555557,
+      "grad_norm": 0.0898861438035965,
+      "learning_rate": 4.081481481481481e-06,
+      "loss": 0.0206,
+      "step": 3950
+    },
+    {
+      "epoch": 17.77777777777778,
+      "grad_norm": 0.10038736462593079,
+      "learning_rate": 3.7111111111111113e-06,
+      "loss": 0.0319,
+      "step": 4000
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.1036420613527298,
+      "learning_rate": 3.340740740740741e-06,
+      "loss": 0.0205,
+      "step": 4050
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.865,
+      "eval_f1_macro": 0.8666349206349205,
+      "eval_loss": 0.665629506111145,
+      "eval_runtime": 2.8759,
+      "eval_samples_per_second": 69.544,
+      "eval_steps_per_second": 8.693,
+      "step": 4050
+    },
+    {
+      "epoch": 18.22222222222222,
+      "grad_norm": 0.11664649099111557,
+      "learning_rate": 2.9703703703703705e-06,
+      "loss": 0.0202,
+      "step": 4100
+    },
+    {
+      "epoch": 18.444444444444443,
+      "grad_norm": 0.10043739527463913,
+      "learning_rate": 2.6e-06,
+      "loss": 0.0198,
+      "step": 4150
+    },
+    {
+      "epoch": 18.666666666666668,
+      "grad_norm": 0.07799684256315231,
+      "learning_rate": 2.2296296296296297e-06,
+      "loss": 0.0195,
+      "step": 4200
+    },
+    {
+      "epoch": 18.88888888888889,
+      "grad_norm": 0.08117303997278214,
+      "learning_rate": 1.8592592592592593e-06,
+      "loss": 0.0207,
+      "step": 4250
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.875,
+      "eval_f1_macro": 0.8751587301587301,
+      "eval_loss": 0.655569851398468,
+      "eval_runtime": 2.9199,
+      "eval_samples_per_second": 68.496,
+      "eval_steps_per_second": 8.562,
+      "step": 4275
+    },
+    {
+      "epoch": 19.11111111111111,
+      "grad_norm": 0.09353518486022949,
+      "learning_rate": 1.4888888888888888e-06,
+      "loss": 0.0243,
+      "step": 4300
+    },
+    {
+      "epoch": 19.333333333333332,
+      "grad_norm": 0.12512549757957458,
+      "learning_rate": 1.1185185185185184e-06,
+      "loss": 0.019,
+      "step": 4350
+    },
+    {
+      "epoch": 19.555555555555557,
+      "grad_norm": 0.09048581123352051,
+      "learning_rate": 7.481481481481481e-07,
+      "loss": 0.0219,
+      "step": 4400
+    },
+    {
+      "epoch": 19.77777777777778,
+      "grad_norm": 0.10329825431108475,
+      "learning_rate": 3.777777777777778e-07,
+      "loss": 0.0194,
+      "step": 4450
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.09893308579921722,
+      "learning_rate": 7.407407407407408e-09,
+      "loss": 0.0194,
+      "step": 4500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.875,
+      "eval_f1_macro": 0.8751587301587301,
+      "eval_loss": 0.6624078154563904,
+      "eval_runtime": 2.9156,
+      "eval_samples_per_second": 68.595,
+      "eval_steps_per_second": 8.574,
+      "step": 4500
+    },
+    {
+      "epoch": 20.0,
+      "step": 4500,
+      "total_flos": 1.64162630016e+18,
+      "train_loss": 0.7825442723168267,
+      "train_runtime": 840.5538,
+      "train_samples_per_second": 42.829,
+      "train_steps_per_second": 5.354
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.64162630016e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5351cc4a35022a422ddf1e4dfcb892c5e29a158211003340e7ab9c65d55c2c4
+size 5841