Upload with huggingface_hub

Browse files

Files changed (7) hide show

config.json +298 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +917 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "_name_or_path": "facebook/wav2vec2-base",
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "freeze_feat_extract_train": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "calendar_set",
+    "1": "wavs/audio_volume_mute",
+    "10": "iot_coffee",
+    "11": "calendar_remove",
+    "12": "email_sendemail",
+    "13": "general_joke",
+    "14": "lists_query",
+    "15": "iot_cleaning",
+    "16": "social_query",
+    "17": "cooking_recipe",
+    "18": "play_game",
+    "19": "weather_query",
+    "2": "qa_stock",
+    "20": "iot_hue_lightoff",
+    "21": "qa_factoid",
+    "22": "play_wavs/audiobook",
+    "23": "news_query",
+    "24": "qa_maths",
+    "25": "email_query",
+    "26": "recommendation_movies",
+    "27": "transport_traffic",
+    "28": "takeaway_order",
+    "29": "wavs/audio_volume_other",
+    "3": "social_post",
+    "30": "datetime_convert",
+    "31": "music",
+    "32": "recommendation_locations",
+    "33": "recommendation_events",
+    "34": "qa_currency",
+    "35": "lists_createoradd",
+    "36": "datetime_query",
+    "37": "transport_ticket",
+    "38": "takeaway_query",
+    "39": "general_greet",
+    "4": "play_radio",
+    "40": "qa_definition",
+    "41": "play_podcasts",
+    "42": "transport_taxi",
+    "43": "alarm_remove",
+    "44": "iot_hue_lightchange",
+    "45": "email_querycontact",
+    "46": "iot_hue_lightdim",
+    "47": "alarm_set",
+    "48": "iot_hue_lightup",
+    "49": "transport_query",
+    "5": "calendar_query",
+    "50": "iot_wemo_on",
+    "51": "music_likeness",
+    "52": "alarm_query",
+    "53": "music_dislikeness",
+    "54": "lists_remove",
+    "55": "iot_hue_lighton",
+    "56": "wavs/audio_volume_down",
+    "57": "factoid",
+    "58": "iot_wemo_off",
+    "59": "query",
+    "6": "music_query",
+    "60": "set",
+    "61": "quirky",
+    "62": "email_addcontact",
+    "63": "music_settings",
+    "64": "joke",
+    "65": "podcasts",
+    "66": "game",
+    "67": "coffee",
+    "68": "radio",
+    "69": "post",
+    "7": "general_quirky",
+    "70": "convert",
+    "71": "remove",
+    "72": "greet",
+    "73": "cooking_query",
+    "74": "sendemail",
+    "75": "traffic",
+    "76": "hue_lightup",
+    "77": "hue_lightoff",
+    "78": "currency",
+    "79": "wemo_off",
+    "8": "play_music",
+    "80": "hue_lightdim",
+    "81": "createoradd",
+    "82": "ticket",
+    "83": "volume_other",
+    "84": "cleaning",
+    "85": "querycontact",
+    "86": "wemo_on",
+    "87": "addcontact",
+    "9": "wavs/audio_volume_up"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "addcontact": "87",
+    "alarm_query": "52",
+    "alarm_remove": "43",
+    "alarm_set": "47",
+    "calendar_query": "5",
+    "calendar_remove": "11",
+    "calendar_set": "0",
+    "cleaning": "84",
+    "coffee": "67",
+    "convert": "70",
+    "cooking_query": "73",
+    "cooking_recipe": "17",
+    "createoradd": "81",
+    "currency": "78",
+    "datetime_convert": "30",
+    "datetime_query": "36",
+    "email_addcontact": "62",
+    "email_query": "25",
+    "email_querycontact": "45",
+    "email_sendemail": "12",
+    "factoid": "57",
+    "game": "66",
+    "general_greet": "39",
+    "general_joke": "13",
+    "general_quirky": "7",
+    "greet": "72",
+    "hue_lightdim": "80",
+    "hue_lightoff": "77",
+    "hue_lightup": "76",
+    "iot_cleaning": "15",
+    "iot_coffee": "10",
+    "iot_hue_lightchange": "44",
+    "iot_hue_lightdim": "46",
+    "iot_hue_lightoff": "20",
+    "iot_hue_lighton": "55",
+    "iot_hue_lightup": "48",
+    "iot_wemo_off": "58",
+    "iot_wemo_on": "50",
+    "joke": "64",
+    "lists_createoradd": "35",
+    "lists_query": "14",
+    "lists_remove": "54",
+    "music": "31",
+    "music_dislikeness": "53",
+    "music_likeness": "51",
+    "music_query": "6",
+    "music_settings": "63",
+    "news_query": "23",
+    "play_game": "18",
+    "play_music": "8",
+    "play_podcasts": "41",
+    "play_radio": "4",
+    "play_wavs/audiobook": "22",
+    "podcasts": "65",
+    "post": "69",
+    "qa_currency": "34",
+    "qa_definition": "40",
+    "qa_factoid": "21",
+    "qa_maths": "24",
+    "qa_stock": "2",
+    "query": "59",
+    "querycontact": "85",
+    "quirky": "61",
+    "radio": "68",
+    "recommendation_events": "33",
+    "recommendation_locations": "32",
+    "recommendation_movies": "26",
+    "remove": "71",
+    "sendemail": "74",
+    "set": "60",
+    "social_post": "3",
+    "social_query": "16",
+    "takeaway_order": "28",
+    "takeaway_query": "38",
+    "ticket": "82",
+    "traffic": "75",
+    "transport_query": "49",
+    "transport_taxi": "42",
+    "transport_ticket": "37",
+    "transport_traffic": "27",
+    "volume_other": "83",
+    "wavs/audio_volume_down": "56",
+    "wavs/audio_volume_mute": "1",
+    "wavs/audio_volume_other": "29",
+    "wavs/audio_volume_up": "9",
+    "weather_query": "19",
+    "wemo_off": "79",
+    "wemo_on": "86"
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "no_mask_channel_overlap": false,
+  "no_mask_time_overlap": false,
+  "num_adapter_layers": 3,
+  "num_attention_heads": 12,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 12,
+  "num_negatives": 100,
+  "output_hidden_size": 768,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 256,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eb595d9bffebf49d469d7ba67f390dd4a3bbbafe03327475cefbfcbfb2fbf9e
+size 378390784

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7378f65dc440ef3323f4064ec7cdf0a00ec197d73ef4cb485cb02f4e166988c
+size 756909370

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d42fbb35be881a336af3b263d82ee7d97c2eca75108898734086b9ca86cfe08
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1d6302a7353dd67847dce608afaaff547c670ef8ef4c52a5a5ac9772ebc0155
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,917 @@

+{
+  "best_metric": 0.8215622660344397,
+  "best_model_checkpoint": "results_unlearning/facebook/wav2vec2-base/42/checkpoint-26000",
+  "epoch": 57.30027548209367,
+  "eval_steps": 500,
+  "global_step": 26000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.1019283746556474,
+      "grad_norm": 3.954470634460449,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 3.9037,
+      "step": 500
+    },
+    {
+      "epoch": 1.1019283746556474,
+      "eval_accuracy": 0.1856750686298977,
+      "eval_f1_macro": 0.0338842756461234,
+      "eval_loss": 3.2653889656066895,
+      "eval_runtime": 201.4102,
+      "eval_samples_per_second": 39.789,
+      "eval_steps_per_second": 1.246,
+      "step": 500
+    },
+    {
+      "epoch": 2.203856749311295,
+      "grad_norm": 7.994827747344971,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 2.4697,
+      "step": 1000
+    },
+    {
+      "epoch": 2.203856749311295,
+      "eval_accuracy": 0.5384327427002745,
+      "eval_f1_macro": 0.2623597839382389,
+      "eval_loss": 1.8842540979385376,
+      "eval_runtime": 47.0501,
+      "eval_samples_per_second": 170.329,
+      "eval_steps_per_second": 5.335,
+      "step": 1000
+    },
+    {
+      "epoch": 3.3057851239669422,
+      "grad_norm": 8.498858451843262,
+      "learning_rate": 0.00025,
+      "loss": 1.6285,
+      "step": 1500
+    },
+    {
+      "epoch": 3.3057851239669422,
+      "eval_accuracy": 0.6313950586473671,
+      "eval_f1_macro": 0.4048605043298036,
+      "eval_loss": 1.509529709815979,
+      "eval_runtime": 34.1201,
+      "eval_samples_per_second": 234.876,
+      "eval_steps_per_second": 7.356,
+      "step": 1500
+    },
+    {
+      "epoch": 4.40771349862259,
+      "grad_norm": 9.255996704101562,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 1.4076,
+      "step": 2000
+    },
+    {
+      "epoch": 4.40771349862259,
+      "eval_accuracy": 0.6400049912652858,
+      "eval_f1_macro": 0.42658784153796886,
+      "eval_loss": 1.5477856397628784,
+      "eval_runtime": 34.313,
+      "eval_samples_per_second": 233.556,
+      "eval_steps_per_second": 7.315,
+      "step": 2000
+    },
+    {
+      "epoch": 5.509641873278237,
+      "grad_norm": 8.901646614074707,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 1.3687,
+      "step": 2500
+    },
+    {
+      "epoch": 5.509641873278237,
+      "eval_accuracy": 0.6643374095333167,
+      "eval_f1_macro": 0.4590986266426292,
+      "eval_loss": 1.4123471975326538,
+      "eval_runtime": 34.1574,
+      "eval_samples_per_second": 234.62,
+      "eval_steps_per_second": 7.348,
+      "step": 2500
+    },
+    {
+      "epoch": 6.6115702479338845,
+      "grad_norm": 6.906811714172363,
+      "learning_rate": 0.0005,
+      "loss": 1.3757,
+      "step": 3000
+    },
+    {
+      "epoch": 6.6115702479338845,
+      "eval_accuracy": 0.6093087097579236,
+      "eval_f1_macro": 0.42633143981000005,
+      "eval_loss": 1.642005205154419,
+      "eval_runtime": 34.1921,
+      "eval_samples_per_second": 234.381,
+      "eval_steps_per_second": 7.341,
+      "step": 3000
+    },
+    {
+      "epoch": 7.7134986225895315,
+      "grad_norm": 9.686969757080078,
+      "learning_rate": 0.0004907407407407408,
+      "loss": 1.3816,
+      "step": 3500
+    },
+    {
+      "epoch": 7.7134986225895315,
+      "eval_accuracy": 0.6442475667581732,
+      "eval_f1_macro": 0.4625270466241396,
+      "eval_loss": 1.520119309425354,
+      "eval_runtime": 176.8139,
+      "eval_samples_per_second": 45.324,
+      "eval_steps_per_second": 1.42,
+      "step": 3500
+    },
+    {
+      "epoch": 8.81542699724518,
+      "grad_norm": 9.070294380187988,
+      "learning_rate": 0.00048148148148148144,
+      "loss": 1.2373,
+      "step": 4000
+    },
+    {
+      "epoch": 8.81542699724518,
+      "eval_accuracy": 0.6640878462690292,
+      "eval_f1_macro": 0.4936672291314334,
+      "eval_loss": 1.4355494976043701,
+      "eval_runtime": 34.0662,
+      "eval_samples_per_second": 235.248,
+      "eval_steps_per_second": 7.368,
+      "step": 4000
+    },
+    {
+      "epoch": 9.917355371900827,
+      "grad_norm": 10.048285484313965,
+      "learning_rate": 0.00047222222222222224,
+      "loss": 1.1039,
+      "step": 4500
+    },
+    {
+      "epoch": 9.917355371900827,
+      "eval_accuracy": 0.6771899176441227,
+      "eval_f1_macro": 0.48714340971176784,
+      "eval_loss": 1.3826853036880493,
+      "eval_runtime": 33.9169,
+      "eval_samples_per_second": 236.284,
+      "eval_steps_per_second": 7.4,
+      "step": 4500
+    },
+    {
+      "epoch": 11.019283746556473,
+      "grad_norm": 6.188383102416992,
+      "learning_rate": 0.000462962962962963,
+      "loss": 1.037,
+      "step": 5000
+    },
+    {
+      "epoch": 11.019283746556473,
+      "eval_accuracy": 0.6820564012977289,
+      "eval_f1_macro": 0.5233785564818548,
+      "eval_loss": 1.4125980138778687,
+      "eval_runtime": 33.9515,
+      "eval_samples_per_second": 236.042,
+      "eval_steps_per_second": 7.393,
+      "step": 5000
+    },
+    {
+      "epoch": 12.121212121212121,
+      "grad_norm": 5.904200077056885,
+      "learning_rate": 0.0004537037037037037,
+      "loss": 0.9419,
+      "step": 5500
+    },
+    {
+      "epoch": 12.121212121212121,
+      "eval_accuracy": 0.7108809583229349,
+      "eval_f1_macro": 0.5375488759123677,
+      "eval_loss": 1.2807058095932007,
+      "eval_runtime": 34.1787,
+      "eval_samples_per_second": 234.473,
+      "eval_steps_per_second": 7.344,
+      "step": 5500
+    },
+    {
+      "epoch": 13.223140495867769,
+      "grad_norm": 6.450353145599365,
+      "learning_rate": 0.0004444444444444444,
+      "loss": 0.855,
+      "step": 6000
+    },
+    {
+      "epoch": 13.223140495867769,
+      "eval_accuracy": 0.7106313950586474,
+      "eval_f1_macro": 0.551305442830446,
+      "eval_loss": 1.3112666606903076,
+      "eval_runtime": 50.9709,
+      "eval_samples_per_second": 157.227,
+      "eval_steps_per_second": 4.924,
+      "step": 6000
+    },
+    {
+      "epoch": 14.325068870523417,
+      "grad_norm": 8.54566764831543,
+      "learning_rate": 0.0004351851851851852,
+      "loss": 0.7855,
+      "step": 6500
+    },
+    {
+      "epoch": 14.325068870523417,
+      "eval_accuracy": 0.7096331420014974,
+      "eval_f1_macro": 0.5583041388143256,
+      "eval_loss": 1.2415180206298828,
+      "eval_runtime": 138.5717,
+      "eval_samples_per_second": 57.833,
+      "eval_steps_per_second": 1.811,
+      "step": 6500
+    },
+    {
+      "epoch": 15.426997245179063,
+      "grad_norm": 6.042281627655029,
+      "learning_rate": 0.00042592592592592595,
+      "loss": 0.7192,
+      "step": 7000
+    },
+    {
+      "epoch": 15.426997245179063,
+      "eval_accuracy": 0.7216121786872972,
+      "eval_f1_macro": 0.5653564656146333,
+      "eval_loss": 1.2567986249923706,
+      "eval_runtime": 34.1278,
+      "eval_samples_per_second": 234.823,
+      "eval_steps_per_second": 7.355,
+      "step": 7000
+    },
+    {
+      "epoch": 16.52892561983471,
+      "grad_norm": 7.013518333435059,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 0.6721,
+      "step": 7500
+    },
+    {
+      "epoch": 16.52892561983471,
+      "eval_accuracy": 0.719241327676566,
+      "eval_f1_macro": 0.5674881280347366,
+      "eval_loss": 1.2789088487625122,
+      "eval_runtime": 34.173,
+      "eval_samples_per_second": 234.512,
+      "eval_steps_per_second": 7.345,
+      "step": 7500
+    },
+    {
+      "epoch": 17.63085399449036,
+      "grad_norm": 5.327983379364014,
+      "learning_rate": 0.0004074074074074074,
+      "loss": 0.618,
+      "step": 8000
+    },
+    {
+      "epoch": 17.63085399449036,
+      "eval_accuracy": 0.7237334664337409,
+      "eval_f1_macro": 0.5611898965872011,
+      "eval_loss": 1.2278856039047241,
+      "eval_runtime": 34.0889,
+      "eval_samples_per_second": 235.091,
+      "eval_steps_per_second": 7.363,
+      "step": 8000
+    },
+    {
+      "epoch": 18.732782369146005,
+      "grad_norm": 5.324774265289307,
+      "learning_rate": 0.0003981481481481481,
+      "loss": 0.5673,
+      "step": 8500
+    },
+    {
+      "epoch": 18.732782369146005,
+      "eval_accuracy": 0.7378337908659846,
+      "eval_f1_macro": 0.5708025777794506,
+      "eval_loss": 1.2691614627838135,
+      "eval_runtime": 34.0618,
+      "eval_samples_per_second": 235.278,
+      "eval_steps_per_second": 7.369,
+      "step": 8500
+    },
+    {
+      "epoch": 19.834710743801654,
+      "grad_norm": 7.3289384841918945,
+      "learning_rate": 0.0003888888888888889,
+      "loss": 0.523,
+      "step": 9000
+    },
+    {
+      "epoch": 19.834710743801654,
+      "eval_accuracy": 0.736585974544547,
+      "eval_f1_macro": 0.583453506873929,
+      "eval_loss": 1.2533445358276367,
+      "eval_runtime": 34.1698,
+      "eval_samples_per_second": 234.534,
+      "eval_steps_per_second": 7.346,
+      "step": 9000
+    },
+    {
+      "epoch": 20.9366391184573,
+      "grad_norm": 4.2654643058776855,
+      "learning_rate": 0.00037962962962962966,
+      "loss": 0.4761,
+      "step": 9500
+    },
+    {
+      "epoch": 20.9366391184573,
+      "eval_accuracy": 0.7508110806089343,
+      "eval_f1_macro": 0.5780908306225785,
+      "eval_loss": 1.2073005437850952,
+      "eval_runtime": 34.1144,
+      "eval_samples_per_second": 234.915,
+      "eval_steps_per_second": 7.358,
+      "step": 9500
+    },
+    {
+      "epoch": 22.038567493112946,
+      "grad_norm": 7.886093616485596,
+      "learning_rate": 0.00037037037037037035,
+      "loss": 0.4481,
+      "step": 10000
+    },
+    {
+      "epoch": 22.038567493112946,
+      "eval_accuracy": 0.7504367357125031,
+      "eval_f1_macro": 0.5902163691095943,
+      "eval_loss": 1.2306609153747559,
+      "eval_runtime": 34.1357,
+      "eval_samples_per_second": 234.769,
+      "eval_steps_per_second": 7.353,
+      "step": 10000
+    },
+    {
+      "epoch": 23.140495867768596,
+      "grad_norm": 5.739956855773926,
+      "learning_rate": 0.0003611111111111111,
+      "loss": 0.4137,
+      "step": 10500
+    },
+    {
+      "epoch": 23.140495867768596,
+      "eval_accuracy": 0.7481906663339156,
+      "eval_f1_macro": 0.6000675997156686,
+      "eval_loss": 1.2535877227783203,
+      "eval_runtime": 34.1657,
+      "eval_samples_per_second": 234.563,
+      "eval_steps_per_second": 7.347,
+      "step": 10500
+    },
+    {
+      "epoch": 24.242424242424242,
+      "grad_norm": 6.5599589347839355,
+      "learning_rate": 0.0003518518518518519,
+      "loss": 0.3771,
+      "step": 11000
+    },
+    {
+      "epoch": 24.242424242424242,
+      "eval_accuracy": 0.7523084601946594,
+      "eval_f1_macro": 0.6003714574908554,
+      "eval_loss": 1.1841113567352295,
+      "eval_runtime": 33.9543,
+      "eval_samples_per_second": 236.023,
+      "eval_steps_per_second": 7.392,
+      "step": 11000
+    },
+    {
+      "epoch": 25.34435261707989,
+      "grad_norm": 4.988476753234863,
+      "learning_rate": 0.00034259259259259263,
+      "loss": 0.3456,
+      "step": 11500
+    },
+    {
+      "epoch": 25.34435261707989,
+      "eval_accuracy": 0.7511854255053656,
+      "eval_f1_macro": 0.613830898261218,
+      "eval_loss": 1.2578365802764893,
+      "eval_runtime": 34.0485,
+      "eval_samples_per_second": 235.37,
+      "eval_steps_per_second": 7.372,
+      "step": 11500
+    },
+    {
+      "epoch": 26.446280991735538,
+      "grad_norm": 10.72720718383789,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 0.3206,
+      "step": 12000
+    },
+    {
+      "epoch": 26.446280991735538,
+      "eval_accuracy": 0.7565510356875468,
+      "eval_f1_macro": 0.6008526427475953,
+      "eval_loss": 1.2595282793045044,
+      "eval_runtime": 34.0387,
+      "eval_samples_per_second": 235.438,
+      "eval_steps_per_second": 7.374,
+      "step": 12000
+    },
+    {
+      "epoch": 27.548209366391184,
+      "grad_norm": 5.9753098487854,
+      "learning_rate": 0.00032407407407407406,
+      "loss": 0.3083,
+      "step": 12500
+    },
+    {
+      "epoch": 27.548209366391184,
+      "eval_accuracy": 0.7525580234589468,
+      "eval_f1_macro": 0.6225560622894577,
+      "eval_loss": 1.2758995294570923,
+      "eval_runtime": 33.9587,
+      "eval_samples_per_second": 235.992,
+      "eval_steps_per_second": 7.391,
+      "step": 12500
+    },
+    {
+      "epoch": 28.650137741046834,
+      "grad_norm": 7.985760688781738,
+      "learning_rate": 0.0003148148148148148,
+      "loss": 0.286,
+      "step": 13000
+    },
+    {
+      "epoch": 28.650137741046834,
+      "eval_accuracy": 0.7631644621911655,
+      "eval_f1_macro": 0.615134929599282,
+      "eval_loss": 1.2176945209503174,
+      "eval_runtime": 34.0075,
+      "eval_samples_per_second": 235.654,
+      "eval_steps_per_second": 7.381,
+      "step": 13000
+    },
+    {
+      "epoch": 29.75206611570248,
+      "grad_norm": 3.7680389881134033,
+      "learning_rate": 0.0003055555555555556,
+      "loss": 0.2678,
+      "step": 13500
+    },
+    {
+      "epoch": 29.75206611570248,
+      "eval_accuracy": 0.7686548540054904,
+      "eval_f1_macro": 0.6317793794263403,
+      "eval_loss": 1.2493242025375366,
+      "eval_runtime": 34.052,
+      "eval_samples_per_second": 235.346,
+      "eval_steps_per_second": 7.371,
+      "step": 13500
+    },
+    {
+      "epoch": 30.853994490358126,
+      "grad_norm": 2.3487305641174316,
+      "learning_rate": 0.0002962962962962963,
+      "loss": 0.2488,
+      "step": 14000
+    },
+    {
+      "epoch": 30.853994490358126,
+      "eval_accuracy": 0.7685300723733467,
+      "eval_f1_macro": 0.6379453782996546,
+      "eval_loss": 1.2121572494506836,
+      "eval_runtime": 33.8764,
+      "eval_samples_per_second": 236.566,
+      "eval_steps_per_second": 7.409,
+      "step": 14000
+    },
+    {
+      "epoch": 31.955922865013775,
+      "grad_norm": 5.986231803894043,
+      "learning_rate": 0.00028703703703703703,
+      "loss": 0.2324,
+      "step": 14500
+    },
+    {
+      "epoch": 31.955922865013775,
+      "eval_accuracy": 0.7707761417519341,
+      "eval_f1_macro": 0.6291965084001815,
+      "eval_loss": 1.2486802339553833,
+      "eval_runtime": 33.8585,
+      "eval_samples_per_second": 236.691,
+      "eval_steps_per_second": 7.413,
+      "step": 14500
+    },
+    {
+      "epoch": 33.05785123966942,
+      "grad_norm": 4.138526439666748,
+      "learning_rate": 0.0002777777777777778,
+      "loss": 0.212,
+      "step": 15000
+    },
+    {
+      "epoch": 33.05785123966942,
+      "eval_accuracy": 0.7655353132018967,
+      "eval_f1_macro": 0.6182777113261247,
+      "eval_loss": 1.2596852779388428,
+      "eval_runtime": 33.8607,
+      "eval_samples_per_second": 236.675,
+      "eval_steps_per_second": 7.413,
+      "step": 15000
+    },
+    {
+      "epoch": 34.15977961432507,
+      "grad_norm": 4.644781112670898,
+      "learning_rate": 0.0002685185185185186,
+      "loss": 0.2003,
+      "step": 15500
+    },
+    {
+      "epoch": 34.15977961432507,
+      "eval_accuracy": 0.7730222111305216,
+      "eval_f1_macro": 0.6195180591624613,
+      "eval_loss": 1.2190001010894775,
+      "eval_runtime": 33.8524,
+      "eval_samples_per_second": 236.734,
+      "eval_steps_per_second": 7.415,
+      "step": 15500
+    },
+    {
+      "epoch": 35.26170798898072,
+      "grad_norm": 2.8191895484924316,
+      "learning_rate": 0.00025925925925925926,
+      "loss": 0.1822,
+      "step": 16000
+    },
+    {
+      "epoch": 35.26170798898072,
+      "eval_accuracy": 0.7781382580484153,
+      "eval_f1_macro": 0.6369508969483741,
+      "eval_loss": 1.2363426685333252,
+      "eval_runtime": 40.925,
+      "eval_samples_per_second": 195.822,
+      "eval_steps_per_second": 6.133,
+      "step": 16000
+    },
+    {
+      "epoch": 36.36363636363637,
+      "grad_norm": 4.859241962432861,
+      "learning_rate": 0.00025,
+      "loss": 0.1743,
+      "step": 16500
+    },
+    {
+      "epoch": 36.36363636363637,
+      "eval_accuracy": 0.777763913151984,
+      "eval_f1_macro": 0.6468738399385165,
+      "eval_loss": 1.2521047592163086,
+      "eval_runtime": 40.9791,
+      "eval_samples_per_second": 195.563,
+      "eval_steps_per_second": 6.125,
+      "step": 16500
+    },
+    {
+      "epoch": 37.46556473829201,
+      "grad_norm": 3.027918577194214,
+      "learning_rate": 0.00024074074074074072,
+      "loss": 0.1604,
+      "step": 17000
+    },
+    {
+      "epoch": 37.46556473829201,
+      "eval_accuracy": 0.7700274519590716,
+      "eval_f1_macro": 0.6320426231926091,
+      "eval_loss": 1.2722282409667969,
+      "eval_runtime": 41.0083,
+      "eval_samples_per_second": 195.424,
+      "eval_steps_per_second": 6.121,
+      "step": 17000
+    },
+    {
+      "epoch": 38.56749311294766,
+      "grad_norm": 5.677507400512695,
+      "learning_rate": 0.0002314814814814815,
+      "loss": 0.1523,
+      "step": 17500
+    },
+    {
+      "epoch": 38.56749311294766,
+      "eval_accuracy": 0.7745195907162465,
+      "eval_f1_macro": 0.6419239322758532,
+      "eval_loss": 1.2623705863952637,
+      "eval_runtime": 40.8771,
+      "eval_samples_per_second": 196.051,
+      "eval_steps_per_second": 6.14,
+      "step": 17500
+    },
+    {
+      "epoch": 39.66942148760331,
+      "grad_norm": 5.041018009185791,
+      "learning_rate": 0.0002222222222222222,
+      "loss": 0.1384,
+      "step": 18000
+    },
+    {
+      "epoch": 39.66942148760331,
+      "eval_accuracy": 0.7866234090341901,
+      "eval_f1_macro": 0.6659870204162003,
+      "eval_loss": 1.189522624015808,
+      "eval_runtime": 40.9611,
+      "eval_samples_per_second": 195.649,
+      "eval_steps_per_second": 6.128,
+      "step": 18000
+    },
+    {
+      "epoch": 40.77134986225895,
+      "grad_norm": 3.659827947616577,
+      "learning_rate": 0.00021296296296296298,
+      "loss": 0.135,
+      "step": 18500
+    },
+    {
+      "epoch": 40.77134986225895,
+      "eval_accuracy": 0.7850012478163214,
+      "eval_f1_macro": 0.6720105896795865,
+      "eval_loss": 1.1996605396270752,
+      "eval_runtime": 40.9502,
+      "eval_samples_per_second": 195.701,
+      "eval_steps_per_second": 6.129,
+      "step": 18500
+    },
+    {
+      "epoch": 41.8732782369146,
+      "grad_norm": 5.367224216461182,
+      "learning_rate": 0.0002037037037037037,
+      "loss": 0.1239,
+      "step": 19000
+    },
+    {
+      "epoch": 41.8732782369146,
+      "eval_accuracy": 0.7908659845270776,
+      "eval_f1_macro": 0.6804665897748318,
+      "eval_loss": 1.2242608070373535,
+      "eval_runtime": 40.9731,
+      "eval_samples_per_second": 195.592,
+      "eval_steps_per_second": 6.126,
+      "step": 19000
+    },
+    {
+      "epoch": 42.97520661157025,
+      "grad_norm": 3.64471173286438,
+      "learning_rate": 0.00019444444444444446,
+      "loss": 0.1131,
+      "step": 19500
+    },
+    {
+      "epoch": 42.97520661157025,
+      "eval_accuracy": 0.7947342151235338,
+      "eval_f1_macro": 0.653675258584708,
+      "eval_loss": 1.1854939460754395,
+      "eval_runtime": 40.6521,
+      "eval_samples_per_second": 197.136,
+      "eval_steps_per_second": 6.174,
+      "step": 19500
+    },
+    {
+      "epoch": 44.07713498622589,
+      "grad_norm": 7.800271987915039,
+      "learning_rate": 0.00018518518518518518,
+      "loss": 0.1076,
+      "step": 20000
+    },
+    {
+      "epoch": 44.07713498622589,
+      "eval_accuracy": 0.7879960069877714,
+      "eval_f1_macro": 0.6313626574356537,
+      "eval_loss": 1.2797794342041016,
+      "eval_runtime": 40.7712,
+      "eval_samples_per_second": 196.56,
+      "eval_steps_per_second": 6.156,
+      "step": 20000
+    },
+    {
+      "epoch": 45.17906336088154,
+      "grad_norm": 3.2701990604400635,
+      "learning_rate": 0.00017592592592592595,
+      "loss": 0.0999,
+      "step": 20500
+    },
+    {
+      "epoch": 45.17906336088154,
+      "eval_accuracy": 0.7922385824806588,
+      "eval_f1_macro": 0.6725445304133565,
+      "eval_loss": 1.2082223892211914,
+      "eval_runtime": 39.2309,
+      "eval_samples_per_second": 204.278,
+      "eval_steps_per_second": 6.398,
+      "step": 20500
+    },
+    {
+      "epoch": 46.28099173553719,
+      "grad_norm": 3.959247350692749,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 0.0898,
+      "step": 21000
+    },
+    {
+      "epoch": 46.28099173553719,
+      "eval_accuracy": 0.80059895183429,
+      "eval_f1_macro": 0.6765711205444297,
+      "eval_loss": 1.1848937273025513,
+      "eval_runtime": 40.6064,
+      "eval_samples_per_second": 197.358,
+      "eval_steps_per_second": 6.181,
+      "step": 21000
+    },
+    {
+      "epoch": 47.382920110192835,
+      "grad_norm": 3.7939414978027344,
+      "learning_rate": 0.0001574074074074074,
+      "loss": 0.0861,
+      "step": 21500
+    },
+    {
+      "epoch": 47.382920110192835,
+      "eval_accuracy": 0.7979785375592713,
+      "eval_f1_macro": 0.6842554850331637,
+      "eval_loss": 1.177991509437561,
+      "eval_runtime": 40.9664,
+      "eval_samples_per_second": 195.624,
+      "eval_steps_per_second": 6.127,
+      "step": 21500
+    },
+    {
+      "epoch": 48.484848484848484,
+      "grad_norm": 2.4407143592834473,
+      "learning_rate": 0.00014814814814814815,
+      "loss": 0.0743,
+      "step": 22000
+    },
+    {
+      "epoch": 48.484848484848484,
+      "eval_accuracy": 0.8023458946843025,
+      "eval_f1_macro": 0.672574066052015,
+      "eval_loss": 1.23497474193573,
+      "eval_runtime": 40.9537,
+      "eval_samples_per_second": 195.684,
+      "eval_steps_per_second": 6.129,
+      "step": 22000
+    },
+    {
+      "epoch": 49.586776859504134,
+      "grad_norm": 1.4111738204956055,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 0.0725,
+      "step": 22500
+    },
+    {
+      "epoch": 49.586776859504134,
+      "eval_accuracy": 0.8037184926378838,
+      "eval_f1_macro": 0.687093106679298,
+      "eval_loss": 1.1898678541183472,
+      "eval_runtime": 41.112,
+      "eval_samples_per_second": 194.931,
+      "eval_steps_per_second": 6.105,
+      "step": 22500
+    },
+    {
+      "epoch": 50.68870523415978,
+      "grad_norm": 2.446298122406006,
+      "learning_rate": 0.00012962962962962963,
+      "loss": 0.063,
+      "step": 23000
+    },
+    {
+      "epoch": 50.68870523415978,
+      "eval_accuracy": 0.7988520089842776,
+      "eval_f1_macro": 0.6845006699400662,
+      "eval_loss": 1.2227065563201904,
+      "eval_runtime": 41.0323,
+      "eval_samples_per_second": 195.31,
+      "eval_steps_per_second": 6.117,
+      "step": 23000
+    },
+    {
+      "epoch": 51.790633608815426,
+      "grad_norm": 3.328188419342041,
+      "learning_rate": 0.00012037037037037036,
+      "loss": 0.061,
+      "step": 23500
+    },
+    {
+      "epoch": 51.790633608815426,
+      "eval_accuracy": 0.8082106313950587,
+      "eval_f1_macro": 0.6785356281203615,
+      "eval_loss": 1.1609222888946533,
+      "eval_runtime": 42.2613,
+      "eval_samples_per_second": 189.63,
+      "eval_steps_per_second": 5.939,
+      "step": 23500
+    },
+    {
+      "epoch": 52.892561983471076,
+      "grad_norm": 2.284496545791626,
+      "learning_rate": 0.0001111111111111111,
+      "loss": 0.056,
+      "step": 24000
+    },
+    {
+      "epoch": 52.892561983471076,
+      "eval_accuracy": 0.8119540803593711,
+      "eval_f1_macro": 0.6977082191883057,
+      "eval_loss": 1.160672664642334,
+      "eval_runtime": 40.9648,
+      "eval_samples_per_second": 195.632,
+      "eval_steps_per_second": 6.127,
+      "step": 24000
+    },
+    {
+      "epoch": 53.99449035812672,
+      "grad_norm": 3.7205893993377686,
+      "learning_rate": 0.00010185185185185185,
+      "loss": 0.051,
+      "step": 24500
+    },
+    {
+      "epoch": 53.99449035812672,
+      "eval_accuracy": 0.8083354130272024,
+      "eval_f1_macro": 0.6629286097479332,
+      "eval_loss": 1.224273920059204,
+      "eval_runtime": 40.9557,
+      "eval_samples_per_second": 195.675,
+      "eval_steps_per_second": 6.129,
+      "step": 24500
+    },
+    {
+      "epoch": 55.09641873278237,
+      "grad_norm": 0.219478040933609,
+      "learning_rate": 9.259259259259259e-05,
+      "loss": 0.0447,
+      "step": 25000
+    },
+    {
+      "epoch": 55.09641873278237,
+      "eval_accuracy": 0.8098327926129274,
+      "eval_f1_macro": 0.666826551929984,
+      "eval_loss": 1.199051856994629,
+      "eval_runtime": 41.0107,
+      "eval_samples_per_second": 195.412,
+      "eval_steps_per_second": 6.12,
+      "step": 25000
+    },
+    {
+      "epoch": 56.19834710743802,
+      "grad_norm": 3.8260011672973633,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 0.0409,
+      "step": 25500
+    },
+    {
+      "epoch": 56.19834710743802,
+      "eval_accuracy": 0.8124532068879461,
+      "eval_f1_macro": 0.699449604989361,
+      "eval_loss": 1.2268598079681396,
+      "eval_runtime": 40.8996,
+      "eval_samples_per_second": 195.943,
+      "eval_steps_per_second": 6.137,
+      "step": 25500
+    },
+    {
+      "epoch": 57.30027548209367,
+      "grad_norm": 0.5541914105415344,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 0.039,
+      "step": 26000
+    },
+    {
+      "epoch": 57.30027548209367,
+      "eval_accuracy": 0.8215622660344397,
+      "eval_f1_macro": 0.6928701132826408,
+      "eval_loss": 1.1886591911315918,
+      "eval_runtime": 40.5313,
+      "eval_samples_per_second": 197.724,
+      "eval_steps_per_second": 6.193,
+      "step": 26000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 30000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 67,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5103646535813897e+20,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1e7e8d962fba8418949e1365bf6d9bd403c8fe8015481536a1cd9d10372b363
+size 5240