Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

config.json +125 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scaler.pt +3 -0
scheduler.pt +3 -0
trainer_state.json +466 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForAudioRegression"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "finetuning_task": "wav2vec2_regression",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.075,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "pooling_mode": "mean",
+  "problem_type": "regression",
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:beee9cad6447f1e9a6410044e00d0fe0568b2cc4a9356460241ab34066ed29cf
+size 1266010204

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce7a8a06b9778a121f398462ad16ceca30c56dc97f39fb648557576f820cb63c
+size 2532271440

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b152b9f7d7b48829a1b2299a92270be44656a04d72273f4b0c3578ffcd1b99f1
+size 14244

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10afc989ad9dd0fec06ec057139942b34d77f6fd53e85d253a1f4f69c016339e
+size 988

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cfb1d7dd89b470d7bbf8ab8a7e5768ce4e98edd22662563aa48ac874be01776
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,466 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 17.88599348534202,
+  "eval_steps": 100,
+  "global_step": 2754,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.6514657980456026,
+      "grad_norm": 1.2638410329818726,
+      "learning_rate": 9.647785039941903e-05,
+      "loss": 0.0465,
+      "step": 100
+    },
+    {
+      "epoch": 0.6514657980456026,
+      "eval_loss": 0.03762375935912132,
+      "eval_mse": 0.03703753277659416,
+      "eval_runtime": 88.6656,
+      "eval_samples_per_second": 1.737,
+      "eval_steps_per_second": 0.868,
+      "step": 100
+    },
+    {
+      "epoch": 1.2996742671009773,
+      "grad_norm": 4.225351333618164,
+      "learning_rate": 9.284676833696442e-05,
+      "loss": 0.0309,
+      "step": 200
+    },
+    {
+      "epoch": 1.2996742671009773,
+      "eval_loss": 0.02817053347826004,
+      "eval_mse": 0.028493033722043037,
+      "eval_runtime": 89.1695,
+      "eval_samples_per_second": 1.727,
+      "eval_steps_per_second": 0.864,
+      "step": 200
+    },
+    {
+      "epoch": 1.9511400651465798,
+      "grad_norm": 0.3467458188533783,
+      "learning_rate": 8.921568627450981e-05,
+      "loss": 0.0299,
+      "step": 300
+    },
+    {
+      "epoch": 1.9511400651465798,
+      "eval_loss": 0.02852724678814411,
+      "eval_mse": 0.028662405908107758,
+      "eval_runtime": 89.7708,
+      "eval_samples_per_second": 1.715,
+      "eval_steps_per_second": 0.858,
+      "step": 300
+    },
+    {
+      "epoch": 2.5993485342019547,
+      "grad_norm": 0.9525694847106934,
+      "learning_rate": 8.55846042120552e-05,
+      "loss": 0.0294,
+      "step": 400
+    },
+    {
+      "epoch": 2.5993485342019547,
+      "eval_loss": 0.027554582804441452,
+      "eval_mse": 0.02786860242486,
+      "eval_runtime": 89.8297,
+      "eval_samples_per_second": 1.714,
+      "eval_steps_per_second": 0.857,
+      "step": 400
+    },
+    {
+      "epoch": 3.247557003257329,
+      "grad_norm": 5.774784564971924,
+      "learning_rate": 8.195352214960058e-05,
+      "loss": 0.0277,
+      "step": 500
+    },
+    {
+      "epoch": 3.247557003257329,
+      "eval_loss": 0.02871050126850605,
+      "eval_mse": 0.034602127969264984,
+      "eval_runtime": 89.8152,
+      "eval_samples_per_second": 1.715,
+      "eval_steps_per_second": 0.857,
+      "step": 500
+    },
+    {
+      "epoch": 3.8990228013029316,
+      "grad_norm": 0.9268798232078552,
+      "learning_rate": 7.832244008714598e-05,
+      "loss": 0.0292,
+      "step": 600
+    },
+    {
+      "epoch": 3.8990228013029316,
+      "eval_loss": 0.03371996432542801,
+      "eval_mse": 0.037180185317993164,
+      "eval_runtime": 90.195,
+      "eval_samples_per_second": 1.707,
+      "eval_steps_per_second": 0.854,
+      "step": 600
+    },
+    {
+      "epoch": 4.547231270358306,
+      "grad_norm": 0.12350838631391525,
+      "learning_rate": 7.469135802469136e-05,
+      "loss": 0.0272,
+      "step": 700
+    },
+    {
+      "epoch": 4.547231270358306,
+      "eval_loss": 0.025019396096467972,
+      "eval_mse": 0.02873270958662033,
+      "eval_runtime": 90.451,
+      "eval_samples_per_second": 1.703,
+      "eval_steps_per_second": 0.851,
+      "step": 700
+    },
+    {
+      "epoch": 5.195439739413681,
+      "grad_norm": 0.3085576593875885,
+      "learning_rate": 7.106027596223676e-05,
+      "loss": 0.0216,
+      "step": 800
+    },
+    {
+      "epoch": 5.195439739413681,
+      "eval_loss": 0.023245293647050858,
+      "eval_mse": 0.03596530482172966,
+      "eval_runtime": 90.2027,
+      "eval_samples_per_second": 1.707,
+      "eval_steps_per_second": 0.854,
+      "step": 800
+    },
+    {
+      "epoch": 5.846905537459284,
+      "grad_norm": 4.71547269821167,
+      "learning_rate": 6.742919389978214e-05,
+      "loss": 0.02,
+      "step": 900
+    },
+    {
+      "epoch": 5.846905537459284,
+      "eval_loss": 0.016941210255026817,
+      "eval_mse": 0.032546475529670715,
+      "eval_runtime": 90.1386,
+      "eval_samples_per_second": 1.708,
+      "eval_steps_per_second": 0.854,
+      "step": 900
+    },
+    {
+      "epoch": 6.495114006514658,
+      "grad_norm": 0.2343684285879135,
+      "learning_rate": 6.379811183732753e-05,
+      "loss": 0.0177,
+      "step": 1000
+    },
+    {
+      "epoch": 6.495114006514658,
+      "eval_loss": 0.021996306255459785,
+      "eval_mse": 0.031924955546855927,
+      "eval_runtime": 90.9876,
+      "eval_samples_per_second": 1.693,
+      "eval_steps_per_second": 0.846,
+      "step": 1000
+    },
+    {
+      "epoch": 7.143322475570033,
+      "grad_norm": 0.37635019421577454,
+      "learning_rate": 6.016702977487292e-05,
+      "loss": 0.0203,
+      "step": 1100
+    },
+    {
+      "epoch": 7.143322475570033,
+      "eval_loss": 0.03620931878685951,
+      "eval_mse": 0.05669161304831505,
+      "eval_runtime": 90.6862,
+      "eval_samples_per_second": 1.698,
+      "eval_steps_per_second": 0.849,
+      "step": 1100
+    },
+    {
+      "epoch": 7.7947882736156355,
+      "grad_norm": 0.4336552023887634,
+      "learning_rate": 5.65359477124183e-05,
+      "loss": 0.0172,
+      "step": 1200
+    },
+    {
+      "epoch": 7.7947882736156355,
+      "eval_loss": 0.019503405317664146,
+      "eval_mse": 0.04632864147424698,
+      "eval_runtime": 90.2807,
+      "eval_samples_per_second": 1.706,
+      "eval_steps_per_second": 0.853,
+      "step": 1200
+    },
+    {
+      "epoch": 8.44299674267101,
+      "grad_norm": 1.6894867420196533,
+      "learning_rate": 5.2904865649963685e-05,
+      "loss": 0.0159,
+      "step": 1300
+    },
+    {
+      "epoch": 8.44299674267101,
+      "eval_loss": 0.018114862963557243,
+      "eval_mse": 0.032530076801776886,
+      "eval_runtime": 90.5229,
+      "eval_samples_per_second": 1.701,
+      "eval_steps_per_second": 0.851,
+      "step": 1300
+    },
+    {
+      "epoch": 9.091205211726384,
+      "grad_norm": 1.3247390985488892,
+      "learning_rate": 4.927378358750908e-05,
+      "loss": 0.0183,
+      "step": 1400
+    },
+    {
+      "epoch": 9.091205211726384,
+      "eval_loss": 0.023152034729719162,
+      "eval_mse": 0.05892067402601242,
+      "eval_runtime": 90.2274,
+      "eval_samples_per_second": 1.707,
+      "eval_steps_per_second": 0.853,
+      "step": 1400
+    },
+    {
+      "epoch": 9.742671009771987,
+      "grad_norm": 0.23432166874408722,
+      "learning_rate": 4.564270152505447e-05,
+      "loss": 0.0167,
+      "step": 1500
+    },
+    {
+      "epoch": 9.742671009771987,
+      "eval_loss": 0.017632601782679558,
+      "eval_mse": 0.04079648479819298,
+      "eval_runtime": 90.49,
+      "eval_samples_per_second": 1.702,
+      "eval_steps_per_second": 0.851,
+      "step": 1500
+    },
+    {
+      "epoch": 10.390879478827362,
+      "grad_norm": 0.33277449011802673,
+      "learning_rate": 4.2011619462599856e-05,
+      "loss": 0.0181,
+      "step": 1600
+    },
+    {
+      "epoch": 10.390879478827362,
+      "eval_loss": 0.026499085128307343,
+      "eval_mse": 0.030374381691217422,
+      "eval_runtime": 90.526,
+      "eval_samples_per_second": 1.701,
+      "eval_steps_per_second": 0.851,
+      "step": 1600
+    },
+    {
+      "epoch": 11.039087947882736,
+      "grad_norm": 1.5499602556228638,
+      "learning_rate": 3.8380537400145246e-05,
+      "loss": 0.0178,
+      "step": 1700
+    },
+    {
+      "epoch": 11.039087947882736,
+      "eval_loss": 0.021473562344908714,
+      "eval_mse": 0.040922779589891434,
+      "eval_runtime": 90.8595,
+      "eval_samples_per_second": 1.695,
+      "eval_steps_per_second": 0.847,
+      "step": 1700
+    },
+    {
+      "epoch": 11.690553745928339,
+      "grad_norm": 0.8587289452552795,
+      "learning_rate": 3.474945533769064e-05,
+      "loss": 0.0164,
+      "step": 1800
+    },
+    {
+      "epoch": 11.690553745928339,
+      "eval_loss": 0.015354540199041367,
+      "eval_mse": 0.0399436429142952,
+      "eval_runtime": 90.1794,
+      "eval_samples_per_second": 1.708,
+      "eval_steps_per_second": 0.854,
+      "step": 1800
+    },
+    {
+      "epoch": 12.338762214983714,
+      "grad_norm": 0.19527116417884827,
+      "learning_rate": 3.111837327523602e-05,
+      "loss": 0.0144,
+      "step": 1900
+    },
+    {
+      "epoch": 12.338762214983714,
+      "eval_loss": 0.018714504316449165,
+      "eval_mse": 0.04291320964694023,
+      "eval_runtime": 90.7039,
+      "eval_samples_per_second": 1.698,
+      "eval_steps_per_second": 0.849,
+      "step": 1900
+    },
+    {
+      "epoch": 12.990228013029316,
+      "grad_norm": 0.3192684054374695,
+      "learning_rate": 2.7487291212781407e-05,
+      "loss": 0.015,
+      "step": 2000
+    },
+    {
+      "epoch": 12.990228013029316,
+      "eval_loss": 0.015104055404663086,
+      "eval_mse": 0.04015926271677017,
+      "eval_runtime": 90.635,
+      "eval_samples_per_second": 1.699,
+      "eval_steps_per_second": 0.85,
+      "step": 2000
+    },
+    {
+      "epoch": 13.63843648208469,
+      "grad_norm": 0.6388863921165466,
+      "learning_rate": 2.38562091503268e-05,
+      "loss": 0.0139,
+      "step": 2100
+    },
+    {
+      "epoch": 13.63843648208469,
+      "eval_loss": 0.016035696491599083,
+      "eval_mse": 0.04732033237814903,
+      "eval_runtime": 91.5121,
+      "eval_samples_per_second": 1.683,
+      "eval_steps_per_second": 0.841,
+      "step": 2100
+    },
+    {
+      "epoch": 14.286644951140065,
+      "grad_norm": 0.21684342622756958,
+      "learning_rate": 2.0225127087872185e-05,
+      "loss": 0.0145,
+      "step": 2200
+    },
+    {
+      "epoch": 14.286644951140065,
+      "eval_loss": 0.018462415784597397,
+      "eval_mse": 0.04823942109942436,
+      "eval_runtime": 90.3632,
+      "eval_samples_per_second": 1.704,
+      "eval_steps_per_second": 0.852,
+      "step": 2200
+    },
+    {
+      "epoch": 14.938110749185668,
+      "grad_norm": 1.060388445854187,
+      "learning_rate": 1.6594045025417575e-05,
+      "loss": 0.0138,
+      "step": 2300
+    },
+    {
+      "epoch": 14.938110749185668,
+      "eval_loss": 0.014556349255144596,
+      "eval_mse": 0.04120248183608055,
+      "eval_runtime": 90.4648,
+      "eval_samples_per_second": 1.702,
+      "eval_steps_per_second": 0.851,
+      "step": 2300
+    },
+    {
+      "epoch": 15.586319218241043,
+      "grad_norm": 0.5649324655532837,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.0147,
+      "step": 2400
+    },
+    {
+      "epoch": 15.586319218241043,
+      "eval_loss": 0.016257289797067642,
+      "eval_mse": 0.04343423992395401,
+      "eval_runtime": 90.5146,
+      "eval_samples_per_second": 1.701,
+      "eval_steps_per_second": 0.851,
+      "step": 2400
+    },
+    {
+      "epoch": 16.234527687296417,
+      "grad_norm": 0.2803210914134979,
+      "learning_rate": 9.331880900508353e-06,
+      "loss": 0.0123,
+      "step": 2500
+    },
+    {
+      "epoch": 16.234527687296417,
+      "eval_loss": 0.015808526426553726,
+      "eval_mse": 0.0433967150747776,
+      "eval_runtime": 90.5827,
+      "eval_samples_per_second": 1.7,
+      "eval_steps_per_second": 0.85,
+      "step": 2500
+    },
+    {
+      "epoch": 16.88599348534202,
+      "grad_norm": 0.15071052312850952,
+      "learning_rate": 5.700798838053741e-06,
+      "loss": 0.0132,
+      "step": 2600
+    },
+    {
+      "epoch": 16.88599348534202,
+      "eval_loss": 0.016139788553118706,
+      "eval_mse": 0.039463259279727936,
+      "eval_runtime": 91.04,
+      "eval_samples_per_second": 1.692,
+      "eval_steps_per_second": 0.846,
+      "step": 2600
+    },
+    {
+      "epoch": 17.534201954397393,
+      "grad_norm": 0.2855733633041382,
+      "learning_rate": 2.0697167755991287e-06,
+      "loss": 0.0131,
+      "step": 2700
+    },
+    {
+      "epoch": 17.534201954397393,
+      "eval_loss": 0.015753401443362236,
+      "eval_mse": 0.04061569273471832,
+      "eval_runtime": 91.2096,
+      "eval_samples_per_second": 1.688,
+      "eval_steps_per_second": 0.844,
+      "step": 2700
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 2754,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 18,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5386107538383602e+19,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdcd97e2e6c734a99352d9651d92da44f783a68798e3ea16a7754ecf017e5737
+size 5304