Training in progress, epoch 1

Browse files

Files changed (15) hide show

config.json +1 -1
model.safetensors +1 -1
run-0/checkpoint-22741/config.json +30 -0
run-0/checkpoint-22741/model.safetensors +3 -0
run-0/checkpoint-22741/optimizer.pt +3 -0
run-0/checkpoint-22741/rng_state.pth +3 -0
run-0/checkpoint-22741/scheduler.pt +3 -0
run-0/checkpoint-22741/special_tokens_map.json +7 -0
run-0/checkpoint-22741/tokenizer.json +0 -0
run-0/checkpoint-22741/tokenizer_config.json +58 -0
run-0/checkpoint-22741/trainer_state.json +353 -0
run-0/checkpoint-22741/training_args.bin +3 -0
run-0/checkpoint-22741/vocab.txt +0 -0
runs/Mar17_05-45-14_3e7b533b70e4/events.out.tfevents.1742190557.3e7b533b70e4.1046.0 +3 -0
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "huawei-noah/TinyBERT_General_4L_312D",
   "architectures": [
     "BertForSequenceClassification"
   ],

 {
+  "_name_or_path": "jim12345/TinyBERT_General_4L_312D-finetuned-qqp",
   "architectures": [
     "BertForSequenceClassification"
   ],

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cd1057583a4afca57eb3306e67d26ca26137c7e4ab2818570ba4da0d0a8dedd
 size 57411808

 version https://git-lfs.github.com/spec/v1
+oid sha256:74e274ca98b00873817565aea9e7ff45bbfa55e22bc65659ee024b15e5776fa4
 size 57411808

run-0/checkpoint-22741/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "jim12345/TinyBERT_General_4L_312D-finetuned-qqp",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "cell": {},
+  "classifier_dropout": null,
+  "emb_size": 312,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 312,
+  "initializer_range": 0.02,
+  "intermediate_size": 1200,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 4,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "pre_trained": "",
+  "problem_type": "single_label_classification",
+  "structure": [],
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-0/checkpoint-22741/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74e274ca98b00873817565aea9e7ff45bbfa55e22bc65659ee024b15e5776fa4
+size 57411808

run-0/checkpoint-22741/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b87e6b7233f677bb6074f8518673ae522f1bdf02d3cb1bea5d9b22c47a4e0e6
+size 114865914

run-0/checkpoint-22741/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:762b12875ae49e5a22b989b85f5e948dd25aade37d88c7c1156c3a2fffaa0d6b
+size 14244

run-0/checkpoint-22741/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f45bb632bed2f40fccdc5801be87bcac2b9fc2a857c8eaedad0aabd366409c2
+size 1064

run-0/checkpoint-22741/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-22741/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-22741/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-22741/trainer_state.json ADDED Viewed

	@@ -0,0 +1,353 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 22741,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.021986720021107253,
+      "grad_norm": 3.232280969619751,
+      "learning_rate": 5.300617165851152e-05,
+      "loss": 0.2752,
+      "step": 500
+    },
+    {
+      "epoch": 0.043973440042214505,
+      "grad_norm": 5.631597518920898,
+      "learning_rate": 5.1814539725178676e-05,
+      "loss": 0.2844,
+      "step": 1000
+    },
+    {
+      "epoch": 0.06596016006332175,
+      "grad_norm": 15.601012229919434,
+      "learning_rate": 5.0622907791845836e-05,
+      "loss": 0.2709,
+      "step": 1500
+    },
+    {
+      "epoch": 0.08794688008442901,
+      "grad_norm": 5.61612606048584,
+      "learning_rate": 4.9431275858512995e-05,
+      "loss": 0.2802,
+      "step": 2000
+    },
+    {
+      "epoch": 0.10993360010553625,
+      "grad_norm": 18.510770797729492,
+      "learning_rate": 4.823964392518015e-05,
+      "loss": 0.2813,
+      "step": 2500
+    },
+    {
+      "epoch": 0.1319203201266435,
+      "grad_norm": 11.217623710632324,
+      "learning_rate": 4.704801199184731e-05,
+      "loss": 0.2733,
+      "step": 3000
+    },
+    {
+      "epoch": 0.15390704014775075,
+      "grad_norm": 8.069157600402832,
+      "learning_rate": 4.585638005851446e-05,
+      "loss": 0.2797,
+      "step": 3500
+    },
+    {
+      "epoch": 0.17589376016885802,
+      "grad_norm": 18.08821678161621,
+      "learning_rate": 4.4664748125181614e-05,
+      "loss": 0.2873,
+      "step": 4000
+    },
+    {
+      "epoch": 0.19788048018996526,
+      "grad_norm": 11.280226707458496,
+      "learning_rate": 4.3473116191848774e-05,
+      "loss": 0.2869,
+      "step": 4500
+    },
+    {
+      "epoch": 0.2198672002110725,
+      "grad_norm": 3.7686078548431396,
+      "learning_rate": 4.2281484258515934e-05,
+      "loss": 0.2787,
+      "step": 5000
+    },
+    {
+      "epoch": 0.24185392023217978,
+      "grad_norm": 16.037321090698242,
+      "learning_rate": 4.108985232518309e-05,
+      "loss": 0.2728,
+      "step": 5500
+    },
+    {
+      "epoch": 0.263840640253287,
+      "grad_norm": 19.072811126708984,
+      "learning_rate": 3.989822039185025e-05,
+      "loss": 0.2839,
+      "step": 6000
+    },
+    {
+      "epoch": 0.28582736027439426,
+      "grad_norm": 10.007956504821777,
+      "learning_rate": 3.870658845851741e-05,
+      "loss": 0.2627,
+      "step": 6500
+    },
+    {
+      "epoch": 0.3078140802955015,
+      "grad_norm": 9.80030345916748,
+      "learning_rate": 3.751495652518456e-05,
+      "loss": 0.2741,
+      "step": 7000
+    },
+    {
+      "epoch": 0.32980080031660874,
+      "grad_norm": 15.233572959899902,
+      "learning_rate": 3.632332459185172e-05,
+      "loss": 0.2792,
+      "step": 7500
+    },
+    {
+      "epoch": 0.35178752033771604,
+      "grad_norm": 9.426636695861816,
+      "learning_rate": 3.513169265851888e-05,
+      "loss": 0.2758,
+      "step": 8000
+    },
+    {
+      "epoch": 0.3737742403588233,
+      "grad_norm": 12.810172080993652,
+      "learning_rate": 3.394006072518603e-05,
+      "loss": 0.2625,
+      "step": 8500
+    },
+    {
+      "epoch": 0.3957609603799305,
+      "grad_norm": 14.27669620513916,
+      "learning_rate": 3.274842879185319e-05,
+      "loss": 0.2668,
+      "step": 9000
+    },
+    {
+      "epoch": 0.41774768040103777,
+      "grad_norm": 13.52592945098877,
+      "learning_rate": 3.1556796858520345e-05,
+      "loss": 0.2747,
+      "step": 9500
+    },
+    {
+      "epoch": 0.439734400422145,
+      "grad_norm": 6.92447566986084,
+      "learning_rate": 3.0365164925187502e-05,
+      "loss": 0.2677,
+      "step": 10000
+    },
+    {
+      "epoch": 0.46172112044325225,
+      "grad_norm": 5.093660354614258,
+      "learning_rate": 2.9173532991854658e-05,
+      "loss": 0.2591,
+      "step": 10500
+    },
+    {
+      "epoch": 0.48370784046435955,
+      "grad_norm": 1.4967374801635742,
+      "learning_rate": 2.7981901058521818e-05,
+      "loss": 0.2629,
+      "step": 11000
+    },
+    {
+      "epoch": 0.5056945604854668,
+      "grad_norm": 9.669052124023438,
+      "learning_rate": 2.6790269125188974e-05,
+      "loss": 0.2598,
+      "step": 11500
+    },
+    {
+      "epoch": 0.527681280506574,
+      "grad_norm": 5.366542339324951,
+      "learning_rate": 2.559863719185613e-05,
+      "loss": 0.2736,
+      "step": 12000
+    },
+    {
+      "epoch": 0.5496680005276813,
+      "grad_norm": 8.824047088623047,
+      "learning_rate": 2.440700525852329e-05,
+      "loss": 0.2713,
+      "step": 12500
+    },
+    {
+      "epoch": 0.5716547205487885,
+      "grad_norm": 15.082524299621582,
+      "learning_rate": 2.3215373325190447e-05,
+      "loss": 0.2631,
+      "step": 13000
+    },
+    {
+      "epoch": 0.5936414405698958,
+      "grad_norm": 18.26800537109375,
+      "learning_rate": 2.2023741391857604e-05,
+      "loss": 0.2575,
+      "step": 13500
+    },
+    {
+      "epoch": 0.615628160591003,
+      "grad_norm": 12.72653579711914,
+      "learning_rate": 2.083210945852476e-05,
+      "loss": 0.2625,
+      "step": 14000
+    },
+    {
+      "epoch": 0.6376148806121102,
+      "grad_norm": 7.0168256759643555,
+      "learning_rate": 1.9640477525191916e-05,
+      "loss": 0.2564,
+      "step": 14500
+    },
+    {
+      "epoch": 0.6596016006332175,
+      "grad_norm": 11.12606143951416,
+      "learning_rate": 1.8448845591859073e-05,
+      "loss": 0.2594,
+      "step": 15000
+    },
+    {
+      "epoch": 0.6815883206543248,
+      "grad_norm": 9.376869201660156,
+      "learning_rate": 1.7257213658526233e-05,
+      "loss": 0.2734,
+      "step": 15500
+    },
+    {
+      "epoch": 0.7035750406754321,
+      "grad_norm": 15.819753646850586,
+      "learning_rate": 1.606558172519339e-05,
+      "loss": 0.2494,
+      "step": 16000
+    },
+    {
+      "epoch": 0.7255617606965393,
+      "grad_norm": 5.1129374504089355,
+      "learning_rate": 1.4873949791860547e-05,
+      "loss": 0.2554,
+      "step": 16500
+    },
+    {
+      "epoch": 0.7475484807176466,
+      "grad_norm": 22.13513946533203,
+      "learning_rate": 1.3682317858527702e-05,
+      "loss": 0.2449,
+      "step": 17000
+    },
+    {
+      "epoch": 0.7695352007387538,
+      "grad_norm": 13.828417778015137,
+      "learning_rate": 1.249068592519486e-05,
+      "loss": 0.2558,
+      "step": 17500
+    },
+    {
+      "epoch": 0.791521920759861,
+      "grad_norm": 15.22836685180664,
+      "learning_rate": 1.1299053991862017e-05,
+      "loss": 0.2415,
+      "step": 18000
+    },
+    {
+      "epoch": 0.8135086407809683,
+      "grad_norm": 9.662595748901367,
+      "learning_rate": 1.0107422058529175e-05,
+      "loss": 0.2497,
+      "step": 18500
+    },
+    {
+      "epoch": 0.8354953608020755,
+      "grad_norm": 10.890246391296387,
+      "learning_rate": 8.915790125196331e-06,
+      "loss": 0.246,
+      "step": 19000
+    },
+    {
+      "epoch": 0.8574820808231828,
+      "grad_norm": 15.275935173034668,
+      "learning_rate": 7.724158191863488e-06,
+      "loss": 0.2514,
+      "step": 19500
+    },
+    {
+      "epoch": 0.87946880084429,
+      "grad_norm": 14.517071723937988,
+      "learning_rate": 6.532526258530645e-06,
+      "loss": 0.2448,
+      "step": 20000
+    },
+    {
+      "epoch": 0.9014555208653973,
+      "grad_norm": 14.82449722290039,
+      "learning_rate": 5.340894325197802e-06,
+      "loss": 0.2441,
+      "step": 20500
+    },
+    {
+      "epoch": 0.9234422408865045,
+      "grad_norm": 6.244806289672852,
+      "learning_rate": 4.149262391864959e-06,
+      "loss": 0.2422,
+      "step": 21000
+    },
+    {
+      "epoch": 0.9454289609076117,
+      "grad_norm": 4.309006214141846,
+      "learning_rate": 2.9576304585321163e-06,
+      "loss": 0.2432,
+      "step": 21500
+    },
+    {
+      "epoch": 0.9674156809287191,
+      "grad_norm": 14.54212474822998,
+      "learning_rate": 1.7659985251992733e-06,
+      "loss": 0.2344,
+      "step": 22000
+    },
+    {
+      "epoch": 0.9894024009498263,
+      "grad_norm": 10.163171768188477,
+      "learning_rate": 5.743665918664302e-07,
+      "loss": 0.2499,
+      "step": 22500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 22741,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 605843650864704.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 5.419780359184436e-05,
+    "num_train_epochs": 1,
+    "per_device_train_batch_size": 16,
+    "seed": 38
+  }
+}

run-0/checkpoint-22741/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d26d841eda3932bc7a4c1e0caf218dff6aa5cce82245d39949343f8a170fae21
+size 5368

run-0/checkpoint-22741/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/Mar17_05-45-14_3e7b533b70e4/events.out.tfevents.1742190557.3e7b533b70e4.1046.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77228a46ff512c5061b9b9d8410b43d66e024655fe4a56bf34187c8bdef8da0a
+size 14841

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8c2acda82e6cdee24bfaa46653b1418994f0bb7dd2e51f6349f91b28400c4a9
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:d26d841eda3932bc7a4c1e0caf218dff6aa5cce82245d39949343f8a170fae21
 size 5368