jdorairaj commited on Mar 16, 2024

Commit

5dc46e7

1 Parent(s): 24df1dd

mrpc task

Browse files

Files changed (45) hide show

mrpc/{config.json → checkpoint-10000/config.json} +1 -1
mrpc/{model.safetensors → checkpoint-10000/model.safetensors} +1 -1
mrpc/checkpoint-10000/rng_state.pth +3 -0
mrpc/checkpoint-10000/scheduler.pt +3 -0
mrpc/{special_tokens_map.json → checkpoint-10000/special_tokens_map.json} +0 -0
mrpc/{tokenizer_config.json → checkpoint-10000/tokenizer_config.json} +0 -0
mrpc/checkpoint-10000/trainer_state.json +796 -0
mrpc/checkpoint-10000/training_args.bin +3 -0
mrpc/{vocab.txt → checkpoint-10000/vocab.txt} +0 -0
mrpc/checkpoint-2000/config.json +27 -0
mrpc/checkpoint-2000/model.safetensors +3 -0
mrpc/checkpoint-2000/rng_state.pth +3 -0
mrpc/checkpoint-2000/scheduler.pt +3 -0
mrpc/checkpoint-2000/special_tokens_map.json +7 -0
mrpc/checkpoint-2000/tokenizer_config.json +57 -0
mrpc/checkpoint-2000/trainer_state.json +176 -0
mrpc/checkpoint-2000/training_args.bin +3 -0
mrpc/checkpoint-2000/vocab.txt +0 -0
mrpc/checkpoint-4000/config.json +27 -0
mrpc/checkpoint-4000/model.safetensors +3 -0
mrpc/checkpoint-4000/rng_state.pth +3 -0
mrpc/checkpoint-4000/scheduler.pt +3 -0
mrpc/checkpoint-4000/special_tokens_map.json +7 -0
mrpc/checkpoint-4000/tokenizer_config.json +57 -0
mrpc/checkpoint-4000/trainer_state.json +331 -0
mrpc/checkpoint-4000/training_args.bin +3 -0
mrpc/checkpoint-4000/vocab.txt +0 -0
mrpc/checkpoint-6000/config.json +27 -0
mrpc/checkpoint-6000/model.safetensors +3 -0
mrpc/checkpoint-6000/rng_state.pth +3 -0
mrpc/checkpoint-6000/scheduler.pt +3 -0
mrpc/checkpoint-6000/special_tokens_map.json +7 -0
mrpc/checkpoint-6000/tokenizer_config.json +57 -0
mrpc/checkpoint-6000/trainer_state.json +486 -0
mrpc/checkpoint-6000/training_args.bin +3 -0
mrpc/checkpoint-6000/vocab.txt +0 -0
mrpc/checkpoint-8000/config.json +27 -0
mrpc/checkpoint-8000/model.safetensors +3 -0
mrpc/checkpoint-8000/rng_state.pth +3 -0
mrpc/checkpoint-8000/scheduler.pt +3 -0
mrpc/checkpoint-8000/special_tokens_map.json +7 -0
mrpc/checkpoint-8000/tokenizer_config.json +57 -0
mrpc/checkpoint-8000/trainer_state.json +641 -0
mrpc/checkpoint-8000/training_args.bin +3 -0
mrpc/checkpoint-8000/vocab.txt +0 -0

mrpc/{config.json → checkpoint-10000/config.json} RENAMED Viewed

@@ -20,7 +20,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.37.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

mrpc/{model.safetensors → checkpoint-10000/model.safetensors} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ff8de5a5390f8d0053b981366a2f1e1d02bf5991d68714d0edd5a4c8ae44f6f
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e4f65a7dc25db16eed6785af62623d34ffba14f96fbd55b441bf5ae9d673936
 size 437958648

mrpc/checkpoint-10000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:703622daa608ad0bc0522d956e3a02e84baefcd25522e7459a586c3a686efe25
+size 14244

mrpc/checkpoint-10000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04c72869181363c7c0dcffb7a71857fd6a7c81a93e70aff2985fc26363295969
+size 1064

mrpc/{special_tokens_map.json → checkpoint-10000/special_tokens_map.json} RENAMED Viewed

File without changes

mrpc/{tokenizer_config.json → checkpoint-10000/tokenizer_config.json} RENAMED Viewed

File without changes

mrpc/checkpoint-10000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,796 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 86.95652173913044,
+  "eval_steps": 2000,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.87,
+      "grad_norm": 4.196278095245361,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.5435,
+      "step": 100
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 8.441207885742188,
+      "learning_rate": 4.9e-05,
+      "loss": 0.2564,
+      "step": 200
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 8.456403732299805,
+      "learning_rate": 4.85e-05,
+      "loss": 0.1488,
+      "step": 300
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 0.8015245795249939,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0688,
+      "step": 400
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 0.2079729586839676,
+      "learning_rate": 4.75e-05,
+      "loss": 0.0622,
+      "step": 500
+    },
+    {
+      "epoch": 5.22,
+      "grad_norm": 0.10826250910758972,
+      "learning_rate": 4.7e-05,
+      "loss": 0.0491,
+      "step": 600
+    },
+    {
+      "epoch": 6.09,
+      "grad_norm": 15.216827392578125,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.0328,
+      "step": 700
+    },
+    {
+      "epoch": 6.96,
+      "grad_norm": 15.634430885314941,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0306,
+      "step": 800
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 31.188247680664062,
+      "learning_rate": 4.55e-05,
+      "loss": 0.0182,
+      "step": 900
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.016402140259742737,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0222,
+      "step": 1000
+    },
+    {
+      "epoch": 9.57,
+      "grad_norm": 31.216285705566406,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.0181,
+      "step": 1100
+    },
+    {
+      "epoch": 10.43,
+      "grad_norm": 0.2328696846961975,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0121,
+      "step": 1200
+    },
+    {
+      "epoch": 11.3,
+      "grad_norm": 0.007173949386924505,
+      "learning_rate": 4.35e-05,
+      "loss": 0.0253,
+      "step": 1300
+    },
+    {
+      "epoch": 12.17,
+      "grad_norm": 0.003974032588303089,
+      "learning_rate": 4.3e-05,
+      "loss": 0.0099,
+      "step": 1400
+    },
+    {
+      "epoch": 13.04,
+      "grad_norm": 0.3920653164386749,
+      "learning_rate": 4.25e-05,
+      "loss": 0.0172,
+      "step": 1500
+    },
+    {
+      "epoch": 13.91,
+      "grad_norm": 1.2646549940109253,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0295,
+      "step": 1600
+    },
+    {
+      "epoch": 14.78,
+      "grad_norm": 0.07062631100416183,
+      "learning_rate": 4.15e-05,
+      "loss": 0.0181,
+      "step": 1700
+    },
+    {
+      "epoch": 15.65,
+      "grad_norm": 0.005436008796095848,
+      "learning_rate": 4.1e-05,
+      "loss": 0.0067,
+      "step": 1800
+    },
+    {
+      "epoch": 16.52,
+      "grad_norm": 0.004679691046476364,
+      "learning_rate": 4.05e-05,
+      "loss": 0.02,
+      "step": 1900
+    },
+    {
+      "epoch": 17.39,
+      "grad_norm": 0.01030748151242733,
+      "learning_rate": 4e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 17.39,
+      "eval_accuracy": 0.9387254901960784,
+      "eval_brier_score": 0.05757000434820965,
+      "eval_ece": 0.05797517591831729,
+      "eval_f1": 0.9382506413699704,
+      "eval_loss": 0.40406298637390137,
+      "eval_nll": 6.776806058077595,
+      "eval_precision": 0.9384196444828075,
+      "eval_recall": 0.9387254901960784,
+      "eval_runtime": 1.9112,
+      "eval_samples_per_second": 213.478,
+      "eval_steps_per_second": 6.802,
+      "step": 2000
+    },
+    {
+      "epoch": 18.26,
+      "grad_norm": 0.004601624328643084,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.0158,
+      "step": 2100
+    },
+    {
+      "epoch": 19.13,
+      "grad_norm": 0.012901573441922665,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.0092,
+      "step": 2200
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.00762163195759058,
+      "learning_rate": 3.85e-05,
+      "loss": 0.0082,
+      "step": 2300
+    },
+    {
+      "epoch": 20.87,
+      "grad_norm": 0.154510959982872,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0131,
+      "step": 2400
+    },
+    {
+      "epoch": 21.74,
+      "grad_norm": 0.003832124872133136,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0201,
+      "step": 2500
+    },
+    {
+      "epoch": 22.61,
+      "grad_norm": 0.0029927650466561317,
+      "learning_rate": 3.7e-05,
+      "loss": 0.019,
+      "step": 2600
+    },
+    {
+      "epoch": 23.48,
+      "grad_norm": 0.0018748922739177942,
+      "learning_rate": 3.65e-05,
+      "loss": 0.0086,
+      "step": 2700
+    },
+    {
+      "epoch": 24.35,
+      "grad_norm": 0.14622557163238525,
+      "learning_rate": 3.6e-05,
+      "loss": 0.01,
+      "step": 2800
+    },
+    {
+      "epoch": 25.22,
+      "grad_norm": 0.03812519088387489,
+      "learning_rate": 3.55e-05,
+      "loss": 0.0234,
+      "step": 2900
+    },
+    {
+      "epoch": 26.09,
+      "grad_norm": 24.803911209106445,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0119,
+      "step": 3000
+    },
+    {
+      "epoch": 26.96,
+      "grad_norm": 0.00613383948802948,
+      "learning_rate": 3.45e-05,
+      "loss": 0.0129,
+      "step": 3100
+    },
+    {
+      "epoch": 27.83,
+      "grad_norm": 0.005301126278936863,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0086,
+      "step": 3200
+    },
+    {
+      "epoch": 28.7,
+      "grad_norm": 0.0037701462861150503,
+      "learning_rate": 3.35e-05,
+      "loss": 0.0104,
+      "step": 3300
+    },
+    {
+      "epoch": 29.57,
+      "grad_norm": 0.03656579554080963,
+      "learning_rate": 3.3e-05,
+      "loss": 0.0065,
+      "step": 3400
+    },
+    {
+      "epoch": 30.43,
+      "grad_norm": 0.1510837972164154,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.0093,
+      "step": 3500
+    },
+    {
+      "epoch": 31.3,
+      "grad_norm": 0.0025348912458866835,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.009,
+      "step": 3600
+    },
+    {
+      "epoch": 32.17,
+      "grad_norm": 0.002163603436201811,
+      "learning_rate": 3.15e-05,
+      "loss": 0.0077,
+      "step": 3700
+    },
+    {
+      "epoch": 33.04,
+      "grad_norm": 0.0018990840762853622,
+      "learning_rate": 3.1e-05,
+      "loss": 0.0041,
+      "step": 3800
+    },
+    {
+      "epoch": 33.91,
+      "grad_norm": 0.0013024972286075354,
+      "learning_rate": 3.05e-05,
+      "loss": 0.0073,
+      "step": 3900
+    },
+    {
+      "epoch": 34.78,
+      "grad_norm": 0.001054937718436122,
+      "learning_rate": 3e-05,
+      "loss": 0.0004,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78,
+      "eval_accuracy": 0.928921568627451,
+      "eval_brier_score": 0.0675812841670148,
+      "eval_ece": 0.06654327976353025,
+      "eval_f1": 0.9280259003838475,
+      "eval_loss": 0.5349375605583191,
+      "eval_nll": 7.384143338090662,
+      "eval_precision": 0.9287246020559013,
+      "eval_recall": 0.928921568627451,
+      "eval_runtime": 1.8817,
+      "eval_samples_per_second": 216.828,
+      "eval_steps_per_second": 6.909,
+      "step": 4000
+    },
+    {
+      "epoch": 35.65,
+      "grad_norm": 0.0011927990708500147,
+      "learning_rate": 2.95e-05,
+      "loss": 0.0003,
+      "step": 4100
+    },
+    {
+      "epoch": 36.52,
+      "grad_norm": 0.0007499050698243082,
+      "learning_rate": 2.9e-05,
+      "loss": 0.0013,
+      "step": 4200
+    },
+    {
+      "epoch": 37.39,
+      "grad_norm": 0.0024869628250598907,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.0001,
+      "step": 4300
+    },
+    {
+      "epoch": 38.26,
+      "grad_norm": 0.018704690039157867,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0099,
+      "step": 4400
+    },
+    {
+      "epoch": 39.13,
+      "grad_norm": 0.00480309734120965,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.0064,
+      "step": 4500
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.016563115641474724,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.0085,
+      "step": 4600
+    },
+    {
+      "epoch": 40.87,
+      "grad_norm": 0.0018221806967630982,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.001,
+      "step": 4700
+    },
+    {
+      "epoch": 41.74,
+      "grad_norm": 0.0007343711331486702,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.0012,
+      "step": 4800
+    },
+    {
+      "epoch": 42.61,
+      "grad_norm": 0.008326762355864048,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.0029,
+      "step": 4900
+    },
+    {
+      "epoch": 43.48,
+      "grad_norm": 0.004561099223792553,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0004,
+      "step": 5000
+    },
+    {
+      "epoch": 44.35,
+      "grad_norm": 0.0013891893904656172,
+      "learning_rate": 2.45e-05,
+      "loss": 0.0074,
+      "step": 5100
+    },
+    {
+      "epoch": 45.22,
+      "grad_norm": 0.013074066489934921,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0018,
+      "step": 5200
+    },
+    {
+      "epoch": 46.09,
+      "grad_norm": 0.0006578834727406502,
+      "learning_rate": 2.35e-05,
+      "loss": 0.0,
+      "step": 5300
+    },
+    {
+      "epoch": 46.96,
+      "grad_norm": 0.0006401424179784954,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.0,
+      "step": 5400
+    },
+    {
+      "epoch": 47.83,
+      "grad_norm": 0.000561197055503726,
+      "learning_rate": 2.25e-05,
+      "loss": 0.0024,
+      "step": 5500
+    },
+    {
+      "epoch": 48.7,
+      "grad_norm": 0.0004986047861166298,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.0,
+      "step": 5600
+    },
+    {
+      "epoch": 49.57,
+      "grad_norm": 0.0004820087051484734,
+      "learning_rate": 2.15e-05,
+      "loss": 0.0,
+      "step": 5700
+    },
+    {
+      "epoch": 50.43,
+      "grad_norm": 0.00033787055872380733,
+      "learning_rate": 2.1e-05,
+      "loss": 0.0,
+      "step": 5800
+    },
+    {
+      "epoch": 51.3,
+      "grad_norm": 0.00030797443469054997,
+      "learning_rate": 2.05e-05,
+      "loss": 0.0,
+      "step": 5900
+    },
+    {
+      "epoch": 52.17,
+      "grad_norm": 0.0003839946002699435,
+      "learning_rate": 2e-05,
+      "loss": 0.0,
+      "step": 6000
+    },
+    {
+      "epoch": 52.17,
+      "eval_accuracy": 0.9191176470588235,
+      "eval_brier_score": 0.0754212002677414,
+      "eval_ece": 0.0762045159935951,
+      "eval_f1": 0.9180984383678263,
+      "eval_loss": 0.6726267337799072,
+      "eval_nll": 8.413597393856437,
+      "eval_precision": 0.9186496544848213,
+      "eval_recall": 0.9191176470588235,
+      "eval_runtime": 1.8842,
+      "eval_samples_per_second": 216.536,
+      "eval_steps_per_second": 6.899,
+      "step": 6000
+    },
+    {
+      "epoch": 53.04,
+      "grad_norm": 0.00035972893238067627,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.0,
+      "step": 6100
+    },
+    {
+      "epoch": 53.91,
+      "grad_norm": 0.0002692355774343014,
+      "learning_rate": 1.9e-05,
+      "loss": 0.0,
+      "step": 6200
+    },
+    {
+      "epoch": 54.78,
+      "grad_norm": 0.0003426405892241746,
+      "learning_rate": 1.85e-05,
+      "loss": 0.0,
+      "step": 6300
+    },
+    {
+      "epoch": 55.65,
+      "grad_norm": 0.00027685274835675955,
+      "learning_rate": 1.8e-05,
+      "loss": 0.0,
+      "step": 6400
+    },
+    {
+      "epoch": 56.52,
+      "grad_norm": 0.00028565863613039255,
+      "learning_rate": 1.75e-05,
+      "loss": 0.0,
+      "step": 6500
+    },
+    {
+      "epoch": 57.39,
+      "grad_norm": 0.0002044347784249112,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.0,
+      "step": 6600
+    },
+    {
+      "epoch": 58.26,
+      "grad_norm": 0.00019555067410692573,
+      "learning_rate": 1.65e-05,
+      "loss": 0.0,
+      "step": 6700
+    },
+    {
+      "epoch": 59.13,
+      "grad_norm": 13.264129638671875,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0001,
+      "step": 6800
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.00021661369828507304,
+      "learning_rate": 1.55e-05,
+      "loss": 0.0071,
+      "step": 6900
+    },
+    {
+      "epoch": 60.87,
+      "grad_norm": 0.0025544350501149893,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0047,
+      "step": 7000
+    },
+    {
+      "epoch": 61.74,
+      "grad_norm": 0.00023375553428195417,
+      "learning_rate": 1.45e-05,
+      "loss": 0.0028,
+      "step": 7100
+    },
+    {
+      "epoch": 62.61,
+      "grad_norm": 0.00046280986862257123,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.0001,
+      "step": 7200
+    },
+    {
+      "epoch": 63.48,
+      "grad_norm": 0.0054445345886051655,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.0061,
+      "step": 7300
+    },
+    {
+      "epoch": 64.35,
+      "grad_norm": 0.0021262529771775007,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.0001,
+      "step": 7400
+    },
+    {
+      "epoch": 65.22,
+      "grad_norm": 0.0005580468568950891,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0031,
+      "step": 7500
+    },
+    {
+      "epoch": 66.09,
+      "grad_norm": 0.0004650899500120431,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0001,
+      "step": 7600
+    },
+    {
+      "epoch": 66.96,
+      "grad_norm": 0.0006638153572566807,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.0,
+      "step": 7700
+    },
+    {
+      "epoch": 67.83,
+      "grad_norm": 0.0004998428630642593,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.0,
+      "step": 7800
+    },
+    {
+      "epoch": 68.7,
+      "grad_norm": 0.00034490320831537247,
+      "learning_rate": 1.05e-05,
+      "loss": 0.0,
+      "step": 7900
+    },
+    {
+      "epoch": 69.57,
+      "grad_norm": 0.000332407042151317,
+      "learning_rate": 1e-05,
+      "loss": 0.0008,
+      "step": 8000
+    },
+    {
+      "epoch": 69.57,
+      "eval_accuracy": 0.9093137254901961,
+      "eval_brier_score": 0.08612374447215236,
+      "eval_ece": 0.08567111121088852,
+      "eval_f1": 0.9088203082186265,
+      "eval_loss": 0.7547056078910828,
+      "eval_nll": 8.256409546928781,
+      "eval_precision": 0.908638620145923,
+      "eval_recall": 0.9093137254901961,
+      "eval_runtime": 1.8815,
+      "eval_samples_per_second": 216.849,
+      "eval_steps_per_second": 6.909,
+      "step": 8000
+    },
+    {
+      "epoch": 70.43,
+      "grad_norm": 0.00023413883172906935,
+      "learning_rate": 9.5e-06,
+      "loss": 0.0002,
+      "step": 8100
+    },
+    {
+      "epoch": 71.3,
+      "grad_norm": 23.99155616760254,
+      "learning_rate": 9e-06,
+      "loss": 0.0063,
+      "step": 8200
+    },
+    {
+      "epoch": 72.17,
+      "grad_norm": 0.0003871929075103253,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.0005,
+      "step": 8300
+    },
+    {
+      "epoch": 73.04,
+      "grad_norm": 0.00042980830767191947,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0,
+      "step": 8400
+    },
+    {
+      "epoch": 73.91,
+      "grad_norm": 0.0013252117205411196,
+      "learning_rate": 7.5e-06,
+      "loss": 0.0019,
+      "step": 8500
+    },
+    {
+      "epoch": 74.78,
+      "grad_norm": 0.00030255893943831325,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.0001,
+      "step": 8600
+    },
+    {
+      "epoch": 75.65,
+      "grad_norm": 0.000279304978903383,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.0,
+      "step": 8700
+    },
+    {
+      "epoch": 76.52,
+      "grad_norm": 0.00023628314374946058,
+      "learning_rate": 6e-06,
+      "loss": 0.0,
+      "step": 8800
+    },
+    {
+      "epoch": 77.39,
+      "grad_norm": 0.00026065990095958114,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.0,
+      "step": 8900
+    },
+    {
+      "epoch": 78.26,
+      "grad_norm": 0.0002733684959821403,
+      "learning_rate": 5e-06,
+      "loss": 0.0,
+      "step": 9000
+    },
+    {
+      "epoch": 79.13,
+      "grad_norm": 0.000217767694266513,
+      "learning_rate": 4.5e-06,
+      "loss": 0.0,
+      "step": 9100
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 0.00022373067622538656,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0001,
+      "step": 9200
+    },
+    {
+      "epoch": 80.87,
+      "grad_norm": 0.00025432344409637153,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.0,
+      "step": 9300
+    },
+    {
+      "epoch": 81.74,
+      "grad_norm": 0.00020336911256890744,
+      "learning_rate": 3e-06,
+      "loss": 0.0,
+      "step": 9400
+    },
+    {
+      "epoch": 82.61,
+      "grad_norm": 0.00014633308455813676,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0,
+      "step": 9500
+    },
+    {
+      "epoch": 83.48,
+      "grad_norm": 0.0003040888987015933,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0,
+      "step": 9600
+    },
+    {
+      "epoch": 84.35,
+      "grad_norm": 0.00023693699040450156,
+      "learning_rate": 1.5e-06,
+      "loss": 0.0,
+      "step": 9700
+    },
+    {
+      "epoch": 85.22,
+      "grad_norm": 0.00015578049351461232,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0,
+      "step": 9800
+    },
+    {
+      "epoch": 86.09,
+      "grad_norm": 0.00019774572865571827,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.0,
+      "step": 9900
+    },
+    {
+      "epoch": 86.96,
+      "grad_norm": 0.00021942751482129097,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 10000
+    },
+    {
+      "epoch": 86.96,
+      "eval_accuracy": 0.9240196078431373,
+      "eval_brier_score": 0.07567827359639122,
+      "eval_ece": 0.07723997489494433,
+      "eval_f1": 0.9226690417618795,
+      "eval_loss": 0.6729016900062561,
+      "eval_nll": 8.918727569637431,
+      "eval_precision": 0.9243157789431563,
+      "eval_recall": 0.9240196078431373,
+      "eval_runtime": 1.8795,
+      "eval_samples_per_second": 217.075,
+      "eval_steps_per_second": 6.917,
+      "step": 10000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 87,
+  "save_steps": 2000,
+  "total_flos": 1.309401561437256e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

mrpc/checkpoint-10000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b5ff4c6acb47d0ce7d42bf9d0586515d220366e0d122459e5c18115cd14676
+size 4856

mrpc/{vocab.txt → checkpoint-10000/vocab.txt} RENAMED Viewed

File without changes

mrpc/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

mrpc/checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:057ad95edf9c0585f999dbc22f3910bbd8b7a7c79ac071dc7f1054dacad98b36
+size 437958648

mrpc/checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0169d13508ae576728ae5babd5fdf36d946cd4c2cebd6408e664928fe7f1def1
+size 14244

mrpc/checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18c16bda23fbf1fb322914b976482d4c125418dca6a7d13ef911e96abca76529
+size 1064

mrpc/checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

mrpc/checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

mrpc/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,176 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 17.391304347826086,
+  "eval_steps": 2000,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.87,
+      "grad_norm": 4.196278095245361,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.5435,
+      "step": 100
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 8.441207885742188,
+      "learning_rate": 4.9e-05,
+      "loss": 0.2564,
+      "step": 200
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 8.456403732299805,
+      "learning_rate": 4.85e-05,
+      "loss": 0.1488,
+      "step": 300
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 0.8015245795249939,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0688,
+      "step": 400
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 0.2079729586839676,
+      "learning_rate": 4.75e-05,
+      "loss": 0.0622,
+      "step": 500
+    },
+    {
+      "epoch": 5.22,
+      "grad_norm": 0.10826250910758972,
+      "learning_rate": 4.7e-05,
+      "loss": 0.0491,
+      "step": 600
+    },
+    {
+      "epoch": 6.09,
+      "grad_norm": 15.216827392578125,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.0328,
+      "step": 700
+    },
+    {
+      "epoch": 6.96,
+      "grad_norm": 15.634430885314941,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0306,
+      "step": 800
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 31.188247680664062,
+      "learning_rate": 4.55e-05,
+      "loss": 0.0182,
+      "step": 900
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.016402140259742737,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0222,
+      "step": 1000
+    },
+    {
+      "epoch": 9.57,
+      "grad_norm": 31.216285705566406,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.0181,
+      "step": 1100
+    },
+    {
+      "epoch": 10.43,
+      "grad_norm": 0.2328696846961975,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0121,
+      "step": 1200
+    },
+    {
+      "epoch": 11.3,
+      "grad_norm": 0.007173949386924505,
+      "learning_rate": 4.35e-05,
+      "loss": 0.0253,
+      "step": 1300
+    },
+    {
+      "epoch": 12.17,
+      "grad_norm": 0.003974032588303089,
+      "learning_rate": 4.3e-05,
+      "loss": 0.0099,
+      "step": 1400
+    },
+    {
+      "epoch": 13.04,
+      "grad_norm": 0.3920653164386749,
+      "learning_rate": 4.25e-05,
+      "loss": 0.0172,
+      "step": 1500
+    },
+    {
+      "epoch": 13.91,
+      "grad_norm": 1.2646549940109253,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0295,
+      "step": 1600
+    },
+    {
+      "epoch": 14.78,
+      "grad_norm": 0.07062631100416183,
+      "learning_rate": 4.15e-05,
+      "loss": 0.0181,
+      "step": 1700
+    },
+    {
+      "epoch": 15.65,
+      "grad_norm": 0.005436008796095848,
+      "learning_rate": 4.1e-05,
+      "loss": 0.0067,
+      "step": 1800
+    },
+    {
+      "epoch": 16.52,
+      "grad_norm": 0.004679691046476364,
+      "learning_rate": 4.05e-05,
+      "loss": 0.02,
+      "step": 1900
+    },
+    {
+      "epoch": 17.39,
+      "grad_norm": 0.01030748151242733,
+      "learning_rate": 4e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 17.39,
+      "eval_accuracy": 0.9387254901960784,
+      "eval_brier_score": 0.05757000434820965,
+      "eval_ece": 0.05797517591831729,
+      "eval_f1": 0.9382506413699704,
+      "eval_loss": 0.40406298637390137,
+      "eval_nll": 6.776806058077595,
+      "eval_precision": 0.9384196444828075,
+      "eval_recall": 0.9387254901960784,
+      "eval_runtime": 1.9112,
+      "eval_samples_per_second": 213.478,
+      "eval_steps_per_second": 6.802,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 87,
+  "save_steps": 2000,
+  "total_flos": 2619132833915760.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

mrpc/checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b5ff4c6acb47d0ce7d42bf9d0586515d220366e0d122459e5c18115cd14676
+size 4856

mrpc/checkpoint-2000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

mrpc/checkpoint-4000/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

mrpc/checkpoint-4000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b22537fc80682a69f39a3bd686681e6af04c67781d6de9d3bc2fc7043970fe80
+size 437958648

mrpc/checkpoint-4000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc52e99503fdbf70503643accbc25a705f4a4638b8401a83723befaee70f554d
+size 14244

mrpc/checkpoint-4000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:762a291429a0f63ee6b6218939182d9a927a5c2da96c23ee68a024d92a257f72
+size 1064

mrpc/checkpoint-4000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

mrpc/checkpoint-4000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

mrpc/checkpoint-4000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,331 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 34.78260869565217,
+  "eval_steps": 2000,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.87,
+      "grad_norm": 4.196278095245361,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.5435,
+      "step": 100
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 8.441207885742188,
+      "learning_rate": 4.9e-05,
+      "loss": 0.2564,
+      "step": 200
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 8.456403732299805,
+      "learning_rate": 4.85e-05,
+      "loss": 0.1488,
+      "step": 300
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 0.8015245795249939,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0688,
+      "step": 400
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 0.2079729586839676,
+      "learning_rate": 4.75e-05,
+      "loss": 0.0622,
+      "step": 500
+    },
+    {
+      "epoch": 5.22,
+      "grad_norm": 0.10826250910758972,
+      "learning_rate": 4.7e-05,
+      "loss": 0.0491,
+      "step": 600
+    },
+    {
+      "epoch": 6.09,
+      "grad_norm": 15.216827392578125,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.0328,
+      "step": 700
+    },
+    {
+      "epoch": 6.96,
+      "grad_norm": 15.634430885314941,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0306,
+      "step": 800
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 31.188247680664062,
+      "learning_rate": 4.55e-05,
+      "loss": 0.0182,
+      "step": 900
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.016402140259742737,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0222,
+      "step": 1000
+    },
+    {
+      "epoch": 9.57,
+      "grad_norm": 31.216285705566406,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.0181,
+      "step": 1100
+    },
+    {
+      "epoch": 10.43,
+      "grad_norm": 0.2328696846961975,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0121,
+      "step": 1200
+    },
+    {
+      "epoch": 11.3,
+      "grad_norm": 0.007173949386924505,
+      "learning_rate": 4.35e-05,
+      "loss": 0.0253,
+      "step": 1300
+    },
+    {
+      "epoch": 12.17,
+      "grad_norm": 0.003974032588303089,
+      "learning_rate": 4.3e-05,
+      "loss": 0.0099,
+      "step": 1400
+    },
+    {
+      "epoch": 13.04,
+      "grad_norm": 0.3920653164386749,
+      "learning_rate": 4.25e-05,
+      "loss": 0.0172,
+      "step": 1500
+    },
+    {
+      "epoch": 13.91,
+      "grad_norm": 1.2646549940109253,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0295,
+      "step": 1600
+    },
+    {
+      "epoch": 14.78,
+      "grad_norm": 0.07062631100416183,
+      "learning_rate": 4.15e-05,
+      "loss": 0.0181,
+      "step": 1700
+    },
+    {
+      "epoch": 15.65,
+      "grad_norm": 0.005436008796095848,
+      "learning_rate": 4.1e-05,
+      "loss": 0.0067,
+      "step": 1800
+    },
+    {
+      "epoch": 16.52,
+      "grad_norm": 0.004679691046476364,
+      "learning_rate": 4.05e-05,
+      "loss": 0.02,
+      "step": 1900
+    },
+    {
+      "epoch": 17.39,
+      "grad_norm": 0.01030748151242733,
+      "learning_rate": 4e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 17.39,
+      "eval_accuracy": 0.9387254901960784,
+      "eval_brier_score": 0.05757000434820965,
+      "eval_ece": 0.05797517591831729,
+      "eval_f1": 0.9382506413699704,
+      "eval_loss": 0.40406298637390137,
+      "eval_nll": 6.776806058077595,
+      "eval_precision": 0.9384196444828075,
+      "eval_recall": 0.9387254901960784,
+      "eval_runtime": 1.9112,
+      "eval_samples_per_second": 213.478,
+      "eval_steps_per_second": 6.802,
+      "step": 2000
+    },
+    {
+      "epoch": 18.26,
+      "grad_norm": 0.004601624328643084,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.0158,
+      "step": 2100
+    },
+    {
+      "epoch": 19.13,
+      "grad_norm": 0.012901573441922665,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.0092,
+      "step": 2200
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.00762163195759058,
+      "learning_rate": 3.85e-05,
+      "loss": 0.0082,
+      "step": 2300
+    },
+    {
+      "epoch": 20.87,
+      "grad_norm": 0.154510959982872,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0131,
+      "step": 2400
+    },
+    {
+      "epoch": 21.74,
+      "grad_norm": 0.003832124872133136,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0201,
+      "step": 2500
+    },
+    {
+      "epoch": 22.61,
+      "grad_norm": 0.0029927650466561317,
+      "learning_rate": 3.7e-05,
+      "loss": 0.019,
+      "step": 2600
+    },
+    {
+      "epoch": 23.48,
+      "grad_norm": 0.0018748922739177942,
+      "learning_rate": 3.65e-05,
+      "loss": 0.0086,
+      "step": 2700
+    },
+    {
+      "epoch": 24.35,
+      "grad_norm": 0.14622557163238525,
+      "learning_rate": 3.6e-05,
+      "loss": 0.01,
+      "step": 2800
+    },
+    {
+      "epoch": 25.22,
+      "grad_norm": 0.03812519088387489,
+      "learning_rate": 3.55e-05,
+      "loss": 0.0234,
+      "step": 2900
+    },
+    {
+      "epoch": 26.09,
+      "grad_norm": 24.803911209106445,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0119,
+      "step": 3000
+    },
+    {
+      "epoch": 26.96,
+      "grad_norm": 0.00613383948802948,
+      "learning_rate": 3.45e-05,
+      "loss": 0.0129,
+      "step": 3100
+    },
+    {
+      "epoch": 27.83,
+      "grad_norm": 0.005301126278936863,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0086,
+      "step": 3200
+    },
+    {
+      "epoch": 28.7,
+      "grad_norm": 0.0037701462861150503,
+      "learning_rate": 3.35e-05,
+      "loss": 0.0104,
+      "step": 3300
+    },
+    {
+      "epoch": 29.57,
+      "grad_norm": 0.03656579554080963,
+      "learning_rate": 3.3e-05,
+      "loss": 0.0065,
+      "step": 3400
+    },
+    {
+      "epoch": 30.43,
+      "grad_norm": 0.1510837972164154,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.0093,
+      "step": 3500
+    },
+    {
+      "epoch": 31.3,
+      "grad_norm": 0.0025348912458866835,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.009,
+      "step": 3600
+    },
+    {
+      "epoch": 32.17,
+      "grad_norm": 0.002163603436201811,
+      "learning_rate": 3.15e-05,
+      "loss": 0.0077,
+      "step": 3700
+    },
+    {
+      "epoch": 33.04,
+      "grad_norm": 0.0018990840762853622,
+      "learning_rate": 3.1e-05,
+      "loss": 0.0041,
+      "step": 3800
+    },
+    {
+      "epoch": 33.91,
+      "grad_norm": 0.0013024972286075354,
+      "learning_rate": 3.05e-05,
+      "loss": 0.0073,
+      "step": 3900
+    },
+    {
+      "epoch": 34.78,
+      "grad_norm": 0.001054937718436122,
+      "learning_rate": 3e-05,
+      "loss": 0.0004,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78,
+      "eval_accuracy": 0.928921568627451,
+      "eval_brier_score": 0.0675812841670148,
+      "eval_ece": 0.06654327976353025,
+      "eval_f1": 0.9280259003838475,
+      "eval_loss": 0.5349375605583191,
+      "eval_nll": 7.384143338090662,
+      "eval_precision": 0.9287246020559013,
+      "eval_recall": 0.928921568627451,
+      "eval_runtime": 1.8817,
+      "eval_samples_per_second": 216.828,
+      "eval_steps_per_second": 6.909,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 87,
+  "save_steps": 2000,
+  "total_flos": 5238097112311680.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

mrpc/checkpoint-4000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b5ff4c6acb47d0ce7d42bf9d0586515d220366e0d122459e5c18115cd14676
+size 4856

mrpc/checkpoint-4000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

mrpc/checkpoint-6000/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

mrpc/checkpoint-6000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4edfda67a5199ee8af0db9977118268aafe607781583003f5fef6d653fb9fa02
+size 437958648

mrpc/checkpoint-6000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d317567d04062c1441078a17c798abea95f9da99ef8fd11326fc7a13753e7d4a
+size 14244

mrpc/checkpoint-6000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d39394b88b23cb5c76f884a0327727196168ba1cf0c4264a8ef3e18494b8591
+size 1064

mrpc/checkpoint-6000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

mrpc/checkpoint-6000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

mrpc/checkpoint-6000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,486 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 52.17391304347826,
+  "eval_steps": 2000,
+  "global_step": 6000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.87,
+      "grad_norm": 4.196278095245361,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.5435,
+      "step": 100
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 8.441207885742188,
+      "learning_rate": 4.9e-05,
+      "loss": 0.2564,
+      "step": 200
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 8.456403732299805,
+      "learning_rate": 4.85e-05,
+      "loss": 0.1488,
+      "step": 300
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 0.8015245795249939,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0688,
+      "step": 400
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 0.2079729586839676,
+      "learning_rate": 4.75e-05,
+      "loss": 0.0622,
+      "step": 500
+    },
+    {
+      "epoch": 5.22,
+      "grad_norm": 0.10826250910758972,
+      "learning_rate": 4.7e-05,
+      "loss": 0.0491,
+      "step": 600
+    },
+    {
+      "epoch": 6.09,
+      "grad_norm": 15.216827392578125,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.0328,
+      "step": 700
+    },
+    {
+      "epoch": 6.96,
+      "grad_norm": 15.634430885314941,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0306,
+      "step": 800
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 31.188247680664062,
+      "learning_rate": 4.55e-05,
+      "loss": 0.0182,
+      "step": 900
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.016402140259742737,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0222,
+      "step": 1000
+    },
+    {
+      "epoch": 9.57,
+      "grad_norm": 31.216285705566406,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.0181,
+      "step": 1100
+    },
+    {
+      "epoch": 10.43,
+      "grad_norm": 0.2328696846961975,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0121,
+      "step": 1200
+    },
+    {
+      "epoch": 11.3,
+      "grad_norm": 0.007173949386924505,
+      "learning_rate": 4.35e-05,
+      "loss": 0.0253,
+      "step": 1300
+    },
+    {
+      "epoch": 12.17,
+      "grad_norm": 0.003974032588303089,
+      "learning_rate": 4.3e-05,
+      "loss": 0.0099,
+      "step": 1400
+    },
+    {
+      "epoch": 13.04,
+      "grad_norm": 0.3920653164386749,
+      "learning_rate": 4.25e-05,
+      "loss": 0.0172,
+      "step": 1500
+    },
+    {
+      "epoch": 13.91,
+      "grad_norm": 1.2646549940109253,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0295,
+      "step": 1600
+    },
+    {
+      "epoch": 14.78,
+      "grad_norm": 0.07062631100416183,
+      "learning_rate": 4.15e-05,
+      "loss": 0.0181,
+      "step": 1700
+    },
+    {
+      "epoch": 15.65,
+      "grad_norm": 0.005436008796095848,
+      "learning_rate": 4.1e-05,
+      "loss": 0.0067,
+      "step": 1800
+    },
+    {
+      "epoch": 16.52,
+      "grad_norm": 0.004679691046476364,
+      "learning_rate": 4.05e-05,
+      "loss": 0.02,
+      "step": 1900
+    },
+    {
+      "epoch": 17.39,
+      "grad_norm": 0.01030748151242733,
+      "learning_rate": 4e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 17.39,
+      "eval_accuracy": 0.9387254901960784,
+      "eval_brier_score": 0.05757000434820965,
+      "eval_ece": 0.05797517591831729,
+      "eval_f1": 0.9382506413699704,
+      "eval_loss": 0.40406298637390137,
+      "eval_nll": 6.776806058077595,
+      "eval_precision": 0.9384196444828075,
+      "eval_recall": 0.9387254901960784,
+      "eval_runtime": 1.9112,
+      "eval_samples_per_second": 213.478,
+      "eval_steps_per_second": 6.802,
+      "step": 2000
+    },
+    {
+      "epoch": 18.26,
+      "grad_norm": 0.004601624328643084,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.0158,
+      "step": 2100
+    },
+    {
+      "epoch": 19.13,
+      "grad_norm": 0.012901573441922665,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.0092,
+      "step": 2200
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.00762163195759058,
+      "learning_rate": 3.85e-05,
+      "loss": 0.0082,
+      "step": 2300
+    },
+    {
+      "epoch": 20.87,
+      "grad_norm": 0.154510959982872,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0131,
+      "step": 2400
+    },
+    {
+      "epoch": 21.74,
+      "grad_norm": 0.003832124872133136,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0201,
+      "step": 2500
+    },
+    {
+      "epoch": 22.61,
+      "grad_norm": 0.0029927650466561317,
+      "learning_rate": 3.7e-05,
+      "loss": 0.019,
+      "step": 2600
+    },
+    {
+      "epoch": 23.48,
+      "grad_norm": 0.0018748922739177942,
+      "learning_rate": 3.65e-05,
+      "loss": 0.0086,
+      "step": 2700
+    },
+    {
+      "epoch": 24.35,
+      "grad_norm": 0.14622557163238525,
+      "learning_rate": 3.6e-05,
+      "loss": 0.01,
+      "step": 2800
+    },
+    {
+      "epoch": 25.22,
+      "grad_norm": 0.03812519088387489,
+      "learning_rate": 3.55e-05,
+      "loss": 0.0234,
+      "step": 2900
+    },
+    {
+      "epoch": 26.09,
+      "grad_norm": 24.803911209106445,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0119,
+      "step": 3000
+    },
+    {
+      "epoch": 26.96,
+      "grad_norm": 0.00613383948802948,
+      "learning_rate": 3.45e-05,
+      "loss": 0.0129,
+      "step": 3100
+    },
+    {
+      "epoch": 27.83,
+      "grad_norm": 0.005301126278936863,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0086,
+      "step": 3200
+    },
+    {
+      "epoch": 28.7,
+      "grad_norm": 0.0037701462861150503,
+      "learning_rate": 3.35e-05,
+      "loss": 0.0104,
+      "step": 3300
+    },
+    {
+      "epoch": 29.57,
+      "grad_norm": 0.03656579554080963,
+      "learning_rate": 3.3e-05,
+      "loss": 0.0065,
+      "step": 3400
+    },
+    {
+      "epoch": 30.43,
+      "grad_norm": 0.1510837972164154,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.0093,
+      "step": 3500
+    },
+    {
+      "epoch": 31.3,
+      "grad_norm": 0.0025348912458866835,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.009,
+      "step": 3600
+    },
+    {
+      "epoch": 32.17,
+      "grad_norm": 0.002163603436201811,
+      "learning_rate": 3.15e-05,
+      "loss": 0.0077,
+      "step": 3700
+    },
+    {
+      "epoch": 33.04,
+      "grad_norm": 0.0018990840762853622,
+      "learning_rate": 3.1e-05,
+      "loss": 0.0041,
+      "step": 3800
+    },
+    {
+      "epoch": 33.91,
+      "grad_norm": 0.0013024972286075354,
+      "learning_rate": 3.05e-05,
+      "loss": 0.0073,
+      "step": 3900
+    },
+    {
+      "epoch": 34.78,
+      "grad_norm": 0.001054937718436122,
+      "learning_rate": 3e-05,
+      "loss": 0.0004,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78,
+      "eval_accuracy": 0.928921568627451,
+      "eval_brier_score": 0.0675812841670148,
+      "eval_ece": 0.06654327976353025,
+      "eval_f1": 0.9280259003838475,
+      "eval_loss": 0.5349375605583191,
+      "eval_nll": 7.384143338090662,
+      "eval_precision": 0.9287246020559013,
+      "eval_recall": 0.928921568627451,
+      "eval_runtime": 1.8817,
+      "eval_samples_per_second": 216.828,
+      "eval_steps_per_second": 6.909,
+      "step": 4000
+    },
+    {
+      "epoch": 35.65,
+      "grad_norm": 0.0011927990708500147,
+      "learning_rate": 2.95e-05,
+      "loss": 0.0003,
+      "step": 4100
+    },
+    {
+      "epoch": 36.52,
+      "grad_norm": 0.0007499050698243082,
+      "learning_rate": 2.9e-05,
+      "loss": 0.0013,
+      "step": 4200
+    },
+    {
+      "epoch": 37.39,
+      "grad_norm": 0.0024869628250598907,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.0001,
+      "step": 4300
+    },
+    {
+      "epoch": 38.26,
+      "grad_norm": 0.018704690039157867,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0099,
+      "step": 4400
+    },
+    {
+      "epoch": 39.13,
+      "grad_norm": 0.00480309734120965,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.0064,
+      "step": 4500
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.016563115641474724,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.0085,
+      "step": 4600
+    },
+    {
+      "epoch": 40.87,
+      "grad_norm": 0.0018221806967630982,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.001,
+      "step": 4700
+    },
+    {
+      "epoch": 41.74,
+      "grad_norm": 0.0007343711331486702,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.0012,
+      "step": 4800
+    },
+    {
+      "epoch": 42.61,
+      "grad_norm": 0.008326762355864048,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.0029,
+      "step": 4900
+    },
+    {
+      "epoch": 43.48,
+      "grad_norm": 0.004561099223792553,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0004,
+      "step": 5000
+    },
+    {
+      "epoch": 44.35,
+      "grad_norm": 0.0013891893904656172,
+      "learning_rate": 2.45e-05,
+      "loss": 0.0074,
+      "step": 5100
+    },
+    {
+      "epoch": 45.22,
+      "grad_norm": 0.013074066489934921,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0018,
+      "step": 5200
+    },
+    {
+      "epoch": 46.09,
+      "grad_norm": 0.0006578834727406502,
+      "learning_rate": 2.35e-05,
+      "loss": 0.0,
+      "step": 5300
+    },
+    {
+      "epoch": 46.96,
+      "grad_norm": 0.0006401424179784954,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.0,
+      "step": 5400
+    },
+    {
+      "epoch": 47.83,
+      "grad_norm": 0.000561197055503726,
+      "learning_rate": 2.25e-05,
+      "loss": 0.0024,
+      "step": 5500
+    },
+    {
+      "epoch": 48.7,
+      "grad_norm": 0.0004986047861166298,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.0,
+      "step": 5600
+    },
+    {
+      "epoch": 49.57,
+      "grad_norm": 0.0004820087051484734,
+      "learning_rate": 2.15e-05,
+      "loss": 0.0,
+      "step": 5700
+    },
+    {
+      "epoch": 50.43,
+      "grad_norm": 0.00033787055872380733,
+      "learning_rate": 2.1e-05,
+      "loss": 0.0,
+      "step": 5800
+    },
+    {
+      "epoch": 51.3,
+      "grad_norm": 0.00030797443469054997,
+      "learning_rate": 2.05e-05,
+      "loss": 0.0,
+      "step": 5900
+    },
+    {
+      "epoch": 52.17,
+      "grad_norm": 0.0003839946002699435,
+      "learning_rate": 2e-05,
+      "loss": 0.0,
+      "step": 6000
+    },
+    {
+      "epoch": 52.17,
+      "eval_accuracy": 0.9191176470588235,
+      "eval_brier_score": 0.0754212002677414,
+      "eval_ece": 0.0762045159935951,
+      "eval_f1": 0.9180984383678263,
+      "eval_loss": 0.6726267337799072,
+      "eval_nll": 8.413597393856437,
+      "eval_precision": 0.9186496544848213,
+      "eval_recall": 0.9191176470588235,
+      "eval_runtime": 1.8842,
+      "eval_samples_per_second": 216.536,
+      "eval_steps_per_second": 6.899,
+      "step": 6000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 87,
+  "save_steps": 2000,
+  "total_flos": 7856884612967280.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

mrpc/checkpoint-6000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b5ff4c6acb47d0ce7d42bf9d0586515d220366e0d122459e5c18115cd14676
+size 4856

mrpc/checkpoint-6000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

mrpc/checkpoint-8000/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

mrpc/checkpoint-8000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58e9babfeacdc78d4c4a7e57bc895a6263d23d8a086d8c4411b9b62d86639704
+size 437958648

mrpc/checkpoint-8000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a91796f34d7399c36cd4ea75d4aefce1faa4f33dbcd163ec3c5699381803386a
+size 14244

mrpc/checkpoint-8000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1f8795cd71b0ad726fc421a5a3758672326d602a89558c9fec480df511fbfa0
+size 1064

mrpc/checkpoint-8000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

mrpc/checkpoint-8000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

mrpc/checkpoint-8000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,641 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 69.56521739130434,
+  "eval_steps": 2000,
+  "global_step": 8000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.87,
+      "grad_norm": 4.196278095245361,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.5435,
+      "step": 100
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 8.441207885742188,
+      "learning_rate": 4.9e-05,
+      "loss": 0.2564,
+      "step": 200
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 8.456403732299805,
+      "learning_rate": 4.85e-05,
+      "loss": 0.1488,
+      "step": 300
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 0.8015245795249939,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0688,
+      "step": 400
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 0.2079729586839676,
+      "learning_rate": 4.75e-05,
+      "loss": 0.0622,
+      "step": 500
+    },
+    {
+      "epoch": 5.22,
+      "grad_norm": 0.10826250910758972,
+      "learning_rate": 4.7e-05,
+      "loss": 0.0491,
+      "step": 600
+    },
+    {
+      "epoch": 6.09,
+      "grad_norm": 15.216827392578125,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.0328,
+      "step": 700
+    },
+    {
+      "epoch": 6.96,
+      "grad_norm": 15.634430885314941,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0306,
+      "step": 800
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 31.188247680664062,
+      "learning_rate": 4.55e-05,
+      "loss": 0.0182,
+      "step": 900
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.016402140259742737,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0222,
+      "step": 1000
+    },
+    {
+      "epoch": 9.57,
+      "grad_norm": 31.216285705566406,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.0181,
+      "step": 1100
+    },
+    {
+      "epoch": 10.43,
+      "grad_norm": 0.2328696846961975,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0121,
+      "step": 1200
+    },
+    {
+      "epoch": 11.3,
+      "grad_norm": 0.007173949386924505,
+      "learning_rate": 4.35e-05,
+      "loss": 0.0253,
+      "step": 1300
+    },
+    {
+      "epoch": 12.17,
+      "grad_norm": 0.003974032588303089,
+      "learning_rate": 4.3e-05,
+      "loss": 0.0099,
+      "step": 1400
+    },
+    {
+      "epoch": 13.04,
+      "grad_norm": 0.3920653164386749,
+      "learning_rate": 4.25e-05,
+      "loss": 0.0172,
+      "step": 1500
+    },
+    {
+      "epoch": 13.91,
+      "grad_norm": 1.2646549940109253,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0295,
+      "step": 1600
+    },
+    {
+      "epoch": 14.78,
+      "grad_norm": 0.07062631100416183,
+      "learning_rate": 4.15e-05,
+      "loss": 0.0181,
+      "step": 1700
+    },
+    {
+      "epoch": 15.65,
+      "grad_norm": 0.005436008796095848,
+      "learning_rate": 4.1e-05,
+      "loss": 0.0067,
+      "step": 1800
+    },
+    {
+      "epoch": 16.52,
+      "grad_norm": 0.004679691046476364,
+      "learning_rate": 4.05e-05,
+      "loss": 0.02,
+      "step": 1900
+    },
+    {
+      "epoch": 17.39,
+      "grad_norm": 0.01030748151242733,
+      "learning_rate": 4e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 17.39,
+      "eval_accuracy": 0.9387254901960784,
+      "eval_brier_score": 0.05757000434820965,
+      "eval_ece": 0.05797517591831729,
+      "eval_f1": 0.9382506413699704,
+      "eval_loss": 0.40406298637390137,
+      "eval_nll": 6.776806058077595,
+      "eval_precision": 0.9384196444828075,
+      "eval_recall": 0.9387254901960784,
+      "eval_runtime": 1.9112,
+      "eval_samples_per_second": 213.478,
+      "eval_steps_per_second": 6.802,
+      "step": 2000
+    },
+    {
+      "epoch": 18.26,
+      "grad_norm": 0.004601624328643084,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.0158,
+      "step": 2100
+    },
+    {
+      "epoch": 19.13,
+      "grad_norm": 0.012901573441922665,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.0092,
+      "step": 2200
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.00762163195759058,
+      "learning_rate": 3.85e-05,
+      "loss": 0.0082,
+      "step": 2300
+    },
+    {
+      "epoch": 20.87,
+      "grad_norm": 0.154510959982872,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0131,
+      "step": 2400
+    },
+    {
+      "epoch": 21.74,
+      "grad_norm": 0.003832124872133136,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0201,
+      "step": 2500
+    },
+    {
+      "epoch": 22.61,
+      "grad_norm": 0.0029927650466561317,
+      "learning_rate": 3.7e-05,
+      "loss": 0.019,
+      "step": 2600
+    },
+    {
+      "epoch": 23.48,
+      "grad_norm": 0.0018748922739177942,
+      "learning_rate": 3.65e-05,
+      "loss": 0.0086,
+      "step": 2700
+    },
+    {
+      "epoch": 24.35,
+      "grad_norm": 0.14622557163238525,
+      "learning_rate": 3.6e-05,
+      "loss": 0.01,
+      "step": 2800
+    },
+    {
+      "epoch": 25.22,
+      "grad_norm": 0.03812519088387489,
+      "learning_rate": 3.55e-05,
+      "loss": 0.0234,
+      "step": 2900
+    },
+    {
+      "epoch": 26.09,
+      "grad_norm": 24.803911209106445,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0119,
+      "step": 3000
+    },
+    {
+      "epoch": 26.96,
+      "grad_norm": 0.00613383948802948,
+      "learning_rate": 3.45e-05,
+      "loss": 0.0129,
+      "step": 3100
+    },
+    {
+      "epoch": 27.83,
+      "grad_norm": 0.005301126278936863,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0086,
+      "step": 3200
+    },
+    {
+      "epoch": 28.7,
+      "grad_norm": 0.0037701462861150503,
+      "learning_rate": 3.35e-05,
+      "loss": 0.0104,
+      "step": 3300
+    },
+    {
+      "epoch": 29.57,
+      "grad_norm": 0.03656579554080963,
+      "learning_rate": 3.3e-05,
+      "loss": 0.0065,
+      "step": 3400
+    },
+    {
+      "epoch": 30.43,
+      "grad_norm": 0.1510837972164154,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.0093,
+      "step": 3500
+    },
+    {
+      "epoch": 31.3,
+      "grad_norm": 0.0025348912458866835,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.009,
+      "step": 3600
+    },
+    {
+      "epoch": 32.17,
+      "grad_norm": 0.002163603436201811,
+      "learning_rate": 3.15e-05,
+      "loss": 0.0077,
+      "step": 3700
+    },
+    {
+      "epoch": 33.04,
+      "grad_norm": 0.0018990840762853622,
+      "learning_rate": 3.1e-05,
+      "loss": 0.0041,
+      "step": 3800
+    },
+    {
+      "epoch": 33.91,
+      "grad_norm": 0.0013024972286075354,
+      "learning_rate": 3.05e-05,
+      "loss": 0.0073,
+      "step": 3900
+    },
+    {
+      "epoch": 34.78,
+      "grad_norm": 0.001054937718436122,
+      "learning_rate": 3e-05,
+      "loss": 0.0004,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78,
+      "eval_accuracy": 0.928921568627451,
+      "eval_brier_score": 0.0675812841670148,
+      "eval_ece": 0.06654327976353025,
+      "eval_f1": 0.9280259003838475,
+      "eval_loss": 0.5349375605583191,
+      "eval_nll": 7.384143338090662,
+      "eval_precision": 0.9287246020559013,
+      "eval_recall": 0.928921568627451,
+      "eval_runtime": 1.8817,
+      "eval_samples_per_second": 216.828,
+      "eval_steps_per_second": 6.909,
+      "step": 4000
+    },
+    {
+      "epoch": 35.65,
+      "grad_norm": 0.0011927990708500147,
+      "learning_rate": 2.95e-05,
+      "loss": 0.0003,
+      "step": 4100
+    },
+    {
+      "epoch": 36.52,
+      "grad_norm": 0.0007499050698243082,
+      "learning_rate": 2.9e-05,
+      "loss": 0.0013,
+      "step": 4200
+    },
+    {
+      "epoch": 37.39,
+      "grad_norm": 0.0024869628250598907,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.0001,
+      "step": 4300
+    },
+    {
+      "epoch": 38.26,
+      "grad_norm": 0.018704690039157867,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0099,
+      "step": 4400
+    },
+    {
+      "epoch": 39.13,
+      "grad_norm": 0.00480309734120965,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.0064,
+      "step": 4500
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.016563115641474724,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.0085,
+      "step": 4600
+    },
+    {
+      "epoch": 40.87,
+      "grad_norm": 0.0018221806967630982,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.001,
+      "step": 4700
+    },
+    {
+      "epoch": 41.74,
+      "grad_norm": 0.0007343711331486702,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.0012,
+      "step": 4800
+    },
+    {
+      "epoch": 42.61,
+      "grad_norm": 0.008326762355864048,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.0029,
+      "step": 4900
+    },
+    {
+      "epoch": 43.48,
+      "grad_norm": 0.004561099223792553,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0004,
+      "step": 5000
+    },
+    {
+      "epoch": 44.35,
+      "grad_norm": 0.0013891893904656172,
+      "learning_rate": 2.45e-05,
+      "loss": 0.0074,
+      "step": 5100
+    },
+    {
+      "epoch": 45.22,
+      "grad_norm": 0.013074066489934921,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0018,
+      "step": 5200
+    },
+    {
+      "epoch": 46.09,
+      "grad_norm": 0.0006578834727406502,
+      "learning_rate": 2.35e-05,
+      "loss": 0.0,
+      "step": 5300
+    },
+    {
+      "epoch": 46.96,
+      "grad_norm": 0.0006401424179784954,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.0,
+      "step": 5400
+    },
+    {
+      "epoch": 47.83,
+      "grad_norm": 0.000561197055503726,
+      "learning_rate": 2.25e-05,
+      "loss": 0.0024,
+      "step": 5500
+    },
+    {
+      "epoch": 48.7,
+      "grad_norm": 0.0004986047861166298,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.0,
+      "step": 5600
+    },
+    {
+      "epoch": 49.57,
+      "grad_norm": 0.0004820087051484734,
+      "learning_rate": 2.15e-05,
+      "loss": 0.0,
+      "step": 5700
+    },
+    {
+      "epoch": 50.43,
+      "grad_norm": 0.00033787055872380733,
+      "learning_rate": 2.1e-05,
+      "loss": 0.0,
+      "step": 5800
+    },
+    {
+      "epoch": 51.3,
+      "grad_norm": 0.00030797443469054997,
+      "learning_rate": 2.05e-05,
+      "loss": 0.0,
+      "step": 5900
+    },
+    {
+      "epoch": 52.17,
+      "grad_norm": 0.0003839946002699435,
+      "learning_rate": 2e-05,
+      "loss": 0.0,
+      "step": 6000
+    },
+    {
+      "epoch": 52.17,
+      "eval_accuracy": 0.9191176470588235,
+      "eval_brier_score": 0.0754212002677414,
+      "eval_ece": 0.0762045159935951,
+      "eval_f1": 0.9180984383678263,
+      "eval_loss": 0.6726267337799072,
+      "eval_nll": 8.413597393856437,
+      "eval_precision": 0.9186496544848213,
+      "eval_recall": 0.9191176470588235,
+      "eval_runtime": 1.8842,
+      "eval_samples_per_second": 216.536,
+      "eval_steps_per_second": 6.899,
+      "step": 6000
+    },
+    {
+      "epoch": 53.04,
+      "grad_norm": 0.00035972893238067627,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.0,
+      "step": 6100
+    },
+    {
+      "epoch": 53.91,
+      "grad_norm": 0.0002692355774343014,
+      "learning_rate": 1.9e-05,
+      "loss": 0.0,
+      "step": 6200
+    },
+    {
+      "epoch": 54.78,
+      "grad_norm": 0.0003426405892241746,
+      "learning_rate": 1.85e-05,
+      "loss": 0.0,
+      "step": 6300
+    },
+    {
+      "epoch": 55.65,
+      "grad_norm": 0.00027685274835675955,
+      "learning_rate": 1.8e-05,
+      "loss": 0.0,
+      "step": 6400
+    },
+    {
+      "epoch": 56.52,
+      "grad_norm": 0.00028565863613039255,
+      "learning_rate": 1.75e-05,
+      "loss": 0.0,
+      "step": 6500
+    },
+    {
+      "epoch": 57.39,
+      "grad_norm": 0.0002044347784249112,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.0,
+      "step": 6600
+    },
+    {
+      "epoch": 58.26,
+      "grad_norm": 0.00019555067410692573,
+      "learning_rate": 1.65e-05,
+      "loss": 0.0,
+      "step": 6700
+    },
+    {
+      "epoch": 59.13,
+      "grad_norm": 13.264129638671875,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0001,
+      "step": 6800
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.00021661369828507304,
+      "learning_rate": 1.55e-05,
+      "loss": 0.0071,
+      "step": 6900
+    },
+    {
+      "epoch": 60.87,
+      "grad_norm": 0.0025544350501149893,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0047,
+      "step": 7000
+    },
+    {
+      "epoch": 61.74,
+      "grad_norm": 0.00023375553428195417,
+      "learning_rate": 1.45e-05,
+      "loss": 0.0028,
+      "step": 7100
+    },
+    {
+      "epoch": 62.61,
+      "grad_norm": 0.00046280986862257123,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.0001,
+      "step": 7200
+    },
+    {
+      "epoch": 63.48,
+      "grad_norm": 0.0054445345886051655,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.0061,
+      "step": 7300
+    },
+    {
+      "epoch": 64.35,
+      "grad_norm": 0.0021262529771775007,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.0001,
+      "step": 7400
+    },
+    {
+      "epoch": 65.22,
+      "grad_norm": 0.0005580468568950891,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0031,
+      "step": 7500
+    },
+    {
+      "epoch": 66.09,
+      "grad_norm": 0.0004650899500120431,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0001,
+      "step": 7600
+    },
+    {
+      "epoch": 66.96,
+      "grad_norm": 0.0006638153572566807,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.0,
+      "step": 7700
+    },
+    {
+      "epoch": 67.83,
+      "grad_norm": 0.0004998428630642593,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.0,
+      "step": 7800
+    },
+    {
+      "epoch": 68.7,
+      "grad_norm": 0.00034490320831537247,
+      "learning_rate": 1.05e-05,
+      "loss": 0.0,
+      "step": 7900
+    },
+    {
+      "epoch": 69.57,
+      "grad_norm": 0.000332407042151317,
+      "learning_rate": 1e-05,
+      "loss": 0.0008,
+      "step": 8000
+    },
+    {
+      "epoch": 69.57,
+      "eval_accuracy": 0.9093137254901961,
+      "eval_brier_score": 0.08612374447215236,
+      "eval_ece": 0.08567111121088852,
+      "eval_f1": 0.9088203082186265,
+      "eval_loss": 0.7547056078910828,
+      "eval_nll": 8.256409546928781,
+      "eval_precision": 0.908638620145923,
+      "eval_recall": 0.9093137254901961,
+      "eval_runtime": 1.8815,
+      "eval_samples_per_second": 216.849,
+      "eval_steps_per_second": 6.909,
+      "step": 8000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 87,
+  "save_steps": 2000,
+  "total_flos": 1.047551383587864e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

mrpc/checkpoint-8000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b5ff4c6acb47d0ce7d42bf9d0586515d220366e0d122459e5c18115cd14676
+size 4856

mrpc/checkpoint-8000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff