vectorlessspace commited on Jun 2

Commit

4e7f9db

verified ·

1 Parent(s): 8aa4d1c

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-12275/added_tokens.json +3 -0
checkpoint-12275/config.json +35 -0
checkpoint-12275/model.safetensors +3 -0
checkpoint-12275/optimizer.pt +3 -0
checkpoint-12275/rng_state.pth +3 -0
checkpoint-12275/scheduler.pt +3 -0
checkpoint-12275/special_tokens_map.json +15 -0
checkpoint-12275/spm.model +3 -0
checkpoint-12275/tokenizer.json +0 -0
checkpoint-12275/tokenizer_config.json +58 -0
checkpoint-12275/trainer_state.json +223 -0
checkpoint-12275/training_args.bin +3 -0
checkpoint-14730/added_tokens.json +3 -0
checkpoint-14730/config.json +35 -0
checkpoint-14730/model.safetensors +3 -0
checkpoint-14730/optimizer.pt +3 -0
checkpoint-14730/rng_state.pth +3 -0
checkpoint-14730/scheduler.pt +3 -0
checkpoint-14730/special_tokens_map.json +15 -0
checkpoint-14730/spm.model +3 -0
checkpoint-14730/tokenizer.json +0 -0
checkpoint-14730/tokenizer_config.json +58 -0
checkpoint-14730/trainer_state.json +265 -0
checkpoint-14730/training_args.bin +3 -0
checkpoint-17185/added_tokens.json +3 -0
checkpoint-17185/config.json +35 -0
checkpoint-17185/model.safetensors +3 -0
checkpoint-17185/optimizer.pt +3 -0
checkpoint-17185/rng_state.pth +3 -0
checkpoint-17185/scheduler.pt +3 -0
checkpoint-17185/special_tokens_map.json +15 -0
checkpoint-17185/spm.model +3 -0
checkpoint-17185/tokenizer.json +0 -0
checkpoint-17185/tokenizer_config.json +58 -0
checkpoint-17185/trainer_state.json +307 -0
checkpoint-17185/training_args.bin +3 -0
checkpoint-2455/added_tokens.json +3 -0
checkpoint-2455/config.json +35 -0
checkpoint-2455/model.safetensors +3 -0
checkpoint-2455/optimizer.pt +3 -0
checkpoint-2455/rng_state.pth +3 -0
checkpoint-2455/scheduler.pt +3 -0
checkpoint-2455/special_tokens_map.json +15 -0
checkpoint-2455/spm.model +3 -0
checkpoint-2455/tokenizer.json +0 -0
checkpoint-2455/tokenizer_config.json +58 -0
checkpoint-2455/trainer_state.json +55 -0
checkpoint-2455/training_args.bin +3 -0
checkpoint-4910/added_tokens.json +3 -0
checkpoint-4910/config.json +35 -0

checkpoint-12275/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-12275/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-base",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-12275/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e3ec562e9bc0af8e72efe55e98a848510c269a51bc406b9fd21c436ab3cea7b
+size 737719272

checkpoint-12275/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:265ad7e9e8d35a115ed3f5a3e9eea057033cca42468edbba95b2474dcd0b3b99
+size 1475558394

checkpoint-12275/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8aaa4298a0c223cb83812de0b9df340e50527bfc2a4763c51af0c60860c893b9
+size 14244

checkpoint-12275/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac344fbd579f854a7f1ba9bd98c78ec505d9913450847414535ba91e9a4a0191
+size 1064

checkpoint-12275/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-12275/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-12275/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-12275/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-12275/trainer_state.json ADDED Viewed

	@@ -0,0 +1,223 @@

+{
+  "best_metric": 0.15075480937957764,
+  "best_model_checkpoint": "/home/paperspace/microsoft_deberta-v3-base_cpt_64aa255e/checkpoint-9820",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 12275,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.709048588885654e-07,
+      "loss": 0.5526,
+      "step": 500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.418097177771311e-07,
+      "loss": 0.2449,
+      "step": 1000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 9.127145766656967e-07,
+      "loss": 0.1637,
+      "step": 1500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 8.836194355542625e-07,
+      "loss": 0.1627,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9574516238542492,
+      "eval_f1": 0.9576402605174089,
+      "eval_loss": 0.15390127897262573,
+      "eval_precision": 0.9583932523988209,
+      "eval_recall": 0.9574516238542492,
+      "eval_runtime": 11.3772,
+      "eval_samples_per_second": 776.73,
+      "eval_steps_per_second": 48.606,
+      "step": 2455
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 8.54524294442828e-07,
+      "loss": 0.1536,
+      "step": 2500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 8.254291533313936e-07,
+      "loss": 0.1497,
+      "step": 3000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 7.963340122199592e-07,
+      "loss": 0.1478,
+      "step": 3500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.672388711085248e-07,
+      "loss": 0.1452,
+      "step": 4000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.381437299970904e-07,
+      "loss": 0.149,
+      "step": 4500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9596016747765078,
+      "eval_f1": 0.9597684084567597,
+      "eval_loss": 0.15375804901123047,
+      "eval_precision": 0.9604205146694305,
+      "eval_recall": 0.9596016747765078,
+      "eval_runtime": 11.4943,
+      "eval_samples_per_second": 768.813,
+      "eval_steps_per_second": 48.111,
+      "step": 4910
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.090485888856561e-07,
+      "loss": 0.1415,
+      "step": 5000
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 6.799534477742217e-07,
+      "loss": 0.1358,
+      "step": 5500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 6.508583066627873e-07,
+      "loss": 0.1382,
+      "step": 6000
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.217631655513529e-07,
+      "loss": 0.1289,
+      "step": 6500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.926680244399185e-07,
+      "loss": 0.1329,
+      "step": 7000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9591490324770849,
+      "eval_f1": 0.9593624018161547,
+      "eval_loss": 0.16056260466575623,
+      "eval_precision": 0.9603821831580927,
+      "eval_recall": 0.9591490324770849,
+      "eval_runtime": 11.3768,
+      "eval_samples_per_second": 776.759,
+      "eval_steps_per_second": 48.608,
+      "step": 7365
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 5.63572883328484e-07,
+      "loss": 0.1321,
+      "step": 7500
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 5.344777422170497e-07,
+      "loss": 0.1324,
+      "step": 8000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 5.053826011056153e-07,
+      "loss": 0.1299,
+      "step": 8500
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 4.7628745999418097e-07,
+      "loss": 0.136,
+      "step": 9000
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 4.4719231888274657e-07,
+      "loss": 0.1308,
+      "step": 9500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9608464410999208,
+      "eval_f1": 0.9610329418449746,
+      "eval_loss": 0.15075480937957764,
+      "eval_precision": 0.9618808519987467,
+      "eval_recall": 0.9608464410999208,
+      "eval_runtime": 11.2225,
+      "eval_samples_per_second": 787.436,
+      "eval_steps_per_second": 49.276,
+      "step": 9820
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 4.1809717777131217e-07,
+      "loss": 0.1211,
+      "step": 10000
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 3.890020366598778e-07,
+      "loss": 0.1233,
+      "step": 10500
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 3.599068955484434e-07,
+      "loss": 0.1241,
+      "step": 11000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 3.3081175443700896e-07,
+      "loss": 0.1209,
+      "step": 11500
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 3.017166133255746e-07,
+      "loss": 0.1225,
+      "step": 12000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9617517256987665,
+      "eval_f1": 0.9619212980183091,
+      "eval_loss": 0.15455789864063263,
+      "eval_precision": 0.9626580984908996,
+      "eval_recall": 0.9617517256987665,
+      "eval_runtime": 11.421,
+      "eval_samples_per_second": 773.752,
+      "eval_steps_per_second": 48.42,
+      "step": 12275
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 17185,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 4760249984397900.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-12275/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e70840e0cfcf8fb576d1fc12469df9415b94e472002c13a74d5f660c5fc0120f
+size 4664

checkpoint-14730/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-14730/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-base",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-14730/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbd1a3b3cf0db22c98370a60ecdab6f0c36da2d58563317e94f1fcee4c5dd2e7
+size 737719272

checkpoint-14730/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c07de338eaf350d40fb04c24c8db404ab1e6640ada443c428e362ab02448447
+size 1475558394

checkpoint-14730/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d36a8b4674a19e51d99f47cb8c4e195a0979c6365bd6b5fd106581f3b2f7a02a
+size 14244

checkpoint-14730/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8f70b3ffd38dba67f5f50dd1257644b8a40c9602d48d726e2cf51402477bb21
+size 1064

checkpoint-14730/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-14730/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-14730/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-14730/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-14730/trainer_state.json ADDED Viewed

	@@ -0,0 +1,265 @@

+{
+  "best_metric": 0.15075480937957764,
+  "best_model_checkpoint": "/home/paperspace/microsoft_deberta-v3-base_cpt_64aa255e/checkpoint-9820",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 14730,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.709048588885654e-07,
+      "loss": 0.5526,
+      "step": 500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.418097177771311e-07,
+      "loss": 0.2449,
+      "step": 1000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 9.127145766656967e-07,
+      "loss": 0.1637,
+      "step": 1500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 8.836194355542625e-07,
+      "loss": 0.1627,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9574516238542492,
+      "eval_f1": 0.9576402605174089,
+      "eval_loss": 0.15390127897262573,
+      "eval_precision": 0.9583932523988209,
+      "eval_recall": 0.9574516238542492,
+      "eval_runtime": 11.3772,
+      "eval_samples_per_second": 776.73,
+      "eval_steps_per_second": 48.606,
+      "step": 2455
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 8.54524294442828e-07,
+      "loss": 0.1536,
+      "step": 2500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 8.254291533313936e-07,
+      "loss": 0.1497,
+      "step": 3000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 7.963340122199592e-07,
+      "loss": 0.1478,
+      "step": 3500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.672388711085248e-07,
+      "loss": 0.1452,
+      "step": 4000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.381437299970904e-07,
+      "loss": 0.149,
+      "step": 4500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9596016747765078,
+      "eval_f1": 0.9597684084567597,
+      "eval_loss": 0.15375804901123047,
+      "eval_precision": 0.9604205146694305,
+      "eval_recall": 0.9596016747765078,
+      "eval_runtime": 11.4943,
+      "eval_samples_per_second": 768.813,
+      "eval_steps_per_second": 48.111,
+      "step": 4910
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.090485888856561e-07,
+      "loss": 0.1415,
+      "step": 5000
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 6.799534477742217e-07,
+      "loss": 0.1358,
+      "step": 5500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 6.508583066627873e-07,
+      "loss": 0.1382,
+      "step": 6000
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.217631655513529e-07,
+      "loss": 0.1289,
+      "step": 6500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.926680244399185e-07,
+      "loss": 0.1329,
+      "step": 7000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9591490324770849,
+      "eval_f1": 0.9593624018161547,
+      "eval_loss": 0.16056260466575623,
+      "eval_precision": 0.9603821831580927,
+      "eval_recall": 0.9591490324770849,
+      "eval_runtime": 11.3768,
+      "eval_samples_per_second": 776.759,
+      "eval_steps_per_second": 48.608,
+      "step": 7365
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 5.63572883328484e-07,
+      "loss": 0.1321,
+      "step": 7500
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 5.344777422170497e-07,
+      "loss": 0.1324,
+      "step": 8000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 5.053826011056153e-07,
+      "loss": 0.1299,
+      "step": 8500
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 4.7628745999418097e-07,
+      "loss": 0.136,
+      "step": 9000
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 4.4719231888274657e-07,
+      "loss": 0.1308,
+      "step": 9500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9608464410999208,
+      "eval_f1": 0.9610329418449746,
+      "eval_loss": 0.15075480937957764,
+      "eval_precision": 0.9618808519987467,
+      "eval_recall": 0.9608464410999208,
+      "eval_runtime": 11.2225,
+      "eval_samples_per_second": 787.436,
+      "eval_steps_per_second": 49.276,
+      "step": 9820
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 4.1809717777131217e-07,
+      "loss": 0.1211,
+      "step": 10000
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 3.890020366598778e-07,
+      "loss": 0.1233,
+      "step": 10500
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 3.599068955484434e-07,
+      "loss": 0.1241,
+      "step": 11000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 3.3081175443700896e-07,
+      "loss": 0.1209,
+      "step": 11500
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 3.017166133255746e-07,
+      "loss": 0.1225,
+      "step": 12000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9617517256987665,
+      "eval_f1": 0.9619212980183091,
+      "eval_loss": 0.15455789864063263,
+      "eval_precision": 0.9626580984908996,
+      "eval_recall": 0.9617517256987665,
+      "eval_runtime": 11.421,
+      "eval_samples_per_second": 773.752,
+      "eval_steps_per_second": 48.42,
+      "step": 12275
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 2.726214722141402e-07,
+      "loss": 0.1164,
+      "step": 12500
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 2.4352633110270586e-07,
+      "loss": 0.1227,
+      "step": 13000
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 2.1443118999127143e-07,
+      "loss": 0.1134,
+      "step": 13500
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 1.8533604887983705e-07,
+      "loss": 0.125,
+      "step": 14000
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 1.5624090776840268e-07,
+      "loss": 0.1181,
+      "step": 14500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9615254045490551,
+      "eval_f1": 0.9617002293060223,
+      "eval_loss": 0.15432989597320557,
+      "eval_precision": 0.9624729485181595,
+      "eval_recall": 0.9615254045490551,
+      "eval_runtime": 11.4696,
+      "eval_samples_per_second": 770.472,
+      "eval_steps_per_second": 48.214,
+      "step": 14730
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 17185,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 5713568281531608.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-14730/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e70840e0cfcf8fb576d1fc12469df9415b94e472002c13a74d5f660c5fc0120f
+size 4664

checkpoint-17185/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-17185/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-base",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-17185/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4c455a9c55ce1eab7dd51252a0ee863730cd617914fd153393c43be1d5572cf
+size 737719272

checkpoint-17185/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab8516924dc0c30b5a7449d30fe6ea9688facd87bb71057bf2e4502d327e4258
+size 1475558394

checkpoint-17185/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c939cc4f9e2189831f82740c2ca8f58cb188335126f3eca45ab7d1252ad3f9a7
+size 14244

checkpoint-17185/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26e0c146fecbc31e7300c5f236ddc754ca8ef2f39800b7d7bd9cd37745bca8c9
+size 1064

checkpoint-17185/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-17185/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-17185/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-17185/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-17185/trainer_state.json ADDED Viewed

	@@ -0,0 +1,307 @@

+{
+  "best_metric": 0.15075480937957764,
+  "best_model_checkpoint": "/home/paperspace/microsoft_deberta-v3-base_cpt_64aa255e/checkpoint-9820",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 17185,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.709048588885654e-07,
+      "loss": 0.5526,
+      "step": 500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.418097177771311e-07,
+      "loss": 0.2449,
+      "step": 1000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 9.127145766656967e-07,
+      "loss": 0.1637,
+      "step": 1500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 8.836194355542625e-07,
+      "loss": 0.1627,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9574516238542492,
+      "eval_f1": 0.9576402605174089,
+      "eval_loss": 0.15390127897262573,
+      "eval_precision": 0.9583932523988209,
+      "eval_recall": 0.9574516238542492,
+      "eval_runtime": 11.3772,
+      "eval_samples_per_second": 776.73,
+      "eval_steps_per_second": 48.606,
+      "step": 2455
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 8.54524294442828e-07,
+      "loss": 0.1536,
+      "step": 2500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 8.254291533313936e-07,
+      "loss": 0.1497,
+      "step": 3000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 7.963340122199592e-07,
+      "loss": 0.1478,
+      "step": 3500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 7.672388711085248e-07,
+      "loss": 0.1452,
+      "step": 4000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.381437299970904e-07,
+      "loss": 0.149,
+      "step": 4500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9596016747765078,
+      "eval_f1": 0.9597684084567597,
+      "eval_loss": 0.15375804901123047,
+      "eval_precision": 0.9604205146694305,
+      "eval_recall": 0.9596016747765078,
+      "eval_runtime": 11.4943,
+      "eval_samples_per_second": 768.813,
+      "eval_steps_per_second": 48.111,
+      "step": 4910
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.090485888856561e-07,
+      "loss": 0.1415,
+      "step": 5000
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 6.799534477742217e-07,
+      "loss": 0.1358,
+      "step": 5500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 6.508583066627873e-07,
+      "loss": 0.1382,
+      "step": 6000
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.217631655513529e-07,
+      "loss": 0.1289,
+      "step": 6500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.926680244399185e-07,
+      "loss": 0.1329,
+      "step": 7000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9591490324770849,
+      "eval_f1": 0.9593624018161547,
+      "eval_loss": 0.16056260466575623,
+      "eval_precision": 0.9603821831580927,
+      "eval_recall": 0.9591490324770849,
+      "eval_runtime": 11.3768,
+      "eval_samples_per_second": 776.759,
+      "eval_steps_per_second": 48.608,
+      "step": 7365
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 5.63572883328484e-07,
+      "loss": 0.1321,
+      "step": 7500
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 5.344777422170497e-07,
+      "loss": 0.1324,
+      "step": 8000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 5.053826011056153e-07,
+      "loss": 0.1299,
+      "step": 8500
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 4.7628745999418097e-07,
+      "loss": 0.136,
+      "step": 9000
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 4.4719231888274657e-07,
+      "loss": 0.1308,
+      "step": 9500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9608464410999208,
+      "eval_f1": 0.9610329418449746,
+      "eval_loss": 0.15075480937957764,
+      "eval_precision": 0.9618808519987467,
+      "eval_recall": 0.9608464410999208,
+      "eval_runtime": 11.2225,
+      "eval_samples_per_second": 787.436,
+      "eval_steps_per_second": 49.276,
+      "step": 9820
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 4.1809717777131217e-07,
+      "loss": 0.1211,
+      "step": 10000
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 3.890020366598778e-07,
+      "loss": 0.1233,
+      "step": 10500
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 3.599068955484434e-07,
+      "loss": 0.1241,
+      "step": 11000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 3.3081175443700896e-07,
+      "loss": 0.1209,
+      "step": 11500
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 3.017166133255746e-07,
+      "loss": 0.1225,
+      "step": 12000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9617517256987665,
+      "eval_f1": 0.9619212980183091,
+      "eval_loss": 0.15455789864063263,
+      "eval_precision": 0.9626580984908996,
+      "eval_recall": 0.9617517256987665,
+      "eval_runtime": 11.421,
+      "eval_samples_per_second": 773.752,
+      "eval_steps_per_second": 48.42,
+      "step": 12275
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 2.726214722141402e-07,
+      "loss": 0.1164,
+      "step": 12500
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 2.4352633110270586e-07,
+      "loss": 0.1227,
+      "step": 13000
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 2.1443118999127143e-07,
+      "loss": 0.1134,
+      "step": 13500
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 1.8533604887983705e-07,
+      "loss": 0.125,
+      "step": 14000
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 1.5624090776840268e-07,
+      "loss": 0.1181,
+      "step": 14500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9615254045490551,
+      "eval_f1": 0.9617002293060223,
+      "eval_loss": 0.15432989597320557,
+      "eval_precision": 0.9624729485181595,
+      "eval_recall": 0.9615254045490551,
+      "eval_runtime": 11.4696,
+      "eval_samples_per_second": 770.472,
+      "eval_steps_per_second": 48.214,
+      "step": 14730
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 1.2714576665696827e-07,
+      "loss": 0.1203,
+      "step": 15000
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 9.80506255455339e-08,
+      "loss": 0.1054,
+      "step": 15500
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 6.89554844340995e-08,
+      "loss": 0.1154,
+      "step": 16000
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 3.986034332266511e-08,
+      "loss": 0.1164,
+      "step": 16500
+    },
+    {
+      "epoch": 6.92,
+      "learning_rate": 1.0765202211230723e-08,
+      "loss": 0.1321,
+      "step": 17000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9624306891479009,
+      "eval_f1": 0.9625909933285097,
+      "eval_loss": 0.15378057956695557,
+      "eval_precision": 0.9632742135234372,
+      "eval_recall": 0.9624306891479009,
+      "eval_runtime": 11.6127,
+      "eval_samples_per_second": 760.975,
+      "eval_steps_per_second": 47.62,
+      "step": 17185
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 17185,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 6667692884621040.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-17185/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e70840e0cfcf8fb576d1fc12469df9415b94e472002c13a74d5f660c5fc0120f
+size 4664

checkpoint-2455/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-2455/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-base",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-2455/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f68ca4fb46060c8fe1e411e0d6410b861ecfca9a5a8bbd19dd6e3f8d2c56db78
+size 737719272

checkpoint-2455/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f114448823bbb737a34f2b1e253cf70e2be1840ab6ef1a170ea7c4e11104c58
+size 1475558394

checkpoint-2455/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49c5172d65792973516f853d1e5247822c579b673921f047995e0a9eca923964
+size 14244

checkpoint-2455/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25542d5ea2d544e81dd598e9017386b9456fbf00465b6499237825aaa30c5512
+size 1064

checkpoint-2455/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2455/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-2455/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2455/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-2455/trainer_state.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "best_metric": 0.15390127897262573,
+  "best_model_checkpoint": "/home/paperspace/microsoft_deberta-v3-base_cpt_64aa255e/checkpoint-2455",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 2455,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.709048588885654e-07,
+      "loss": 0.5526,
+      "step": 500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.418097177771311e-07,
+      "loss": 0.2449,
+      "step": 1000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 9.127145766656967e-07,
+      "loss": 0.1637,
+      "step": 1500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 8.836194355542625e-07,
+      "loss": 0.1627,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9574516238542492,
+      "eval_f1": 0.9576402605174089,
+      "eval_loss": 0.15390127897262573,
+      "eval_precision": 0.9583932523988209,
+      "eval_recall": 0.9574516238542492,
+      "eval_runtime": 11.3772,
+      "eval_samples_per_second": 776.73,
+      "eval_steps_per_second": 48.606,
+      "step": 2455
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 17185,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 953230934474388.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2455/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e70840e0cfcf8fb576d1fc12469df9415b94e472002c13a74d5f660c5fc0120f
+size 4664

checkpoint-4910/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-4910/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-base",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}