lmeninato commited on Apr 30, 2023

Commit

b8ac573

1 Parent(s): d64dc52

initial commit

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +11 -0
README.md +78 -0
checkpoint-4125/config.json +170 -0
checkpoint-4125/generation_config.json +5 -0
checkpoint-4125/optimizer.pt +3 -0
checkpoint-4125/pytorch_model.bin +3 -0
checkpoint-4125/rng_state.pth +3 -0
checkpoint-4125/scheduler.pt +3 -0
checkpoint-4125/special_tokens_map.json +7 -0
checkpoint-4125/tokenizer_config.json +15 -0
checkpoint-4125/trainer_state.json +196 -0
checkpoint-4125/training_args.bin +3 -0
checkpoint-4125/vocab.txt +0 -0
checkpoint-4500/config.json +170 -0
checkpoint-4500/generation_config.json +5 -0
checkpoint-4500/optimizer.pt +3 -0
checkpoint-4500/pytorch_model.bin +3 -0
checkpoint-4500/rng_state.pth +3 -0
checkpoint-4500/scheduler.pt +3 -0
checkpoint-4500/special_tokens_map.json +7 -0
checkpoint-4500/tokenizer_config.json +15 -0
checkpoint-4500/trainer_state.json +214 -0
checkpoint-4500/training_args.bin +3 -0
checkpoint-4500/vocab.txt +0 -0
checkpoint-4875/config.json +170 -0
checkpoint-4875/generation_config.json +5 -0
checkpoint-4875/optimizer.pt +3 -0
checkpoint-4875/pytorch_model.bin +3 -0
checkpoint-4875/rng_state.pth +3 -0
checkpoint-4875/scheduler.pt +3 -0
checkpoint-4875/special_tokens_map.json +7 -0
checkpoint-4875/tokenizer_config.json +15 -0
checkpoint-4875/trainer_state.json +226 -0
checkpoint-4875/training_args.bin +3 -0
checkpoint-4875/vocab.txt +0 -0
checkpoint-5250/config.json +170 -0
checkpoint-5250/generation_config.json +5 -0
checkpoint-5250/optimizer.pt +3 -0
checkpoint-5250/pytorch_model.bin +3 -0
checkpoint-5250/rng_state.pth +3 -0
checkpoint-5250/scheduler.pt +3 -0
checkpoint-5250/special_tokens_map.json +7 -0
checkpoint-5250/tokenizer_config.json +15 -0
checkpoint-5250/trainer_state.json +244 -0
checkpoint-5250/training_args.bin +3 -0
checkpoint-5250/vocab.txt +0 -0
checkpoint-5625/config.json +170 -0
checkpoint-5625/generation_config.json +5 -0
checkpoint-5625/optimizer.pt +3 -0
checkpoint-5625/pytorch_model.bin +3 -0

.gitattributes CHANGED Viewed

@@ -32,3 +32,14 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-4125/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-4500/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-4500/training_args.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-4875/training_args.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-5250/training_args.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-5625/training_args.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-4125/training_args.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-4875/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-5250/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+checkpoint-5625/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+tags:
+- generated_from_trainer
+metrics:
+- bleu
+- rouge
+model-index:
+- name: bert-small-codesearchnet-python
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# bert-small-codesearchnet-python
+This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0582
+- Bleu: 0.0347
+- Rouge1: 0.6428
+- Rouge2: 0.6252
+- Avg Length: 17.891
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 10
+- total_train_batch_size: 80
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 15
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Bleu   | Rouge1 | Rouge2 | Avg Length |
+|:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:----------:|
+| No log        | 1.0   | 375  | 1.2151          | 0.0    | 0.0928 | 0.0083 | 10.684     |
+| 1.9359        | 2.0   | 750  | 1.0291          | 0.0032 | 0.1752 | 0.0338 | 15.0624    |
+| 0.9422        | 3.0   | 1125 | 0.9173          | 0.0061 | 0.2506 | 0.0711 | 17.9358    |
+| 0.776         | 4.0   | 1500 | 0.8058          | 0.0088 | 0.3321 | 0.1409 | 18.3724    |
+| 0.776         | 5.0   | 1875 | 0.6915          | 0.0123 | 0.4044 | 0.2267 | 18.564     |
+| 0.6218        | 6.0   | 2250 | 0.5281          | 0.0193 | 0.5382 | 0.4097 | 17.5586    |
+| 0.4363        | 7.0   | 2625 | 0.1897          | 0.0333 | 0.6311 | 0.6002 | 17.8768    |
+| 0.1518        | 8.0   | 3000 | 0.0834          | 0.0346 | 0.6413 | 0.621  | 17.879     |
+| 0.1518        | 9.0   | 3375 | 0.0587          | 0.0349 | 0.6439 | 0.6268 | 17.8886    |
+| 0.0579        | 10.0  | 3750 | 0.0547          | 0.0348 | 0.6443 | 0.6276 | 17.885     |
+| 0.0437        | 11.0  | 4125 | 0.0525          | 0.0348 | 0.6442 | 0.6278 | 17.8766    |
+| 0.0365        | 12.0  | 4500 | 0.0550          | 0.0347 | 0.6436 | 0.6266 | 17.8876    |
+| 0.0365        | 13.0  | 4875 | 0.0545          | 0.0347 | 0.6439 | 0.627  | 17.876     |
+| 0.032         | 14.0  | 5250 | 0.0539          | 0.0347 | 0.644  | 0.6268 | 17.8822    |
+| 0.0288        | 15.0  | 5625 | 0.0582          | 0.0347 | 0.6428 | 0.6252 | 17.891     |
+### Framework versions
+- Transformers 4.28.1
+- Pytorch 2.0.0+cu118
+- Datasets 2.12.0
+- Tokenizers 0.13.3

checkpoint-4125/config.json ADDED Viewed

	@@ -0,0 +1,170 @@

+{
+  "_commit_hash": null,
+  "architectures": [
+    "EncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": true,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "decoder_start_token_id": 101,
+  "encoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "is_encoder_decoder": true,
+  "model_type": "encoder-decoder",
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": null
+}

checkpoint-4125/generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "decoder_start_token_id": 101,
+  "pad_token_id": 0,
+  "transformers_version": "4.28.1"
+}

checkpoint-4125/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df9ec8cfdbd32e9b4c758f22c1396265bb7afb2613b1cf81e9ba6ae3c0885b77
+size 1147141

checkpoint-4125/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6add994a47482e8c7e3421e149cca1b0810fa08c8433a6980d94b84444ea7c02
+size 247135097

checkpoint-4125/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b677ec431d9cf8b4aa3161c37d3c0908a69b7aaf145214135f952c66b1d7fb5d
+size 14575

checkpoint-4125/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a07b14bea4a2000a0edbbb046d156c975117fac458b68dc3ac9997be295822b
+size 881

checkpoint-4125/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-4125/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-4125/trainer_state.json ADDED Viewed

	@@ -0,0 +1,196 @@

+{
+  "best_metric": 0.05250174552202225,
+  "best_model_checkpoint": "/content/drive/MyDrive/Colab Notebooks/models/prajjwal1/bert-small-codesearchnet-python/checkpoint-4125",
+  "epoch": 11.0,
+  "global_step": 4125,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_avg_length": 10.684,
+      "eval_bleu": 0.0,
+      "eval_loss": 1.2151237726211548,
+      "eval_rouge1": 0.0928,
+      "eval_rouge2": 0.0083,
+      "eval_runtime": 138.1107,
+      "eval_samples_per_second": 36.203,
+      "eval_steps_per_second": 4.525,
+      "step": 375
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 2.354011121497024e-05,
+      "loss": 1.9359,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_avg_length": 15.0624,
+      "eval_bleu": 0.0032,
+      "eval_loss": 1.0291130542755127,
+      "eval_rouge1": 0.1752,
+      "eval_rouge2": 0.0338,
+      "eval_runtime": 131.019,
+      "eval_samples_per_second": 38.162,
+      "eval_steps_per_second": 4.77,
+      "step": 750
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 4.7082288801902905e-05,
+      "loss": 0.9422,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_avg_length": 17.9358,
+      "eval_bleu": 0.0061,
+      "eval_loss": 0.9172993898391724,
+      "eval_rouge1": 0.2506,
+      "eval_rouge2": 0.0711,
+      "eval_runtime": 129.41,
+      "eval_samples_per_second": 38.637,
+      "eval_steps_per_second": 4.83,
+      "step": 1125
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 7.063511293381453e-05,
+      "loss": 0.776,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_avg_length": 18.3724,
+      "eval_bleu": 0.0088,
+      "eval_loss": 0.8057555556297302,
+      "eval_rouge1": 0.3321,
+      "eval_rouge2": 0.1409,
+      "eval_runtime": 125.5689,
+      "eval_samples_per_second": 39.819,
+      "eval_steps_per_second": 4.977,
+      "step": 1500
+    },
+    {
+      "epoch": 5.0,
+      "eval_avg_length": 18.564,
+      "eval_bleu": 0.0123,
+      "eval_loss": 0.6914781928062439,
+      "eval_rouge1": 0.4044,
+      "eval_rouge2": 0.2267,
+      "eval_runtime": 125.7562,
+      "eval_samples_per_second": 39.759,
+      "eval_steps_per_second": 4.97,
+      "step": 1875
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 9.420605056220666e-05,
+      "loss": 0.6218,
+      "step": 2000
+    },
+    {
+      "epoch": 6.0,
+      "eval_avg_length": 17.5586,
+      "eval_bleu": 0.0193,
+      "eval_loss": 0.5281431674957275,
+      "eval_rouge1": 0.5382,
+      "eval_rouge2": 0.4097,
+      "eval_runtime": 124.9018,
+      "eval_samples_per_second": 40.031,
+      "eval_steps_per_second": 5.004,
+      "step": 2250
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 0.00011781098874052987,
+      "loss": 0.4363,
+      "step": 2500
+    },
+    {
+      "epoch": 7.0,
+      "eval_avg_length": 17.8768,
+      "eval_bleu": 0.0333,
+      "eval_loss": 0.18967217206954956,
+      "eval_rouge1": 0.6311,
+      "eval_rouge2": 0.6002,
+      "eval_runtime": 127.7329,
+      "eval_samples_per_second": 39.144,
+      "eval_steps_per_second": 4.893,
+      "step": 2625
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0001414699072483927,
+      "loss": 0.1518,
+      "step": 3000
+    },
+    {
+      "epoch": 8.0,
+      "eval_avg_length": 17.879,
+      "eval_bleu": 0.0346,
+      "eval_loss": 0.08337126672267914,
+      "eval_rouge1": 0.6413,
+      "eval_rouge2": 0.621,
+      "eval_runtime": 127.6119,
+      "eval_samples_per_second": 39.181,
+      "eval_steps_per_second": 4.898,
+      "step": 3000
+    },
+    {
+      "epoch": 9.0,
+      "eval_avg_length": 17.8886,
+      "eval_bleu": 0.0349,
+      "eval_loss": 0.058715466409921646,
+      "eval_rouge1": 0.6439,
+      "eval_rouge2": 0.6268,
+      "eval_runtime": 128.3455,
+      "eval_samples_per_second": 38.957,
+      "eval_steps_per_second": 4.87,
+      "step": 3375
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.000165146600920707,
+      "loss": 0.0579,
+      "step": 3500
+    },
+    {
+      "epoch": 10.0,
+      "eval_avg_length": 17.885,
+      "eval_bleu": 0.0348,
+      "eval_loss": 0.054685767740011215,
+      "eval_rouge1": 0.6443,
+      "eval_rouge2": 0.6276,
+      "eval_runtime": 125.2586,
+      "eval_samples_per_second": 39.917,
+      "eval_steps_per_second": 4.99,
+      "step": 3750
+    },
+    {
+      "epoch": 10.67,
+      "learning_rate": 0.00018887515761889517,
+      "loss": 0.0437,
+      "step": 4000
+    },
+    {
+      "epoch": 11.0,
+      "eval_avg_length": 17.8766,
+      "eval_bleu": 0.0348,
+      "eval_loss": 0.05250174552202225,
+      "eval_rouge1": 0.6442,
+      "eval_rouge2": 0.6278,
+      "eval_runtime": 125.5302,
+      "eval_samples_per_second": 39.831,
+      "eval_steps_per_second": 4.979,
+      "step": 4125
+    }
+  ],
+  "max_steps": 5625,
+  "num_train_epochs": 15,
+  "total_flos": 1.51985788416e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4125/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8924762bcb0b0be937da03bc6254f6f33585885549c84b07f1eb1ac6331ec3f4
+size 3963

checkpoint-4125/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4500/config.json ADDED Viewed

	@@ -0,0 +1,170 @@

+{
+  "_commit_hash": null,
+  "architectures": [
+    "EncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": true,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "decoder_start_token_id": 101,
+  "encoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "is_encoder_decoder": true,
+  "model_type": "encoder-decoder",
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": null
+}

checkpoint-4500/generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "decoder_start_token_id": 101,
+  "pad_token_id": 0,
+  "transformers_version": "4.28.1"
+}

checkpoint-4500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d5ea6a5de6ad34f1af0b505d66a6360677ff24ec488016c7479fb93fc9207d1
+size 1147141

checkpoint-4500/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13fa7b593334f28926096172f420153a19d327fea4c2bc603ac7e667a0215a0c
+size 247135097

checkpoint-4500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f941e670fea78950a92708359e7dd44b27e56bc1ec98e01e9c31c3931bfb4813
+size 14575

checkpoint-4500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a5729adc3c127b0467258bfcda5cd70513c83184f85b340afeee53a74967187
+size 881

checkpoint-4500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-4500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-4500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,214 @@

+{
+  "best_metric": 0.05250174552202225,
+  "best_model_checkpoint": "/content/drive/MyDrive/Colab Notebooks/models/prajjwal1/bert-small-codesearchnet-python/checkpoint-4125",
+  "epoch": 12.0,
+  "global_step": 4500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_avg_length": 10.684,
+      "eval_bleu": 0.0,
+      "eval_loss": 1.2151237726211548,
+      "eval_rouge1": 0.0928,
+      "eval_rouge2": 0.0083,
+      "eval_runtime": 138.1107,
+      "eval_samples_per_second": 36.203,
+      "eval_steps_per_second": 4.525,
+      "step": 375
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 2.354011121497024e-05,
+      "loss": 1.9359,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_avg_length": 15.0624,
+      "eval_bleu": 0.0032,
+      "eval_loss": 1.0291130542755127,
+      "eval_rouge1": 0.1752,
+      "eval_rouge2": 0.0338,
+      "eval_runtime": 131.019,
+      "eval_samples_per_second": 38.162,
+      "eval_steps_per_second": 4.77,
+      "step": 750
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 4.7082288801902905e-05,
+      "loss": 0.9422,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_avg_length": 17.9358,
+      "eval_bleu": 0.0061,
+      "eval_loss": 0.9172993898391724,
+      "eval_rouge1": 0.2506,
+      "eval_rouge2": 0.0711,
+      "eval_runtime": 129.41,
+      "eval_samples_per_second": 38.637,
+      "eval_steps_per_second": 4.83,
+      "step": 1125
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 7.063511293381453e-05,
+      "loss": 0.776,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_avg_length": 18.3724,
+      "eval_bleu": 0.0088,
+      "eval_loss": 0.8057555556297302,
+      "eval_rouge1": 0.3321,
+      "eval_rouge2": 0.1409,
+      "eval_runtime": 125.5689,
+      "eval_samples_per_second": 39.819,
+      "eval_steps_per_second": 4.977,
+      "step": 1500
+    },
+    {
+      "epoch": 5.0,
+      "eval_avg_length": 18.564,
+      "eval_bleu": 0.0123,
+      "eval_loss": 0.6914781928062439,
+      "eval_rouge1": 0.4044,
+      "eval_rouge2": 0.2267,
+      "eval_runtime": 125.7562,
+      "eval_samples_per_second": 39.759,
+      "eval_steps_per_second": 4.97,
+      "step": 1875
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 9.420605056220666e-05,
+      "loss": 0.6218,
+      "step": 2000
+    },
+    {
+      "epoch": 6.0,
+      "eval_avg_length": 17.5586,
+      "eval_bleu": 0.0193,
+      "eval_loss": 0.5281431674957275,
+      "eval_rouge1": 0.5382,
+      "eval_rouge2": 0.4097,
+      "eval_runtime": 124.9018,
+      "eval_samples_per_second": 40.031,
+      "eval_steps_per_second": 5.004,
+      "step": 2250
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 0.00011781098874052987,
+      "loss": 0.4363,
+      "step": 2500
+    },
+    {
+      "epoch": 7.0,
+      "eval_avg_length": 17.8768,
+      "eval_bleu": 0.0333,
+      "eval_loss": 0.18967217206954956,
+      "eval_rouge1": 0.6311,
+      "eval_rouge2": 0.6002,
+      "eval_runtime": 127.7329,
+      "eval_samples_per_second": 39.144,
+      "eval_steps_per_second": 4.893,
+      "step": 2625
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0001414699072483927,
+      "loss": 0.1518,
+      "step": 3000
+    },
+    {
+      "epoch": 8.0,
+      "eval_avg_length": 17.879,
+      "eval_bleu": 0.0346,
+      "eval_loss": 0.08337126672267914,
+      "eval_rouge1": 0.6413,
+      "eval_rouge2": 0.621,
+      "eval_runtime": 127.6119,
+      "eval_samples_per_second": 39.181,
+      "eval_steps_per_second": 4.898,
+      "step": 3000
+    },
+    {
+      "epoch": 9.0,
+      "eval_avg_length": 17.8886,
+      "eval_bleu": 0.0349,
+      "eval_loss": 0.058715466409921646,
+      "eval_rouge1": 0.6439,
+      "eval_rouge2": 0.6268,
+      "eval_runtime": 128.3455,
+      "eval_samples_per_second": 38.957,
+      "eval_steps_per_second": 4.87,
+      "step": 3375
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.000165146600920707,
+      "loss": 0.0579,
+      "step": 3500
+    },
+    {
+      "epoch": 10.0,
+      "eval_avg_length": 17.885,
+      "eval_bleu": 0.0348,
+      "eval_loss": 0.054685767740011215,
+      "eval_rouge1": 0.6443,
+      "eval_rouge2": 0.6276,
+      "eval_runtime": 125.2586,
+      "eval_samples_per_second": 39.917,
+      "eval_steps_per_second": 4.99,
+      "step": 3750
+    },
+    {
+      "epoch": 10.67,
+      "learning_rate": 0.00018887515761889517,
+      "loss": 0.0437,
+      "step": 4000
+    },
+    {
+      "epoch": 11.0,
+      "eval_avg_length": 17.8766,
+      "eval_bleu": 0.0348,
+      "eval_loss": 0.05250174552202225,
+      "eval_rouge1": 0.6442,
+      "eval_rouge2": 0.6278,
+      "eval_runtime": 125.5302,
+      "eval_samples_per_second": 39.831,
+      "eval_steps_per_second": 4.979,
+      "step": 4125
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0002126803301507607,
+      "loss": 0.0365,
+      "step": 4500
+    },
+    {
+      "epoch": 12.0,
+      "eval_avg_length": 17.8876,
+      "eval_bleu": 0.0347,
+      "eval_loss": 0.05503207445144653,
+      "eval_rouge1": 0.6436,
+      "eval_rouge2": 0.6266,
+      "eval_runtime": 126.9255,
+      "eval_samples_per_second": 39.393,
+      "eval_steps_per_second": 4.924,
+      "step": 4500
+    }
+  ],
+  "max_steps": 5625,
+  "num_train_epochs": 15,
+  "total_flos": 1.65802678272e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8924762bcb0b0be937da03bc6254f6f33585885549c84b07f1eb1ac6331ec3f4
+size 3963

checkpoint-4500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4875/config.json ADDED Viewed

	@@ -0,0 +1,170 @@

+{
+  "_commit_hash": null,
+  "architectures": [
+    "EncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": true,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "decoder_start_token_id": 101,
+  "encoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "is_encoder_decoder": true,
+  "model_type": "encoder-decoder",
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": null
+}

checkpoint-4875/generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "decoder_start_token_id": 101,
+  "pad_token_id": 0,
+  "transformers_version": "4.28.1"
+}

checkpoint-4875/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05bcdfd3017fa4b8a17cfacac393946d80eeb32e7835583f88bd88157961c44d
+size 1147141

checkpoint-4875/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63f9df95c2bcf40e414ebe0e5f51d3cd06a1a0e6692d21b3f7d1ba1949eb2b70
+size 247135097

checkpoint-4875/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e67ac94251fa16f7e59fcf27fd4f50dcb5d44e2274e6a817873f4feb5d53fd3f
+size 14575

checkpoint-4875/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3901fca1149ae706d2670fde9397a97084c3018dfdfc961cb1769bcedbef4cc1
+size 881

checkpoint-4875/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-4875/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-4875/trainer_state.json ADDED Viewed

	@@ -0,0 +1,226 @@

+{
+  "best_metric": 0.05250174552202225,
+  "best_model_checkpoint": "/content/drive/MyDrive/Colab Notebooks/models/prajjwal1/bert-small-codesearchnet-python/checkpoint-4125",
+  "epoch": 13.0,
+  "global_step": 4875,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_avg_length": 10.684,
+      "eval_bleu": 0.0,
+      "eval_loss": 1.2151237726211548,
+      "eval_rouge1": 0.0928,
+      "eval_rouge2": 0.0083,
+      "eval_runtime": 138.1107,
+      "eval_samples_per_second": 36.203,
+      "eval_steps_per_second": 4.525,
+      "step": 375
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 2.354011121497024e-05,
+      "loss": 1.9359,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_avg_length": 15.0624,
+      "eval_bleu": 0.0032,
+      "eval_loss": 1.0291130542755127,
+      "eval_rouge1": 0.1752,
+      "eval_rouge2": 0.0338,
+      "eval_runtime": 131.019,
+      "eval_samples_per_second": 38.162,
+      "eval_steps_per_second": 4.77,
+      "step": 750
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 4.7082288801902905e-05,
+      "loss": 0.9422,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_avg_length": 17.9358,
+      "eval_bleu": 0.0061,
+      "eval_loss": 0.9172993898391724,
+      "eval_rouge1": 0.2506,
+      "eval_rouge2": 0.0711,
+      "eval_runtime": 129.41,
+      "eval_samples_per_second": 38.637,
+      "eval_steps_per_second": 4.83,
+      "step": 1125
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 7.063511293381453e-05,
+      "loss": 0.776,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_avg_length": 18.3724,
+      "eval_bleu": 0.0088,
+      "eval_loss": 0.8057555556297302,
+      "eval_rouge1": 0.3321,
+      "eval_rouge2": 0.1409,
+      "eval_runtime": 125.5689,
+      "eval_samples_per_second": 39.819,
+      "eval_steps_per_second": 4.977,
+      "step": 1500
+    },
+    {
+      "epoch": 5.0,
+      "eval_avg_length": 18.564,
+      "eval_bleu": 0.0123,
+      "eval_loss": 0.6914781928062439,
+      "eval_rouge1": 0.4044,
+      "eval_rouge2": 0.2267,
+      "eval_runtime": 125.7562,
+      "eval_samples_per_second": 39.759,
+      "eval_steps_per_second": 4.97,
+      "step": 1875
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 9.420605056220666e-05,
+      "loss": 0.6218,
+      "step": 2000
+    },
+    {
+      "epoch": 6.0,
+      "eval_avg_length": 17.5586,
+      "eval_bleu": 0.0193,
+      "eval_loss": 0.5281431674957275,
+      "eval_rouge1": 0.5382,
+      "eval_rouge2": 0.4097,
+      "eval_runtime": 124.9018,
+      "eval_samples_per_second": 40.031,
+      "eval_steps_per_second": 5.004,
+      "step": 2250
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 0.00011781098874052987,
+      "loss": 0.4363,
+      "step": 2500
+    },
+    {
+      "epoch": 7.0,
+      "eval_avg_length": 17.8768,
+      "eval_bleu": 0.0333,
+      "eval_loss": 0.18967217206954956,
+      "eval_rouge1": 0.6311,
+      "eval_rouge2": 0.6002,
+      "eval_runtime": 127.7329,
+      "eval_samples_per_second": 39.144,
+      "eval_steps_per_second": 4.893,
+      "step": 2625
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0001414699072483927,
+      "loss": 0.1518,
+      "step": 3000
+    },
+    {
+      "epoch": 8.0,
+      "eval_avg_length": 17.879,
+      "eval_bleu": 0.0346,
+      "eval_loss": 0.08337126672267914,
+      "eval_rouge1": 0.6413,
+      "eval_rouge2": 0.621,
+      "eval_runtime": 127.6119,
+      "eval_samples_per_second": 39.181,
+      "eval_steps_per_second": 4.898,
+      "step": 3000
+    },
+    {
+      "epoch": 9.0,
+      "eval_avg_length": 17.8886,
+      "eval_bleu": 0.0349,
+      "eval_loss": 0.058715466409921646,
+      "eval_rouge1": 0.6439,
+      "eval_rouge2": 0.6268,
+      "eval_runtime": 128.3455,
+      "eval_samples_per_second": 38.957,
+      "eval_steps_per_second": 4.87,
+      "step": 3375
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.000165146600920707,
+      "loss": 0.0579,
+      "step": 3500
+    },
+    {
+      "epoch": 10.0,
+      "eval_avg_length": 17.885,
+      "eval_bleu": 0.0348,
+      "eval_loss": 0.054685767740011215,
+      "eval_rouge1": 0.6443,
+      "eval_rouge2": 0.6276,
+      "eval_runtime": 125.2586,
+      "eval_samples_per_second": 39.917,
+      "eval_steps_per_second": 4.99,
+      "step": 3750
+    },
+    {
+      "epoch": 10.67,
+      "learning_rate": 0.00018887515761889517,
+      "loss": 0.0437,
+      "step": 4000
+    },
+    {
+      "epoch": 11.0,
+      "eval_avg_length": 17.8766,
+      "eval_bleu": 0.0348,
+      "eval_loss": 0.05250174552202225,
+      "eval_rouge1": 0.6442,
+      "eval_rouge2": 0.6278,
+      "eval_runtime": 125.5302,
+      "eval_samples_per_second": 39.831,
+      "eval_steps_per_second": 4.979,
+      "step": 4125
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0002126803301507607,
+      "loss": 0.0365,
+      "step": 4500
+    },
+    {
+      "epoch": 12.0,
+      "eval_avg_length": 17.8876,
+      "eval_bleu": 0.0347,
+      "eval_loss": 0.05503207445144653,
+      "eval_rouge1": 0.6436,
+      "eval_rouge2": 0.6266,
+      "eval_runtime": 126.9255,
+      "eval_samples_per_second": 39.393,
+      "eval_steps_per_second": 4.924,
+      "step": 4500
+    },
+    {
+      "epoch": 13.0,
+      "eval_avg_length": 17.876,
+      "eval_bleu": 0.0347,
+      "eval_loss": 0.05446252599358559,
+      "eval_rouge1": 0.6439,
+      "eval_rouge2": 0.627,
+      "eval_runtime": 126.1815,
+      "eval_samples_per_second": 39.625,
+      "eval_steps_per_second": 4.953,
+      "step": 4875
+    }
+  ],
+  "max_steps": 5625,
+  "num_train_epochs": 15,
+  "total_flos": 1.79619568128e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4875/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8924762bcb0b0be937da03bc6254f6f33585885549c84b07f1eb1ac6331ec3f4
+size 3963

checkpoint-4875/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-5250/config.json ADDED Viewed

	@@ -0,0 +1,170 @@

+{
+  "_commit_hash": null,
+  "architectures": [
+    "EncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": true,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "decoder_start_token_id": 101,
+  "encoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "is_encoder_decoder": true,
+  "model_type": "encoder-decoder",
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": null
+}

checkpoint-5250/generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "decoder_start_token_id": 101,
+  "pad_token_id": 0,
+  "transformers_version": "4.28.1"
+}

checkpoint-5250/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ed4e4c11ece6f0138eaffa1d6762ab695478ec3d1f8e2d44c7848212eba7e63
+size 1147141

checkpoint-5250/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27fb4935dde282af80b68d7a534c687d2a1529e4cda5cf4ac1712dfca2336157
+size 247135097

checkpoint-5250/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6551df537d27cc9e49b96669fef869ec9b4587a8896024d0c570d2420d00dec
+size 14575

checkpoint-5250/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53a2fe9b040c69a8b2fc8ba5281e4c6dd46cd7071717e430395711b27cb0ff45
+size 881

checkpoint-5250/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-5250/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-5250/trainer_state.json ADDED Viewed

	@@ -0,0 +1,244 @@

+{
+  "best_metric": 0.05250174552202225,
+  "best_model_checkpoint": "/content/drive/MyDrive/Colab Notebooks/models/prajjwal1/bert-small-codesearchnet-python/checkpoint-4125",
+  "epoch": 14.0,
+  "global_step": 5250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_avg_length": 10.684,
+      "eval_bleu": 0.0,
+      "eval_loss": 1.2151237726211548,
+      "eval_rouge1": 0.0928,
+      "eval_rouge2": 0.0083,
+      "eval_runtime": 138.1107,
+      "eval_samples_per_second": 36.203,
+      "eval_steps_per_second": 4.525,
+      "step": 375
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 2.354011121497024e-05,
+      "loss": 1.9359,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_avg_length": 15.0624,
+      "eval_bleu": 0.0032,
+      "eval_loss": 1.0291130542755127,
+      "eval_rouge1": 0.1752,
+      "eval_rouge2": 0.0338,
+      "eval_runtime": 131.019,
+      "eval_samples_per_second": 38.162,
+      "eval_steps_per_second": 4.77,
+      "step": 750
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 4.7082288801902905e-05,
+      "loss": 0.9422,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_avg_length": 17.9358,
+      "eval_bleu": 0.0061,
+      "eval_loss": 0.9172993898391724,
+      "eval_rouge1": 0.2506,
+      "eval_rouge2": 0.0711,
+      "eval_runtime": 129.41,
+      "eval_samples_per_second": 38.637,
+      "eval_steps_per_second": 4.83,
+      "step": 1125
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 7.063511293381453e-05,
+      "loss": 0.776,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_avg_length": 18.3724,
+      "eval_bleu": 0.0088,
+      "eval_loss": 0.8057555556297302,
+      "eval_rouge1": 0.3321,
+      "eval_rouge2": 0.1409,
+      "eval_runtime": 125.5689,
+      "eval_samples_per_second": 39.819,
+      "eval_steps_per_second": 4.977,
+      "step": 1500
+    },
+    {
+      "epoch": 5.0,
+      "eval_avg_length": 18.564,
+      "eval_bleu": 0.0123,
+      "eval_loss": 0.6914781928062439,
+      "eval_rouge1": 0.4044,
+      "eval_rouge2": 0.2267,
+      "eval_runtime": 125.7562,
+      "eval_samples_per_second": 39.759,
+      "eval_steps_per_second": 4.97,
+      "step": 1875
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 9.420605056220666e-05,
+      "loss": 0.6218,
+      "step": 2000
+    },
+    {
+      "epoch": 6.0,
+      "eval_avg_length": 17.5586,
+      "eval_bleu": 0.0193,
+      "eval_loss": 0.5281431674957275,
+      "eval_rouge1": 0.5382,
+      "eval_rouge2": 0.4097,
+      "eval_runtime": 124.9018,
+      "eval_samples_per_second": 40.031,
+      "eval_steps_per_second": 5.004,
+      "step": 2250
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 0.00011781098874052987,
+      "loss": 0.4363,
+      "step": 2500
+    },
+    {
+      "epoch": 7.0,
+      "eval_avg_length": 17.8768,
+      "eval_bleu": 0.0333,
+      "eval_loss": 0.18967217206954956,
+      "eval_rouge1": 0.6311,
+      "eval_rouge2": 0.6002,
+      "eval_runtime": 127.7329,
+      "eval_samples_per_second": 39.144,
+      "eval_steps_per_second": 4.893,
+      "step": 2625
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0001414699072483927,
+      "loss": 0.1518,
+      "step": 3000
+    },
+    {
+      "epoch": 8.0,
+      "eval_avg_length": 17.879,
+      "eval_bleu": 0.0346,
+      "eval_loss": 0.08337126672267914,
+      "eval_rouge1": 0.6413,
+      "eval_rouge2": 0.621,
+      "eval_runtime": 127.6119,
+      "eval_samples_per_second": 39.181,
+      "eval_steps_per_second": 4.898,
+      "step": 3000
+    },
+    {
+      "epoch": 9.0,
+      "eval_avg_length": 17.8886,
+      "eval_bleu": 0.0349,
+      "eval_loss": 0.058715466409921646,
+      "eval_rouge1": 0.6439,
+      "eval_rouge2": 0.6268,
+      "eval_runtime": 128.3455,
+      "eval_samples_per_second": 38.957,
+      "eval_steps_per_second": 4.87,
+      "step": 3375
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.000165146600920707,
+      "loss": 0.0579,
+      "step": 3500
+    },
+    {
+      "epoch": 10.0,
+      "eval_avg_length": 17.885,
+      "eval_bleu": 0.0348,
+      "eval_loss": 0.054685767740011215,
+      "eval_rouge1": 0.6443,
+      "eval_rouge2": 0.6276,
+      "eval_runtime": 125.2586,
+      "eval_samples_per_second": 39.917,
+      "eval_steps_per_second": 4.99,
+      "step": 3750
+    },
+    {
+      "epoch": 10.67,
+      "learning_rate": 0.00018887515761889517,
+      "loss": 0.0437,
+      "step": 4000
+    },
+    {
+      "epoch": 11.0,
+      "eval_avg_length": 17.8766,
+      "eval_bleu": 0.0348,
+      "eval_loss": 0.05250174552202225,
+      "eval_rouge1": 0.6442,
+      "eval_rouge2": 0.6278,
+      "eval_runtime": 125.5302,
+      "eval_samples_per_second": 39.831,
+      "eval_steps_per_second": 4.979,
+      "step": 4125
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0002126803301507607,
+      "loss": 0.0365,
+      "step": 4500
+    },
+    {
+      "epoch": 12.0,
+      "eval_avg_length": 17.8876,
+      "eval_bleu": 0.0347,
+      "eval_loss": 0.05503207445144653,
+      "eval_rouge1": 0.6436,
+      "eval_rouge2": 0.6266,
+      "eval_runtime": 126.9255,
+      "eval_samples_per_second": 39.393,
+      "eval_steps_per_second": 4.924,
+      "step": 4500
+    },
+    {
+      "epoch": 13.0,
+      "eval_avg_length": 17.876,
+      "eval_bleu": 0.0347,
+      "eval_loss": 0.05446252599358559,
+      "eval_rouge1": 0.6439,
+      "eval_rouge2": 0.627,
+      "eval_runtime": 126.1815,
+      "eval_samples_per_second": 39.625,
+      "eval_steps_per_second": 4.953,
+      "step": 4875
+    },
+    {
+      "epoch": 13.33,
+      "learning_rate": 0.0002366175758652389,
+      "loss": 0.032,
+      "step": 5000
+    },
+    {
+      "epoch": 14.0,
+      "eval_avg_length": 17.8822,
+      "eval_bleu": 0.0347,
+      "eval_loss": 0.05387634411454201,
+      "eval_rouge1": 0.644,
+      "eval_rouge2": 0.6268,
+      "eval_runtime": 126.6924,
+      "eval_samples_per_second": 39.466,
+      "eval_steps_per_second": 4.933,
+      "step": 5250
+    }
+  ],
+  "max_steps": 5625,
+  "num_train_epochs": 15,
+  "total_flos": 1.93436457984e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-5250/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8924762bcb0b0be937da03bc6254f6f33585885549c84b07f1eb1ac6331ec3f4
+size 3963

checkpoint-5250/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-5625/config.json ADDED Viewed

	@@ -0,0 +1,170 @@

+{
+  "_commit_hash": null,
+  "architectures": [
+    "EncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": true,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "decoder_start_token_id": 101,
+  "encoder": {
+    "_name_or_path": "prajjwal1/bert-small",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 512,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 2048,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 8,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.28.1",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 30522
+  },
+  "is_encoder_decoder": true,
+  "model_type": "encoder-decoder",
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": null
+}

checkpoint-5625/generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "decoder_start_token_id": 101,
+  "pad_token_id": 0,
+  "transformers_version": "4.28.1"
+}

checkpoint-5625/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c303963638abcbaf4bebf5adaf3c2c155ae641f5b8da2a5c11fbc0181cbaf1e1
+size 1147141

checkpoint-5625/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12d5dedbfe110a74156952f0616d802f350cd81281cca5db99c874732404e267
+size 247135097