xihajun commited on Nov 12, 2023

Commit

996fb52

1 Parent(s): 5ef3013

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +9 -0
adapter_config.json +21 -0
adapter_model.bin +3 -0
checkpoint-164/README.md +34 -0
checkpoint-164/adapter_config.json +21 -0
checkpoint-164/adapter_model.bin +3 -0
checkpoint-164/optimizer.pt +3 -0
checkpoint-164/pytorch_model.bin +3 -0
checkpoint-164/rng_state.pth +3 -0
checkpoint-164/scheduler.pt +3 -0
checkpoint-164/special_tokens_map.json +30 -0
checkpoint-164/tokenizer.model +3 -0
checkpoint-164/tokenizer_config.json +44 -0
checkpoint-164/trainer_state.json +343 -0
checkpoint-164/training_args.bin +3 -0
checkpoint-168/README.md +34 -0
checkpoint-168/adapter_config.json +21 -0
checkpoint-168/adapter_model.bin +3 -0
checkpoint-168/optimizer.pt +3 -0
checkpoint-168/pytorch_model.bin +3 -0
checkpoint-168/rng_state.pth +3 -0
checkpoint-168/scheduler.pt +3 -0
checkpoint-168/special_tokens_map.json +30 -0
checkpoint-168/tokenizer.model +3 -0
checkpoint-168/tokenizer_config.json +44 -0
checkpoint-168/trainer_state.json +355 -0
checkpoint-168/training_args.bin +3 -0
checkpoint-172/README.md +34 -0
checkpoint-172/adapter_config.json +21 -0
checkpoint-172/adapter_model.bin +3 -0
checkpoint-172/optimizer.pt +3 -0
checkpoint-172/pytorch_model.bin +3 -0
checkpoint-172/rng_state.pth +3 -0
checkpoint-172/scheduler.pt +3 -0
checkpoint-172/special_tokens_map.json +30 -0
checkpoint-172/tokenizer.model +3 -0
checkpoint-172/tokenizer_config.json +44 -0
checkpoint-172/trainer_state.json +361 -0
checkpoint-172/training_args.bin +3 -0
checkpoint-176/README.md +34 -0
checkpoint-176/adapter_config.json +21 -0
checkpoint-176/adapter_model.bin +3 -0
checkpoint-176/optimizer.pt +3 -0
checkpoint-176/pytorch_model.bin +3 -0
checkpoint-176/rng_state.pth +3 -0
checkpoint-176/scheduler.pt +3 -0
checkpoint-176/special_tokens_map.json +30 -0
checkpoint-176/tokenizer.model +3 -0
checkpoint-176/tokenizer_config.json +44 -0
checkpoint-176/trainer_state.json +367 -0

README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+tags:
+- autotrain
+- text-generation
+widget:
+- text: "I love AutoTrain because "
+---
+# Model Trained Using AutoTrain

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "01-ai/Yi-34B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0d970728c41ee58d9d09394814c1d363562c81ec58d5829c692d1bc6496c627
+size 86594570

checkpoint-164/README.md ADDED Viewed

	@@ -0,0 +1,34 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0
+- PEFT 0.5.0

checkpoint-164/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "01-ai/Yi-34B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-164/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:681860c8e5ad531989e00690acda26a1e6c0069d0c2b2f6f64e36a88daaf4656
+size 86594570

checkpoint-164/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9af9cc2dedd4ed734091b0260274ce225436851af9b9f1a5cd3873ff292c203c
+size 173217146

checkpoint-164/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:049c26b844b79121ddd8379f7f69194e63f6fbf6aa007eeac0c66f17eebb8893
+size 888

checkpoint-164/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a424f8dd91e7729143e26a0f44429ef2973cd296eeeff4bc6dff14b1264133d8
+size 14244

checkpoint-164/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86e193130b6122442aeae48a6025d2f156693ddff438585e86b0844b100b6147
+size 1064

checkpoint-164/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-164/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386c49cf943d71aa110361135338c50e38beeff0a66593480421f37b319e1a39
+size 1033105

checkpoint-164/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|startoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "auto_map": {
+    "AutoTokenizer": [
+      "01-ai/Yi-34B--tokenization_yi.YiTokenizer",
+      null
+    ]
+  },
+  "bos_token": "<|startoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<unk>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "YiTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-164/trainer_state.json ADDED Viewed

	@@ -0,0 +1,343 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 41.0,
+  "eval_steps": 500,
+  "global_step": 164,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0003,
+      "loss": 1.0279,
+      "step": 3
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0006,
+      "loss": 0.9556,
+      "step": 6
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.9999,
+      "step": 9
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0012,
+      "loss": 0.7355,
+      "step": 12
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.0015,
+      "loss": 0.6017,
+      "step": 15
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.0018000000000000002,
+      "loss": 0.4413,
+      "step": 18
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 0.001988888888888889,
+      "loss": 0.3896,
+      "step": 21
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.0019555555555555554,
+      "loss": 0.2588,
+      "step": 24
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 0.0019222222222222223,
+      "loss": 0.1937,
+      "step": 27
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 0.001888888888888889,
+      "loss": 0.1074,
+      "step": 30
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 0.0018555555555555556,
+      "loss": 0.1232,
+      "step": 33
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 0.0018222222222222223,
+      "loss": 0.086,
+      "step": 36
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 0.0018111111111111112,
+      "loss": 1.6039,
+      "step": 39
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 0.0018000000000000002,
+      "loss": 1.4514,
+      "step": 42
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 0.0017666666666666666,
+      "loss": 0.158,
+      "step": 45
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0017333333333333335,
+      "loss": 0.0712,
+      "step": 48
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 0.0017,
+      "loss": 0.052,
+      "step": 51
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 0.0016666666666666668,
+      "loss": 0.0412,
+      "step": 54
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 0.0016333333333333334,
+      "loss": 0.0452,
+      "step": 57
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0016,
+      "loss": 0.0432,
+      "step": 60
+    },
+    {
+      "epoch": 15.75,
+      "learning_rate": 0.0015666666666666667,
+      "loss": 0.025,
+      "step": 63
+    },
+    {
+      "epoch": 16.5,
+      "learning_rate": 0.0015333333333333334,
+      "loss": 0.0245,
+      "step": 66
+    },
+    {
+      "epoch": 17.25,
+      "learning_rate": 0.0015,
+      "loss": 0.0172,
+      "step": 69
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 0.0014666666666666667,
+      "loss": 0.0154,
+      "step": 72
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 0.0014333333333333333,
+      "loss": 0.0128,
+      "step": 75
+    },
+    {
+      "epoch": 19.5,
+      "learning_rate": 0.0014,
+      "loss": 0.0171,
+      "step": 78
+    },
+    {
+      "epoch": 20.25,
+      "learning_rate": 0.0013666666666666666,
+      "loss": 0.011,
+      "step": 81
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 0.0013333333333333333,
+      "loss": 0.0218,
+      "step": 84
+    },
+    {
+      "epoch": 21.75,
+      "learning_rate": 0.0013000000000000002,
+      "loss": 0.0102,
+      "step": 87
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 0.0012666666666666666,
+      "loss": 0.0063,
+      "step": 90
+    },
+    {
+      "epoch": 23.25,
+      "learning_rate": 0.0012333333333333335,
+      "loss": 0.0073,
+      "step": 93
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 0.0012,
+      "loss": 0.0047,
+      "step": 96
+    },
+    {
+      "epoch": 24.75,
+      "learning_rate": 0.0011666666666666668,
+      "loss": 0.0036,
+      "step": 99
+    },
+    {
+      "epoch": 25.5,
+      "learning_rate": 0.0011333333333333334,
+      "loss": 0.0037,
+      "step": 102
+    },
+    {
+      "epoch": 26.25,
+      "learning_rate": 0.0011,
+      "loss": 0.0033,
+      "step": 105
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 0.0010666666666666667,
+      "loss": 0.0039,
+      "step": 108
+    },
+    {
+      "epoch": 27.75,
+      "learning_rate": 0.0010333333333333334,
+      "loss": 0.0025,
+      "step": 111
+    },
+    {
+      "epoch": 28.5,
+      "learning_rate": 0.001,
+      "loss": 0.0033,
+      "step": 114
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 0.0009666666666666667,
+      "loss": 0.0021,
+      "step": 117
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 0.0009333333333333333,
+      "loss": 0.0027,
+      "step": 120
+    },
+    {
+      "epoch": 30.75,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.0017,
+      "step": 123
+    },
+    {
+      "epoch": 31.5,
+      "learning_rate": 0.0008666666666666667,
+      "loss": 0.0016,
+      "step": 126
+    },
+    {
+      "epoch": 32.25,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 0.0015,
+      "step": 129
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 0.0008,
+      "loss": 0.0013,
+      "step": 132
+    },
+    {
+      "epoch": 33.75,
+      "learning_rate": 0.0007666666666666667,
+      "loss": 0.0008,
+      "step": 135
+    },
+    {
+      "epoch": 34.5,
+      "learning_rate": 0.0007333333333333333,
+      "loss": 0.0018,
+      "step": 138
+    },
+    {
+      "epoch": 35.25,
+      "learning_rate": 0.0007,
+      "loss": 0.0012,
+      "step": 141
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 0.0012,
+      "step": 144
+    },
+    {
+      "epoch": 36.75,
+      "learning_rate": 0.0006333333333333333,
+      "loss": 0.0009,
+      "step": 147
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 0.0006,
+      "loss": 0.0009,
+      "step": 150
+    },
+    {
+      "epoch": 38.25,
+      "learning_rate": 0.0005666666666666667,
+      "loss": 0.0011,
+      "step": 153
+    },
+    {
+      "epoch": 39.0,
+      "learning_rate": 0.0005333333333333334,
+      "loss": 0.0008,
+      "step": 156
+    },
+    {
+      "epoch": 39.75,
+      "learning_rate": 0.0005,
+      "loss": 0.0009,
+      "step": 159
+    },
+    {
+      "epoch": 40.5,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 0.0008,
+      "step": 162
+    }
+  ],
+  "logging_steps": 3,
+  "max_steps": 200,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "total_flos": 1.368414759073874e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-164/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bced848f1d7870fe05133227865677a8a42f46b0aeea6d70d51cc48491cfe2d
+size 4536

checkpoint-168/README.md ADDED Viewed

	@@ -0,0 +1,34 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0
+- PEFT 0.5.0

checkpoint-168/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "01-ai/Yi-34B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-168/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96c358fca7c2dc4ffc3c06c560e64d86508a33020cb22479d0b526dafe45f1d9
+size 86594570

checkpoint-168/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6147288262d352d3b5e17aa94c22ce8b9412a405146e90ebac4ac289aa27bd1a
+size 173217146

checkpoint-168/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:049c26b844b79121ddd8379f7f69194e63f6fbf6aa007eeac0c66f17eebb8893
+size 888

checkpoint-168/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:162326a97017efe6343e5f3d49be7d54462bd3318dd9ed3493b4133f3032e5af
+size 14244

checkpoint-168/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be143a756ee9696cd132039a42b0578be1b35db72f361aa51d7d5d24015ad77f
+size 1064

checkpoint-168/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-168/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386c49cf943d71aa110361135338c50e38beeff0a66593480421f37b319e1a39
+size 1033105

checkpoint-168/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|startoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "auto_map": {
+    "AutoTokenizer": [
+      "01-ai/Yi-34B--tokenization_yi.YiTokenizer",
+      null
+    ]
+  },
+  "bos_token": "<|startoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<unk>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "YiTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-168/trainer_state.json ADDED Viewed

	@@ -0,0 +1,355 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 42.0,
+  "eval_steps": 500,
+  "global_step": 168,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0003,
+      "loss": 1.0279,
+      "step": 3
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0006,
+      "loss": 0.9556,
+      "step": 6
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.9999,
+      "step": 9
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0012,
+      "loss": 0.7355,
+      "step": 12
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.0015,
+      "loss": 0.6017,
+      "step": 15
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.0018000000000000002,
+      "loss": 0.4413,
+      "step": 18
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 0.001988888888888889,
+      "loss": 0.3896,
+      "step": 21
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.0019555555555555554,
+      "loss": 0.2588,
+      "step": 24
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 0.0019222222222222223,
+      "loss": 0.1937,
+      "step": 27
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 0.001888888888888889,
+      "loss": 0.1074,
+      "step": 30
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 0.0018555555555555556,
+      "loss": 0.1232,
+      "step": 33
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 0.0018222222222222223,
+      "loss": 0.086,
+      "step": 36
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 0.0018111111111111112,
+      "loss": 1.6039,
+      "step": 39
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 0.0018000000000000002,
+      "loss": 1.4514,
+      "step": 42
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 0.0017666666666666666,
+      "loss": 0.158,
+      "step": 45
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0017333333333333335,
+      "loss": 0.0712,
+      "step": 48
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 0.0017,
+      "loss": 0.052,
+      "step": 51
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 0.0016666666666666668,
+      "loss": 0.0412,
+      "step": 54
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 0.0016333333333333334,
+      "loss": 0.0452,
+      "step": 57
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0016,
+      "loss": 0.0432,
+      "step": 60
+    },
+    {
+      "epoch": 15.75,
+      "learning_rate": 0.0015666666666666667,
+      "loss": 0.025,
+      "step": 63
+    },
+    {
+      "epoch": 16.5,
+      "learning_rate": 0.0015333333333333334,
+      "loss": 0.0245,
+      "step": 66
+    },
+    {
+      "epoch": 17.25,
+      "learning_rate": 0.0015,
+      "loss": 0.0172,
+      "step": 69
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 0.0014666666666666667,
+      "loss": 0.0154,
+      "step": 72
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 0.0014333333333333333,
+      "loss": 0.0128,
+      "step": 75
+    },
+    {
+      "epoch": 19.5,
+      "learning_rate": 0.0014,
+      "loss": 0.0171,
+      "step": 78
+    },
+    {
+      "epoch": 20.25,
+      "learning_rate": 0.0013666666666666666,
+      "loss": 0.011,
+      "step": 81
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 0.0013333333333333333,
+      "loss": 0.0218,
+      "step": 84
+    },
+    {
+      "epoch": 21.75,
+      "learning_rate": 0.0013000000000000002,
+      "loss": 0.0102,
+      "step": 87
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 0.0012666666666666666,
+      "loss": 0.0063,
+      "step": 90
+    },
+    {
+      "epoch": 23.25,
+      "learning_rate": 0.0012333333333333335,
+      "loss": 0.0073,
+      "step": 93
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 0.0012,
+      "loss": 0.0047,
+      "step": 96
+    },
+    {
+      "epoch": 24.75,
+      "learning_rate": 0.0011666666666666668,
+      "loss": 0.0036,
+      "step": 99
+    },
+    {
+      "epoch": 25.5,
+      "learning_rate": 0.0011333333333333334,
+      "loss": 0.0037,
+      "step": 102
+    },
+    {
+      "epoch": 26.25,
+      "learning_rate": 0.0011,
+      "loss": 0.0033,
+      "step": 105
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 0.0010666666666666667,
+      "loss": 0.0039,
+      "step": 108
+    },
+    {
+      "epoch": 27.75,
+      "learning_rate": 0.0010333333333333334,
+      "loss": 0.0025,
+      "step": 111
+    },
+    {
+      "epoch": 28.5,
+      "learning_rate": 0.001,
+      "loss": 0.0033,
+      "step": 114
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 0.0009666666666666667,
+      "loss": 0.0021,
+      "step": 117
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 0.0009333333333333333,
+      "loss": 0.0027,
+      "step": 120
+    },
+    {
+      "epoch": 30.75,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.0017,
+      "step": 123
+    },
+    {
+      "epoch": 31.5,
+      "learning_rate": 0.0008666666666666667,
+      "loss": 0.0016,
+      "step": 126
+    },
+    {
+      "epoch": 32.25,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 0.0015,
+      "step": 129
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 0.0008,
+      "loss": 0.0013,
+      "step": 132
+    },
+    {
+      "epoch": 33.75,
+      "learning_rate": 0.0007666666666666667,
+      "loss": 0.0008,
+      "step": 135
+    },
+    {
+      "epoch": 34.5,
+      "learning_rate": 0.0007333333333333333,
+      "loss": 0.0018,
+      "step": 138
+    },
+    {
+      "epoch": 35.25,
+      "learning_rate": 0.0007,
+      "loss": 0.0012,
+      "step": 141
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 0.0012,
+      "step": 144
+    },
+    {
+      "epoch": 36.75,
+      "learning_rate": 0.0006333333333333333,
+      "loss": 0.0009,
+      "step": 147
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 0.0006,
+      "loss": 0.0009,
+      "step": 150
+    },
+    {
+      "epoch": 38.25,
+      "learning_rate": 0.0005666666666666667,
+      "loss": 0.0011,
+      "step": 153
+    },
+    {
+      "epoch": 39.0,
+      "learning_rate": 0.0005333333333333334,
+      "loss": 0.0008,
+      "step": 156
+    },
+    {
+      "epoch": 39.75,
+      "learning_rate": 0.0005,
+      "loss": 0.0009,
+      "step": 159
+    },
+    {
+      "epoch": 40.5,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 0.0008,
+      "step": 162
+    },
+    {
+      "epoch": 41.25,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 0.0008,
+      "step": 165
+    },
+    {
+      "epoch": 42.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0007,
+      "step": 168
+    }
+  ],
+  "logging_steps": 3,
+  "max_steps": 200,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "total_flos": 1.401790728807383e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-168/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bced848f1d7870fe05133227865677a8a42f46b0aeea6d70d51cc48491cfe2d
+size 4536

checkpoint-172/README.md ADDED Viewed

	@@ -0,0 +1,34 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0
+- PEFT 0.5.0

checkpoint-172/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "01-ai/Yi-34B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-172/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac2dc6cf888c263478d35a5f26d79f07d8cd3fe703eee2f44638980feb7047c0
+size 86594570

checkpoint-172/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00ed1a44e832632b59cf106b6c79ac0fabcc2d611fc23d8b11cbd83341cce356
+size 173217146

checkpoint-172/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:049c26b844b79121ddd8379f7f69194e63f6fbf6aa007eeac0c66f17eebb8893
+size 888

checkpoint-172/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1c33df53e040c606fe9c5996ae08553653693b25604ec75ba51c5ccce0c2031
+size 14244

checkpoint-172/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70e687cc1f6a99bbdeef59978930e7b34b221f7fc176d331c06d8eb71bda68e4
+size 1064

checkpoint-172/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-172/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386c49cf943d71aa110361135338c50e38beeff0a66593480421f37b319e1a39
+size 1033105

checkpoint-172/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|startoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "auto_map": {
+    "AutoTokenizer": [
+      "01-ai/Yi-34B--tokenization_yi.YiTokenizer",
+      null
+    ]
+  },
+  "bos_token": "<|startoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<unk>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "YiTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-172/trainer_state.json ADDED Viewed

	@@ -0,0 +1,361 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 43.0,
+  "eval_steps": 500,
+  "global_step": 172,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0003,
+      "loss": 1.0279,
+      "step": 3
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0006,
+      "loss": 0.9556,
+      "step": 6
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.9999,
+      "step": 9
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0012,
+      "loss": 0.7355,
+      "step": 12
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.0015,
+      "loss": 0.6017,
+      "step": 15
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.0018000000000000002,
+      "loss": 0.4413,
+      "step": 18
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 0.001988888888888889,
+      "loss": 0.3896,
+      "step": 21
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.0019555555555555554,
+      "loss": 0.2588,
+      "step": 24
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 0.0019222222222222223,
+      "loss": 0.1937,
+      "step": 27
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 0.001888888888888889,
+      "loss": 0.1074,
+      "step": 30
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 0.0018555555555555556,
+      "loss": 0.1232,
+      "step": 33
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 0.0018222222222222223,
+      "loss": 0.086,
+      "step": 36
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 0.0018111111111111112,
+      "loss": 1.6039,
+      "step": 39
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 0.0018000000000000002,
+      "loss": 1.4514,
+      "step": 42
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 0.0017666666666666666,
+      "loss": 0.158,
+      "step": 45
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0017333333333333335,
+      "loss": 0.0712,
+      "step": 48
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 0.0017,
+      "loss": 0.052,
+      "step": 51
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 0.0016666666666666668,
+      "loss": 0.0412,
+      "step": 54
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 0.0016333333333333334,
+      "loss": 0.0452,
+      "step": 57
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0016,
+      "loss": 0.0432,
+      "step": 60
+    },
+    {
+      "epoch": 15.75,
+      "learning_rate": 0.0015666666666666667,
+      "loss": 0.025,
+      "step": 63
+    },
+    {
+      "epoch": 16.5,
+      "learning_rate": 0.0015333333333333334,
+      "loss": 0.0245,
+      "step": 66
+    },
+    {
+      "epoch": 17.25,
+      "learning_rate": 0.0015,
+      "loss": 0.0172,
+      "step": 69
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 0.0014666666666666667,
+      "loss": 0.0154,
+      "step": 72
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 0.0014333333333333333,
+      "loss": 0.0128,
+      "step": 75
+    },
+    {
+      "epoch": 19.5,
+      "learning_rate": 0.0014,
+      "loss": 0.0171,
+      "step": 78
+    },
+    {
+      "epoch": 20.25,
+      "learning_rate": 0.0013666666666666666,
+      "loss": 0.011,
+      "step": 81
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 0.0013333333333333333,
+      "loss": 0.0218,
+      "step": 84
+    },
+    {
+      "epoch": 21.75,
+      "learning_rate": 0.0013000000000000002,
+      "loss": 0.0102,
+      "step": 87
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 0.0012666666666666666,
+      "loss": 0.0063,
+      "step": 90
+    },
+    {
+      "epoch": 23.25,
+      "learning_rate": 0.0012333333333333335,
+      "loss": 0.0073,
+      "step": 93
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 0.0012,
+      "loss": 0.0047,
+      "step": 96
+    },
+    {
+      "epoch": 24.75,
+      "learning_rate": 0.0011666666666666668,
+      "loss": 0.0036,
+      "step": 99
+    },
+    {
+      "epoch": 25.5,
+      "learning_rate": 0.0011333333333333334,
+      "loss": 0.0037,
+      "step": 102
+    },
+    {
+      "epoch": 26.25,
+      "learning_rate": 0.0011,
+      "loss": 0.0033,
+      "step": 105
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 0.0010666666666666667,
+      "loss": 0.0039,
+      "step": 108
+    },
+    {
+      "epoch": 27.75,
+      "learning_rate": 0.0010333333333333334,
+      "loss": 0.0025,
+      "step": 111
+    },
+    {
+      "epoch": 28.5,
+      "learning_rate": 0.001,
+      "loss": 0.0033,
+      "step": 114
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 0.0009666666666666667,
+      "loss": 0.0021,
+      "step": 117
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 0.0009333333333333333,
+      "loss": 0.0027,
+      "step": 120
+    },
+    {
+      "epoch": 30.75,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.0017,
+      "step": 123
+    },
+    {
+      "epoch": 31.5,
+      "learning_rate": 0.0008666666666666667,
+      "loss": 0.0016,
+      "step": 126
+    },
+    {
+      "epoch": 32.25,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 0.0015,
+      "step": 129
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 0.0008,
+      "loss": 0.0013,
+      "step": 132
+    },
+    {
+      "epoch": 33.75,
+      "learning_rate": 0.0007666666666666667,
+      "loss": 0.0008,
+      "step": 135
+    },
+    {
+      "epoch": 34.5,
+      "learning_rate": 0.0007333333333333333,
+      "loss": 0.0018,
+      "step": 138
+    },
+    {
+      "epoch": 35.25,
+      "learning_rate": 0.0007,
+      "loss": 0.0012,
+      "step": 141
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 0.0012,
+      "step": 144
+    },
+    {
+      "epoch": 36.75,
+      "learning_rate": 0.0006333333333333333,
+      "loss": 0.0009,
+      "step": 147
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 0.0006,
+      "loss": 0.0009,
+      "step": 150
+    },
+    {
+      "epoch": 38.25,
+      "learning_rate": 0.0005666666666666667,
+      "loss": 0.0011,
+      "step": 153
+    },
+    {
+      "epoch": 39.0,
+      "learning_rate": 0.0005333333333333334,
+      "loss": 0.0008,
+      "step": 156
+    },
+    {
+      "epoch": 39.75,
+      "learning_rate": 0.0005,
+      "loss": 0.0009,
+      "step": 159
+    },
+    {
+      "epoch": 40.5,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 0.0008,
+      "step": 162
+    },
+    {
+      "epoch": 41.25,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 0.0008,
+      "step": 165
+    },
+    {
+      "epoch": 42.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0007,
+      "step": 168
+    },
+    {
+      "epoch": 42.75,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 0.0009,
+      "step": 171
+    }
+  ],
+  "logging_steps": 3,
+  "max_steps": 200,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "total_flos": 1.4351666985408922e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-172/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bced848f1d7870fe05133227865677a8a42f46b0aeea6d70d51cc48491cfe2d
+size 4536

checkpoint-176/README.md ADDED Viewed

	@@ -0,0 +1,34 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: QuantizationMethod.BITS_AND_BYTES
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0
+- PEFT 0.5.0

checkpoint-176/adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "01-ai/Yi-34B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-176/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bff9fc6e61825784dde82455107f3ebe20aa182b8abc74c30fdfeef8ba44c27
+size 86594570

checkpoint-176/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fd03d215f0c6b24a9bea93739d50dc511050da8b16f2a5e908292885436b00c
+size 173217146

checkpoint-176/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:049c26b844b79121ddd8379f7f69194e63f6fbf6aa007eeac0c66f17eebb8893
+size 888

checkpoint-176/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c09bfc96fb814943c5ec064965dfa2176d723725c25d91d0d23e152cba9aee41
+size 14244

checkpoint-176/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2001da3b376aba9f87cce497aff1695cd5a251e4f194567847110ab31723c6fb
+size 1064

checkpoint-176/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-176/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386c49cf943d71aa110361135338c50e38beeff0a66593480421f37b319e1a39
+size 1033105

checkpoint-176/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|startoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "auto_map": {
+    "AutoTokenizer": [
+      "01-ai/Yi-34B--tokenization_yi.YiTokenizer",
+      null
+    ]
+  },
+  "bos_token": "<|startoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<unk>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "YiTokenizer",
+  "unk_token": "<unk>"
+}

checkpoint-176/trainer_state.json ADDED Viewed

	@@ -0,0 +1,367 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 44.0,
+  "eval_steps": 500,
+  "global_step": 176,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0003,
+      "loss": 1.0279,
+      "step": 3
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0006,
+      "loss": 0.9556,
+      "step": 6
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.9999,
+      "step": 9
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0012,
+      "loss": 0.7355,
+      "step": 12
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.0015,
+      "loss": 0.6017,
+      "step": 15
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.0018000000000000002,
+      "loss": 0.4413,
+      "step": 18
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 0.001988888888888889,
+      "loss": 0.3896,
+      "step": 21
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.0019555555555555554,
+      "loss": 0.2588,
+      "step": 24
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 0.0019222222222222223,
+      "loss": 0.1937,
+      "step": 27
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 0.001888888888888889,
+      "loss": 0.1074,
+      "step": 30
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 0.0018555555555555556,
+      "loss": 0.1232,
+      "step": 33
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 0.0018222222222222223,
+      "loss": 0.086,
+      "step": 36
+    },
+    {
+      "epoch": 9.75,
+      "learning_rate": 0.0018111111111111112,
+      "loss": 1.6039,
+      "step": 39
+    },
+    {
+      "epoch": 10.5,
+      "learning_rate": 0.0018000000000000002,
+      "loss": 1.4514,
+      "step": 42
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 0.0017666666666666666,
+      "loss": 0.158,
+      "step": 45
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0017333333333333335,
+      "loss": 0.0712,
+      "step": 48
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 0.0017,
+      "loss": 0.052,
+      "step": 51
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 0.0016666666666666668,
+      "loss": 0.0412,
+      "step": 54
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 0.0016333333333333334,
+      "loss": 0.0452,
+      "step": 57
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0016,
+      "loss": 0.0432,
+      "step": 60
+    },
+    {
+      "epoch": 15.75,
+      "learning_rate": 0.0015666666666666667,
+      "loss": 0.025,
+      "step": 63
+    },
+    {
+      "epoch": 16.5,
+      "learning_rate": 0.0015333333333333334,
+      "loss": 0.0245,
+      "step": 66
+    },
+    {
+      "epoch": 17.25,
+      "learning_rate": 0.0015,
+      "loss": 0.0172,
+      "step": 69
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 0.0014666666666666667,
+      "loss": 0.0154,
+      "step": 72
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 0.0014333333333333333,
+      "loss": 0.0128,
+      "step": 75
+    },
+    {
+      "epoch": 19.5,
+      "learning_rate": 0.0014,
+      "loss": 0.0171,
+      "step": 78
+    },
+    {
+      "epoch": 20.25,
+      "learning_rate": 0.0013666666666666666,
+      "loss": 0.011,
+      "step": 81
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 0.0013333333333333333,
+      "loss": 0.0218,
+      "step": 84
+    },
+    {
+      "epoch": 21.75,
+      "learning_rate": 0.0013000000000000002,
+      "loss": 0.0102,
+      "step": 87
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 0.0012666666666666666,
+      "loss": 0.0063,
+      "step": 90
+    },
+    {
+      "epoch": 23.25,
+      "learning_rate": 0.0012333333333333335,
+      "loss": 0.0073,
+      "step": 93
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 0.0012,
+      "loss": 0.0047,
+      "step": 96
+    },
+    {
+      "epoch": 24.75,
+      "learning_rate": 0.0011666666666666668,
+      "loss": 0.0036,
+      "step": 99
+    },
+    {
+      "epoch": 25.5,
+      "learning_rate": 0.0011333333333333334,
+      "loss": 0.0037,
+      "step": 102
+    },
+    {
+      "epoch": 26.25,
+      "learning_rate": 0.0011,
+      "loss": 0.0033,
+      "step": 105
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 0.0010666666666666667,
+      "loss": 0.0039,
+      "step": 108
+    },
+    {
+      "epoch": 27.75,
+      "learning_rate": 0.0010333333333333334,
+      "loss": 0.0025,
+      "step": 111
+    },
+    {
+      "epoch": 28.5,
+      "learning_rate": 0.001,
+      "loss": 0.0033,
+      "step": 114
+    },
+    {
+      "epoch": 29.25,
+      "learning_rate": 0.0009666666666666667,
+      "loss": 0.0021,
+      "step": 117
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 0.0009333333333333333,
+      "loss": 0.0027,
+      "step": 120
+    },
+    {
+      "epoch": 30.75,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.0017,
+      "step": 123
+    },
+    {
+      "epoch": 31.5,
+      "learning_rate": 0.0008666666666666667,
+      "loss": 0.0016,
+      "step": 126
+    },
+    {
+      "epoch": 32.25,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 0.0015,
+      "step": 129
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 0.0008,
+      "loss": 0.0013,
+      "step": 132
+    },
+    {
+      "epoch": 33.75,
+      "learning_rate": 0.0007666666666666667,
+      "loss": 0.0008,
+      "step": 135
+    },
+    {
+      "epoch": 34.5,
+      "learning_rate": 0.0007333333333333333,
+      "loss": 0.0018,
+      "step": 138
+    },
+    {
+      "epoch": 35.25,
+      "learning_rate": 0.0007,
+      "loss": 0.0012,
+      "step": 141
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 0.0012,
+      "step": 144
+    },
+    {
+      "epoch": 36.75,
+      "learning_rate": 0.0006333333333333333,
+      "loss": 0.0009,
+      "step": 147
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 0.0006,
+      "loss": 0.0009,
+      "step": 150
+    },
+    {
+      "epoch": 38.25,
+      "learning_rate": 0.0005666666666666667,
+      "loss": 0.0011,
+      "step": 153
+    },
+    {
+      "epoch": 39.0,
+      "learning_rate": 0.0005333333333333334,
+      "loss": 0.0008,
+      "step": 156
+    },
+    {
+      "epoch": 39.75,
+      "learning_rate": 0.0005,
+      "loss": 0.0009,
+      "step": 159
+    },
+    {
+      "epoch": 40.5,
+      "learning_rate": 0.00046666666666666666,
+      "loss": 0.0008,
+      "step": 162
+    },
+    {
+      "epoch": 41.25,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 0.0008,
+      "step": 165
+    },
+    {
+      "epoch": 42.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0007,
+      "step": 168
+    },
+    {
+      "epoch": 42.75,
+      "learning_rate": 0.00036666666666666667,
+      "loss": 0.0009,
+      "step": 171
+    },
+    {
+      "epoch": 43.5,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 0.0006,
+      "step": 174
+    }
+  ],
+  "logging_steps": 3,
+  "max_steps": 200,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "total_flos": 1.4685426682744013e+17,
+  "trial_name": null,
+  "trial_params": null
+}