apriasmoro commited on 13 days ago

Commit

b16c2ff

verified ·

1 Parent(s): 0670211

Upload task output 0353de22-df95-4ff9-a6a0-d97156bde1a9

Browse files

Files changed (30) hide show

README.md +68 -0
adapter_config.json +42 -0
adapter_model.safetensors +3 -0
added_tokens.json +4 -0
chat_template.jinja +5 -0
checkpoint-400/README.md +210 -0
checkpoint-400/adapter_config.json +42 -0
checkpoint-400/adapter_model.safetensors +3 -0
checkpoint-400/added_tokens.json +4 -0
checkpoint-400/chat_template.jinja +5 -0
checkpoint-400/optimizer.pt +3 -0
checkpoint-400/rng_state_0.pth +3 -0
checkpoint-400/rng_state_1.pth +3 -0
checkpoint-400/scheduler.pt +3 -0
checkpoint-400/special_tokens_map.json +30 -0
checkpoint-400/tokenizer.json +0 -0
checkpoint-400/tokenizer.model +3 -0
checkpoint-400/tokenizer_config.json +62 -0
checkpoint-400/trainer_state.json +649 -0
checkpoint-400/training_args.bin +3 -0
config.json +26 -0
generation_config.json +7 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +747 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +62 -0

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+library_name: transformers
+model_name: 4a66a896-d828-4815-ac5b-89dddef44f66
+tags:
+- generated_from_trainer
+- trl
+- dpo
+licence: license
+---
+# Model Card for 4a66a896-d828-4815-ac5b-89dddef44f66
+This model is a fine-tuned version of [None](https://huggingface.co/None).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
+### Framework versions
+- TRL: 0.21.0
+- Transformers: 4.55.0
+- Pytorch: 2.7.1+cu128
+- Datasets: 4.0.0
+- Tokenizers: 0.21.4
+## Citations
+Cite DPO as:
+```bibtex
+@inproceedings{rafailov2023direct,
+    title        = {{Direct Preference Optimization: Your Language Model is Secretly a Reward Model}},
+    author       = {Rafael Rafailov and Archit Sharma and Eric Mitchell and Christopher D. Manning and Stefano Ermon and Chelsea Finn},
+    year         = 2023,
+    booktitle    = {Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023},
+    url          = {http://papers.nips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html},
+    editor       = {Alice Oh and Tristan Naumann and Amir Globerson and Kate Saenko and Moritz Hardt and Sergey Levine},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

adapter_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "dltjdgh0928/test_instruction",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": null,
+  "inference_mode": false,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "qalora_group_size": 16,
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "o_proj",
+    "down_proj",
+    "q_proj",
+    "gate_proj",
+    "v_proj",
+    "up_proj"
+  ],
+  "target_parameters": [],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3727ca325f5f315707e769dd30804f726ec738867ebf91dbfccc5d9376b2a92
+size 335604696

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<|im_end|>": 32000,
+  "<|im_start|>": 32001
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,5 @@

+{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>
+'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>
+' }}{% endif %}

checkpoint-400/README.md ADDED Viewed

	@@ -0,0 +1,210 @@

+---
+base_model: /cache/models/dltjdgh0928--test_instruction
+library_name: peft
+pipeline_tag: text-generation
+tags:
+- axolotl
+- base_model:adapter:/cache/models/dltjdgh0928--test_instruction
+- dpo
+- lora
+- transformers
+- trl
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.17.0

checkpoint-400/adapter_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/cache/models/dltjdgh0928--test_instruction",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "qalora_group_size": 16,
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "o_proj",
+    "down_proj",
+    "k_proj",
+    "gate_proj",
+    "q_proj",
+    "up_proj"
+  ],
+  "target_parameters": [],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoint-400/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63e54db9cc731dc5468fd70dc22bf8b839e4c96acf3b394d3fdd1fe753464c9e
+size 335604696

checkpoint-400/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<|im_end|>": 32000,
+  "<|im_start|>": 32001
+}

checkpoint-400/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,5 @@

+{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>
+'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>
+' }}{% endif %}

checkpoint-400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f842d54709a70720497779fc32963dfb5a66258b6f42ef1d266dfa36cc23503
+size 170921189

checkpoint-400/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4dd7671ce88d469c49c0530724ac76b2306574002d1ecd1ca9294e41621fd96a
+size 14917

checkpoint-400/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3246ef1170ccca541a03b89ad6f20e01c51eb6834a2c2211c78c71c70f896879
+size 14917

checkpoint-400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ac2dfafea8813ec095ae0eab7f826db55bf978f3f1d5730f62da524dbde5525
+size 1465

checkpoint-400/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-400/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-400/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-400/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|im_start|>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "trust_remote_code": false,
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true,
+  "use_fast": true
+}

checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,649 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.12861736334405144,
+  "eval_steps": 500,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0003215434083601286,
+      "grad_norm": 42.437408447265625,
+      "learning_rate": 0.0,
+      "logits/chosen": -2.349905014038086,
+      "logits/rejected": -2.3399078845977783,
+      "logps/chosen": -263.0742492675781,
+      "logps/rejected": -220.2288055419922,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.003215434083601286,
+      "grad_norm": 15.105825424194336,
+      "learning_rate": 1.35e-06,
+      "logits/chosen": -2.3186473846435547,
+      "logits/rejected": -2.2896101474761963,
+      "logps/chosen": -291.5194091796875,
+      "logps/rejected": -251.97914123535156,
+      "loss": 0.6414,
+      "rewards/accuracies": 0.569444477558136,
+      "rewards/chosen": 0.6907879114151001,
+      "rewards/margins": 0.17508786916732788,
+      "rewards/rejected": 0.5157000422477722,
+      "step": 10
+    },
+    {
+      "epoch": 0.006430868167202572,
+      "grad_norm": 24.082569122314453,
+      "learning_rate": 2.8500000000000002e-06,
+      "logits/chosen": -2.293513059616089,
+      "logits/rejected": -2.2872815132141113,
+      "logps/chosen": -282.1536865234375,
+      "logps/rejected": -247.08609008789062,
+      "loss": 0.4722,
+      "rewards/accuracies": 0.7732143402099609,
+      "rewards/chosen": 1.9890003204345703,
+      "rewards/margins": 1.0885450839996338,
+      "rewards/rejected": 0.900455117225647,
+      "step": 20
+    },
+    {
+      "epoch": 0.00964630225080386,
+      "grad_norm": 16.065027236938477,
+      "learning_rate": 4.35e-06,
+      "logits/chosen": -2.259777784347534,
+      "logits/rejected": -2.2146363258361816,
+      "logps/chosen": -290.0853271484375,
+      "logps/rejected": -265.5473937988281,
+      "loss": 0.3727,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 1.2093960046768188,
+      "rewards/margins": 2.074486017227173,
+      "rewards/rejected": -0.8650901913642883,
+      "step": 30
+    },
+    {
+      "epoch": 0.012861736334405145,
+      "grad_norm": 18.36149787902832,
+      "learning_rate": 5.850000000000001e-06,
+      "logits/chosen": -2.249405860900879,
+      "logits/rejected": -2.229692220687866,
+      "logps/chosen": -279.88031005859375,
+      "logps/rejected": -274.5915222167969,
+      "loss": 0.3086,
+      "rewards/accuracies": 0.848214328289032,
+      "rewards/chosen": 1.447776436805725,
+      "rewards/margins": 2.8266141414642334,
+      "rewards/rejected": -1.3788377046585083,
+      "step": 40
+    },
+    {
+      "epoch": 0.01607717041800643,
+      "grad_norm": 20.32265281677246,
+      "learning_rate": 7.35e-06,
+      "logits/chosen": -2.288564682006836,
+      "logits/rejected": -2.294003963470459,
+      "logps/chosen": -306.5020446777344,
+      "logps/rejected": -297.538330078125,
+      "loss": 0.2908,
+      "rewards/accuracies": 0.8446429371833801,
+      "rewards/chosen": -0.050978630781173706,
+      "rewards/margins": 3.4700608253479004,
+      "rewards/rejected": -3.5210394859313965,
+      "step": 50
+    },
+    {
+      "epoch": 0.01929260450160772,
+      "grad_norm": 20.51503562927246,
+      "learning_rate": 8.85e-06,
+      "logits/chosen": -2.354025363922119,
+      "logits/rejected": -2.354628324508667,
+      "logps/chosen": -310.90704345703125,
+      "logps/rejected": -308.752197265625,
+      "loss": 0.2859,
+      "rewards/accuracies": 0.8767857551574707,
+      "rewards/chosen": -1.1099927425384521,
+      "rewards/margins": 3.521933078765869,
+      "rewards/rejected": -4.631926536560059,
+      "step": 60
+    },
+    {
+      "epoch": 0.022508038585209004,
+      "grad_norm": 24.096118927001953,
+      "learning_rate": 1.035e-05,
+      "logits/chosen": -2.4225921630859375,
+      "logits/rejected": -2.405019760131836,
+      "logps/chosen": -298.91473388671875,
+      "logps/rejected": -305.43634033203125,
+      "loss": 0.2776,
+      "rewards/accuracies": 0.8660715222358704,
+      "rewards/chosen": -0.6255666613578796,
+      "rewards/margins": 4.037406921386719,
+      "rewards/rejected": -4.662972927093506,
+      "step": 70
+    },
+    {
+      "epoch": 0.02572347266881029,
+      "grad_norm": 360.4170837402344,
+      "learning_rate": 1.185e-05,
+      "logits/chosen": -2.468116044998169,
+      "logits/rejected": -2.431053638458252,
+      "logps/chosen": -329.6983947753906,
+      "logps/rejected": -322.09808349609375,
+      "loss": 0.3447,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.501462936401367,
+      "rewards/margins": 3.868928909301758,
+      "rewards/rejected": -6.370392322540283,
+      "step": 80
+    },
+    {
+      "epoch": 0.028938906752411574,
+      "grad_norm": 135.08279418945312,
+      "learning_rate": 1.3350000000000001e-05,
+      "logits/chosen": -2.365429639816284,
+      "logits/rejected": -2.29831862449646,
+      "logps/chosen": -408.6314697265625,
+      "logps/rejected": -409.2450256347656,
+      "loss": 0.5737,
+      "rewards/accuracies": 0.848214328289032,
+      "rewards/chosen": -11.146495819091797,
+      "rewards/margins": 3.926030397415161,
+      "rewards/rejected": -15.072525024414062,
+      "step": 90
+    },
+    {
+      "epoch": 0.03215434083601286,
+      "grad_norm": 28.869873046875,
+      "learning_rate": 1.485e-05,
+      "logits/chosen": -2.3386080265045166,
+      "logits/rejected": -2.2970244884490967,
+      "logps/chosen": -345.72576904296875,
+      "logps/rejected": -358.2042236328125,
+      "loss": 0.3053,
+      "rewards/accuracies": 0.860714316368103,
+      "rewards/chosen": -4.066442489624023,
+      "rewards/margins": 5.298585891723633,
+      "rewards/rejected": -9.365028381347656,
+      "step": 100
+    },
+    {
+      "epoch": 0.03536977491961415,
+      "grad_norm": 26.5097599029541,
+      "learning_rate": 1.635e-05,
+      "logits/chosen": -2.358365535736084,
+      "logits/rejected": -2.2937300205230713,
+      "logps/chosen": -377.52276611328125,
+      "logps/rejected": -378.28839111328125,
+      "loss": 0.388,
+      "rewards/accuracies": 0.860714316368103,
+      "rewards/chosen": -6.647670745849609,
+      "rewards/margins": 5.24035120010376,
+      "rewards/rejected": -11.888021469116211,
+      "step": 110
+    },
+    {
+      "epoch": 0.03858520900321544,
+      "grad_norm": 39.25172805786133,
+      "learning_rate": 1.785e-05,
+      "logits/chosen": -2.4902865886688232,
+      "logits/rejected": -2.4236950874328613,
+      "logps/chosen": -326.519287109375,
+      "logps/rejected": -324.75091552734375,
+      "loss": 0.7375,
+      "rewards/accuracies": 0.8375000953674316,
+      "rewards/chosen": -3.107428550720215,
+      "rewards/margins": 3.825024366378784,
+      "rewards/rejected": -6.932452201843262,
+      "step": 120
+    },
+    {
+      "epoch": 0.04180064308681672,
+      "grad_norm": 49.65993118286133,
+      "learning_rate": 1.935e-05,
+      "logits/chosen": -2.6321167945861816,
+      "logits/rejected": -2.6001830101013184,
+      "logps/chosen": -331.8643798828125,
+      "logps/rejected": -332.07867431640625,
+      "loss": 0.3162,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -3.3056838512420654,
+      "rewards/margins": 4.056153774261475,
+      "rewards/rejected": -7.361837863922119,
+      "step": 130
+    },
+    {
+      "epoch": 0.04501607717041801,
+      "grad_norm": 34.13883590698242,
+      "learning_rate": 2.085e-05,
+      "logits/chosen": -2.4387283325195312,
+      "logits/rejected": -2.3903980255126953,
+      "logps/chosen": -396.2072448730469,
+      "logps/rejected": -413.0238342285156,
+      "loss": 0.3161,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -9.951654434204102,
+      "rewards/margins": 5.647161483764648,
+      "rewards/rejected": -15.59881591796875,
+      "step": 140
+    },
+    {
+      "epoch": 0.04823151125401929,
+      "grad_norm": 14.36856460571289,
+      "learning_rate": 2.235e-05,
+      "logits/chosen": -2.301513195037842,
+      "logits/rejected": -2.206355094909668,
+      "logps/chosen": -356.59088134765625,
+      "logps/rejected": -376.6296691894531,
+      "loss": 0.3143,
+      "rewards/accuracies": 0.8732143640518188,
+      "rewards/chosen": -6.92374324798584,
+      "rewards/margins": 5.8192524909973145,
+      "rewards/rejected": -12.742996215820312,
+      "step": 150
+    },
+    {
+      "epoch": 0.05144694533762058,
+      "grad_norm": 10.570508003234863,
+      "learning_rate": 2.385e-05,
+      "logits/chosen": -2.2517690658569336,
+      "logits/rejected": -2.222245693206787,
+      "logps/chosen": -386.21380615234375,
+      "logps/rejected": -392.8358459472656,
+      "loss": 0.3594,
+      "rewards/accuracies": 0.8285714983940125,
+      "rewards/chosen": -8.972579956054688,
+      "rewards/margins": 4.516054153442383,
+      "rewards/rejected": -13.488635063171387,
+      "step": 160
+    },
+    {
+      "epoch": 0.05466237942122187,
+      "grad_norm": 18.00568389892578,
+      "learning_rate": 2.535e-05,
+      "logits/chosen": -2.4203078746795654,
+      "logits/rejected": -2.3945605754852295,
+      "logps/chosen": -387.5201416015625,
+      "logps/rejected": -392.7701110839844,
+      "loss": 0.3523,
+      "rewards/accuracies": 0.848214328289032,
+      "rewards/chosen": -8.321182250976562,
+      "rewards/margins": 4.6146345138549805,
+      "rewards/rejected": -12.935816764831543,
+      "step": 170
+    },
+    {
+      "epoch": 0.05787781350482315,
+      "grad_norm": 11.757823944091797,
+      "learning_rate": 2.6850000000000002e-05,
+      "logits/chosen": -2.5331153869628906,
+      "logits/rejected": -2.4912378787994385,
+      "logps/chosen": -406.7548828125,
+      "logps/rejected": -418.08673095703125,
+      "loss": 0.3379,
+      "rewards/accuracies": 0.8625000715255737,
+      "rewards/chosen": -9.600198745727539,
+      "rewards/margins": 5.207104682922363,
+      "rewards/rejected": -14.807302474975586,
+      "step": 180
+    },
+    {
+      "epoch": 0.06109324758842444,
+      "grad_norm": 7.302403926849365,
+      "learning_rate": 2.8349999999999998e-05,
+      "logits/chosen": -2.309605836868286,
+      "logits/rejected": -2.2778573036193848,
+      "logps/chosen": -405.32122802734375,
+      "logps/rejected": -420.27557373046875,
+      "loss": 0.3828,
+      "rewards/accuracies": 0.8660715222358704,
+      "rewards/chosen": -9.99227523803711,
+      "rewards/margins": 6.3076934814453125,
+      "rewards/rejected": -16.299968719482422,
+      "step": 190
+    },
+    {
+      "epoch": 0.06430868167202572,
+      "grad_norm": 11.398672103881836,
+      "learning_rate": 2.985e-05,
+      "logits/chosen": -2.569981336593628,
+      "logits/rejected": -2.526599168777466,
+      "logps/chosen": -461.9549865722656,
+      "logps/rejected": -473.1504821777344,
+      "loss": 0.3788,
+      "rewards/accuracies": 0.8553571701049805,
+      "rewards/chosen": -15.653833389282227,
+      "rewards/margins": 6.788999080657959,
+      "rewards/rejected": -22.442832946777344,
+      "step": 200
+    },
+    {
+      "epoch": 0.06752411575562701,
+      "grad_norm": 50.62058639526367,
+      "learning_rate": 2.9963499997375575e-05,
+      "logits/chosen": -2.417654514312744,
+      "logits/rejected": -2.3606505393981934,
+      "logps/chosen": -482.07659912109375,
+      "logps/rejected": -515.6975708007812,
+      "loss": 0.4418,
+      "rewards/accuracies": 0.8785713911056519,
+      "rewards/chosen": -17.540700912475586,
+      "rewards/margins": 8.336698532104492,
+      "rewards/rejected": -25.87740135192871,
+      "step": 210
+    },
+    {
+      "epoch": 0.0707395498392283,
+      "grad_norm": 16.234468460083008,
+      "learning_rate": 2.9837652906305957e-05,
+      "logits/chosen": -2.5475172996520996,
+      "logits/rejected": -2.495272159576416,
+      "logps/chosen": -479.1644592285156,
+      "logps/rejected": -494.456298828125,
+      "loss": 0.5664,
+      "rewards/accuracies": 0.8053572773933411,
+      "rewards/chosen": -17.714771270751953,
+      "rewards/margins": 5.708583831787109,
+      "rewards/rejected": -23.42335319519043,
+      "step": 220
+    },
+    {
+      "epoch": 0.07395498392282958,
+      "grad_norm": 14.656303405761719,
+      "learning_rate": 2.9623087873611065e-05,
+      "logits/chosen": -2.502220630645752,
+      "logits/rejected": -2.480044364929199,
+      "logps/chosen": -408.70941162109375,
+      "logps/rejected": -429.931640625,
+      "loss": 0.3782,
+      "rewards/accuracies": 0.8428570628166199,
+      "rewards/chosen": -10.620994567871094,
+      "rewards/margins": 5.9877166748046875,
+      "rewards/rejected": -16.60871124267578,
+      "step": 230
+    },
+    {
+      "epoch": 0.07717041800643087,
+      "grad_norm": 10.515886306762695,
+      "learning_rate": 2.932164630064359e-05,
+      "logits/chosen": -2.1353824138641357,
+      "logits/rejected": -2.071852445602417,
+      "logps/chosen": -424.79046630859375,
+      "logps/rejected": -435.5794372558594,
+      "loss": 0.4634,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -12.948244094848633,
+      "rewards/margins": 5.95263671875,
+      "rewards/rejected": -18.90087890625,
+      "step": 240
+    },
+    {
+      "epoch": 0.08038585209003216,
+      "grad_norm": 13.274107933044434,
+      "learning_rate": 2.8935915164942478e-05,
+      "logits/chosen": -2.3533787727355957,
+      "logits/rejected": -2.30831241607666,
+      "logps/chosen": -433.0838928222656,
+      "logps/rejected": -477.1802673339844,
+      "loss": 0.4355,
+      "rewards/accuracies": 0.860714316368103,
+      "rewards/chosen": -15.225809097290039,
+      "rewards/margins": 7.938222408294678,
+      "rewards/rejected": -23.164031982421875,
+      "step": 250
+    },
+    {
+      "epoch": 0.08360128617363344,
+      "grad_norm": 9.96252155303955,
+      "learning_rate": 2.846920481874051e-05,
+      "logits/chosen": -2.216628074645996,
+      "logits/rejected": -2.1560254096984863,
+      "logps/chosen": -403.18548583984375,
+      "logps/rejected": -416.61419677734375,
+      "loss": 0.4278,
+      "rewards/accuracies": 0.8517857789993286,
+      "rewards/chosen": -10.419198036193848,
+      "rewards/margins": 6.329415798187256,
+      "rewards/rejected": -16.748613357543945,
+      "step": 260
+    },
+    {
+      "epoch": 0.08681672025723473,
+      "grad_norm": 28.472272872924805,
+      "learning_rate": 2.7925520579456026e-05,
+      "logits/chosen": -2.186771869659424,
+      "logits/rejected": -2.1579926013946533,
+      "logps/chosen": -373.64166259765625,
+      "logps/rejected": -395.2644348144531,
+      "loss": 0.396,
+      "rewards/accuracies": 0.8625000715255737,
+      "rewards/chosen": -8.484575271606445,
+      "rewards/margins": 6.288187026977539,
+      "rewards/rejected": -14.772761344909668,
+      "step": 270
+    },
+    {
+      "epoch": 0.09003215434083602,
+      "grad_norm": 19.81985092163086,
+      "learning_rate": 2.7309528355979613e-05,
+      "logits/chosen": -2.288975238800049,
+      "logits/rejected": -2.287881374359131,
+      "logps/chosen": -481.0345764160156,
+      "logps/rejected": -474.57958984375,
+      "loss": 1.6168,
+      "rewards/accuracies": 0.7214285135269165,
+      "rewards/chosen": -17.42532730102539,
+      "rewards/margins": 4.1218461990356445,
+      "rewards/rejected": -21.547168731689453,
+      "step": 280
+    },
+    {
+      "epoch": 0.0932475884244373,
+      "grad_norm": 11.689517974853516,
+      "learning_rate": 2.6626514605751792e-05,
+      "logits/chosen": -2.0175223350524902,
+      "logits/rejected": -1.9642770290374756,
+      "logps/chosen": -470.8360290527344,
+      "logps/rejected": -516.0283203125,
+      "loss": 0.3033,
+      "rewards/accuracies": 0.8696429133415222,
+      "rewards/chosen": -17.717975616455078,
+      "rewards/margins": 9.43533992767334,
+      "rewards/rejected": -27.153316497802734,
+      "step": 290
+    },
+    {
+      "epoch": 0.09646302250803858,
+      "grad_norm": 10.816216468811035,
+      "learning_rate": 2.5882340966280716e-05,
+      "logits/chosen": -2.333395481109619,
+      "logits/rejected": -2.308253049850464,
+      "logps/chosen": -496.63201904296875,
+      "logps/rejected": -514.8468017578125,
+      "loss": 0.5552,
+      "rewards/accuracies": 0.848214328289032,
+      "rewards/chosen": -20.267597198486328,
+      "rewards/margins": 6.434575080871582,
+      "rewards/rejected": -26.702173233032227,
+      "step": 300
+    },
+    {
+      "epoch": 0.09967845659163987,
+      "grad_norm": 9.920787811279297,
+      "learning_rate": 2.508339395045323e-05,
+      "logits/chosen": -2.5437283515930176,
+      "logits/rejected": -2.5304923057556152,
+      "logps/chosen": -490.4562072753906,
+      "logps/rejected": -504.1741638183594,
+      "loss": 0.332,
+      "rewards/accuracies": 0.8642856478691101,
+      "rewards/chosen": -19.00229835510254,
+      "rewards/margins": 6.146671295166016,
+      "rewards/rejected": -25.148969650268555,
+      "step": 310
+    },
+    {
+      "epoch": 0.10289389067524116,
+      "grad_norm": 19.131654739379883,
+      "learning_rate": 2.4236530137354944e-05,
+      "logits/chosen": -2.2978572845458984,
+      "logits/rejected": -2.2660460472106934,
+      "logps/chosen": -493.71429443359375,
+      "logps/rejected": -541.1251831054688,
+      "loss": 0.307,
+      "rewards/accuracies": 0.8767857551574707,
+      "rewards/chosen": -19.497310638427734,
+      "rewards/margins": 8.083097457885742,
+      "rewards/rejected": -27.580408096313477,
+      "step": 320
+    },
+    {
+      "epoch": 0.10610932475884244,
+      "grad_norm": 20.32062339782715,
+      "learning_rate": 2.3349017328973037e-05,
+      "logits/chosen": -2.4487316608428955,
+      "logits/rejected": -2.4205942153930664,
+      "logps/chosen": -448.8963317871094,
+      "logps/rejected": -494.49176025390625,
+      "loss": 0.3706,
+      "rewards/accuracies": 0.8642857670783997,
+      "rewards/chosen": -15.035717964172363,
+      "rewards/margins": 8.205968856811523,
+      "rewards/rejected": -23.24168586730957,
+      "step": 330
+    },
+    {
+      "epoch": 0.10932475884244373,
+      "grad_norm": 13.464560508728027,
+      "learning_rate": 2.2428472177775835e-05,
+      "logits/chosen": -2.5762939453125,
+      "logits/rejected": -2.534386157989502,
+      "logps/chosen": -456.61859130859375,
+      "logps/rejected": -477.6875915527344,
+      "loss": 0.3679,
+      "rewards/accuracies": 0.8625000715255737,
+      "rewards/chosen": -16.53495979309082,
+      "rewards/margins": 6.909937858581543,
+      "rewards/rejected": -23.444900512695312,
+      "step": 340
+    },
+    {
+      "epoch": 0.11254019292604502,
+      "grad_norm": 14.568502426147461,
+      "learning_rate": 2.1482794820450814e-05,
+      "logits/chosen": -2.5605056285858154,
+      "logits/rejected": -2.5096778869628906,
+      "logps/chosen": -423.26300048828125,
+      "logps/rejected": -447.6953125,
+      "loss": 0.342,
+      "rewards/accuracies": 0.8732143640518188,
+      "rewards/chosen": -12.514073371887207,
+      "rewards/margins": 7.575278282165527,
+      "rewards/rejected": -20.089353561401367,
+      "step": 350
+    },
+    {
+      "epoch": 0.1157556270096463,
+      "grad_norm": 9.758018493652344,
+      "learning_rate": 2.05201010787753e-05,
+      "logits/chosen": -2.1697499752044678,
+      "logits/rejected": -2.1387410163879395,
+      "logps/chosen": -456.02984619140625,
+      "logps/rejected": -503.065185546875,
+      "loss": 0.2779,
+      "rewards/accuracies": 0.889285683631897,
+      "rewards/chosen": -16.698528289794922,
+      "rewards/margins": 9.026225090026855,
+      "rewards/rejected": -25.72475242614746,
+      "step": 360
+    },
+    {
+      "epoch": 0.1189710610932476,
+      "grad_norm": 18.256454467773438,
+      "learning_rate": 1.9548652809473558e-05,
+      "logits/chosen": -2.046221971511841,
+      "logits/rejected": -2.0130884647369385,
+      "logps/chosen": -491.8714904785156,
+      "logps/rejected": -533.032958984375,
+      "loss": 0.3466,
+      "rewards/accuracies": 0.8571429252624512,
+      "rewards/chosen": -19.596403121948242,
+      "rewards/margins": 8.155044555664062,
+      "rewards/rejected": -27.751449584960938,
+      "step": 370
+    },
+    {
+      "epoch": 0.12218649517684887,
+      "grad_norm": 12.129895210266113,
+      "learning_rate": 1.8576787000799002e-05,
+      "logits/chosen": -2.4258432388305664,
+      "logits/rejected": -2.3579177856445312,
+      "logps/chosen": -492.90826416015625,
+      "logps/rejected": -544.7718505859375,
+      "loss": 0.2529,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -20.450740814208984,
+      "rewards/margins": 9.103205680847168,
+      "rewards/rejected": -29.553945541381836,
+      "step": 380
+    },
+    {
+      "epoch": 0.12540192926045016,
+      "grad_norm": 46.050537109375,
+      "learning_rate": 1.7612844224336228e-05,
+      "logits/chosen": -2.5398786067962646,
+      "logits/rejected": -2.515723705291748,
+      "logps/chosen": -559.4112548828125,
+      "logps/rejected": -574.40234375,
+      "loss": 0.3799,
+      "rewards/accuracies": 0.8642857670783997,
+      "rewards/chosen": -25.749526977539062,
+      "rewards/margins": 6.102494716644287,
+      "rewards/rejected": -31.852020263671875,
+      "step": 390
+    },
+    {
+      "epoch": 0.12861736334405144,
+      "grad_norm": 21.291101455688477,
+      "learning_rate": 1.666509705605072e-05,
+      "logits/chosen": -2.3730740547180176,
+      "logits/rejected": -2.329524040222168,
+      "logps/chosen": -522.7748413085938,
+      "logps/rejected": -569.830322265625,
+      "loss": 0.3555,
+      "rewards/accuracies": 0.8660714030265808,
+      "rewards/chosen": -21.334875106811523,
+      "rewards/margins": 9.661813735961914,
+      "rewards/rejected": -30.996685028076172,
+      "step": 400
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 539,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 28,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa2d510c9f10ad6f48833d1edc591cf4149503b20d3fc84afc920182e0b6bd6e
+size 8593

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": null,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 32768,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "sliding_window": 4096,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "vocab_size": 32002
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "transformers_version": "4.55.0"
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43fb9f6ea6d83c0dcfe4bd6cc29e40c9a36f1f8d11df666d6cf735944c72d7c8
+size 4936382264

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78ff9c67b39e07fdd7ab392b5a9298ab9fa787a44c6834e237f3968c074755a7
+size 4913839000

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0b9a0a4bbb5a42f09c685c21500ca0084dda9a09493fc640d397434f4655665
+size 4968912088

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,747 @@

+{
+  "metadata": {
+    "total_parameters": 7325634560,
+    "total_size": 14819041280
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.lora_A.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.lora_B.default.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|im_start|>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "trust_remote_code": false,
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true,
+  "use_fast": true
+}