Model save

Browse files

Files changed (14) hide show

README.md +60 -0
all_results.json +9 -0
config.json +26 -0
generation_config.json +6 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +298 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +43 -0
train_results.json +9 -0
trainer_state.json +762 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,60 @@

+---
+license: apache-2.0
+base_model: alignment-handbook/zephyr-7b-sft-full
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: zephyr-7b-DPO-full
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-DPO-full
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 128
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- Transformers 4.41.2
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.1
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.998691442030882,
+    "total_flos": 0.0,
+    "train_loss": 0.5400989525473093,
+    "train_runtime": 16329.9043,
+    "train_samples": 61135,
+    "train_samples_per_second": 3.744,
+    "train_steps_per_second": 0.029
+}

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "alignment-handbook/zephyr-7b-sft-full",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 32768,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "sliding_window": 4096,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.41.2",
+  "use_cache": false,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.41.2"
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db4c0c86c21f033ab8040178eb98d85926691db3d2fc9c678cf3ea3d01e97096
+size 4943162336

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d8440258a592bc308c198be1ad408eb784ea18e1f04a1099d3f754579cae951
+size 4999819336

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff105870df457c54b7894ccf4c490aa38ec1e3071d685efdae7203a66c70eef2
+size 4540516344

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 14483464192
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 2048,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.998691442030882,
+    "total_flos": 0.0,
+    "train_loss": 0.5400989525473093,
+    "train_runtime": 16329.9043,
+    "train_samples": 61135,
+    "train_samples_per_second": 3.744,
+    "train_steps_per_second": 0.029
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,762 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.998691442030882,
+  "eval_steps": 500,
+  "global_step": 477,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002093692750588851,
+      "grad_norm": 9.211454657045206,
+      "learning_rate": 1.0416666666666666e-08,
+      "logits/chosen": 5002.53564453125,
+      "logits/rejected": 4591.72021484375,
+      "logps/chosen": -265.6396789550781,
+      "logps/rejected": -206.22401428222656,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.02093692750588851,
+      "grad_norm": 7.799668546716349,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": 5977.2158203125,
+      "logits/rejected": 5015.328125,
+      "logps/chosen": -292.54644775390625,
+      "logps/rejected": -259.34674072265625,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.4479166567325592,
+      "rewards/chosen": 0.00014371293946169317,
+      "rewards/margins": 0.0003742838744074106,
+      "rewards/rejected": -0.00023057092039380223,
+      "step": 10
+    },
+    {
+      "epoch": 0.04187385501177702,
+      "grad_norm": 8.84623068778988,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": 5877.6630859375,
+      "logits/rejected": 4855.91015625,
+      "logps/chosen": -290.42633056640625,
+      "logps/rejected": -249.80062866210938,
+      "loss": 0.6922,
+      "rewards/accuracies": 0.6468750238418579,
+      "rewards/chosen": 0.00167155172675848,
+      "rewards/margins": 0.0023438199423253536,
+      "rewards/rejected": -0.0006722684483975172,
+      "step": 20
+    },
+    {
+      "epoch": 0.06281078251766553,
+      "grad_norm": 8.315324615692544,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": 5644.279296875,
+      "logits/rejected": 4922.5458984375,
+      "logps/chosen": -270.73651123046875,
+      "logps/rejected": -238.165771484375,
+      "loss": 0.6881,
+      "rewards/accuracies": 0.590624988079071,
+      "rewards/chosen": 0.015009269118309021,
+      "rewards/margins": 0.008644679561257362,
+      "rewards/rejected": 0.006364589091390371,
+      "step": 30
+    },
+    {
+      "epoch": 0.08374771002355404,
+      "grad_norm": 8.112886238882512,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": 5738.703125,
+      "logits/rejected": 4991.9248046875,
+      "logps/chosen": -269.12200927734375,
+      "logps/rejected": -256.46337890625,
+      "loss": 0.6773,
+      "rewards/accuracies": 0.6781250238418579,
+      "rewards/chosen": 0.04835047200322151,
+      "rewards/margins": 0.028444945812225342,
+      "rewards/rejected": 0.01990552432835102,
+      "step": 40
+    },
+    {
+      "epoch": 0.10468463752944256,
+      "grad_norm": 9.12114841160439,
+      "learning_rate": 4.999731868769026e-07,
+      "logits/chosen": 6019.02978515625,
+      "logits/rejected": 5224.64892578125,
+      "logps/chosen": -276.5516662597656,
+      "logps/rejected": -272.14227294921875,
+      "loss": 0.6625,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": 0.020660653710365295,
+      "rewards/margins": 0.06689046323299408,
+      "rewards/rejected": -0.046229809522628784,
+      "step": 50
+    },
+    {
+      "epoch": 0.12562156503533106,
+      "grad_norm": 10.24780614426457,
+      "learning_rate": 4.990353313429303e-07,
+      "logits/chosen": 5789.94580078125,
+      "logits/rejected": 4927.0771484375,
+      "logps/chosen": -285.1942138671875,
+      "logps/rejected": -270.85821533203125,
+      "loss": 0.643,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -0.06771745532751083,
+      "rewards/margins": 0.12607525289058685,
+      "rewards/rejected": -0.19379273056983948,
+      "step": 60
+    },
+    {
+      "epoch": 0.14655849254121958,
+      "grad_norm": 12.76613385471814,
+      "learning_rate": 4.967625656594781e-07,
+      "logits/chosen": 5592.11328125,
+      "logits/rejected": 5145.0107421875,
+      "logps/chosen": -292.32354736328125,
+      "logps/rejected": -298.37225341796875,
+      "loss": 0.623,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.14015638828277588,
+      "rewards/margins": 0.17553341388702393,
+      "rewards/rejected": -0.3156897723674774,
+      "step": 70
+    },
+    {
+      "epoch": 0.16749542004710807,
+      "grad_norm": 13.610997273594151,
+      "learning_rate": 4.93167072587771e-07,
+      "logits/chosen": 5751.24365234375,
+      "logits/rejected": 4933.005859375,
+      "logps/chosen": -289.21722412109375,
+      "logps/rejected": -290.5710144042969,
+      "loss": 0.6046,
+      "rewards/accuracies": 0.690625011920929,
+      "rewards/chosen": -0.13130322098731995,
+      "rewards/margins": 0.24368241429328918,
+      "rewards/rejected": -0.37498563528060913,
+      "step": 80
+    },
+    {
+      "epoch": 0.1884323475529966,
+      "grad_norm": 14.279013583308275,
+      "learning_rate": 4.882681251368548e-07,
+      "logits/chosen": 5894.96533203125,
+      "logits/rejected": 4963.3916015625,
+      "logps/chosen": -306.92181396484375,
+      "logps/rejected": -313.1904296875,
+      "loss": 0.6022,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -0.29214221239089966,
+      "rewards/margins": 0.29002565145492554,
+      "rewards/rejected": -0.5821678638458252,
+      "step": 90
+    },
+    {
+      "epoch": 0.2093692750588851,
+      "grad_norm": 22.713207401211136,
+      "learning_rate": 4.820919832540181e-07,
+      "logits/chosen": 5986.04296875,
+      "logits/rejected": 5457.87744140625,
+      "logps/chosen": -330.39178466796875,
+      "logps/rejected": -370.8677673339844,
+      "loss": 0.5776,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.5052307844161987,
+      "rewards/margins": 0.4582924246788025,
+      "rewards/rejected": -0.9635232090950012,
+      "step": 100
+    },
+    {
+      "epoch": 0.23030620256477363,
+      "grad_norm": 20.283587464857114,
+      "learning_rate": 4.7467175306295647e-07,
+      "logits/chosen": 6154.59619140625,
+      "logits/rejected": 4960.091796875,
+      "logps/chosen": -334.56695556640625,
+      "logps/rejected": -368.0423278808594,
+      "loss": 0.5488,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.5994433164596558,
+      "rewards/margins": 0.4922637343406677,
+      "rewards/rejected": -1.0917069911956787,
+      "step": 110
+    },
+    {
+      "epoch": 0.2512431300706621,
+      "grad_norm": 22.14521601844895,
+      "learning_rate": 4.6604720940421207e-07,
+      "logits/chosen": 5759.24609375,
+      "logits/rejected": 5295.7802734375,
+      "logps/chosen": -339.51934814453125,
+      "logps/rejected": -385.60455322265625,
+      "loss": 0.5644,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.7234034538269043,
+      "rewards/margins": 0.4638844430446625,
+      "rewards/rejected": -1.1872879266738892,
+      "step": 120
+    },
+    {
+      "epoch": 0.2721800575765506,
+      "grad_norm": 27.241286652605396,
+      "learning_rate": 4.5626458262912735e-07,
+      "logits/chosen": 5832.84228515625,
+      "logits/rejected": 5169.36279296875,
+      "logps/chosen": -318.12384033203125,
+      "logps/rejected": -363.9073791503906,
+      "loss": 0.5624,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.49606555700302124,
+      "rewards/margins": 0.45292186737060547,
+      "rewards/rejected": -0.9489873647689819,
+      "step": 130
+    },
+    {
+      "epoch": 0.29311698508243916,
+      "grad_norm": 28.23151800456714,
+      "learning_rate": 4.453763107901675e-07,
+      "logits/chosen": 5622.50830078125,
+      "logits/rejected": 4936.654296875,
+      "logps/chosen": -329.79510498046875,
+      "logps/rejected": -370.22503662109375,
+      "loss": 0.5525,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.5789031982421875,
+      "rewards/margins": 0.6120187640190125,
+      "rewards/rejected": -1.1909220218658447,
+      "step": 140
+    },
+    {
+      "epoch": 0.31405391258832765,
+      "grad_norm": 25.320300499282357,
+      "learning_rate": 4.3344075855595097e-07,
+      "logits/chosen": 6190.36767578125,
+      "logits/rejected": 5033.6162109375,
+      "logps/chosen": -370.701904296875,
+      "logps/rejected": -394.21148681640625,
+      "loss": 0.5514,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.8158693313598633,
+      "rewards/margins": 0.611338198184967,
+      "rewards/rejected": -1.4272074699401855,
+      "step": 150
+    },
+    {
+      "epoch": 0.33499084009421615,
+      "grad_norm": 27.62912373079335,
+      "learning_rate": 4.2052190435769554e-07,
+      "logits/chosen": 5860.33203125,
+      "logits/rejected": 4838.2158203125,
+      "logps/chosen": -357.6443786621094,
+      "logps/rejected": -398.9871826171875,
+      "loss": 0.5132,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": -0.7305024862289429,
+      "rewards/margins": 0.6955864429473877,
+      "rewards/rejected": -1.4260890483856201,
+      "step": 160
+    },
+    {
+      "epoch": 0.3559277676001047,
+      "grad_norm": 27.62521155882538,
+      "learning_rate": 4.0668899744407567e-07,
+      "logits/chosen": 6195.0732421875,
+      "logits/rejected": 5214.5263671875,
+      "logps/chosen": -367.5011291503906,
+      "logps/rejected": -396.7366027832031,
+      "loss": 0.5198,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.8518542051315308,
+      "rewards/margins": 0.7090611457824707,
+      "rewards/rejected": -1.560915470123291,
+      "step": 170
+    },
+    {
+      "epoch": 0.3768646951059932,
+      "grad_norm": 20.41344158419575,
+      "learning_rate": 3.920161866827889e-07,
+      "logits/chosen": 5817.1748046875,
+      "logits/rejected": 4898.953125,
+      "logps/chosen": -368.80010986328125,
+      "logps/rejected": -400.68768310546875,
+      "loss": 0.5325,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.815048098564148,
+      "rewards/margins": 0.6920208930969238,
+      "rewards/rejected": -1.5070692300796509,
+      "step": 180
+    },
+    {
+      "epoch": 0.39780162261188173,
+      "grad_norm": 22.02623865871545,
+      "learning_rate": 3.765821230985757e-07,
+      "logits/chosen": 5944.046875,
+      "logits/rejected": 4893.10546875,
+      "logps/chosen": -354.03265380859375,
+      "logps/rejected": -415.8868103027344,
+      "loss": 0.5027,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.8428112268447876,
+      "rewards/margins": 0.8372251391410828,
+      "rewards/rejected": -1.6800363063812256,
+      "step": 190
+    },
+    {
+      "epoch": 0.4187385501177702,
+      "grad_norm": 25.468088864458956,
+      "learning_rate": 3.604695382782159e-07,
+      "logits/chosen": 5583.65380859375,
+      "logits/rejected": 4778.68212890625,
+      "logps/chosen": -346.06890869140625,
+      "logps/rejected": -404.9804382324219,
+      "loss": 0.5375,
+      "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -0.9171807169914246,
+      "rewards/margins": 0.7040169835090637,
+      "rewards/rejected": -1.6211974620819092,
+      "step": 200
+    },
+    {
+      "epoch": 0.4396754776236587,
+      "grad_norm": 25.47249156929888,
+      "learning_rate": 3.4376480090239047e-07,
+      "logits/chosen": 6238.86474609375,
+      "logits/rejected": 5235.1259765625,
+      "logps/chosen": -359.75518798828125,
+      "logps/rejected": -401.63763427734375,
+      "loss": 0.5228,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.7298781275749207,
+      "rewards/margins": 0.6694623231887817,
+      "rewards/rejected": -1.3993405103683472,
+      "step": 210
+    },
+    {
+      "epoch": 0.46061240512954726,
+      "grad_norm": 28.751763041544617,
+      "learning_rate": 3.265574537815398e-07,
+      "logits/chosen": 5608.19775390625,
+      "logits/rejected": 5137.87939453125,
+      "logps/chosen": -361.360107421875,
+      "logps/rejected": -436.46405029296875,
+      "loss": 0.5023,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.9024435877799988,
+      "rewards/margins": 0.8587621450424194,
+      "rewards/rejected": -1.7612059116363525,
+      "step": 220
+    },
+    {
+      "epoch": 0.48154933263543576,
+      "grad_norm": 25.992805747479405,
+      "learning_rate": 3.0893973387735683e-07,
+      "logits/chosen": 5794.5654296875,
+      "logits/rejected": 4841.03759765625,
+      "logps/chosen": -367.46624755859375,
+      "logps/rejected": -435.62713623046875,
+      "loss": 0.4998,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.9919744729995728,
+      "rewards/margins": 0.9099799394607544,
+      "rewards/rejected": -1.9019544124603271,
+      "step": 230
+    },
+    {
+      "epoch": 0.5024862601413242,
+      "grad_norm": 23.04665678952524,
+      "learning_rate": 2.910060778827554e-07,
+      "logits/chosen": 5975.0810546875,
+      "logits/rejected": 4964.9931640625,
+      "logps/chosen": -363.27044677734375,
+      "logps/rejected": -418.6351013183594,
+      "loss": 0.5105,
+      "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -0.976935088634491,
+      "rewards/margins": 0.7116060853004456,
+      "rewards/rejected": -1.6885411739349365,
+      "step": 240
+    },
+    {
+      "epoch": 0.5234231876472127,
+      "grad_norm": 28.504974460346567,
+      "learning_rate": 2.7285261601056697e-07,
+      "logits/chosen": 6045.7275390625,
+      "logits/rejected": 5014.703125,
+      "logps/chosen": -387.30389404296875,
+      "logps/rejected": -443.3397521972656,
+      "loss": 0.522,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.0135524272918701,
+      "rewards/margins": 0.7990925908088684,
+      "rewards/rejected": -1.8126449584960938,
+      "step": 250
+    },
+    {
+      "epoch": 0.5443601151531012,
+      "grad_norm": 33.7659406039628,
+      "learning_rate": 2.5457665670441937e-07,
+      "logits/chosen": 5879.33056640625,
+      "logits/rejected": 5236.98828125,
+      "logps/chosen": -356.2937927246094,
+      "logps/rejected": -419.85382080078125,
+      "loss": 0.5052,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.7022470235824585,
+      "rewards/margins": 0.8854688405990601,
+      "rewards/rejected": -1.587715744972229,
+      "step": 260
+    },
+    {
+      "epoch": 0.5652970426589898,
+      "grad_norm": 25.397089254845756,
+      "learning_rate": 2.3627616503391812e-07,
+      "logits/chosen": 5922.39453125,
+      "logits/rejected": 5352.5849609375,
+      "logps/chosen": -359.4201354980469,
+      "logps/rejected": -435.5357360839844,
+      "loss": 0.4997,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -0.8480625152587891,
+      "rewards/margins": 0.9033299684524536,
+      "rewards/rejected": -1.7513923645019531,
+      "step": 270
+    },
+    {
+      "epoch": 0.5862339701648783,
+      "grad_norm": 26.73479494897735,
+      "learning_rate": 2.1804923757009882e-07,
+      "logits/chosen": 5973.2294921875,
+      "logits/rejected": 4879.48583984375,
+      "logps/chosen": -372.0345764160156,
+      "logps/rejected": -432.1929626464844,
+      "loss": 0.5,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": -0.9130892753601074,
+      "rewards/margins": 0.9409998059272766,
+      "rewards/rejected": -1.8540890216827393,
+      "step": 280
+    },
+    {
+      "epoch": 0.6071708976707668,
+      "grad_norm": 31.16746318897856,
+      "learning_rate": 1.9999357655598891e-07,
+      "logits/chosen": 6199.859375,
+      "logits/rejected": 5704.61083984375,
+      "logps/chosen": -411.9481506347656,
+      "logps/rejected": -491.5462951660156,
+      "loss": 0.519,
+      "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -1.2051407098770142,
+      "rewards/margins": 0.7311063408851624,
+      "rewards/rejected": -1.9362468719482422,
+      "step": 290
+    },
+    {
+      "epoch": 0.6281078251766553,
+      "grad_norm": 29.688185932861224,
+      "learning_rate": 1.8220596619089573e-07,
+      "logits/chosen": 5673.20556640625,
+      "logits/rejected": 5266.4033203125,
+      "logps/chosen": -380.0096435546875,
+      "logps/rejected": -459.45159912109375,
+      "loss": 0.5033,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.0865964889526367,
+      "rewards/margins": 0.7987304925918579,
+      "rewards/rejected": -1.8853267431259155,
+      "step": 300
+    },
+    {
+      "epoch": 0.6490447526825438,
+      "grad_norm": 24.71135320699524,
+      "learning_rate": 1.647817538357072e-07,
+      "logits/chosen": 6371.9013671875,
+      "logits/rejected": 5520.39404296875,
+      "logps/chosen": -387.260498046875,
+      "logps/rejected": -444.5848083496094,
+      "loss": 0.4928,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -0.9643090963363647,
+      "rewards/margins": 0.7859716415405273,
+      "rewards/rejected": -1.750280737876892,
+      "step": 310
+    },
+    {
+      "epoch": 0.6699816801884323,
+      "grad_norm": 28.80500955817645,
+      "learning_rate": 1.478143389201113e-07,
+      "logits/chosen": 5928.6318359375,
+      "logits/rejected": 5063.9208984375,
+      "logps/chosen": -364.33258056640625,
+      "logps/rejected": -448.23193359375,
+      "loss": 0.499,
+      "rewards/accuracies": 0.7281249761581421,
+      "rewards/chosen": -0.924691379070282,
+      "rewards/margins": 0.9595035314559937,
+      "rewards/rejected": -1.8841949701309204,
+      "step": 320
+    },
+    {
+      "epoch": 0.6909186076943209,
+      "grad_norm": 30.509948071470287,
+      "learning_rate": 1.3139467229135998e-07,
+      "logits/chosen": 5720.1357421875,
+      "logits/rejected": 5207.06884765625,
+      "logps/chosen": -364.62628173828125,
+      "logps/rejected": -440.43218994140625,
+      "loss": 0.5165,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.8784202337265015,
+      "rewards/margins": 0.8826074600219727,
+      "rewards/rejected": -1.7610275745391846,
+      "step": 330
+    },
+    {
+      "epoch": 0.7118555352002094,
+      "grad_norm": 30.704340769333132,
+      "learning_rate": 1.1561076868822755e-07,
+      "logits/chosen": 5543.0693359375,
+      "logits/rejected": 4744.8251953125,
+      "logps/chosen": -351.42279052734375,
+      "logps/rejected": -423.7132873535156,
+      "loss": 0.5104,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.9385585784912109,
+      "rewards/margins": 0.886547863483429,
+      "rewards/rejected": -1.8251063823699951,
+      "step": 340
+    },
+    {
+      "epoch": 0.7327924627060979,
+      "grad_norm": 25.857587907634937,
+      "learning_rate": 1.0054723495346482e-07,
+      "logits/chosen": 6232.36083984375,
+      "logits/rejected": 4976.41455078125,
+      "logps/chosen": -388.98614501953125,
+      "logps/rejected": -440.957763671875,
+      "loss": 0.5097,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -0.8807166218757629,
+      "rewards/margins": 0.845476508140564,
+      "rewards/rejected": -1.7261931896209717,
+      "step": 350
+    },
+    {
+      "epoch": 0.7537293902119864,
+      "grad_norm": 29.82073861882874,
+      "learning_rate": 8.628481651367875e-08,
+      "logits/chosen": 5914.2314453125,
+      "logits/rejected": 5076.04931640625,
+      "logps/chosen": -357.68780517578125,
+      "logps/rejected": -426.1719665527344,
+      "loss": 0.5162,
+      "rewards/accuracies": 0.7281249761581421,
+      "rewards/chosen": -0.7996425032615662,
+      "rewards/margins": 0.8795546293258667,
+      "rewards/rejected": -1.679197072982788,
+      "step": 360
+    },
+    {
+      "epoch": 0.7746663177178749,
+      "grad_norm": 25.9482001012567,
+      "learning_rate": 7.289996455765748e-08,
+      "logits/chosen": 5811.31689453125,
+      "logits/rejected": 4853.896484375,
+      "logps/chosen": -369.74859619140625,
+      "logps/rejected": -433.81329345703125,
+      "loss": 0.4814,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -0.809555172920227,
+      "rewards/margins": 0.9589332342147827,
+      "rewards/rejected": -1.7684885263442993,
+      "step": 370
+    },
+    {
+      "epoch": 0.7956032452237635,
+      "grad_norm": 29.551920868969777,
+      "learning_rate": 6.046442623320145e-08,
+      "logits/chosen": 6094.9775390625,
+      "logits/rejected": 5179.5869140625,
+      "logps/chosen": -366.9292297363281,
+      "logps/rejected": -410.2997131347656,
+      "loss": 0.5124,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.8222775459289551,
+      "rewards/margins": 0.7721433043479919,
+      "rewards/rejected": -1.5944209098815918,
+      "step": 380
+    },
+    {
+      "epoch": 0.816540172729652,
+      "grad_norm": 25.609675828113428,
+      "learning_rate": 4.904486005914027e-08,
+      "logits/chosen": 6325.283203125,
+      "logits/rejected": 5506.13134765625,
+      "logps/chosen": -374.8108215332031,
+      "logps/rejected": -449.1211853027344,
+      "loss": 0.4924,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.8306140899658203,
+      "rewards/margins": 0.9128311276435852,
+      "rewards/rejected": -1.7434451580047607,
+      "step": 390
+    },
+    {
+      "epoch": 0.8374771002355405,
+      "grad_norm": 23.307108800240194,
+      "learning_rate": 3.8702478614051345e-08,
+      "logits/chosen": 5899.87255859375,
+      "logits/rejected": 5138.92822265625,
+      "logps/chosen": -374.59161376953125,
+      "logps/rejected": -417.52276611328125,
+      "loss": 0.5073,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.8368744850158691,
+      "rewards/margins": 0.7797749042510986,
+      "rewards/rejected": -1.6166492700576782,
+      "step": 400
+    },
+    {
+      "epoch": 0.8584140277414289,
+      "grad_norm": 28.13899168071846,
+      "learning_rate": 2.9492720416985e-08,
+      "logits/chosen": 5871.72119140625,
+      "logits/rejected": 5068.5380859375,
+      "logps/chosen": -375.2835388183594,
+      "logps/rejected": -450.8858337402344,
+      "loss": 0.488,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.9341619610786438,
+      "rewards/margins": 0.7635947465896606,
+      "rewards/rejected": -1.6977565288543701,
+      "step": 410
+    },
+    {
+      "epoch": 0.8793509552473174,
+      "grad_norm": 30.95970678497049,
+      "learning_rate": 2.1464952759020856e-08,
+      "logits/chosen": 6262.51171875,
+      "logits/rejected": 5387.66455078125,
+      "logps/chosen": -387.75482177734375,
+      "logps/rejected": -452.94390869140625,
+      "loss": 0.4907,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.9577564001083374,
+      "rewards/margins": 0.8467991948127747,
+      "rewards/rejected": -1.8045555353164673,
+      "step": 420
+    },
+    {
+      "epoch": 0.9002878827532059,
+      "grad_norm": 28.49199271678747,
+      "learning_rate": 1.4662207078575684e-08,
+      "logits/chosen": 6194.7958984375,
+      "logits/rejected": 4889.16552734375,
+      "logps/chosen": -382.4608459472656,
+      "logps/rejected": -442.9649353027344,
+      "loss": 0.4752,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.9485816955566406,
+      "rewards/margins": 0.90647953748703,
+      "rewards/rejected": -1.8550611734390259,
+      "step": 430
+    },
+    {
+      "epoch": 0.9212248102590945,
+      "grad_norm": 27.623101707282313,
+      "learning_rate": 9.12094829893642e-09,
+      "logits/chosen": 6022.44384765625,
+      "logits/rejected": 5630.58154296875,
+      "logps/chosen": -368.7490234375,
+      "logps/rejected": -449.3396911621094,
+      "loss": 0.4971,
+      "rewards/accuracies": 0.746874988079071,
+      "rewards/chosen": -0.9020549654960632,
+      "rewards/margins": 0.830882728099823,
+      "rewards/rejected": -1.7329375743865967,
+      "step": 440
+    },
+    {
+      "epoch": 0.942161737764983,
+      "grad_norm": 26.592444291863384,
+      "learning_rate": 4.8708793644441086e-09,
+      "logits/chosen": 6148.3876953125,
+      "logits/rejected": 5177.333984375,
+      "logps/chosen": -381.3017883300781,
+      "logps/rejected": -437.44854736328125,
+      "loss": 0.4882,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -0.9096652865409851,
+      "rewards/margins": 0.850316047668457,
+      "rewards/rejected": -1.7599811553955078,
+      "step": 450
+    },
+    {
+      "epoch": 0.9630986652708715,
+      "grad_norm": 26.49192177170267,
+      "learning_rate": 1.9347820230782295e-09,
+      "logits/chosen": 6323.01416015625,
+      "logits/rejected": 5233.2236328125,
+      "logps/chosen": -411.556396484375,
+      "logps/rejected": -475.0562438964844,
+      "loss": 0.5082,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.9855737686157227,
+      "rewards/margins": 0.9078614115715027,
+      "rewards/rejected": -1.8934352397918701,
+      "step": 460
+    },
+    {
+      "epoch": 0.98403559277676,
+      "grad_norm": 25.757948934970184,
+      "learning_rate": 3.2839470889836627e-10,
+      "logits/chosen": 5897.3857421875,
+      "logits/rejected": 5136.236328125,
+      "logps/chosen": -372.2752685546875,
+      "logps/rejected": -440.5318298339844,
+      "loss": 0.4798,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.9143606424331665,
+      "rewards/margins": 0.9129295349121094,
+      "rewards/rejected": -1.8272899389266968,
+      "step": 470
+    },
+    {
+      "epoch": 0.998691442030882,
+      "step": 477,
+      "total_flos": 0.0,
+      "train_loss": 0.5400989525473093,
+      "train_runtime": 16329.9043,
+      "train_samples_per_second": 3.744,
+      "train_steps_per_second": 0.029
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 477,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4389c2a6fbac6b931e19729a4fc31959b9ee6f4327d4f87160f516a6657010f8
+size 7288