update files (#6)

Browse files

- update model (fbd18769b5a306ebf5912f56c8ca7c4a815ab2cf)

Co-authored-by: haoyanli <[email protected]>

Files changed (5) hide show

config.json +1 -2
model-00001-of-00003.safetensors +2 -2
model-00002-of-00003.safetensors +2 -2
model-00003-of-00003.safetensors +2 -2
model.safetensors.index.json +111 -47

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/model_path/Llama-3.2-11B-Vision-Instruct",
   "architectures": [
     "MllamaForConditionalGeneration"
   ],
@@ -9,7 +9,6 @@
     "activation_scheme": "static",
     "ignored_layers": [
       "*lm_head",
-      "*cross_attn*",
       "vision_model*",
       "multi_modal_projector"
     ],

 {
+  "_name_or_path": "/model_path/meta-llama/Llama-3.2-11B-Vision-Instruct",
   "architectures": [
     "MllamaForConditionalGeneration"
   ],
     "activation_scheme": "static",
     "ignored_layers": [
       "*lm_head",
       "vision_model*",
       "multi_modal_projector"
     ],

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a3123a5a86e315ff58920026ef7a912fb13788747d38acbbbec47012e89052b
-size 4984320774

 version https://git-lfs.github.com/spec/v1
+oid sha256:f19ac12e7ce70ecaf2a71ddfc1d19e1f66afd657dea59d8dc8d2ae06731ca304
+size 4984340938

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da57cc3b84a544a430a742177e2ba98d5870cba85bf0cb7f0c3974f31e73d715
-size 4966480928

 version https://git-lfs.github.com/spec/v1
+oid sha256:62dfc57434ed8285cba3038890d783bbe662dea68b7c4f9e85e36fd68b0b91bd
+size 4991668796

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a6c5ade219cab320a5fef98063d814d9c5005fe4c015f9d75d0c9a6d91bd6b5
-size 3001212912

 version https://git-lfs.github.com/spec/v1
+oid sha256:268aadb2d226b852c4419ba35266a45129e229c1f6c9deb9214d468acc62f9c1
+size 2640468128

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 12951835782
   },
   "weight_map": {
     "language_model.lm_head.weight": "model-00003-of-00003.safetensors",
@@ -64,19 +64,19 @@
     "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.mlp.up_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.k_proj.input_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.k_proj.weight_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.kv_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.self_attn.o_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.self_attn.o_proj.weight_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.q_proj.input_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.q_proj.weight_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.10.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.11.mlp.down_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
@@ -126,11 +126,19 @@
     "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.12.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.k_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.k_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.o_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.q_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.q_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
@@ -241,11 +249,19 @@
     "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.17.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.k_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.k_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.o_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.q_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.q_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
@@ -380,11 +396,19 @@
     "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.22.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.k_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.k_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.o_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.q_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.q_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
@@ -495,11 +519,19 @@
     "language_model.model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.27.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.k_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.k_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.o_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.q_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.q_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
@@ -538,11 +570,19 @@
     "language_model.model.layers.29.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.29.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.k_norm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.k_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.o_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.q_norm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.q_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn_attn_gate": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn_mlp_gate": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
@@ -580,17 +620,17 @@
     "language_model.model.layers.30.self_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.30.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.30.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.31.mlp.down_proj.input_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.31.mlp.down_proj.weight_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.31.mlp.gate_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.gate_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.up_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.up_proj.weight_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.k_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.k_proj.weight_scale": "model-00002-of-00003.safetensors",
@@ -604,38 +644,46 @@
     "language_model.model.layers.31.self_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.32.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.down_proj.input_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.down_proj.weight_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.gate_proj.input_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.gate_proj.weight_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.up_proj.input_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.mlp.up_proj.weight_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.k_proj.input_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.k_proj.weight_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.kv_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.o_proj.input_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.o_proj.weight_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.q_proj.input_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.q_proj.weight_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.v_proj.input_scale": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.32.self_attn.v_proj.weight_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.k_norm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.k_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.o_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.q_norm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.q_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.33.cross_attn_attn_gate": "model-00003-of-00003.safetensors",
-    "language_model.model.layers.33.cross_attn_mlp_gate": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.mlp.down_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
@@ -744,11 +792,19 @@
     "language_model.model.layers.37.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.37.self_attn.v_proj.weight_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.k_norm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.k_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.o_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.q_norm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.q_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.v_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn_attn_gate": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn_mlp_gate": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.input_layernorm.weight": "model-00003-of-00003.safetensors",
@@ -883,11 +939,19 @@
     "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.7.self_attn.v_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.k_norm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.k_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.o_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.q_norm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.q_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn_attn_gate": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn_mlp_gate": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
@@ -901,17 +965,17 @@
     "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.mlp.up_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.layers.9.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.9.mlp.down_proj.input_scale": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.9.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.layers.9.mlp.down_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.9.mlp.gate_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.gate_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.up_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.up_proj.weight_scale": "model-00001-of-00003.safetensors",
-    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.9.self_attn.k_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.self_attn.k_proj.weight_scale": "model-00001-of-00003.safetensors",

 {
   "metadata": {
+    "total_size": 12616291718
   },
   "weight_map": {
     "language_model.lm_head.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.mlp.up_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.input_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.kv_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.10.self_attn.o_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.10.self_attn.o_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.input_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.input_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.11.mlp.down_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.12.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.cross_attn.k_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.cross_attn.k_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.cross_attn.o_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.cross_attn.o_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.cross_attn.q_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.cross_attn.q_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.cross_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.cross_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.17.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.cross_attn.k_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.cross_attn.k_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.cross_attn.o_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.cross_attn.o_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.cross_attn.q_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.cross_attn.q_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.cross_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.cross_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.22.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.cross_attn.k_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.cross_attn.k_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.cross_attn.o_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.cross_attn.o_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.cross_attn.q_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.cross_attn.q_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.cross_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.cross_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.27.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.cross_attn.k_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.cross_attn.k_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.cross_attn.o_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.cross_attn.o_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.cross_attn.q_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.cross_attn.q_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.cross_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.cross_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.29.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.29.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.cross_attn.k_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.cross_attn.k_proj.weight_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.cross_attn.o_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.cross_attn.o_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.cross_attn.q_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.cross_attn.q_proj.weight_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.cross_attn.v_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.cross_attn.v_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn_attn_gate": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.cross_attn_mlp_gate": "model-00001-of-00003.safetensors",
     "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.30.self_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.30.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.30.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.input_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.gate_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.gate_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.up_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.mlp.up_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.k_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.k_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "language_model.model.layers.31.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.input_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.input_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.input_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.input_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.kv_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.input_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.input_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.input_scale": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight_scale": "model-00002-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn.k_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn.k_proj.weight_scale": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn.o_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn.o_proj.weight_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn.q_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn.q_proj.weight_scale": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn.v_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.cross_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn.v_proj.weight_scale": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn_attn_gate": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.cross_attn_mlp_gate": "model-00002-of-00003.safetensors",
     "language_model.model.layers.33.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.mlp.down_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.33.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.37.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.37.self_attn.v_proj.weight_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.38.cross_attn.k_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.38.cross_attn.k_proj.weight_scale": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.38.cross_attn.o_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.38.cross_attn.o_proj.weight_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.38.cross_attn.q_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.38.cross_attn.q_proj.weight_scale": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.38.cross_attn.v_proj.input_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.38.cross_attn.v_proj.weight_scale": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn_attn_gate": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.cross_attn_mlp_gate": "model-00003-of-00003.safetensors",
     "language_model.model.layers.38.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.7.self_attn.v_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.k_norm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.cross_attn.k_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.cross_attn.k_proj.weight_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.cross_attn.o_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.cross_attn.o_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.q_norm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.cross_attn.q_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.cross_attn.q_proj.weight_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.cross_attn.v_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.cross_attn.v_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn_attn_gate": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.cross_attn_mlp_gate": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.mlp.up_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.input_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.gate_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.gate_proj.weight_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.up_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.mlp.up_proj.weight_scale": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.self_attn.k_proj.input_scale": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
     "language_model.model.layers.9.self_attn.k_proj.weight_scale": "model-00001-of-00003.safetensors",