NexVeridian commited on Aug 30

Commit

e552f60

verified ·

1 Parent(s): fa26739

Add files using upload-large-folder tool

Browse files

Files changed (18) hide show

README.md +1 -1
chat_template.jinja +67 -133
config.json +1754 -4
generation_config.json +2 -1
model-00001-of-00013.safetensors +2 -2
model-00002-of-00013.safetensors +2 -2
model-00003-of-00013.safetensors +2 -2
model-00004-of-00013.safetensors +2 -2
model-00005-of-00013.safetensors +2 -2
model-00006-of-00013.safetensors +2 -2
model-00007-of-00013.safetensors +2 -2
model-00008-of-00013.safetensors +2 -2
model-00009-of-00013.safetensors +2 -2
model-00010-of-00013.safetensors +2 -2
model-00011-of-00013.safetensors +2 -2
model-00012-of-00013.safetensors +2 -2
model-00013-of-00013.safetensors +2 -2
model.safetensors.index.json +287 -395

README.md CHANGED Viewed

@@ -12,7 +12,7 @@ base_model: openai/gpt-oss-120b
 This model [NexVeridian/gpt-oss-120b-4bit](https://huggingface.co/NexVeridian/gpt-oss-120b-4bit) was
 converted to MLX format from [openai/gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b)
-using mlx-lm version **0.26.3**.
 ## Use with mlx

 This model [NexVeridian/gpt-oss-120b-4bit](https://huggingface.co/NexVeridian/gpt-oss-120b-4bit) was
 converted to MLX format from [openai/gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b)
+using mlx-lm version **0.27.0**.
 ## Use with mlx

chat_template.jinja CHANGED Viewed

@@ -84,8 +84,7 @@
     {%- elif param_spec.type == "object" -%}
         {%- if param_spec.properties -%}
-            {{- "{
-" }}
             {%- for prop_name, prop_spec in param_spec.properties.items() -%}
                 {{- prop_name -}}
                 {%- if prop_name not in (param_spec.required or []) -%}
@@ -107,24 +106,17 @@
 {%- endmacro -%}
 {%- macro render_tool_namespace(namespace_name, tools) -%}
-    {{- "## " + namespace_name + "
-" }}
-    {{- "namespace " + namespace_name + " {
-" }}
     {%- for tool in tools %}
         {%- set tool = tool.function %}
-        {{- "// " + tool.description + "
-" }}
         {{- "type "+ tool.name + " = " }}
         {%- if tool.parameters and tool.parameters.properties %}
-            {{- "(_: {
-" }}
             {%- for param_name, param_spec in tool.parameters.properties.items() %}
                 {%- if param_spec.description %}
-                    {{- "// " + param_spec.description + "
-" }}
                 {%- endif %}
                 {{- param_name }}
                 {%- if param_name not in (tool.parameters.required or []) -%}
@@ -142,20 +134,14 @@
                     {%- endif -%}
                 {%- endif -%}
                 {%- if not loop.last %}
-                    {{- ",
-" }}
                 {%- else %}
-                    {{- "
-" }}
                 {%- endif -%}
             {%- endfor %}
-            {{- "}) => any;
-" }}
         {%- else -%}
-            {{- "() => any;
-" }}
         {%- endif -%}
     {%- endfor %}
     {{- "} // namespace " + namespace_name }}
@@ -163,92 +149,46 @@
 {%- macro render_builtin_tools(browser_tool, python_tool) -%}
     {%- if browser_tool %}
-        {{- "## browser
-" }}
-        {{- "// Tool for browsing.
-" }}
-        {{- "// The `cursor` appears in brackets before each browsing display: `[{cursor}]`.
-" }}
-        {{- "// Cite information from the tool using the following format:
-" }}
-        {{- "// `【{cursor}†L{line_start}(-L{line_end})?】`, for example: `【6†L9-L11】` or `【8†L3】`.
-" }}
-        {{- "// Do not quote more than 10 words directly from the tool output.
-" }}
-        {{- "// sources=web (default: web)
-" }}
-        {{- "namespace browser {
-" }}
-        {{- "// Searches for information related to `query` and displays `topn` results.
-" }}
-        {{- "type search = (_: {
-" }}
-        {{- "query: string,
-" }}
-        {{- "topn?: number, // default: 10
-" }}
-        {{- "source?: string,
-" }}
-        {{- "}) => any;
-" }}
-        {{- "// Opens the link `id` from the page indicated by `cursor` starting at line number `loc`, showing `num_lines` lines.
-" }}
-        {{- "// Valid link ids are displayed with the formatting: `【{id}†.*】`.
-" }}
-        {{- "// If `cursor` is not provided, the most recent page is implied.
-" }}
-        {{- "// If `id` is a string, it is treated as a fully qualified URL associated with `source`.
-" }}
-        {{- "// If `loc` is not provided, the viewport will be positioned at the beginning of the document or centered on the most relevant passage, if available.
-" }}
-        {{- "// Use this function without `id` to scroll to a new location of an opened page.
-" }}
-        {{- "type open = (_: {
-" }}
-        {{- "id?: number | string, // default: -1
-" }}
-        {{- "cursor?: number, // default: -1
-" }}
-        {{- "loc?: number, // default: -1
-" }}
-        {{- "num_lines?: number, // default: -1
-" }}
-        {{- "view_source?: boolean, // default: false
-" }}
-        {{- "source?: string,
-" }}
-        {{- "}) => any;
-" }}
-        {{- "// Finds exact matches of `pattern` in the current page, or the page given by `cursor`.
-" }}
-        {{- "type find = (_: {
-" }}
-        {{- "pattern: string,
-" }}
-        {{- "cursor?: number, // default: -1
-" }}
-        {{- "}) => any;
-" }}
-        {{- "} // namespace browser
-" }}
     {%- endif -%}
     {%- if python_tool %}
-        {{- "## python
-" }}
-        {{- "Use this tool to execute Python code in your chain of thought. The code will not be shown to the user. This tool should be used for internal reasoning, but not for code that is intended to be visible to the user (e.g. when creating plots, tables, or files).
-" }}
-        {{- "When you send a message containing Python code to python, it will be executed in a stateful Jupyter notebook environment. python will respond with the output of the execution or time out after 120.0 seconds. The drive at '/mnt/data' can be used to save and persist user files. Internet access for this session is UNKNOWN. Depends on the cluster.
-" }}
     {%- endif -%}
 {%- endmacro -%}
@@ -257,23 +197,15 @@
     {%- if model_identity is not defined %}
         {%- set model_identity = "You are ChatGPT, a large language model trained by OpenAI." %}
     {%- endif %}
-    {{- model_identity + "
-" }}
-    {{- "Knowledge cutoff: 2024-06
-" }}
-    {{- "Current date: " + strftime_now("%Y-%m-%d") + "
-" }}
     {%- if reasoning_effort is not defined %}
         {%- set reasoning_effort = "medium" %}
     {%- endif %}
-    {{- "Reasoning: " + reasoning_effort + "
-" }}
     {%- if builtin_tools %}
-        {{- "# Tools
-" }}
         {%- set available_builtin_tools = namespace(browser=false, python=false) %}
         {%- for tool in builtin_tools %}
             {%- if tool == "browser" %}
@@ -286,8 +218,7 @@
     {%- endif -%}
     {{- "# Valid channels: analysis, commentary, final. Channel must be included for every message." }}
     {%- if tools -%}
-        {{- "
-Calls to these tools must go to the commentary channel: 'functions'." }}
     {%- endif -%}
 {%- endmacro -%}
@@ -312,18 +243,12 @@ Calls to these tools must go to the commentary channel: 'functions'." }}
 {%- if developer_message or tools %}
     {{- "<|start|>developer<|message|>" }}
     {%- if developer_message %}
-        {{- "# Instructions
-" }}
         {{- developer_message }}
     {%- endif %}
     {%- if tools -%}
-        {{- "
-" }}
-        {{- "# Tools
-" }}
         {{- render_tool_namespace("functions", tools) }}
     {%- endif -%}
     {{- "<|end|>" }}
@@ -346,6 +271,15 @@ Calls to these tools must go to the commentary channel: 'functions'." }}
             {%- endif %}
         {%- endif %}
         {%- if "tool_calls" in message %}
             {#- We assume max 1 tool call per message, and so we infer the tool call name #}
             {#- in "tool" messages from the most recent assistant tool call name #}
             {%- set tool_call = message.tool_calls[0] %}
@@ -354,9 +288,9 @@ Calls to these tools must go to the commentary channel: 'functions'." }}
             {%- endif %}
             {%- if message.content and message.thinking %}
                 {{- raise_exception("Cannot pass both content and thinking in an assistant message with tool calls! Put the analysis message in one or the other, but not both.") }}
-            {%- elif message.content %}
                 {{- "<|start|>assistant<|channel|>analysis<|message|>" + message.content + "<|end|>" }}
-            {%- elif message.thinking %}
                 {{- "<|start|>assistant<|channel|>analysis<|message|>" + message.thinking + "<|end|>" }}
             {%- endif %}
             {{- "<|start|>assistant to=" }}

     {%- elif param_spec.type == "object" -%}
         {%- if param_spec.properties -%}
+            {{- "{\n" }}
             {%- for prop_name, prop_spec in param_spec.properties.items() -%}
                 {{- prop_name -}}
                 {%- if prop_name not in (param_spec.required or []) -%}
 {%- endmacro -%}
 {%- macro render_tool_namespace(namespace_name, tools) -%}
+    {{- "## " + namespace_name + "\n\n" }}
+    {{- "namespace " + namespace_name + " {\n\n" }}
     {%- for tool in tools %}
         {%- set tool = tool.function %}
+        {{- "// " + tool.description + "\n" }}
         {{- "type "+ tool.name + " = " }}
         {%- if tool.parameters and tool.parameters.properties %}
+            {{- "(_: {\n" }}
             {%- for param_name, param_spec in tool.parameters.properties.items() %}
                 {%- if param_spec.description %}
+                    {{- "// " + param_spec.description + "\n" }}
                 {%- endif %}
                 {{- param_name }}
                 {%- if param_name not in (tool.parameters.required or []) -%}
                     {%- endif -%}
                 {%- endif -%}
                 {%- if not loop.last %}
+                    {{- ",\n" }}
                 {%- else %}
+                    {{- ",\n" }}
                 {%- endif -%}
             {%- endfor %}
+            {{- "}) => any;\n\n" }}
         {%- else -%}
+            {{- "() => any;\n\n" }}
         {%- endif -%}
     {%- endfor %}
     {{- "} // namespace " + namespace_name }}
 {%- macro render_builtin_tools(browser_tool, python_tool) -%}
     {%- if browser_tool %}
+        {{- "## browser\n\n" }}
+        {{- "// Tool for browsing.\n" }}
+        {{- "// The `cursor` appears in brackets before each browsing display: `[{cursor}]`.\n" }}
+        {{- "// Cite information from the tool using the following format:\n" }}
+        {{- "// `【{cursor}†L{line_start}(-L{line_end})?】`, for example: `【6†L9-L11】` or `【8†L3】`.\n" }}
+        {{- "// Do not quote more than 10 words directly from the tool output.\n" }}
+        {{- "// sources=web (default: web)\n" }}
+        {{- "namespace browser {\n\n" }}
+        {{- "// Searches for information related to `query` and displays `topn` results.\n" }}
+        {{- "type search = (_: {\n" }}
+        {{- "query: string,\n" }}
+        {{- "topn?: number, // default: 10\n" }}
+        {{- "source?: string,\n" }}
+        {{- "}) => any;\n\n" }}
+        {{- "// Opens the link `id` from the page indicated by `cursor` starting at line number `loc`, showing `num_lines` lines.\n" }}
+        {{- "// Valid link ids are displayed with the formatting: `【{id}†.*】`.\n" }}
+        {{- "// If `cursor` is not provided, the most recent page is implied.\n" }}
+        {{- "// If `id` is a string, it is treated as a fully qualified URL associated with `source`.\n" }}
+        {{- "// If `loc` is not provided, the viewport will be positioned at the beginning of the document or centered on the most relevant passage, if available.\n" }}
+        {{- "// Use this function without `id` to scroll to a new location of an opened page.\n" }}
+        {{- "type open = (_: {\n" }}
+        {{- "id?: number | string, // default: -1\n" }}
+        {{- "cursor?: number, // default: -1\n" }}
+        {{- "loc?: number, // default: -1\n" }}
+        {{- "num_lines?: number, // default: -1\n" }}
+        {{- "view_source?: boolean, // default: false\n" }}
+        {{- "source?: string,\n" }}
+        {{- "}) => any;\n\n" }}
+        {{- "// Finds exact matches of `pattern` in the current page, or the page given by `cursor`.\n" }}
+        {{- "type find = (_: {\n" }}
+        {{- "pattern: string,\n" }}
+        {{- "cursor?: number, // default: -1\n" }}
+        {{- "}) => any;\n\n" }}
+        {{- "} // namespace browser\n\n" }}
     {%- endif -%}
     {%- if python_tool %}
+        {{- "## python\n\n" }}
+        {{- "Use this tool to execute Python code in your chain of thought. The code will not be shown to the user. This tool should be used for internal reasoning, but not for code that is intended to be visible to the user (e.g. when creating plots, tables, or files).\n\n" }}
+        {{- "When you send a message containing Python code to python, it will be executed in a stateful Jupyter notebook environment. python will respond with the output of the execution or time out after 120.0 seconds. The drive at '/mnt/data' can be used to save and persist user files. Internet access for this session is UNKNOWN. Depends on the cluster.\n\n" }}
     {%- endif -%}
 {%- endmacro -%}
     {%- if model_identity is not defined %}
         {%- set model_identity = "You are ChatGPT, a large language model trained by OpenAI." %}
     {%- endif %}
+    {{- model_identity + "\n" }}
+    {{- "Knowledge cutoff: 2024-06\n" }}
+    {{- "Current date: " + strftime_now("%Y-%m-%d") + "\n\n" }}
     {%- if reasoning_effort is not defined %}
         {%- set reasoning_effort = "medium" %}
     {%- endif %}
+    {{- "Reasoning: " + reasoning_effort + "\n\n" }}
     {%- if builtin_tools %}
+        {{- "# Tools\n\n" }}
         {%- set available_builtin_tools = namespace(browser=false, python=false) %}
         {%- for tool in builtin_tools %}
             {%- if tool == "browser" %}
     {%- endif -%}
     {{- "# Valid channels: analysis, commentary, final. Channel must be included for every message." }}
     {%- if tools -%}
+        {{- "\nCalls to these tools must go to the commentary channel: 'functions'." }}
     {%- endif -%}
 {%- endmacro -%}
 {%- if developer_message or tools %}
     {{- "<|start|>developer<|message|>" }}
     {%- if developer_message %}
+        {{- "# Instructions\n\n" }}
         {{- developer_message }}
+        {{- "\n\n" }}
     {%- endif %}
     {%- if tools -%}
+        {{- "# Tools\n\n" }}
         {{- render_tool_namespace("functions", tools) }}
     {%- endif -%}
     {{- "<|end|>" }}
             {%- endif %}
         {%- endif %}
         {%- if "tool_calls" in message %}
+            {#- We need very careful handling here - we want to drop the tool call analysis message if the model #}
+            {#- has output a later <|final|> message, but otherwise we want to retain it. This is the only case #}
+            {#- when we render CoT/analysis messages in inference. #}
+            {%- set future_final_message = namespace(found=false) %}
+            {%- for future_message in loop_messages[loop.index:] %}
+                {%- if future_message.role == 'assistant' and "tool_calls" not in future_message %}
+                    {%- set future_final_message.found = true %}
+                {%- endif %}
+            {%- endfor %}
             {#- We assume max 1 tool call per message, and so we infer the tool call name #}
             {#- in "tool" messages from the most recent assistant tool call name #}
             {%- set tool_call = message.tool_calls[0] %}
             {%- endif %}
             {%- if message.content and message.thinking %}
                 {{- raise_exception("Cannot pass both content and thinking in an assistant message with tool calls! Put the analysis message in one or the other, but not both.") }}
+            {%- elif message.content and not future_final_message.found %}
                 {{- "<|start|>assistant<|channel|>analysis<|message|>" + message.content + "<|end|>" }}
+            {%- elif message.thinking and not future_final_message.found %}
                 {{- "<|start|>assistant<|channel|>analysis<|message|>" + message.thinking + "<|end|>" }}
             {%- endif %}
             {{- "<|start|>assistant to=" }}

config.json CHANGED Viewed

@@ -60,12 +60,1762 @@
     "output_router_logits": false,
     "pad_token_id": 199999,
     "quantization": {
-        "group_size": 64,
-        "bits": 4
     },
     "quantization_config": {
-        "group_size": 64,
-        "bits": 4
     },
     "rms_norm_eps": 1e-05,
     "rope_scaling": {

     "output_router_logits": false,
     "pad_token_id": 199999,
     "quantization": {
+        "group_size": 32,
+        "bits": 4,
+        "mode": "mxfp4",
+        "model.embed_tokens": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.1.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.1.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.1.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.1.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.1.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.2.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.2.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.2.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.2.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.2.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.3.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.3.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.3.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.3.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.3.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.4.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.4.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.4.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.4.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.4.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.5.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.5.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.5.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.5.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.5.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.6.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.6.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.6.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.6.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.6.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.7.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.7.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.7.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.7.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.7.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.8.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.8.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.8.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.8.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.8.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.9.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.9.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.9.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.9.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.9.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.10.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.10.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.10.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.10.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.10.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.11.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.11.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.11.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.11.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.11.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.12.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.12.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.12.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.12.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.12.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.13.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.13.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.13.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.13.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.13.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.14.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.14.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.14.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.14.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.14.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.15.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.15.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.15.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.15.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.15.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.16.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.16.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.16.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.16.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.16.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.17.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.17.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.17.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.17.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.17.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.18.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.18.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.18.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.18.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.18.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.19.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.19.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.19.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.19.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.19.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.20.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.20.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.20.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.20.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.20.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.21.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.21.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.21.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.21.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.21.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.22.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.22.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.22.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.22.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.22.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.23.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.23.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.23.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.23.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.23.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.24.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.24.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.24.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.24.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.24.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.25.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.25.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.25.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.25.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.25.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.26.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.26.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.26.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.26.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.26.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.27.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.27.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.27.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.27.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.27.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.28.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.28.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.28.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.28.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.28.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.29.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.29.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.29.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.29.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.29.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.30.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.30.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.30.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.30.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.30.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.31.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.31.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.31.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.31.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.31.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.32.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.32.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.32.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.32.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.32.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.33.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.33.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.33.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.33.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.33.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.34.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.34.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.34.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.34.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.34.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.35.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.35.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.35.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.35.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.35.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "lm_head": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        }
     },
     "quantization_config": {
+        "group_size": 32,
+        "bits": 4,
+        "mode": "mxfp4",
+        "model.embed_tokens": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.0.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.1.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.1.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.1.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.1.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.1.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.2.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.2.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.2.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.2.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.2.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.3.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.3.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.3.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.3.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.3.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.4.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.4.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.4.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.4.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.4.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.5.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.5.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.5.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.5.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.5.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.6.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.6.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.6.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.6.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.6.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.7.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.7.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.7.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.7.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.7.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.8.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.8.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.8.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.8.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.8.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.9.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.9.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.9.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.9.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.9.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.10.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.10.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.10.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.10.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.10.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.11.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.11.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.11.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.11.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.11.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.12.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.12.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.12.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.12.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.12.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.13.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.13.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.13.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.13.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.13.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.14.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.14.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.14.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.14.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.14.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.15.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.15.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.15.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.15.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.15.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.16.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.16.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.16.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.16.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.16.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.17.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.17.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.17.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.17.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.17.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.18.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.18.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.18.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.18.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.18.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.19.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.19.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.19.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.19.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.19.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.20.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.20.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.20.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.20.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.20.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.21.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.21.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.21.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.21.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.21.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.22.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.22.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.22.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.22.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.22.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.23.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.23.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.23.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.23.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.23.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.24.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.24.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.24.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.24.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.24.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.25.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.25.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.25.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.25.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.25.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.26.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.26.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.26.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.26.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.26.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.27.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.27.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.27.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.27.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.27.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.28.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.28.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.28.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.28.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.28.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.29.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.29.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.29.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.29.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.29.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.30.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.30.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.30.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.30.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.30.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.31.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.31.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.31.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.31.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.31.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.32.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.32.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.32.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.32.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.32.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.33.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.33.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.33.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.33.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.33.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.34.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.34.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.34.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.34.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.34.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "model.layers.35.self_attn.q_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.35.self_attn.k_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.35.self_attn.v_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.35.self_attn.o_proj": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        },
+        "model.layers.35.mlp.router": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "lm_head": {
+            "group_size": 64,
+            "bits": 4,
+            "mode": "affine"
+        }
     },
     "rms_norm_eps": 1e-05,
     "rope_scaling": {

generation_config.json CHANGED Viewed

@@ -3,7 +3,8 @@
   "do_sample": true,
   "eos_token_id": [
     200002,
-    199999
   ],
   "pad_token_id": 199999,
   "transformers_version": "4.55.0.dev0"

   "do_sample": true,
   "eos_token_id": [
     200002,
+    199999,
+    200012
   ],
   "pad_token_id": 199999,
   "transformers_version": "4.55.0.dev0"

model-00001-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d61e9c197a7f18a3f78e8c5ddc86a3d3cb2299ec61cee8fc6550ed3142c8208
-size 5154528757

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd358642c5c70080f15ae4dc4850d13e282be56ee2cb81cd7e47b2ddb37ce5ae
+size 4889475597

model-00002-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:585d025ddebfa4d8da9cb776a192cda24027f99479fdbcc55e7321a2d0ba5ef2
-size 5359821538

 version https://git-lfs.github.com/spec/v1
+oid sha256:59bc7abcaca624b31a08e062799142e8553b915911ff097295d6c8577036a7b6
+size 5128867805

model-00003-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a88a694c0eed9f63516bde70351186bed511e452e8774f3f6c0a160e985855cc
-size 4896072625

 version https://git-lfs.github.com/spec/v1
+oid sha256:764b6a85f3aebda5a289fb3291c43cc2402ff7e8f1514cbf2f00e78b2deda216
+size 5128867817

model-00004-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68985d43180d29f8d64fc28e4eca8779e3bd67f941b8d33b876c504720993265
-size 5359821403

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4e4d2a84ad98021d777f53d4717eaec17338ea5079361197221164c61c199ca
+size 5128867806

model-00005-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e9672b3a40c18c2300bb0f3e9bc803e68bd80f98583e556405a00d72d4ac3e5
-size 4896072747

 version https://git-lfs.github.com/spec/v1
+oid sha256:48971dbba87d315c9af96143f879b674329edf65526f3db41f0a3f854b4d6ba2
+size 5128867937

model-00006-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5e2991df6b66c07270b19eadf7a79f4d6949e0ee37d33338978aec664b68124
-size 5344653819

 version https://git-lfs.github.com/spec/v1
+oid sha256:975f0a09177a331a08411a72bf80fd345f59e0c5de6ca2c86a8fe1249f76a2d5
+size 5128867857

model-00007-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca428d9a23994c50f35965d60bc487325315dcd8188b3f36ad5af5ff1e88f3fa
-size 4896072771

 version https://git-lfs.github.com/spec/v1
+oid sha256:1699fcaaebbf59a72e6c4b85b760ac6e27d1c26d6d235a555d46195e1574fee3
+size 5128867933

model-00008-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a11ee61e016e3bd55ad88cb25c16a6a7d8f59877abed2d49d042327f38b76de
-size 5359821670

 version https://git-lfs.github.com/spec/v1
+oid sha256:207457e810f88fe7285104104a58c1b5b1571f3dbd0c45add65b5a979595f5eb
+size 5128867907

model-00009-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d6b302051d253b106778d38e2d1943fe93f95578f4cafdf33e7eb5c0e337b80
-size 4896072725

 version https://git-lfs.github.com/spec/v1
+oid sha256:901125482399ebb09a78767b7b6d1b05549a5b8ee6482a25684283745773ca90
+size 5128867905

model-00010-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6891dae45de1ac295332ae17e444116d272196c5a715ddabc8b604cb21cd361f
-size 5359821628

 version https://git-lfs.github.com/spec/v1
+oid sha256:f39dc4bd4780653eb4a874a9cf23477cb123cd7798c367142c81be40dd2be4a6
+size 5128867921

model-00011-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c185ad8907180b5d6cb387918ed75bf4886563c6099a364d83a92ce49a1694bb
-size 4896072681

 version https://git-lfs.github.com/spec/v1
+oid sha256:c44627235138c1553e1036d9043b492a065be604fc22c5d845b16d90e69ba4ee
+size 5128867937

model-00012-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab2fc1e6a7ef9f3a4e954ada02caefb7e079f2f55362e75299152abcbb7ef5d0
-size 5344653887

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2fe971dce8a424b9687fc79ca1332616e1bfb5f6d6f77bf6fb115767a63a186
+size 5128867921

model-00013-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f99813a191248a830e460c88957909e5b310d32efe8e1147522e0fc7b5b9a718
-size 4011018459

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc4057ba3da05c4e0d33e3435b19a12dacefb6fe222c7e95c7aa83dab35f28af
+size 890923814

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
     "metadata": {
-        "total_size": 65774358144,
         "total_parameters": 116829154368
     },
     "weight_map": {
@@ -12,15 +12,12 @@
         "model.embed_tokens.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.input_layernorm.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.down_proj.bias": "model-00001-of-00013.safetensors",
-        "model.layers.0.mlp.experts.down_proj.biases": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.down_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.down_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.gate_proj.bias": "model-00001-of-00013.safetensors",
-        "model.layers.0.mlp.experts.gate_proj.biases": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.gate_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.gate_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.up_proj.bias": "model-00001-of-00013.safetensors",
-        "model.layers.0.mlp.experts.up_proj.biases": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.up_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.up_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.router.bias": "model-00001-of-00013.safetensors",
@@ -47,15 +44,12 @@
         "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.input_layernorm.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.down_proj.bias": "model-00001-of-00013.safetensors",
-        "model.layers.1.mlp.experts.down_proj.biases": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.down_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.down_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.gate_proj.bias": "model-00001-of-00013.safetensors",
-        "model.layers.1.mlp.experts.gate_proj.biases": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.gate_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.gate_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.up_proj.bias": "model-00001-of-00013.safetensors",
-        "model.layers.1.mlp.experts.up_proj.biases": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.up_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.up_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.router.bias": "model-00001-of-00013.safetensors",
@@ -82,15 +76,12 @@
         "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.10.input_layernorm.weight": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.down_proj.bias": "model-00004-of-00013.safetensors",
-        "model.layers.10.mlp.experts.down_proj.biases": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.down_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.down_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.gate_proj.bias": "model-00004-of-00013.safetensors",
-        "model.layers.10.mlp.experts.gate_proj.biases": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.gate_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.gate_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.up_proj.bias": "model-00004-of-00013.safetensors",
-        "model.layers.10.mlp.experts.up_proj.biases": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.up_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.up_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.router.bias": "model-00004-of-00013.safetensors",
@@ -117,17 +108,14 @@
         "model.layers.10.self_attn.v_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.11.input_layernorm.weight": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.experts.down_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.11.mlp.experts.down_proj.biases": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.experts.down_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.experts.down_proj.weight": "model-00005-of-00013.safetensors",
-        "model.layers.11.mlp.experts.gate_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.11.mlp.experts.gate_proj.biases": "model-00005-of-00013.safetensors",
-        "model.layers.11.mlp.experts.gate_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.experts.gate_proj.weight": "model-00004-of-00013.safetensors",
-        "model.layers.11.mlp.experts.up_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.11.mlp.experts.up_proj.biases": "model-00005-of-00013.safetensors",
-        "model.layers.11.mlp.experts.up_proj.scales": "model-00005-of-00013.safetensors",
-        "model.layers.11.mlp.experts.up_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.router.bias": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.router.biases": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.router.scales": "model-00005-of-00013.safetensors",
@@ -152,15 +140,12 @@
         "model.layers.11.self_attn.v_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.12.input_layernorm.weight": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.down_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.12.mlp.experts.down_proj.biases": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.down_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.down_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.gate_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.12.mlp.experts.gate_proj.biases": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.gate_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.gate_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.up_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.12.mlp.experts.up_proj.biases": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.up_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.up_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.router.bias": "model-00005-of-00013.safetensors",
@@ -187,15 +172,12 @@
         "model.layers.12.self_attn.v_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.input_layernorm.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.down_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.13.mlp.experts.down_proj.biases": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.down_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.down_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.gate_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.13.mlp.experts.gate_proj.biases": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.gate_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.gate_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.up_proj.bias": "model-00005-of-00013.safetensors",
-        "model.layers.13.mlp.experts.up_proj.biases": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.up_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.up_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.router.bias": "model-00005-of-00013.safetensors",
@@ -222,17 +204,14 @@
         "model.layers.13.self_attn.v_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.14.input_layernorm.weight": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.experts.down_proj.bias": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.down_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.experts.down_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.experts.down_proj.weight": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.gate_proj.bias": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.gate_proj.biases": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.gate_proj.scales": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.gate_proj.weight": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.up_proj.bias": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.up_proj.biases": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.up_proj.scales": "model-00006-of-00013.safetensors",
-        "model.layers.14.mlp.experts.up_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.router.bias": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.router.biases": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.router.scales": "model-00006-of-00013.safetensors",
@@ -257,15 +236,12 @@
         "model.layers.14.self_attn.v_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.15.input_layernorm.weight": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.down_proj.bias": "model-00006-of-00013.safetensors",
-        "model.layers.15.mlp.experts.down_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.down_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.down_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.gate_proj.bias": "model-00006-of-00013.safetensors",
-        "model.layers.15.mlp.experts.gate_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.gate_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.gate_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.up_proj.bias": "model-00006-of-00013.safetensors",
-        "model.layers.15.mlp.experts.up_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.up_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.up_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.router.bias": "model-00006-of-00013.safetensors",
@@ -290,24 +266,21 @@
         "model.layers.15.self_attn.v_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.15.self_attn.v_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.15.self_attn.v_proj.weight": "model-00006-of-00013.safetensors",
-        "model.layers.16.input_layernorm.weight": "model-00007-of-00013.safetensors",
-        "model.layers.16.mlp.experts.down_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.16.mlp.experts.down_proj.biases": "model-00007-of-00013.safetensors",
-        "model.layers.16.mlp.experts.down_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.16.mlp.experts.down_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.gate_proj.bias": "model-00006-of-00013.safetensors",
-        "model.layers.16.mlp.experts.gate_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.gate_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.gate_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.up_proj.bias": "model-00006-of-00013.safetensors",
-        "model.layers.16.mlp.experts.up_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.up_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.up_proj.weight": "model-00006-of-00013.safetensors",
-        "model.layers.16.mlp.router.bias": "model-00007-of-00013.safetensors",
-        "model.layers.16.mlp.router.biases": "model-00007-of-00013.safetensors",
-        "model.layers.16.mlp.router.scales": "model-00007-of-00013.safetensors",
-        "model.layers.16.mlp.router.weight": "model-00007-of-00013.safetensors",
-        "model.layers.16.post_attention_layernorm.weight": "model-00007-of-00013.safetensors",
         "model.layers.16.self_attn.k_proj.bias": "model-00006-of-00013.safetensors",
         "model.layers.16.self_attn.k_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.16.self_attn.k_proj.scales": "model-00006-of-00013.safetensors",
@@ -327,50 +300,44 @@
         "model.layers.16.self_attn.v_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.17.input_layernorm.weight": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.experts.down_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.down_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.experts.down_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.experts.down_proj.weight": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.gate_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.gate_proj.biases": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.gate_proj.scales": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.gate_proj.weight": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.up_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.up_proj.biases": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.up_proj.scales": "model-00007-of-00013.safetensors",
-        "model.layers.17.mlp.experts.up_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.router.bias": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.router.biases": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.router.scales": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.router.weight": "model-00007-of-00013.safetensors",
         "model.layers.17.post_attention_layernorm.weight": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.k_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.k_proj.biases": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.k_proj.scales": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.k_proj.weight": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.o_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.o_proj.biases": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.o_proj.scales": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.o_proj.weight": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.q_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.q_proj.biases": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.q_proj.scales": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.q_proj.weight": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.sinks": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.v_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.v_proj.biases": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.v_proj.scales": "model-00007-of-00013.safetensors",
-        "model.layers.17.self_attn.v_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.input_layernorm.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.down_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.18.mlp.experts.down_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.down_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.down_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.gate_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.18.mlp.experts.gate_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.gate_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.gate_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.up_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.18.mlp.experts.up_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.up_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.up_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.router.bias": "model-00007-of-00013.safetensors",
@@ -395,24 +362,21 @@
         "model.layers.18.self_attn.v_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.18.self_attn.v_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.18.self_attn.v_proj.weight": "model-00007-of-00013.safetensors",
-        "model.layers.19.input_layernorm.weight": "model-00008-of-00013.safetensors",
-        "model.layers.19.mlp.experts.down_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.19.mlp.experts.down_proj.biases": "model-00008-of-00013.safetensors",
-        "model.layers.19.mlp.experts.down_proj.scales": "model-00008-of-00013.safetensors",
-        "model.layers.19.mlp.experts.down_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.19.mlp.experts.gate_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.19.mlp.experts.gate_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.gate_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.gate_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.up_proj.bias": "model-00007-of-00013.safetensors",
-        "model.layers.19.mlp.experts.up_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.up_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.up_proj.weight": "model-00007-of-00013.safetensors",
-        "model.layers.19.mlp.router.bias": "model-00008-of-00013.safetensors",
-        "model.layers.19.mlp.router.biases": "model-00008-of-00013.safetensors",
-        "model.layers.19.mlp.router.scales": "model-00008-of-00013.safetensors",
-        "model.layers.19.mlp.router.weight": "model-00008-of-00013.safetensors",
-        "model.layers.19.post_attention_layernorm.weight": "model-00008-of-00013.safetensors",
         "model.layers.19.self_attn.k_proj.bias": "model-00007-of-00013.safetensors",
         "model.layers.19.self_attn.k_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.19.self_attn.k_proj.scales": "model-00007-of-00013.safetensors",
@@ -432,15 +396,12 @@
         "model.layers.19.self_attn.v_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.2.input_layernorm.weight": "model-00002-of-00013.safetensors",
         "model.layers.2.mlp.experts.down_proj.bias": "model-00002-of-00013.safetensors",
-        "model.layers.2.mlp.experts.down_proj.biases": "model-00002-of-00013.safetensors",
         "model.layers.2.mlp.experts.down_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.2.mlp.experts.down_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.2.mlp.experts.gate_proj.bias": "model-00001-of-00013.safetensors",
-        "model.layers.2.mlp.experts.gate_proj.biases": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.gate_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.gate_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.up_proj.bias": "model-00001-of-00013.safetensors",
-        "model.layers.2.mlp.experts.up_proj.biases": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.up_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.up_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.router.bias": "model-00002-of-00013.safetensors",
@@ -467,50 +428,44 @@
         "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.20.input_layernorm.weight": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.experts.down_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.down_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.experts.down_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.experts.down_proj.weight": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.gate_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.gate_proj.biases": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.gate_proj.scales": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.gate_proj.weight": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.up_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.up_proj.biases": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.up_proj.scales": "model-00008-of-00013.safetensors",
-        "model.layers.20.mlp.experts.up_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.router.bias": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.router.biases": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.router.scales": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.router.weight": "model-00008-of-00013.safetensors",
         "model.layers.20.post_attention_layernorm.weight": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.k_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.k_proj.biases": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.k_proj.scales": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.k_proj.weight": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.o_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.o_proj.biases": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.o_proj.scales": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.o_proj.weight": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.q_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.q_proj.biases": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.q_proj.scales": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.q_proj.weight": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.sinks": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.v_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.v_proj.biases": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.v_proj.scales": "model-00008-of-00013.safetensors",
-        "model.layers.20.self_attn.v_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.input_layernorm.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.down_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.21.mlp.experts.down_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.down_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.down_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.gate_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.21.mlp.experts.gate_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.gate_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.gate_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.up_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.21.mlp.experts.up_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.up_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.up_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.router.bias": "model-00008-of-00013.safetensors",
@@ -535,24 +490,21 @@
         "model.layers.21.self_attn.v_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.21.self_attn.v_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.21.self_attn.v_proj.weight": "model-00008-of-00013.safetensors",
-        "model.layers.22.input_layernorm.weight": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.experts.down_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.experts.down_proj.biases": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.experts.down_proj.scales": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.experts.down_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.22.mlp.experts.gate_proj.bias": "model-00008-of-00013.safetensors",
-        "model.layers.22.mlp.experts.gate_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.22.mlp.experts.gate_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.22.mlp.experts.gate_proj.weight": "model-00008-of-00013.safetensors",
-        "model.layers.22.mlp.experts.up_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.experts.up_proj.biases": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.experts.up_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.22.mlp.experts.up_proj.weight": "model-00008-of-00013.safetensors",
-        "model.layers.22.mlp.router.bias": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.router.biases": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.router.scales": "model-00009-of-00013.safetensors",
-        "model.layers.22.mlp.router.weight": "model-00009-of-00013.safetensors",
-        "model.layers.22.post_attention_layernorm.weight": "model-00009-of-00013.safetensors",
         "model.layers.22.self_attn.k_proj.bias": "model-00008-of-00013.safetensors",
         "model.layers.22.self_attn.k_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.22.self_attn.k_proj.scales": "model-00008-of-00013.safetensors",
@@ -572,50 +524,44 @@
         "model.layers.22.self_attn.v_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.23.input_layernorm.weight": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.experts.down_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.down_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.experts.down_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.experts.down_proj.weight": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.gate_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.gate_proj.biases": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.gate_proj.scales": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.gate_proj.weight": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.up_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.up_proj.biases": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.up_proj.scales": "model-00009-of-00013.safetensors",
-        "model.layers.23.mlp.experts.up_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.router.bias": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.router.biases": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.router.scales": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.router.weight": "model-00009-of-00013.safetensors",
         "model.layers.23.post_attention_layernorm.weight": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.k_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.k_proj.biases": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.k_proj.scales": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.k_proj.weight": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.o_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.o_proj.biases": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.o_proj.scales": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.o_proj.weight": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.q_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.q_proj.biases": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.q_proj.scales": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.q_proj.weight": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.sinks": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.v_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.v_proj.biases": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.v_proj.scales": "model-00009-of-00013.safetensors",
-        "model.layers.23.self_attn.v_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.input_layernorm.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.down_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.24.mlp.experts.down_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.down_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.down_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.gate_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.24.mlp.experts.gate_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.gate_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.gate_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.up_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.24.mlp.experts.up_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.up_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.up_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.router.bias": "model-00009-of-00013.safetensors",
@@ -640,24 +586,21 @@
         "model.layers.24.self_attn.v_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.24.self_attn.v_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.24.self_attn.v_proj.weight": "model-00009-of-00013.safetensors",
-        "model.layers.25.input_layernorm.weight": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.experts.down_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.experts.down_proj.biases": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.experts.down_proj.scales": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.experts.down_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.25.mlp.experts.gate_proj.bias": "model-00009-of-00013.safetensors",
-        "model.layers.25.mlp.experts.gate_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.25.mlp.experts.gate_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.25.mlp.experts.gate_proj.weight": "model-00009-of-00013.safetensors",
-        "model.layers.25.mlp.experts.up_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.experts.up_proj.biases": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.experts.up_proj.scales": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.experts.up_proj.weight": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.router.bias": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.router.biases": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.router.scales": "model-00010-of-00013.safetensors",
-        "model.layers.25.mlp.router.weight": "model-00010-of-00013.safetensors",
-        "model.layers.25.post_attention_layernorm.weight": "model-00010-of-00013.safetensors",
         "model.layers.25.self_attn.k_proj.bias": "model-00009-of-00013.safetensors",
         "model.layers.25.self_attn.k_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.25.self_attn.k_proj.scales": "model-00009-of-00013.safetensors",
@@ -677,50 +620,44 @@
         "model.layers.25.self_attn.v_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.26.input_layernorm.weight": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.experts.down_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.down_proj.biases": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.experts.down_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.experts.down_proj.weight": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.gate_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.gate_proj.biases": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.gate_proj.scales": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.gate_proj.weight": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.up_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.up_proj.biases": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.up_proj.scales": "model-00010-of-00013.safetensors",
-        "model.layers.26.mlp.experts.up_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.router.bias": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.router.biases": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.router.scales": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.router.weight": "model-00010-of-00013.safetensors",
         "model.layers.26.post_attention_layernorm.weight": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.k_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.k_proj.biases": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.k_proj.scales": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.k_proj.weight": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.o_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.o_proj.biases": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.o_proj.scales": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.o_proj.weight": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.q_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.q_proj.biases": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.q_proj.scales": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.q_proj.weight": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.sinks": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.v_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.v_proj.biases": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.v_proj.scales": "model-00010-of-00013.safetensors",
-        "model.layers.26.self_attn.v_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.input_layernorm.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.down_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.27.mlp.experts.down_proj.biases": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.down_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.down_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.gate_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.27.mlp.experts.gate_proj.biases": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.gate_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.gate_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.up_proj.bias": "model-00010-of-00013.safetensors",
-        "model.layers.27.mlp.experts.up_proj.biases": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.up_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.up_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.router.bias": "model-00010-of-00013.safetensors",
@@ -745,24 +682,21 @@
         "model.layers.27.self_attn.v_proj.biases": "model-00010-of-00013.safetensors",
         "model.layers.27.self_attn.v_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.27.self_attn.v_proj.weight": "model-00010-of-00013.safetensors",
-        "model.layers.28.input_layernorm.weight": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.down_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.down_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.down_proj.scales": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.down_proj.weight": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.gate_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.gate_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.gate_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.28.mlp.experts.gate_proj.weight": "model-00010-of-00013.safetensors",
-        "model.layers.28.mlp.experts.up_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.up_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.up_proj.scales": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.experts.up_proj.weight": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.router.bias": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.router.biases": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.router.scales": "model-00011-of-00013.safetensors",
-        "model.layers.28.mlp.router.weight": "model-00011-of-00013.safetensors",
-        "model.layers.28.post_attention_layernorm.weight": "model-00011-of-00013.safetensors",
         "model.layers.28.self_attn.k_proj.bias": "model-00010-of-00013.safetensors",
         "model.layers.28.self_attn.k_proj.biases": "model-00010-of-00013.safetensors",
         "model.layers.28.self_attn.k_proj.scales": "model-00010-of-00013.safetensors",
@@ -782,50 +716,44 @@
         "model.layers.28.self_attn.v_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.29.input_layernorm.weight": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.experts.down_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.down_proj.biases": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.experts.down_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.experts.down_proj.weight": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.gate_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.gate_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.gate_proj.scales": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.gate_proj.weight": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.up_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.up_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.up_proj.scales": "model-00011-of-00013.safetensors",
-        "model.layers.29.mlp.experts.up_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.router.bias": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.router.biases": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.router.scales": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.router.weight": "model-00011-of-00013.safetensors",
         "model.layers.29.post_attention_layernorm.weight": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.k_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.k_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.k_proj.scales": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.k_proj.weight": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.o_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.o_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.o_proj.scales": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.o_proj.weight": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.q_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.q_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.q_proj.scales": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.q_proj.weight": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.sinks": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.v_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.v_proj.biases": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.v_proj.scales": "model-00011-of-00013.safetensors",
-        "model.layers.29.self_attn.v_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.3.input_layernorm.weight": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.down_proj.bias": "model-00002-of-00013.safetensors",
-        "model.layers.3.mlp.experts.down_proj.biases": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.down_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.down_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.gate_proj.bias": "model-00002-of-00013.safetensors",
-        "model.layers.3.mlp.experts.gate_proj.biases": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.gate_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.gate_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.up_proj.bias": "model-00002-of-00013.safetensors",
-        "model.layers.3.mlp.experts.up_proj.biases": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.up_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.up_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.router.bias": "model-00002-of-00013.safetensors",
@@ -852,15 +780,12 @@
         "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.30.input_layernorm.weight": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.down_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.30.mlp.experts.down_proj.biases": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.down_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.down_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.gate_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.30.mlp.experts.gate_proj.biases": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.gate_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.gate_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.up_proj.bias": "model-00011-of-00013.safetensors",
-        "model.layers.30.mlp.experts.up_proj.biases": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.up_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.up_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.router.bias": "model-00011-of-00013.safetensors",
@@ -885,24 +810,21 @@
         "model.layers.30.self_attn.v_proj.biases": "model-00011-of-00013.safetensors",
         "model.layers.30.self_attn.v_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.30.self_attn.v_proj.weight": "model-00011-of-00013.safetensors",
-        "model.layers.31.input_layernorm.weight": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.down_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.down_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.down_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.down_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.gate_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.gate_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.gate_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.gate_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.up_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.up_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.up_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.experts.up_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.router.bias": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.router.biases": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.router.scales": "model-00012-of-00013.safetensors",
-        "model.layers.31.mlp.router.weight": "model-00012-of-00013.safetensors",
-        "model.layers.31.post_attention_layernorm.weight": "model-00012-of-00013.safetensors",
         "model.layers.31.self_attn.k_proj.bias": "model-00011-of-00013.safetensors",
         "model.layers.31.self_attn.k_proj.biases": "model-00011-of-00013.safetensors",
         "model.layers.31.self_attn.k_proj.scales": "model-00011-of-00013.safetensors",
@@ -922,57 +844,51 @@
         "model.layers.31.self_attn.v_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.32.input_layernorm.weight": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.experts.down_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.down_proj.biases": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.experts.down_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.experts.down_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.gate_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.gate_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.gate_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.gate_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.up_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.up_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.up_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.32.mlp.experts.up_proj.weight": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.router.bias": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.router.biases": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.router.scales": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.router.weight": "model-00012-of-00013.safetensors",
         "model.layers.32.post_attention_layernorm.weight": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.k_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.k_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.k_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.k_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.o_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.o_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.o_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.o_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.q_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.q_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.q_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.q_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.sinks": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.v_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.v_proj.biases": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.v_proj.scales": "model-00012-of-00013.safetensors",
-        "model.layers.32.self_attn.v_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.33.input_layernorm.weight": "model-00013-of-00013.safetensors",
-        "model.layers.33.mlp.experts.down_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.33.mlp.experts.down_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.33.mlp.experts.down_proj.scales": "model-00013-of-00013.safetensors",
         "model.layers.33.mlp.experts.down_proj.weight": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.gate_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.33.mlp.experts.gate_proj.biases": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.gate_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.gate_proj.weight": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.up_proj.bias": "model-00012-of-00013.safetensors",
-        "model.layers.33.mlp.experts.up_proj.biases": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.up_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.up_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.33.mlp.router.bias": "model-00013-of-00013.safetensors",
-        "model.layers.33.mlp.router.biases": "model-00013-of-00013.safetensors",
-        "model.layers.33.mlp.router.scales": "model-00013-of-00013.safetensors",
-        "model.layers.33.mlp.router.weight": "model-00013-of-00013.safetensors",
-        "model.layers.33.post_attention_layernorm.weight": "model-00013-of-00013.safetensors",
         "model.layers.33.self_attn.k_proj.bias": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.k_proj.biases": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.k_proj.scales": "model-00012-of-00013.safetensors",
@@ -990,87 +906,78 @@
         "model.layers.33.self_attn.v_proj.biases": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.v_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.v_proj.weight": "model-00012-of-00013.safetensors",
-        "model.layers.34.input_layernorm.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.down_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.down_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.down_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.down_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.gate_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.gate_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.gate_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.gate_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.up_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.up_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.up_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.experts.up_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.router.bias": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.router.biases": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.router.scales": "model-00013-of-00013.safetensors",
-        "model.layers.34.mlp.router.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.post_attention_layernorm.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.k_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.k_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.k_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.k_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.o_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.o_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.o_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.o_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.q_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.q_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.q_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.q_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.sinks": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.v_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.v_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.v_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.34.self_attn.v_proj.weight": "model-00013-of-00013.safetensors",
         "model.layers.35.input_layernorm.weight": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.experts.down_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.down_proj.biases": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.experts.down_proj.scales": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.experts.down_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.gate_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.gate_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.gate_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.gate_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.up_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.up_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.up_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.35.mlp.experts.up_proj.weight": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.router.bias": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.router.biases": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.router.scales": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.router.weight": "model-00013-of-00013.safetensors",
         "model.layers.35.post_attention_layernorm.weight": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.k_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.k_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.k_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.k_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.o_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.o_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.o_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.o_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.q_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.q_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.q_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.q_proj.weight": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.sinks": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.v_proj.bias": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.v_proj.biases": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.v_proj.scales": "model-00013-of-00013.safetensors",
-        "model.layers.35.self_attn.v_proj.weight": "model-00013-of-00013.safetensors",
         "model.layers.4.input_layernorm.weight": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.down_proj.bias": "model-00002-of-00013.safetensors",
-        "model.layers.4.mlp.experts.down_proj.biases": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.down_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.down_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.gate_proj.bias": "model-00002-of-00013.safetensors",
-        "model.layers.4.mlp.experts.gate_proj.biases": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.gate_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.gate_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.up_proj.bias": "model-00002-of-00013.safetensors",
-        "model.layers.4.mlp.experts.up_proj.biases": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.up_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.up_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.router.bias": "model-00002-of-00013.safetensors",
@@ -1097,16 +1004,13 @@
         "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.5.input_layernorm.weight": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.down_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.5.mlp.experts.down_proj.biases": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.down_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.down_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.gate_proj.bias": "model-00002-of-00013.safetensors",
-        "model.layers.5.mlp.experts.gate_proj.biases": "model-00002-of-00013.safetensors",
         "model.layers.5.mlp.experts.gate_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.5.mlp.experts.gate_proj.weight": "model-00002-of-00013.safetensors",
-        "model.layers.5.mlp.experts.up_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.5.mlp.experts.up_proj.biases": "model-00003-of-00013.safetensors",
-        "model.layers.5.mlp.experts.up_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.up_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.5.mlp.router.bias": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.router.biases": "model-00003-of-00013.safetensors",
@@ -1132,15 +1036,12 @@
         "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.6.input_layernorm.weight": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.down_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.6.mlp.experts.down_proj.biases": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.down_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.down_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.gate_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.6.mlp.experts.gate_proj.biases": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.gate_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.gate_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.up_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.6.mlp.experts.up_proj.biases": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.up_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.up_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.router.bias": "model-00003-of-00013.safetensors",
@@ -1167,15 +1068,12 @@
         "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.input_layernorm.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.down_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.7.mlp.experts.down_proj.biases": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.down_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.down_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.gate_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.7.mlp.experts.gate_proj.biases": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.gate_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.gate_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.up_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.7.mlp.experts.up_proj.biases": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.up_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.up_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.router.bias": "model-00003-of-00013.safetensors",
@@ -1202,17 +1100,14 @@
         "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.8.input_layernorm.weight": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.experts.down_proj.bias": "model-00004-of-00013.safetensors",
-        "model.layers.8.mlp.experts.down_proj.biases": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.experts.down_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.experts.down_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.experts.gate_proj.bias": "model-00003-of-00013.safetensors",
-        "model.layers.8.mlp.experts.gate_proj.biases": "model-00003-of-00013.safetensors",
         "model.layers.8.mlp.experts.gate_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.8.mlp.experts.gate_proj.weight": "model-00003-of-00013.safetensors",
-        "model.layers.8.mlp.experts.up_proj.bias": "model-00004-of-00013.safetensors",
-        "model.layers.8.mlp.experts.up_proj.biases": "model-00004-of-00013.safetensors",
-        "model.layers.8.mlp.experts.up_proj.scales": "model-00004-of-00013.safetensors",
-        "model.layers.8.mlp.experts.up_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.router.bias": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.router.biases": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.router.scales": "model-00004-of-00013.safetensors",
@@ -1237,15 +1132,12 @@
         "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.9.input_layernorm.weight": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.down_proj.bias": "model-00004-of-00013.safetensors",
-        "model.layers.9.mlp.experts.down_proj.biases": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.down_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.down_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.gate_proj.bias": "model-00004-of-00013.safetensors",
-        "model.layers.9.mlp.experts.gate_proj.biases": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.gate_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.gate_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.up_proj.bias": "model-00004-of-00013.safetensors",
-        "model.layers.9.mlp.experts.up_proj.biases": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.up_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.up_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.router.bias": "model-00004-of-00013.safetensors",

 {
     "metadata": {
+        "total_size": 62197812864,
         "total_parameters": 116829154368
     },
     "weight_map": {
         "model.embed_tokens.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.input_layernorm.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.down_proj.bias": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.down_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.down_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.gate_proj.bias": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.gate_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.gate_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.up_proj.bias": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.up_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.experts.up_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.0.mlp.router.bias": "model-00001-of-00013.safetensors",
         "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.input_layernorm.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.down_proj.bias": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.down_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.down_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.gate_proj.bias": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.gate_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.gate_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.up_proj.bias": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.up_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.experts.up_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.1.mlp.router.bias": "model-00001-of-00013.safetensors",
         "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.10.input_layernorm.weight": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.down_proj.bias": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.down_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.down_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.gate_proj.bias": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.gate_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.gate_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.up_proj.bias": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.up_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.experts.up_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.10.mlp.router.bias": "model-00004-of-00013.safetensors",
         "model.layers.10.self_attn.v_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.11.input_layernorm.weight": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.experts.down_proj.bias": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.experts.down_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.experts.down_proj.weight": "model-00005-of-00013.safetensors",
+        "model.layers.11.mlp.experts.gate_proj.bias": "model-00004-of-00013.safetensors",
+        "model.layers.11.mlp.experts.gate_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.11.mlp.experts.gate_proj.weight": "model-00004-of-00013.safetensors",
+        "model.layers.11.mlp.experts.up_proj.bias": "model-00004-of-00013.safetensors",
+        "model.layers.11.mlp.experts.up_proj.scales": "model-00004-of-00013.safetensors",
+        "model.layers.11.mlp.experts.up_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.11.mlp.router.bias": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.router.biases": "model-00005-of-00013.safetensors",
         "model.layers.11.mlp.router.scales": "model-00005-of-00013.safetensors",
         "model.layers.11.self_attn.v_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.12.input_layernorm.weight": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.down_proj.bias": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.down_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.down_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.gate_proj.bias": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.gate_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.gate_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.up_proj.bias": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.up_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.experts.up_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.12.mlp.router.bias": "model-00005-of-00013.safetensors",
         "model.layers.12.self_attn.v_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.input_layernorm.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.down_proj.bias": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.down_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.down_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.gate_proj.bias": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.gate_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.gate_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.up_proj.bias": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.up_proj.scales": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.experts.up_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.13.mlp.router.bias": "model-00005-of-00013.safetensors",
         "model.layers.13.self_attn.v_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.14.input_layernorm.weight": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.experts.down_proj.bias": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.experts.down_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.experts.down_proj.weight": "model-00006-of-00013.safetensors",
+        "model.layers.14.mlp.experts.gate_proj.bias": "model-00005-of-00013.safetensors",
+        "model.layers.14.mlp.experts.gate_proj.scales": "model-00005-of-00013.safetensors",
+        "model.layers.14.mlp.experts.gate_proj.weight": "model-00005-of-00013.safetensors",
+        "model.layers.14.mlp.experts.up_proj.bias": "model-00005-of-00013.safetensors",
+        "model.layers.14.mlp.experts.up_proj.scales": "model-00005-of-00013.safetensors",
+        "model.layers.14.mlp.experts.up_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.14.mlp.router.bias": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.router.biases": "model-00006-of-00013.safetensors",
         "model.layers.14.mlp.router.scales": "model-00006-of-00013.safetensors",
         "model.layers.14.self_attn.v_proj.weight": "model-00005-of-00013.safetensors",
         "model.layers.15.input_layernorm.weight": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.down_proj.bias": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.down_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.down_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.gate_proj.bias": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.gate_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.gate_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.up_proj.bias": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.up_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.experts.up_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.15.mlp.router.bias": "model-00006-of-00013.safetensors",
         "model.layers.15.self_attn.v_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.15.self_attn.v_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.15.self_attn.v_proj.weight": "model-00006-of-00013.safetensors",
+        "model.layers.16.input_layernorm.weight": "model-00006-of-00013.safetensors",
+        "model.layers.16.mlp.experts.down_proj.bias": "model-00006-of-00013.safetensors",
+        "model.layers.16.mlp.experts.down_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.down_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.gate_proj.bias": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.gate_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.gate_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.up_proj.bias": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.up_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.16.mlp.experts.up_proj.weight": "model-00006-of-00013.safetensors",
+        "model.layers.16.mlp.router.bias": "model-00006-of-00013.safetensors",
+        "model.layers.16.mlp.router.biases": "model-00006-of-00013.safetensors",
+        "model.layers.16.mlp.router.scales": "model-00006-of-00013.safetensors",
+        "model.layers.16.mlp.router.weight": "model-00006-of-00013.safetensors",
+        "model.layers.16.post_attention_layernorm.weight": "model-00006-of-00013.safetensors",
         "model.layers.16.self_attn.k_proj.bias": "model-00006-of-00013.safetensors",
         "model.layers.16.self_attn.k_proj.biases": "model-00006-of-00013.safetensors",
         "model.layers.16.self_attn.k_proj.scales": "model-00006-of-00013.safetensors",
         "model.layers.16.self_attn.v_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.17.input_layernorm.weight": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.experts.down_proj.bias": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.experts.down_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.experts.down_proj.weight": "model-00007-of-00013.safetensors",
+        "model.layers.17.mlp.experts.gate_proj.bias": "model-00006-of-00013.safetensors",
+        "model.layers.17.mlp.experts.gate_proj.scales": "model-00006-of-00013.safetensors",
+        "model.layers.17.mlp.experts.gate_proj.weight": "model-00006-of-00013.safetensors",
+        "model.layers.17.mlp.experts.up_proj.bias": "model-00006-of-00013.safetensors",
+        "model.layers.17.mlp.experts.up_proj.scales": "model-00006-of-00013.safetensors",
+        "model.layers.17.mlp.experts.up_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.17.mlp.router.bias": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.router.biases": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.router.scales": "model-00007-of-00013.safetensors",
         "model.layers.17.mlp.router.weight": "model-00007-of-00013.safetensors",
         "model.layers.17.post_attention_layernorm.weight": "model-00007-of-00013.safetensors",
+        "model.layers.17.self_attn.k_proj.bias": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.k_proj.biases": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.k_proj.scales": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.k_proj.weight": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.o_proj.bias": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.o_proj.biases": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.o_proj.scales": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.o_proj.weight": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.q_proj.bias": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.q_proj.biases": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.q_proj.scales": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.q_proj.weight": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.sinks": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.v_proj.bias": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.v_proj.biases": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.v_proj.scales": "model-00006-of-00013.safetensors",
+        "model.layers.17.self_attn.v_proj.weight": "model-00006-of-00013.safetensors",
         "model.layers.18.input_layernorm.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.down_proj.bias": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.down_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.down_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.gate_proj.bias": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.gate_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.gate_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.up_proj.bias": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.up_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.experts.up_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.18.mlp.router.bias": "model-00007-of-00013.safetensors",
         "model.layers.18.self_attn.v_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.18.self_attn.v_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.18.self_attn.v_proj.weight": "model-00007-of-00013.safetensors",
+        "model.layers.19.input_layernorm.weight": "model-00007-of-00013.safetensors",
+        "model.layers.19.mlp.experts.down_proj.bias": "model-00007-of-00013.safetensors",
+        "model.layers.19.mlp.experts.down_proj.scales": "model-00007-of-00013.safetensors",
+        "model.layers.19.mlp.experts.down_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.gate_proj.bias": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.gate_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.gate_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.up_proj.bias": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.up_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.19.mlp.experts.up_proj.weight": "model-00007-of-00013.safetensors",
+        "model.layers.19.mlp.router.bias": "model-00007-of-00013.safetensors",
+        "model.layers.19.mlp.router.biases": "model-00007-of-00013.safetensors",
+        "model.layers.19.mlp.router.scales": "model-00007-of-00013.safetensors",
+        "model.layers.19.mlp.router.weight": "model-00007-of-00013.safetensors",
+        "model.layers.19.post_attention_layernorm.weight": "model-00007-of-00013.safetensors",
         "model.layers.19.self_attn.k_proj.bias": "model-00007-of-00013.safetensors",
         "model.layers.19.self_attn.k_proj.biases": "model-00007-of-00013.safetensors",
         "model.layers.19.self_attn.k_proj.scales": "model-00007-of-00013.safetensors",
         "model.layers.19.self_attn.v_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.2.input_layernorm.weight": "model-00002-of-00013.safetensors",
         "model.layers.2.mlp.experts.down_proj.bias": "model-00002-of-00013.safetensors",
         "model.layers.2.mlp.experts.down_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.2.mlp.experts.down_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.2.mlp.experts.gate_proj.bias": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.gate_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.gate_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.up_proj.bias": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.up_proj.scales": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.experts.up_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.2.mlp.router.bias": "model-00002-of-00013.safetensors",
         "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00013.safetensors",
         "model.layers.20.input_layernorm.weight": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.experts.down_proj.bias": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.experts.down_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.experts.down_proj.weight": "model-00008-of-00013.safetensors",
+        "model.layers.20.mlp.experts.gate_proj.bias": "model-00007-of-00013.safetensors",
+        "model.layers.20.mlp.experts.gate_proj.scales": "model-00007-of-00013.safetensors",
+        "model.layers.20.mlp.experts.gate_proj.weight": "model-00007-of-00013.safetensors",
+        "model.layers.20.mlp.experts.up_proj.bias": "model-00007-of-00013.safetensors",
+        "model.layers.20.mlp.experts.up_proj.scales": "model-00007-of-00013.safetensors",
+        "model.layers.20.mlp.experts.up_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.20.mlp.router.bias": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.router.biases": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.router.scales": "model-00008-of-00013.safetensors",
         "model.layers.20.mlp.router.weight": "model-00008-of-00013.safetensors",
         "model.layers.20.post_attention_layernorm.weight": "model-00008-of-00013.safetensors",
+        "model.layers.20.self_attn.k_proj.bias": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.k_proj.biases": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.k_proj.scales": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.k_proj.weight": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.o_proj.bias": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.o_proj.biases": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.o_proj.scales": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.o_proj.weight": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.q_proj.bias": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.q_proj.biases": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.q_proj.scales": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.q_proj.weight": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.sinks": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.v_proj.bias": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.v_proj.biases": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.v_proj.scales": "model-00007-of-00013.safetensors",
+        "model.layers.20.self_attn.v_proj.weight": "model-00007-of-00013.safetensors",
         "model.layers.21.input_layernorm.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.down_proj.bias": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.down_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.down_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.gate_proj.bias": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.gate_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.gate_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.up_proj.bias": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.up_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.experts.up_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.21.mlp.router.bias": "model-00008-of-00013.safetensors",
         "model.layers.21.self_attn.v_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.21.self_attn.v_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.21.self_attn.v_proj.weight": "model-00008-of-00013.safetensors",
+        "model.layers.22.input_layernorm.weight": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.experts.down_proj.bias": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.experts.down_proj.scales": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.experts.down_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.22.mlp.experts.gate_proj.bias": "model-00008-of-00013.safetensors",
         "model.layers.22.mlp.experts.gate_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.22.mlp.experts.gate_proj.weight": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.experts.up_proj.bias": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.experts.up_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.22.mlp.experts.up_proj.weight": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.router.bias": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.router.biases": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.router.scales": "model-00008-of-00013.safetensors",
+        "model.layers.22.mlp.router.weight": "model-00008-of-00013.safetensors",
+        "model.layers.22.post_attention_layernorm.weight": "model-00008-of-00013.safetensors",
         "model.layers.22.self_attn.k_proj.bias": "model-00008-of-00013.safetensors",
         "model.layers.22.self_attn.k_proj.biases": "model-00008-of-00013.safetensors",
         "model.layers.22.self_attn.k_proj.scales": "model-00008-of-00013.safetensors",
         "model.layers.22.self_attn.v_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.23.input_layernorm.weight": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.experts.down_proj.bias": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.experts.down_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.experts.down_proj.weight": "model-00009-of-00013.safetensors",
+        "model.layers.23.mlp.experts.gate_proj.bias": "model-00008-of-00013.safetensors",
+        "model.layers.23.mlp.experts.gate_proj.scales": "model-00008-of-00013.safetensors",
+        "model.layers.23.mlp.experts.gate_proj.weight": "model-00008-of-00013.safetensors",
+        "model.layers.23.mlp.experts.up_proj.bias": "model-00008-of-00013.safetensors",
+        "model.layers.23.mlp.experts.up_proj.scales": "model-00008-of-00013.safetensors",
+        "model.layers.23.mlp.experts.up_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.23.mlp.router.bias": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.router.biases": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.router.scales": "model-00009-of-00013.safetensors",
         "model.layers.23.mlp.router.weight": "model-00009-of-00013.safetensors",
         "model.layers.23.post_attention_layernorm.weight": "model-00009-of-00013.safetensors",
+        "model.layers.23.self_attn.k_proj.bias": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.k_proj.biases": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.k_proj.scales": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.k_proj.weight": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.o_proj.bias": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.o_proj.biases": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.o_proj.scales": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.o_proj.weight": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.q_proj.bias": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.q_proj.biases": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.q_proj.scales": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.q_proj.weight": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.sinks": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.v_proj.bias": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.v_proj.biases": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.v_proj.scales": "model-00008-of-00013.safetensors",
+        "model.layers.23.self_attn.v_proj.weight": "model-00008-of-00013.safetensors",
         "model.layers.24.input_layernorm.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.down_proj.bias": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.down_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.down_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.gate_proj.bias": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.gate_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.gate_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.up_proj.bias": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.up_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.experts.up_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.24.mlp.router.bias": "model-00009-of-00013.safetensors",
         "model.layers.24.self_attn.v_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.24.self_attn.v_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.24.self_attn.v_proj.weight": "model-00009-of-00013.safetensors",
+        "model.layers.25.input_layernorm.weight": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.experts.down_proj.bias": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.experts.down_proj.scales": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.experts.down_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.25.mlp.experts.gate_proj.bias": "model-00009-of-00013.safetensors",
         "model.layers.25.mlp.experts.gate_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.25.mlp.experts.gate_proj.weight": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.experts.up_proj.bias": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.experts.up_proj.scales": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.experts.up_proj.weight": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.router.bias": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.router.biases": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.router.scales": "model-00009-of-00013.safetensors",
+        "model.layers.25.mlp.router.weight": "model-00009-of-00013.safetensors",
+        "model.layers.25.post_attention_layernorm.weight": "model-00009-of-00013.safetensors",
         "model.layers.25.self_attn.k_proj.bias": "model-00009-of-00013.safetensors",
         "model.layers.25.self_attn.k_proj.biases": "model-00009-of-00013.safetensors",
         "model.layers.25.self_attn.k_proj.scales": "model-00009-of-00013.safetensors",
         "model.layers.25.self_attn.v_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.26.input_layernorm.weight": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.experts.down_proj.bias": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.experts.down_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.experts.down_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.26.mlp.experts.gate_proj.bias": "model-00009-of-00013.safetensors",
+        "model.layers.26.mlp.experts.gate_proj.scales": "model-00009-of-00013.safetensors",
+        "model.layers.26.mlp.experts.gate_proj.weight": "model-00009-of-00013.safetensors",
+        "model.layers.26.mlp.experts.up_proj.bias": "model-00009-of-00013.safetensors",
+        "model.layers.26.mlp.experts.up_proj.scales": "model-00009-of-00013.safetensors",
+        "model.layers.26.mlp.experts.up_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.26.mlp.router.bias": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.router.biases": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.router.scales": "model-00010-of-00013.safetensors",
         "model.layers.26.mlp.router.weight": "model-00010-of-00013.safetensors",
         "model.layers.26.post_attention_layernorm.weight": "model-00010-of-00013.safetensors",
+        "model.layers.26.self_attn.k_proj.bias": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.k_proj.biases": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.k_proj.scales": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.k_proj.weight": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.o_proj.bias": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.o_proj.biases": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.o_proj.scales": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.o_proj.weight": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.q_proj.bias": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.q_proj.biases": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.q_proj.scales": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.q_proj.weight": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.sinks": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.v_proj.bias": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.v_proj.biases": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.v_proj.scales": "model-00009-of-00013.safetensors",
+        "model.layers.26.self_attn.v_proj.weight": "model-00009-of-00013.safetensors",
         "model.layers.27.input_layernorm.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.down_proj.bias": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.down_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.down_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.gate_proj.bias": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.gate_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.gate_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.up_proj.bias": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.up_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.experts.up_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.27.mlp.router.bias": "model-00010-of-00013.safetensors",
         "model.layers.27.self_attn.v_proj.biases": "model-00010-of-00013.safetensors",
         "model.layers.27.self_attn.v_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.27.self_attn.v_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.28.input_layernorm.weight": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.experts.down_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.experts.down_proj.scales": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.experts.down_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.experts.gate_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.experts.gate_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.28.mlp.experts.gate_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.experts.up_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.experts.up_proj.scales": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.experts.up_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.router.bias": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.router.biases": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.router.scales": "model-00010-of-00013.safetensors",
+        "model.layers.28.mlp.router.weight": "model-00010-of-00013.safetensors",
+        "model.layers.28.post_attention_layernorm.weight": "model-00010-of-00013.safetensors",
         "model.layers.28.self_attn.k_proj.bias": "model-00010-of-00013.safetensors",
         "model.layers.28.self_attn.k_proj.biases": "model-00010-of-00013.safetensors",
         "model.layers.28.self_attn.k_proj.scales": "model-00010-of-00013.safetensors",
         "model.layers.28.self_attn.v_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.29.input_layernorm.weight": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.experts.down_proj.bias": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.experts.down_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.experts.down_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.29.mlp.experts.gate_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.29.mlp.experts.gate_proj.scales": "model-00010-of-00013.safetensors",
+        "model.layers.29.mlp.experts.gate_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.29.mlp.experts.up_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.29.mlp.experts.up_proj.scales": "model-00010-of-00013.safetensors",
+        "model.layers.29.mlp.experts.up_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.29.mlp.router.bias": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.router.biases": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.router.scales": "model-00011-of-00013.safetensors",
         "model.layers.29.mlp.router.weight": "model-00011-of-00013.safetensors",
         "model.layers.29.post_attention_layernorm.weight": "model-00011-of-00013.safetensors",
+        "model.layers.29.self_attn.k_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.k_proj.biases": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.k_proj.scales": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.k_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.o_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.o_proj.biases": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.o_proj.scales": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.o_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.q_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.q_proj.biases": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.q_proj.scales": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.q_proj.weight": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.sinks": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.v_proj.bias": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.v_proj.biases": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.v_proj.scales": "model-00010-of-00013.safetensors",
+        "model.layers.29.self_attn.v_proj.weight": "model-00010-of-00013.safetensors",
         "model.layers.3.input_layernorm.weight": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.down_proj.bias": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.down_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.down_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.gate_proj.bias": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.gate_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.gate_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.up_proj.bias": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.up_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.experts.up_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.3.mlp.router.bias": "model-00002-of-00013.safetensors",
         "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.30.input_layernorm.weight": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.down_proj.bias": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.down_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.down_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.gate_proj.bias": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.gate_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.gate_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.up_proj.bias": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.up_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.experts.up_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.30.mlp.router.bias": "model-00011-of-00013.safetensors",
         "model.layers.30.self_attn.v_proj.biases": "model-00011-of-00013.safetensors",
         "model.layers.30.self_attn.v_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.30.self_attn.v_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.31.input_layernorm.weight": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.down_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.down_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.down_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.gate_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.gate_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.gate_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.up_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.up_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.experts.up_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.router.bias": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.router.biases": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.router.scales": "model-00011-of-00013.safetensors",
+        "model.layers.31.mlp.router.weight": "model-00011-of-00013.safetensors",
+        "model.layers.31.post_attention_layernorm.weight": "model-00011-of-00013.safetensors",
         "model.layers.31.self_attn.k_proj.bias": "model-00011-of-00013.safetensors",
         "model.layers.31.self_attn.k_proj.biases": "model-00011-of-00013.safetensors",
         "model.layers.31.self_attn.k_proj.scales": "model-00011-of-00013.safetensors",
         "model.layers.31.self_attn.v_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.32.input_layernorm.weight": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.experts.down_proj.bias": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.experts.down_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.experts.down_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.32.mlp.experts.gate_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.32.mlp.experts.gate_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.32.mlp.experts.gate_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.32.mlp.experts.up_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.32.mlp.experts.up_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.32.mlp.experts.up_proj.weight": "model-00011-of-00013.safetensors",
         "model.layers.32.mlp.router.bias": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.router.biases": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.router.scales": "model-00012-of-00013.safetensors",
         "model.layers.32.mlp.router.weight": "model-00012-of-00013.safetensors",
         "model.layers.32.post_attention_layernorm.weight": "model-00012-of-00013.safetensors",
+        "model.layers.32.self_attn.k_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.k_proj.biases": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.k_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.k_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.o_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.o_proj.biases": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.o_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.o_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.q_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.q_proj.biases": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.q_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.q_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.sinks": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.v_proj.bias": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.v_proj.biases": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.v_proj.scales": "model-00011-of-00013.safetensors",
+        "model.layers.32.self_attn.v_proj.weight": "model-00011-of-00013.safetensors",
+        "model.layers.33.input_layernorm.weight": "model-00012-of-00013.safetensors",
+        "model.layers.33.mlp.experts.down_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.33.mlp.experts.down_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.down_proj.weight": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.gate_proj.bias": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.gate_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.gate_proj.weight": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.up_proj.bias": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.up_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.33.mlp.experts.up_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.33.mlp.router.bias": "model-00012-of-00013.safetensors",
+        "model.layers.33.mlp.router.biases": "model-00012-of-00013.safetensors",
+        "model.layers.33.mlp.router.scales": "model-00012-of-00013.safetensors",
+        "model.layers.33.mlp.router.weight": "model-00012-of-00013.safetensors",
+        "model.layers.33.post_attention_layernorm.weight": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.k_proj.bias": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.k_proj.biases": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.k_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.v_proj.biases": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.v_proj.scales": "model-00012-of-00013.safetensors",
         "model.layers.33.self_attn.v_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.input_layernorm.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.down_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.down_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.down_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.gate_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.gate_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.gate_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.up_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.up_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.experts.up_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.router.bias": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.router.biases": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.router.scales": "model-00012-of-00013.safetensors",
+        "model.layers.34.mlp.router.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.post_attention_layernorm.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.k_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.k_proj.biases": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.k_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.k_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.o_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.o_proj.biases": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.o_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.o_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.q_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.q_proj.biases": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.q_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.q_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.sinks": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.v_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.v_proj.biases": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.v_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.34.self_attn.v_proj.weight": "model-00012-of-00013.safetensors",
         "model.layers.35.input_layernorm.weight": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.experts.down_proj.bias": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.experts.down_proj.scales": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.experts.down_proj.weight": "model-00013-of-00013.safetensors",
+        "model.layers.35.mlp.experts.gate_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.35.mlp.experts.gate_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.35.mlp.experts.gate_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.35.mlp.experts.up_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.35.mlp.experts.up_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.35.mlp.experts.up_proj.weight": "model-00012-of-00013.safetensors",
         "model.layers.35.mlp.router.bias": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.router.biases": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.router.scales": "model-00013-of-00013.safetensors",
         "model.layers.35.mlp.router.weight": "model-00013-of-00013.safetensors",
         "model.layers.35.post_attention_layernorm.weight": "model-00013-of-00013.safetensors",
+        "model.layers.35.self_attn.k_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.k_proj.biases": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.k_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.k_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.o_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.o_proj.biases": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.o_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.o_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.q_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.q_proj.biases": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.q_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.q_proj.weight": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.sinks": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.v_proj.bias": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.v_proj.biases": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.v_proj.scales": "model-00012-of-00013.safetensors",
+        "model.layers.35.self_attn.v_proj.weight": "model-00012-of-00013.safetensors",
         "model.layers.4.input_layernorm.weight": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.down_proj.bias": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.down_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.down_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.gate_proj.bias": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.gate_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.gate_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.up_proj.bias": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.up_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.experts.up_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.4.mlp.router.bias": "model-00002-of-00013.safetensors",
         "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.5.input_layernorm.weight": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.down_proj.bias": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.down_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.down_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.experts.gate_proj.bias": "model-00002-of-00013.safetensors",
         "model.layers.5.mlp.experts.gate_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.5.mlp.experts.gate_proj.weight": "model-00002-of-00013.safetensors",
+        "model.layers.5.mlp.experts.up_proj.bias": "model-00002-of-00013.safetensors",
+        "model.layers.5.mlp.experts.up_proj.scales": "model-00002-of-00013.safetensors",
         "model.layers.5.mlp.experts.up_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.5.mlp.router.bias": "model-00003-of-00013.safetensors",
         "model.layers.5.mlp.router.biases": "model-00003-of-00013.safetensors",
         "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00013.safetensors",
         "model.layers.6.input_layernorm.weight": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.down_proj.bias": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.down_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.down_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.gate_proj.bias": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.gate_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.gate_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.up_proj.bias": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.up_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.experts.up_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.6.mlp.router.bias": "model-00003-of-00013.safetensors",
         "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.input_layernorm.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.down_proj.bias": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.down_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.down_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.gate_proj.bias": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.gate_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.gate_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.up_proj.bias": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.up_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.experts.up_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.7.mlp.router.bias": "model-00003-of-00013.safetensors",
         "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.8.input_layernorm.weight": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.experts.down_proj.bias": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.experts.down_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.experts.down_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.experts.gate_proj.bias": "model-00003-of-00013.safetensors",
         "model.layers.8.mlp.experts.gate_proj.scales": "model-00003-of-00013.safetensors",
         "model.layers.8.mlp.experts.gate_proj.weight": "model-00003-of-00013.safetensors",
+        "model.layers.8.mlp.experts.up_proj.bias": "model-00003-of-00013.safetensors",
+        "model.layers.8.mlp.experts.up_proj.scales": "model-00003-of-00013.safetensors",
+        "model.layers.8.mlp.experts.up_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.8.mlp.router.bias": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.router.biases": "model-00004-of-00013.safetensors",
         "model.layers.8.mlp.router.scales": "model-00004-of-00013.safetensors",
         "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00013.safetensors",
         "model.layers.9.input_layernorm.weight": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.down_proj.bias": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.down_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.down_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.gate_proj.bias": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.gate_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.gate_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.up_proj.bias": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.up_proj.scales": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.experts.up_proj.weight": "model-00004-of-00013.safetensors",
         "model.layers.9.mlp.router.bias": "model-00004-of-00013.safetensors",