Add files using upload-large-folder tool

Browse files

Files changed (8) hide show

chat_template.jinja +51 -0
config.json +21 -18
generation_config.json +1 -1
model-00001-of-00004.safetensors +2 -2
model-00002-of-00004.safetensors +2 -2
model-00003-of-00004.safetensors +2 -2
model.safetensors.index.json +13 -63
tokenizer_config.json +3 -2

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,51 @@

+{%- set today = strftime_now("%Y-%m-%d") %}
+{%- set default_system_message = "You are Mistral Small 3, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.\nYour knowledge base was last updated on 2023-10-01. The current date is " + today + ".\n\nWhen you're not sure about some information, you say that you don't have the information and don't make up anything.\nIf the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. \"What are some good restaurants around me?\" => \"Where are you?\" or \"When is the next flight to Tokyo\" => \"Where do you travel from?\")" %}
+{{- bos_token }}
+{%- if messages[0]['role'] == 'system' %}
+    {%- if messages[0]['content'] is string %}
+        {%- set system_message = messages[0]['content'] %}
+    {%- else %}
+        {%- set system_message = messages[0]['content'][0]['text'] %}
+    {%- endif %}
+    {%- set loop_messages = messages[1:] %}
+{%- else %}
+    {%- set system_message = default_system_message %}
+    {%- set loop_messages = messages %}
+{%- endif %}
+{{- '[SYSTEM_PROMPT]' + system_message + '[/SYSTEM_PROMPT]' }}
+{%- for message in loop_messages %}
+    {%- if message['role'] == 'user' %}
+        {%- if message['content'] is string %}
+            {{- '[INST]' + message['content'] + '[/INST]' }}
+        {%- else %}
+            {{- '[INST]' }}
+            {%- for block in message['content'] %}
+                {%- if block['type'] == 'text' %}
+                    {{- block['text'] }}
+                {%- elif block['type'] in ['image', 'image_url'] %}
+                    {{- '[IMG]' }}
+                {%- else %}
+                    {{- raise_exception('Only text and image blocks are supported in message content!') }}
+                {%- endif %}
+            {%- endfor %}
+            {{- '[/INST]' }}
+        {%- endif %}
+    {%- elif message['role'] == 'system' %}
+        {%- if message['content'] is string %}
+            {{- '[SYSTEM_PROMPT]' + message['content'] + '[/SYSTEM_PROMPT]' }}
+        {%- else %}
+            {{- '[SYSTEM_PROMPT]' + message['content'][0]['text'] + '[/SYSTEM_PROMPT]' }}
+        {%- endif %}
+    {%- elif message['role'] == 'assistant' %}
+        {%- if message['content'] is string %}
+            {{- message['content'] + eos_token }}
+        {%- else %}
+            {{- message['content'][0]['text'] + eos_token }}
+        {%- endif %}
+    {%- else %}
+        {{- raise_exception('Only user, system and assistant roles are supported!') }}
+    {%- endif %}
+{%- endfor %}

config.json CHANGED Viewed

@@ -23,45 +23,48 @@
       "multi_modal_projector",
       "merger",
       "modality_projection",
-      "language_model.model.layers.2.mlp",
-      "vision_tower.transformer.layers.22.attention",
-      "vision_tower.transformer.layers.17.feed_forward",
-      "vision_tower.transformer.layers.18.feed_forward",
-      "vision_tower.transformer.layers.14.feed_forward",
-      "vision_tower.transformer.layers.19.feed_forward",
-      "vision_tower.transformer.layers.8.feed_forward",
-      "vision_tower.transformer.layers.7.feed_forward",
       "vision_tower.transformer.layers.15.feed_forward",
-      "vision_tower.transformer.layers.10.feed_forward",
       "vision_tower.transformer.layers.4.feed_forward",
-      "vision_tower.transformer.layers.3.feed_forward",
       "vision_tower.transformer.layers.14.attention",
-      "vision_tower.transformer.layers.12.feed_forward",
       "vision_tower.transformer.layers.11.feed_forward",
-      "multi_modal_projector",
       "vision_tower.transformer.layers.6.feed_forward",
-      "vision_tower.transformer.layers.23.attention",
       "vision_tower.transformer.layers.21.feed_forward",
       "vision_tower.transformer.layers.22.feed_forward",
       "vision_tower.transformer.layers.9.feed_forward",
       "vision_tower.transformer.layers.13.feed_forward",
       "vision_tower.transformer.layers.13.attention",
       "vision_tower.transformer.layers.23.feed_forward",
       "vision_tower.transformer.layers.12.attention",
-      "vision_tower.transformer.layers.11.attention",
       "vision_tower.transformer.layers.2.feed_forward",
       "vision_tower.transformer.layers.10.attention",
       "vision_tower.transformer.layers.0.feed_forward",
       "vision_tower.transformer.layers.1.feed_forward",
-      "vision_tower.transformer.layers.8.attention",
       "vision_tower.transformer.layers.7.attention",
-      "vision_tower.transformer.layers.4.attention",
       "vision_tower.transformer.layers.6.attention",
       "vision_tower.transformer.layers.5.attention",
       "vision_tower.transformer.layers.0.attention",
       "vision_tower.transformer.layers.3.attention",
-      "vision_tower.transformer.layers.2.attention",
       "vision_tower.transformer.layers.1.attention",
       "vision_tower.transformer.layers.9.attention"
     ],
     "llm_int8_threshold": 6.0,
@@ -90,7 +93,7 @@
     "vocab_size": 131072
   },
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.50.0.dev0",
   "unsloth_fixed": true,
   "vision_config": {
     "attention_dropout": 0.0,

       "multi_modal_projector",
       "merger",
       "modality_projection",
+      "vision_tower.transformer.layers.5.feed_forward",
       "vision_tower.transformer.layers.15.feed_forward",
+      "vision_tower.transformer.layers.19.feed_forward",
+      "vision_tower.transformer.layers.18.feed_forward",
       "vision_tower.transformer.layers.4.feed_forward",
+      "vision_tower.transformer.layers.15.attention",
+      "vision_tower.transformer.layers.8.feed_forward",
+      "vision_tower.transformer.layers.17.feed_forward",
+      "vision_tower.transformer.layers.22.attention",
       "vision_tower.transformer.layers.14.attention",
       "vision_tower.transformer.layers.11.feed_forward",
+      "language_model.model.layers.2.mlp",
+      "vision_tower.transformer.layers.3.feed_forward",
+      "vision_tower.transformer.layers.16.feed_forward",
+      "vision_tower.transformer.layers.14.feed_forward",
+      "vision_tower.transformer.layers.7.feed_forward",
       "vision_tower.transformer.layers.6.feed_forward",
       "vision_tower.transformer.layers.21.feed_forward",
+      "vision_tower.transformer.layers.10.feed_forward",
+      "vision_tower.transformer.layers.12.feed_forward",
+      "multi_modal_projector",
       "vision_tower.transformer.layers.22.feed_forward",
+      "vision_tower.transformer.layers.23.attention",
       "vision_tower.transformer.layers.9.feed_forward",
       "vision_tower.transformer.layers.13.feed_forward",
       "vision_tower.transformer.layers.13.attention",
       "vision_tower.transformer.layers.23.feed_forward",
       "vision_tower.transformer.layers.12.attention",
       "vision_tower.transformer.layers.2.feed_forward",
       "vision_tower.transformer.layers.10.attention",
       "vision_tower.transformer.layers.0.feed_forward",
+      "vision_tower.transformer.layers.11.attention",
       "vision_tower.transformer.layers.1.feed_forward",
       "vision_tower.transformer.layers.7.attention",
       "vision_tower.transformer.layers.6.attention",
+      "vision_tower.transformer.layers.8.attention",
+      "vision_tower.transformer.layers.4.attention",
       "vision_tower.transformer.layers.5.attention",
       "vision_tower.transformer.layers.0.attention",
       "vision_tower.transformer.layers.3.attention",
       "vision_tower.transformer.layers.1.attention",
+      "vision_tower.transformer.layers.2.attention",
       "vision_tower.transformer.layers.9.attention"
     ],
     "llm_int8_threshold": 6.0,
     "vocab_size": 131072
   },
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.0.dev0",
   "unsloth_fixed": true,
   "vision_config": {
     "attention_dropout": 0.0,

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 11,
-  "transformers_version": "4.50.0.dev0"
 }

   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 11,
+  "transformers_version": "4.52.0.dev0"
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbcba9903285efb8aca2765e117fac0a7a75893f0b8a55e959514cd879174e80
-size 4988274199

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4ccec6b6d0a863fb5a007448a9cfeb5564373205e6af6eb9f8f4f384b507f21
+size 4945278181

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63a9ce2581902cbf9d4c28aef49b66501f961900c956e200dcad28cdecaddd6c
-size 4960910645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c29193aabf114b62310c6cbcb62ccb8df6f74b2f3ef7bf233dbe55c2d9dee41
+size 4960910653

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7423db08fec3220956b314f229a9c9f063084cbfc174cd91eb931f98c3dd8bce
-size 4387487653

 version https://git-lfs.github.com/spec/v1
+oid sha256:93460e261e4ca3fe139fb1b0df33b376d303b581f06f0392898646e86575f487
+size 4474038219

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 15678558945
   },
   "weight_map": {
     "language_model.lm_head.weight": "model-00004-of-00004.safetensors",
@@ -751,12 +751,12 @@
     "language_model.model.layers.24.mlp.gate_proj.weight.nested_quant_map": "model-00002-of-00004.safetensors",
     "language_model.model.layers.24.mlp.gate_proj.weight.quant_map": "model-00002-of-00004.safetensors",
     "language_model.model.layers.24.mlp.gate_proj.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight.absmax": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight.nested_absmax": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight.nested_quant_map": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight.quant_map": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00004.safetensors",
     "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.k_proj.weight.absmax": "model-00002-of-00004.safetensors",
@@ -1625,12 +1625,12 @@
     "language_model.model.layers.7.mlp.down_proj.weight.nested_quant_map": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.down_proj.weight.quant_map": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.down_proj.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00004.safetensors",
-    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "language_model.model.layers.7.mlp.gate_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "language_model.model.layers.7.mlp.gate_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "language_model.model.layers.7.mlp.gate_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "language_model.model.layers.7.mlp.gate_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "language_model.model.layers.7.mlp.gate_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "language_model.model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.up_proj.weight.absmax": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.up_proj.weight.nested_absmax": "model-00002-of-00004.safetensors",
@@ -1821,29 +1821,9 @@
     "vision_tower.transformer.layers.14.feed_forward.up_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.14.ffn_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention.k_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.k_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.k_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.k_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.k_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.k_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention.o_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.o_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.o_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.o_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.o_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.o_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention.q_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.q_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.q_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.q_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.q_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.q_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention.v_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.v_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.v_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.v_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.v_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.15.attention.v_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.feed_forward.down_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.feed_forward.gate_proj.weight": "model-00001-of-00004.safetensors",
@@ -1875,23 +1855,8 @@
     "vision_tower.transformer.layers.16.attention.v_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.attention_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.feed_forward.down_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.down_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.down_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.down_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.down_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.down_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.feed_forward.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.gate_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.gate_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.gate_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.gate_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.gate_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.feed_forward.up_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.up_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.up_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.up_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.up_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.up_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.ffn_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.17.attention.k_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.17.attention.k_proj.weight.absmax": "model-00001-of-00004.safetensors",
@@ -2104,23 +2069,8 @@
     "vision_tower.transformer.layers.5.attention.v_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.attention_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.feed_forward.down_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.down_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.down_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.down_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.down_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.down_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.feed_forward.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.gate_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.gate_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.gate_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.gate_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.gate_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.feed_forward.up_proj.weight": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.up_proj.weight.absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.up_proj.weight.nested_absmax": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.up_proj.weight.nested_quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.up_proj.weight.quant_map": "model-00001-of-00004.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.up_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.ffn_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.6.attention.k_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.6.attention.o_proj.weight": "model-00001-of-00004.safetensors",

 {
   "metadata": {
+    "total_size": 15722120613
   },
   "weight_map": {
     "language_model.lm_head.weight": "model-00004-of-00004.safetensors",
     "language_model.model.layers.24.mlp.gate_proj.weight.nested_quant_map": "model-00002-of-00004.safetensors",
     "language_model.model.layers.24.mlp.gate_proj.weight.quant_map": "model-00002-of-00004.safetensors",
     "language_model.model.layers.24.mlp.gate_proj.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight.absmax": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight.nested_absmax": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight.nested_quant_map": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight.quant_map": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight.quant_state.bitsandbytes__nf4": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.24.self_attn.k_proj.weight.absmax": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.down_proj.weight.nested_quant_map": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.down_proj.weight.quant_map": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.down_proj.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight.absmax": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight.nested_absmax": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight.nested_quant_map": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight.quant_map": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.up_proj.weight.absmax": "model-00002-of-00004.safetensors",
     "language_model.model.layers.7.mlp.up_proj.weight.nested_absmax": "model-00002-of-00004.safetensors",
     "vision_tower.transformer.layers.14.feed_forward.up_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.14.ffn_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention.k_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention.o_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention.q_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention.v_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.attention_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.feed_forward.down_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.15.feed_forward.gate_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.attention.v_proj.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.attention_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.feed_forward.down_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.feed_forward.gate_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.feed_forward.up_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.16.ffn_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.17.attention.k_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.17.attention.k_proj.weight.absmax": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.attention.v_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.attention_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.feed_forward.down_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.feed_forward.gate_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.feed_forward.up_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.5.ffn_norm.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.6.attention.k_proj.weight": "model-00001-of-00004.safetensors",
     "vision_tower.transformer.layers.6.attention.o_proj.weight": "model-00001-of-00004.safetensors",

tokenizer_config.json CHANGED Viewed

@@ -9017,5 +9017,6 @@
   "processor_class": "PixtralProcessor",
   "tokenizer_class": "LlamaTokenizerFast",
   "unk_token": "<unk>",
-  "use_default_system_prompt": false
-}

   "processor_class": "PixtralProcessor",
   "tokenizer_class": "LlamaTokenizerFast",
   "unk_token": "<unk>",
+  "use_default_system_prompt": false,
+  "chat_template": "{%- set today = strftime_now(\"%Y-%m-%d\") %}\n{%- set default_system_message = \"You are Mistral Small 3, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.\\nYour knowledge base was last updated on 2023-10-01. The current date is \" + today + \".\\n\\nWhen you're not sure about some information, you say that you don't have the information and don't make up anything.\\nIf the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. \\\"What are some good restaurants around me?\\\" => \\\"Where are you?\\\" or \\\"When is the next flight to Tokyo\\\" => \\\"Where do you travel from?\\\")\" %}\n\n{{- bos_token }}\n\n{%- if messages[0]['role'] == 'system' %}\n    {%- if messages[0]['content'] is string %}\n        {%- set system_message = messages[0]['content'] %}\n    {%- else %}\n        {%- set system_message = messages[0]['content'][0]['text'] %}\n    {%- endif %}\n    {%- set loop_messages = messages[1:] %}\n{%- else %}\n    {%- set system_message = default_system_message %}\n    {%- set loop_messages = messages %}\n{%- endif %}\n{{- '[SYSTEM_PROMPT]' + system_message + '[/SYSTEM_PROMPT]' }}\n\n{%- for message in loop_messages %}\n    {%- if message['role'] == 'user' %}\n        {%- if message['content'] is string %}\n            {{- '[INST]' + message['content'] + '[/INST]' }}\n        {%- else %}\n            {{- '[INST]' }}\n            {%- for block in message['content'] %}\n                {%- if block['type'] == 'text' %}\n                    {{- block['text'] }}\n                {%- elif block['type'] in ['image', 'image_url'] %}\n                    {{- '[IMG]' }}\n                {%- else %}\n                    {{- raise_exception('Only text and image blocks are supported in message content!') }}\n                {%- endif %}\n            {%- endfor %}\n            {{- '[/INST]' }}\n        {%- endif %}\n    {%- elif message['role'] == 'system' %}\n        {%- if message['content'] is string %}\n            {{- '[SYSTEM_PROMPT]' + message['content'] + '[/SYSTEM_PROMPT]' }}\n        {%- else %}\n            {{- '[SYSTEM_PROMPT]' + message['content'][0]['text'] + '[/SYSTEM_PROMPT]' }}\n        {%- endif %}\n    {%- elif message['role'] == 'assistant' %}\n        {%- if message['content'] is string %}\n            {{- message['content'] + eos_token }}\n        {%- else %}\n            {{- message['content'][0]['text'] + eos_token }}\n        {%- endif %}\n    {%- else %}\n        {{- raise_exception('Only user, system and assistant roles are supported!') }}\n    {%- endif %}\n{%- endfor %}"
+}