kimyoungjune commited on 6 days ago

Commit

8647152

verified ·

1 Parent(s): 0b85a9f

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

.gitattributes +1 -0
README.md +25 -184
chat_template.jinja +1 -0
config.json +248 -0
generation_config.json +7 -0
mergekit_config.yml +10 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +1 -0
preprocessor_config.json +171 -0
processor_config.json +8 -0
special_tokens_map.json +34 -0
tokenizer.json +3 -0
tokenizer_config.json +316 -0
video_preprocessor_config.json +37 -0

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 Gimbap_Example-1-20250709-032708.png filter=lfs diff=lfs merge=lfs -text
 ocr.jpg filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 Gimbap_Example-1-20250709-032708.png filter=lfs diff=lfs merge=lfs -text
 ocr.jpg filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,199 +1,40 @@
 ---
-license: cc-by-nc-4.0
-base_model:
-- Qwen/Qwen3-14B
-- google/siglip2-so400m-patch16-384
 library_name: transformers
 tags:
-- multimodal
-- conversational
-- ncsoft
-- ncai
-- varco
-pipeline_tag: image-text-to-text
-language:
-- en
-- ko
----
-# VARCO-VISION-2.0-14B
-## Introduction
-**VARCO-VISION-2.0** is a multimodal AI model capable of understanding both images and text to answer user queries. It supports multi-image inputs, enabling effective processing of complex content such as documents, tables, and charts. The model demonstrates strong comprehension in both Korean and English, with significantly improved text generation capabilities and a deeper understanding of Korean cultural context. Compared to its predecessor, performance has been notably enhanced across various benchmarks, and its usability in real-world scenarios—such as everyday Q&A and information summarization—has also improved.
-In addition to the 14B full-scale model, a lightweight 1.7B version is available for on-device use, making it accessible on personal devices such as smartphones and PCs. VARCO-VISION-2.0 is a powerful open-source AI model built for Korean users and is freely available for a wide range of applications.
-## 🚨News🎙️
-- 👀 We are going to release VARCO-VISION-2.0-1.7B-OCR soon!
-- 👀 We are going to release VARCO-VISION-2.0-1.7B soon!
-- 📰 2025-07-16: We released VARCO-VISION-2.0-14B at [link](https://huggingface.co/NCSOFT/VARCO-VISION-2.0-14B)
-- 📰 2025-07-16: We released GME-VARCO-VISION-Embedding at [link](https://huggingface.co/NCSOFT/GME-VARCO-VISION-Embedding)
-## Key Features
-- **Multi-image Understanding**: Newly added support for multi-image inputs enables the model to analyze multiple images simultaneously and make more holistic and context-aware decisions.
-- **Korean Language Specialization**: The model is further specialized for Korean, with a deeper understanding of Korean language, context, and culture. Korean text generation has been significantly improved, resulting in more natural, fluent, and accurate responses.
-- **OCR with Text Localization**: Unlike typical models that only recognize and generate text from images, VARCO-VISION-2.0 can also identify the position of the text and provide bounding boxes around it. This makes it especially useful for document understanding, signage interpretation, and structured visual data.
-- **Enhanced Safety**: Improved robustness and filtering to ensure safer handling of harmful or sexually explicit content.
-<div align="center">
-    <img src="./Gimbap_Example-1-20250709-032708.png" width="100%" />
-</div>
-## VARCO-VISION-2.0 Family
-| Model Name                 | Base Models (Vision / Language)                                                                                                               | HF Link                                                          |
-| :------------------------: | :-------------------------------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------: |
-| VARCO-VISION-2.0-1.7B      | [siglip2-so400m-patch16-384](https://huggingface.co/google/siglip2-so400m-patch16-384) / [Qwen3-1.7B](https://huggingface.co/Qwen/Qwen3-1.7B) | [link](https://huggingface.co/NCSOFT/VARCO-VISION-2.0-1.7B)      |
-| VARCO-VISION-2.0-14B       | [siglip2-so400m-patch16-384](https://huggingface.co/google/siglip2-so400m-patch16-384) / [Qwen3-14B ](https://huggingface.co/Qwen/Qwen3-14B)  | [link](https://huggingface.co/NCSOFT/VARCO-VISION-2.0-14B)       |
-| VARCO-VISION-2.0-1.7B-OCR  | [siglip2-so400m-patch16-384](https://huggingface.co/google/siglip2-so400m-patch16-384) / [Qwen3-1.7B](https://huggingface.co/Qwen/Qwen3-1.7B) | [link](https://huggingface.co/NCSOFT/VARCO-VISION-2.0-1.7B-OCR)  |
-| GME-VARCO-VISION-Embedding | [Qwen2-VL-7B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct)                                                                      | [link](https://huggingface.co/NCSOFT/GME-VARCO-VISION-Embedding) |
-## Model Architecture
-VARCO-VISION-2.0 follows the architecture of [LLaVA-OneVision](https://arxiv.org/abs/2408.03326).
-## Evaluation
-We adopted benchmark scores directly from [OpenVLM Leaderboard](https://huggingface.co/spaces/opencompass/open_vlm_leaderboard) where available, and conducted our own evaluations for benchmarks not included in OpenVLM Leaderboard, comparing results against various open-source models to provide a fair and comprehensive evaluation.
-Please note that for certain benchmarks involving LLM-based evaluation (e.g., LLaVABench), results may not be exactly reproducible due to variations in the underlying LLM behavior.
-### English Benchmark
-| Benchmark     | InternVL3-14B | Ovis2-16B | Qwen2.5-VL-7B |VARCO-VISION-2.0-14B |
-| :-----------: | :-----------: | :-------: | :-----------: |:------------------: |
-| MMStar        | **68.9**      | *67.2*    | 64.1          | 64.8                |
-| SEEDBench_IMG | 77.5          | *77.7*    | 77.0          | **78.3**            |
-| LLaVABench    | 84.4          | **93.0**  | *91.0*        | 90.0                |
-| OCRBench      | 877           | *879*     | **888**       | 863                 |
-### Korean Benchmark
-| Benchmark    | InternVL3-14B | Ovis2-16B | Qwen2.5-VL-7B | VARCO-VISION-2.0-14B |
-| :----------: | :-----------: | :-------: | :-----------: | :------------------: |
-| K-MMStar     | **64.9**      | 29.7      | 49.3          | *63.3*               |
-| K-SEED       | **78.2**      | 73.2      | 75.7          | *77.4*               |
-| K-LLaVABench | 80.9          | 86.3      | *94.1*        | **95.1**             |
-| K-DTCBench   | **87.9**      | 81.7      | *82.1*        | 79.6                 |
-### Korean Cultural Benchmark
-| Benchmark        | InternVL3-14B | Ovis2-16B | Qwen2.5-VL-7B | VARCO-VISION-2.0-14B |
-| :--------------: | :-----------: | :-------: | :-----------: | :------------------: |
-| K-Viscuit        | 71.7          | **77.0**  | 70.9          | *72.9*               |
-| PangeaBench (ko) | **77.2**      | *76.9*    | 76.6          | 75.2                 |
-### Text-only Benchmark
-| Benchmark  | InternVL3-14B | Ovis2-16B | Qwen2.5-VL-7B | VARCO-VISION-2.0-14B |
-| :--------: | :-----------: | :-------: | :-----------: | :------------------: |
-| MMLU       | **78.5**      | *78.4*    |  4.6          | 77.7                 |
-| MT-Bench   | **8.93**      | 8.59      | 8.07          | *8.88*               |
-| KMMLU      | *51.4*        | 49.3      | 39.6          | **57.4**             |
-| KoMT-Bench | 7.01          | *7.91*    | 6.84          | **7.95**             |
-| LogicKor   | 7.00          | **7.94**  | 6.55          | *7.86*               |
-**Note**: Some models show unusually low performance on the MMLU benchmark. This is primarily due to their failure to correctly follow the expected output format when only few-shot exemplars are provided in the prompts. Please take this into consideration when interpreting the results.
-### OCR Benchmark
-| Benchmark | PaddleOCR | VARCO-VISION-2.0-14B |
-| :-------: | :-------: | :------------------: |
-| CORD      | *91.4*    | **93.3**             |
-| ICDAR2013 | *92.0*    | **93.2**             |
-| ICDAR2015 | *73.7*    | **82.7**             |
-## Usage
-To use this model, we recommend installing `transformers` version **4.53.1 or higher**. While it may work with earlier versions, using **4.53.1 or above is strongly recommended**, especially to ensure optimal performance for the **multi-image feature**.
-The basic usage is **identical to** [LLaVA-OneVision](https://huggingface.co/docs/transformers/main/en/model_doc/llava_onevision#usage-example):
-```python
-import requests
-from PIL import Image
-import torch
-from transformers import AutoProcessor, LlavaOnevisionForConditionalGeneration
-model_name = "NCSOFT/VARCO-VISION-2.0-14B"
-model = LlavaOnevisionForConditionalGeneration.from_pretrained(
-    model_name,
-    torch_dtype=torch.float16,
-    attn_implementation="sdpa",
-    device_map="auto",
-)
-processor = AutoProcessor.from_pretrained(model_name)
-conversation_1 = [
-    {
-        "role": "user",
-        "content": [
-            {"type": "image", "url": "https://www.ilankelman.org/stopsigns/australia.jpg"},
-            {"type": "text", "text": "What is shown in this image?"},
-            ],
-    },
-    {
-        "role": "assistant",
-        "content": [
-            {"type": "text", "text": "There is a red stop sign in the image."},
-            ],
-    },
-    {
-        "role": "user",
-        "content": [
-            {"type": "image", "url": "http://images.cocodataset.org/val2017/000000039769.jpg"},
-            {"type": "text", "text": "What about this image? How many cats do you see?"},
-            ],
-    },
-]
-conversation_2 = [
-    {
-        "role": "user",
-        "content": [
-            {"type": "image", "url": "https://huggingface.co/microsoft/kosmos-2-patch14-224/resolve/main/snowman.jpg"},
-            {"type": "text", "text": "이 이미지에는 무엇이 보이나요?"},
-            ],
-    },
-]
-inputs = processor.apply_chat_template(
-    [conversation_1, conversation_2],
-    add_generation_prompt=True,
-    tokenize=True,
-    return_dict=True,
-    padding=True,
-    return_tensors="pt"
-).to(model.device, torch.float16)
-generate_ids = model.generate(**inputs, max_new_tokens=1024, do_sample=False)
-outputs = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
-print(outputs)
-```
-The following shows the input required for using OCR with text localization, along with the corresponding output:
-```python
-# INPUT
-image_file = "./assets/ocr.jpg"
-raw_image = Image.open(image_file)
-conversation = [
-    {
-        "role": "user",
-        "content": [
-            {"type": "text", "text": ""},
-            {"type": "image"},
-        ],
-    },
-]
-# OUTPUT
-"""
-<char>백범로</char><bbox>0.172, 0.266, 0.328, 0.341</bbox>
-<char>124번길</char><bbox>0.347, 0.266, 0.512, 0.341</bbox>
-<char>Baekbeom-ro</char><bbox>0.171, 0.337, 0.433, 0.392</bbox>
-<char>124</char><bbox>0.444, 0.341, 0.508, 0.392</bbox>
-<char>만수주공아파트</char><bbox>0.109, 0.531, 0.335, 0.601</bbox>
-<char>시흥</char><bbox>0.443, 0.518, 0.522, 0.581</bbox>
-<char>시청</char><bbox>0.711, 0.521, 0.811, 0.594</bbox>
-<char>Mansu</char><bbox>0.102, 0.601, 0.181, 0.648</bbox>
-<char>Jugong</char><bbox>0.186, 0.601, 0.273, 0.658</bbox>
-<char>Apt</char><bbox>0.28, 0.601, 0.327, 0.651</bbox>
-<char>42</char><bbox>0.377, 0.601, 0.416, 0.648</bbox>
-<char>Shieung</char><bbox>0.445, 0.578, 0.53, 0.625</bbox>
-<char>인천대공원</char><bbox>0.43, 0.621, 0.609, 0.684</bbox>
-<char>모래내시장역</char><bbox>0.651, 0.59, 0.873, 0.665</bbox>
-<char>IncheonGrand</char><bbox>0.432, 0.681, 0.561, 0.723</bbox>
-<char>Park</char><bbox>0.564, 0.681, 0.611, 0.723</bbox>
-"""
 ```
-<div align="center">
-    <img src="./ocr.jpg" width="100%" />
-</div>

 ---
+base_model: []
 library_name: transformers
 tags:
+- mergekit
+- merge
+---
+# vv21_llava_qwen3_linear_250711_15
+This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
+## Merge Details
+### Merge Method
+This model was merged using the [Linear](https://arxiv.org/abs/2203.05482) merge method.
+### Models Merged
+The following models were included in the merge:
+* /home/work/.varco_mllm/checkpoints-v2d1/training/vv2d1-llava-qwen3-14b-st4-250708/checkpoint-1400_hf
+* /home/work/.varco_mllm/checkpoints-v2d1/training/vv2d1-llava-qwen3-14b-st4-250708/checkpoint-1548_hf
+### Configuration
+The following YAML configuration was used to produce this model:
+```yaml
+models:
+  - model: /home/work/.varco_mllm/checkpoints-v2d1/training/vv2d1-llava-qwen3-14b-st4-250708/checkpoint-1400_hf
+    parameters:
+      weight: 1.0
+  - model: /home/work/.varco_mllm/checkpoints-v2d1/training/vv2d1-llava-qwen3-14b-st4-250708/checkpoint-1548_hf
+    parameters:
+      weight: 4.0
+merge_method: linear
+dtype: float16
 ```

chat_template.jinja ADDED Viewed

	@@ -0,0 +1 @@

+ {% if messages[0]['role'] == 'system' %}{{'<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n'}}{% else %}{{'<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n'}}{% endif %}{% for message in messages %}{% if message['role'] == 'user' or message['role'] == 'system' and not loop.first or message['role'] == 'assistant' %}{{'<|im_start|>' + message['role'] + '\n'}}{# Render all images first #}{% for content in message['content'] | selectattr('type', 'equalto', 'image') %}{{ '<image>\n' }}{% endfor %}{# Render all video then #}{% for content in message['content'] | selectattr('type', 'equalto', 'video') %}{{ '<video>\n' }}{% endfor %}{# Render all text next #}{% if message['role'] != 'assistant' %}{% for content in message['content'] | selectattr('type', 'equalto', 'text') %}{{ content['text'] }}{% endfor %}{% else %}{% for content in message['content'] | selectattr('type', 'equalto', 'text') %}{% generation %}{{ content['text'] }}{% endgeneration %}{% endfor %}{% endif %}{{'<|im_end|>' + '\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}

config.json ADDED Viewed

	@@ -0,0 +1,248 @@

+{
+  "architectures": [
+    "LlavaOnevisionForConditionalGeneration"
+  ],
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_token_index": 151679,
+  "model_type": "llava_onevision",
+  "multimodal_projector_bias": true,
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "Qwen/Qwen3-14B",
+    "architectures": [
+      "Qwen3ForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 5120,
+    "initializer_range": 0.02,
+    "intermediate_size": 17408,
+    "layer_types": [
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 40960,
+    "max_window_layers": 40,
+    "model_type": "qwen3",
+    "num_attention_heads": 40,
+    "num_hidden_layers": 40,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": null,
+    "rope_theta": 1000000,
+    "sliding_window": null,
+    "torch_dtype": "bfloat16",
+    "use_cache": true,
+    "use_sliding_window": false,
+    "vocab_size": 151681
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.53.1",
+  "use_image_newline_parameter": true,
+  "video_token_index": 151680,
+  "vision_aspect_ratio": "anyres_max_9",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 384,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 26,
+    "patch_size": 16,
+    "vision_use_head": false
+  },
+  "vision_feature_layer": -1,
+  "vision_feature_select_strategy": "full"
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "transformers_version": "4.52.4",
+  "use_cache": false
+}

mergekit_config.yml ADDED Viewed

	@@ -0,0 +1,10 @@

+models:
+  - model: /home/work/.varco_mllm/checkpoints-v2d1/training/vv2d1-llava-qwen3-14b-st4-250708/checkpoint-1400_hf
+    parameters:
+      weight: 1.0
+  - model: /home/work/.varco_mllm/checkpoints-v2d1/training/vv2d1-llava-qwen3-14b-st4-250708/checkpoint-1548_hf
+    parameters:
+      weight: 4.0
+merge_method: linear
+dtype: float16

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a940e57cae456a0bac7b3190b98a26bc9dd1645fb314a9216edd137815932b34
+size 4972969200

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81eb0fc125f253200a5bfab214528a8cabde4db56326da27ce1ede44a43cdefe
+size 4917989656

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21317351c7fb2118fa8f7cb3c6a1f2fe3cdd0a37b3def5e3fd99b04baa2d6631
+size 4991389856

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0667c87945df19afac5a810536d63b8703a60dc13996809df75a5dc0b80aee6
+size 4917989648

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ad8d93739b2f42ec501cd251c15daf478afac0e02fc7d088a914e48ca72b2f0
+size 4991389864

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:449903cafa5ee84ba85a7ede77e2e438a3e772e59fd6af8da5a828d2fddac755
+size 4999901720

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7570475431596713193ac2affde6f7e3ccac654abe02582b761783ea0005a5da
+size 599690752

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"metadata": {"mergekit_version": "0.1.1"}, "weight_map": {"image_newline": "model-00001-of-00007.safetensors", "language_model.lm_head.weight": "model-00001-of-00007.safetensors", "language_model.model.embed_tokens.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00007.safetensors", "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.10.self_attn.q_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.self_attn.k_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.self_attn.q_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.input_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.self_attn.k_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.self_attn.q_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.self_attn.k_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.self_attn.q_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.self_attn.k_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.self_attn.q_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.self_attn.k_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.self_attn.q_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.self_attn.k_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.self_attn.q_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.self_attn.k_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.self_attn.q_norm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00007.safetensors", "language_model.model.layers.18.mlp.gate_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.18.mlp.up_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.18.post_attention_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.18.self_attn.k_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.18.self_attn.k_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.18.self_attn.o_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.18.self_attn.q_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.18.self_attn.q_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.18.self_attn.v_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.input_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.mlp.down_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.mlp.gate_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.mlp.up_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.post_attention_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.self_attn.k_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.self_attn.k_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.self_attn.o_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.self_attn.q_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.self_attn.q_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.19.self_attn.v_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.input_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.mlp.down_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.mlp.gate_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.mlp.up_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.post_attention_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.self_attn.k_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.self_attn.k_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.self_attn.o_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.self_attn.q_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.self_attn.q_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.2.self_attn.v_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.input_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.mlp.down_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.mlp.gate_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.mlp.up_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.self_attn.k_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.self_attn.k_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.self_attn.o_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.self_attn.q_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.self_attn.q_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.20.self_attn.v_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.input_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.mlp.down_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.mlp.up_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.self_attn.k_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.self_attn.q_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.self_attn.k_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.self_attn.q_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.input_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.self_attn.k_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.self_attn.q_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.24.self_attn.k_norm.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00007.safetensors", "language_model.model.layers.24.self_attn.o_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.24.self_attn.q_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.24.self_attn.q_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.24.self_attn.v_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.input_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.mlp.down_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.mlp.gate_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.mlp.up_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.post_attention_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.self_attn.k_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.self_attn.k_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.self_attn.o_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.self_attn.q_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.self_attn.q_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.25.self_attn.v_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.input_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.mlp.down_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.mlp.gate_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.mlp.up_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.post_attention_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.self_attn.k_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.self_attn.k_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.self_attn.o_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.self_attn.q_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.self_attn.q_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.26.self_attn.v_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.input_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.mlp.down_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.mlp.gate_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.mlp.up_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.post_attention_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.self_attn.k_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.self_attn.k_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.self_attn.o_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.self_attn.q_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.self_attn.q_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.27.self_attn.v_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.input_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.mlp.down_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.mlp.gate_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.mlp.up_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.post_attention_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.self_attn.k_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.self_attn.k_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.self_attn.o_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.self_attn.q_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.self_attn.q_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.28.self_attn.v_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.input_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.mlp.down_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.mlp.gate_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.mlp.up_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.post_attention_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.self_attn.k_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.self_attn.k_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.self_attn.o_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.self_attn.q_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.self_attn.q_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.29.self_attn.v_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.input_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.mlp.down_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.mlp.gate_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.mlp.up_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.post_attention_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.self_attn.k_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.self_attn.k_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.self_attn.o_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.self_attn.q_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.self_attn.q_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.3.self_attn.v_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.input_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.mlp.down_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.mlp.gate_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.mlp.up_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.post_attention_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.self_attn.k_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.self_attn.k_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.self_attn.o_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.self_attn.q_norm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.self_attn.q_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.30.self_attn.v_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.31.input_layernorm.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.31.mlp.down_proj.weight": "model-00004-of-00007.safetensors", "language_model.model.layers.31.mlp.gate_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.31.mlp.up_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.31.post_attention_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.31.self_attn.k_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.31.self_attn.k_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.31.self_attn.o_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.31.self_attn.q_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.31.self_attn.q_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.31.self_attn.v_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.input_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.mlp.down_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.mlp.gate_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.mlp.up_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.post_attention_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.self_attn.k_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.self_attn.k_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.self_attn.o_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.self_attn.q_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.self_attn.q_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.32.self_attn.v_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.input_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.mlp.down_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.mlp.gate_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.mlp.up_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.post_attention_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.self_attn.k_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.self_attn.k_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.self_attn.o_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.self_attn.q_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.self_attn.q_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.33.self_attn.v_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.input_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.mlp.down_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.mlp.gate_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.mlp.up_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.post_attention_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.self_attn.k_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.self_attn.k_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.self_attn.o_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.self_attn.q_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.self_attn.q_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.34.self_attn.v_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.input_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.mlp.down_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.mlp.gate_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.mlp.up_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.post_attention_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.self_attn.k_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.self_attn.k_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.self_attn.o_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.self_attn.q_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.self_attn.q_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.35.self_attn.v_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.input_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.mlp.down_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.mlp.gate_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.mlp.up_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.post_attention_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.self_attn.k_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.self_attn.k_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.self_attn.o_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.self_attn.q_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.self_attn.q_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.36.self_attn.v_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.input_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.mlp.down_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.mlp.gate_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.mlp.up_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.post_attention_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.self_attn.k_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.self_attn.k_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.self_attn.o_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.self_attn.q_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.self_attn.q_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.37.self_attn.v_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.38.input_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.38.mlp.down_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.38.mlp.gate_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.38.mlp.up_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.38.post_attention_layernorm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.38.self_attn.k_norm.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.38.self_attn.k_proj.weight": "model-00005-of-00007.safetensors", "language_model.model.layers.38.self_attn.o_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.38.self_attn.q_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.38.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.38.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.input_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.mlp.down_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.mlp.gate_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.mlp.up_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.post_attention_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.self_attn.k_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.self_attn.o_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.self_attn.q_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.39.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.input_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.mlp.down_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.mlp.gate_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.mlp.up_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.post_attention_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.self_attn.k_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.self_attn.o_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.self_attn.q_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.4.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.input_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.mlp.down_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.mlp.gate_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.mlp.up_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.post_attention_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.self_attn.k_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.self_attn.o_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.self_attn.q_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.5.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.input_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.mlp.down_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.mlp.gate_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.mlp.up_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.post_attention_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.self_attn.k_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.self_attn.o_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.self_attn.q_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.6.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.input_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.mlp.down_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.mlp.gate_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.mlp.up_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.post_attention_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.self_attn.k_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.self_attn.o_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.self_attn.q_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.7.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.input_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.mlp.down_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.mlp.gate_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.mlp.up_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.post_attention_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.self_attn.k_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.self_attn.o_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.self_attn.q_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.8.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.input_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.mlp.down_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.mlp.gate_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.mlp.up_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.post_attention_layernorm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.self_attn.k_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.self_attn.o_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.self_attn.q_norm.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.layers.9.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "language_model.model.norm.weight": "model-00006-of-00007.safetensors", "multi_modal_projector.linear_1.bias": "model-00006-of-00007.safetensors", "multi_modal_projector.linear_1.weight": "model-00006-of-00007.safetensors", "multi_modal_projector.linear_2.bias": "model-00006-of-00007.safetensors", "multi_modal_projector.linear_2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00006-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00007-of-00007.safetensors", "vision_tower.vision_model.post_layernorm.bias": "model-00007-of-00007.safetensors", "vision_tower.vision_model.post_layernorm.weight": "model-00007-of-00007.safetensors"}}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,171 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "LlavaOnevisionImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "processor_class": "LlavaOnevisionProcessor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 384,
+    "width": 384
+  }
+}

processor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "image_token": "<image>",
+  "num_image_tokens": 576,
+  "processor_class": "LlavaOnevisionProcessor",
+  "video_token": "<video>",
+  "vision_aspect_ratio": "anyres_max_9",
+  "vision_feature_select_strategy": "full"
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "additional_special_tokens": [
+    "<gro>",
+    "<ocr>",
+    "<char>",
+    "</char>",
+    "<obj>",
+    "</obj>",
+    "<bbox>",
+    "</bbox>",
+    "<delim>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be6a8990f1e9afb195f92b5408eb1ccc3c1a7baf263fe638b5a375b24b310524
+size 11424851

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,316 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151669": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151670": {
+      "content": "<gro>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151671": {
+      "content": "<ocr>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151672": {
+      "content": "<char>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151673": {
+      "content": "</char>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151674": {
+      "content": "<obj>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151675": {
+      "content": "</obj>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151676": {
+      "content": "<bbox>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151677": {
+      "content": "</bbox>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151678": {
+      "content": "<delim>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<gro>",
+    "<ocr>",
+    "<char>",
+    "</char>",
+    "<obj>",
+    "</obj>",
+    "<bbox>",
+    "</bbox>",
+    "<delim>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 9216,
+  "pad_token": "[UNK]",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": "[UNK]"
+}

video_preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": false,
+  "device": null,
+  "do_center_crop": null,
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_pad": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "do_sample_frames": false,
+  "fps": null,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "SiglipImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "input_data_format": null,
+  "num_frames": null,
+  "processor_class": "LlavaOnevisionProcessor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 384,
+    "width": 384
+  },
+  "size_divisor": null,
+  "video_metadata": null,
+  "video_processor_type": "LlavaOnevisionVideoProcessor"
+}