Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

config.json +2 -2
model-00006-of-00007.safetensors +1 -1
model.safetensors.index.json +14 -14
modeling.py +3 -3

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "Qwen/Qwen2.5-7B-Instruct",
   "architectures": [
     "VLMQwenForCausalLM"
   ],
@@ -57,7 +57,7 @@
   "rope_theta": 1000000.0,
   "sliding_window": null,
   "tie_word_embeddings": false,
-  "torch_dtype": "bfloat16",
   "transformers_version": "4.48.3",
   "use_cache": true,
   "use_sliding_window": false,

 {
+  "_name_or_path": "/home/yu.xin/weishao/Med3DVLM/models/Med3DVLM-Qwen-2.5-7B",
   "architectures": [
     "VLMQwenForCausalLM"
   ],
   "rope_theta": 1000000.0,
   "sliding_window": null,
   "tie_word_embeddings": false,
+  "torch_dtype": "float32",
   "transformers_version": "4.48.3",
   "use_cache": true,
   "use_sliding_window": false,

model-00006-of-00007.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d577d20479436de45481d01c6f33e45b8cda3fb9188acc3ec0d3a4960a84e44
 size 3924909896

 version https://git-lfs.github.com/spec/v1
+oid sha256:af0b8f367ee0be887dc1ccd8b5c04d67935fd7eaafab5ebb8e3b3f73ddbca0af
 size 3924909896

model.safetensors.index.json CHANGED Viewed

@@ -495,12 +495,12 @@
     "model.vision_tower.vision_tower.encoder.s1.0.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s1.0.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.proj.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -522,11 +522,11 @@
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s1.1.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -548,12 +548,12 @@
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s2.0.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.proj.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -575,11 +575,11 @@
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s2.1.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -601,11 +601,11 @@
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s2.2.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -627,12 +627,12 @@
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s3.0.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.proj.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -654,11 +654,11 @@
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s3.1.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -680,11 +680,11 @@
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s3.2.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -706,11 +706,11 @@
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s3.3.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -732,11 +732,11 @@
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s3.4.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -758,11 +758,11 @@
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s3.5.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -784,12 +784,12 @@
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s4.0.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.proj.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
@@ -811,10 +811,10 @@
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s4.1.gamma": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
-    "model.vision_tower.vision_tower.encoder.s4.1.mlp.mlp.3.weight": "model-00006-of-00007.safetensors"
   }
 }

     "model.vision_tower.vision_tower.encoder.s1.0.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.0.proj.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s1.0.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s1.1.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s1.1.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.0.proj.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s2.0.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.1.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s2.1.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s2.2.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s2.2.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.0.proj.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s3.0.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.1.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s3.1.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.2.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s3.2.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.3.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s3.3.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.4.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s3.4.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s3.5.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s3.5.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.0.proj.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s4.0.scale": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c1.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c1.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c1.1.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c3.1.running_mean": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c3.1.running_var": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.dwconv.c3.1.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.mlp.mlp.0.bias": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.mlp.mlp.0.weight": "model-00006-of-00007.safetensors",
     "model.vision_tower.vision_tower.encoder.s4.1.mlp.mlp.3.bias": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s4.1.mlp.mlp.3.weight": "model-00006-of-00007.safetensors",
+    "model.vision_tower.vision_tower.encoder.s4.1.scale": "model-00006-of-00007.safetensors"
   }
 }

modeling.py CHANGED Viewed

@@ -648,7 +648,7 @@ class ConvBlock(nn.Module):
         self.dwconv = DecompConv3D(oup, oup, kernel_size, groups=oup)
         self.mlp = MLP(oup, hidden_dim)
-        self.gamma = (
             nn.Parameter(layer_scale_init_value * torch.ones((oup)), requires_grad=True)
             if layer_scale_init_value > 0
             else None
@@ -664,8 +664,8 @@ class ConvBlock(nn.Module):
         x = self.mlp(x)
-        if self.gamma is not None:
-            x = self.gamma * x
         x = x.permute(0, 4, 1, 2, 3)  # (N, H, W, C) -> (N, C, H, W)
         x = input + self.drop_path(x)

         self.dwconv = DecompConv3D(oup, oup, kernel_size, groups=oup)
         self.mlp = MLP(oup, hidden_dim)
+        self.scale = (
             nn.Parameter(layer_scale_init_value * torch.ones((oup)), requires_grad=True)
             if layer_scale_init_value > 0
             else None
         x = self.mlp(x)
+        if self.scale is not None:
+            x = self.scale * x
         x = x.permute(0, 4, 1, 2, 3)  # (N, H, W, C) -> (N, C, H, W)
         x = input + self.drop_path(x)