diff --git "a/log_node0.txt" "b/log_node0.txt"
new file mode 100644--- /dev/null
+++ "b/log_node0.txt"
@@ -0,0 +1,23407 @@
++ echo Logging output to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//log_node0.txt
+Logging output to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//log_node0.txt
++ export ASCEND_PROCESS_LOG_PATH=/data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//ascend/0
++ ASCEND_PROCESS_LOG_PATH=/data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//ascend/0
++ mkdir -p /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//ascend/0
++ DATA_PATH=/local_disk/cognitron_vl//configs/lcvlm_finetune_stage2.yaml
++ TOKENIZER_PATH=/data_4/models/Qwen/Qwen2.5-14B-Instruct/
++ CKPT_LOAD_DIR=/data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/
++ VIT_CKPT_LOAD_DIR=/
++ CKPT_SAVE_DIR=/data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
++ rsync -avh /local_disk/cognitron_vl//configs/lcvlm_finetune_stage2.yaml /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952/
+sending incremental file list
+
+sent 59 bytes  received 12 bytes  142.00 bytes/sec
+total size is 18.03K  speedup is 254.00
++ cd /local_disk/cognitron_vl/
++ rm -fr datasets
++ mkdir -p datasets
++ ln -s /data/data/ datasets/
++ source /local_disk/cognitron_vl//scripts/set_env_mg_npu.sh
+++ source /usr/local/Ascend/driver/bin/setenv.bash
++++ DEP_INFO_FILE=/etc/ascend_install.info
++++ [[ -f /etc/ascend_install.info ]]
+++ source /usr/local/Ascend/ascend-toolkit/set_env.sh
++++ export ASCEND_TOOLKIT_HOME=/usr/local/Ascend/ascend-toolkit/latest
++++ ASCEND_TOOLKIT_HOME=/usr/local/Ascend/ascend-toolkit/latest
+++++ arch
++++ export LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/opskernel:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/nnengine:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64:/usr/local/openmpi/lib:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64/plugin:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/opskernel:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/nnengine:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/driver/lib64:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/tools/hccn_tool/:/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64/:/usr/lib/x86_64-linux-gnu/hdf5/serial:/usr/local/python3.7.5/lib:
++++ LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/opskernel:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/nnengine:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64:/usr/local/openmpi/lib:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64/plugin:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/opskernel:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/nnengine:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/driver/lib64:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/tools/hccn_tool/:/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64/:/usr/lib/x86_64-linux-gnu/hdf5/serial:/usr/local/python3.7.5/lib:
++++ export LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64/plugin:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/opskernel:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/nnengine:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64:/usr/local/openmpi/lib:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64/plugin:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/opskernel:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/nnengine:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/driver/lib64:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/tools/hccn_tool/:/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64/:/usr/lib/x86_64-linux-gnu/hdf5/serial:/usr/local/python3.7.5/lib:
++++ LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64/plugin:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/opskernel:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/nnengine:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64:/usr/local/openmpi/lib:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64:/usr/local/Ascend/ascend-toolkit/latest/tools/aml/lib64/plugin:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/opskernel:/usr/local/Ascend/ascend-toolkit/latest/lib64/plugin/nnengine:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64:/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/driver/lib64:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/tools/hccn_tool/:/opp/built-in/op_impl/ai_core/tbe/op_tiling/lib/linux/x86_64/:/usr/lib/x86_64-linux-gnu/hdf5/serial:/usr/local/python3.7.5/lib:
++++ export PYTHONPATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/Ascend/ascend-toolkit/latest/opp/op_impl/built-in/ai_core/tbe:
++++ PYTHONPATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/Ascend/ascend-toolkit/latest/opp/op_impl/built-in/ai_core/tbe:
++++ export PATH=/usr/local/Ascend/ascend-toolkit/latest/bin:/usr/local/Ascend/ascend-toolkit/latest/compiler/ccec_compiler/bin:/usr/local/Ascend/ascend-toolkit/latest/tools/ccec_compiler/bin:/usr/local/openmpi/bin:/usr/local/Ascend/driver/tools:/usr/local/Ascend/ascend-toolkit/latest/bin:/usr/local/Ascend/ascend-toolkit/latest/compiler/ccec_compiler/bin:/usr/local/Ascend/ascend-toolkit/latest/tools/ccec_compiler/bin:/root/miniconda3/envs/torch21_python38/bin:/root/miniconda3/condabin:/usr/local/Ascend/ascend-toolkit/latest/ccec_compiler/bin:/usr/local/python3.7.5/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
++++ PATH=/usr/local/Ascend/ascend-toolkit/latest/bin:/usr/local/Ascend/ascend-toolkit/latest/compiler/ccec_compiler/bin:/usr/local/Ascend/ascend-toolkit/latest/tools/ccec_compiler/bin:/usr/local/openmpi/bin:/usr/local/Ascend/driver/tools:/usr/local/Ascend/ascend-toolkit/latest/bin:/usr/local/Ascend/ascend-toolkit/latest/compiler/ccec_compiler/bin:/usr/local/Ascend/ascend-toolkit/latest/tools/ccec_compiler/bin:/root/miniconda3/envs/torch21_python38/bin:/root/miniconda3/condabin:/usr/local/Ascend/ascend-toolkit/latest/ccec_compiler/bin:/usr/local/python3.7.5/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
++++ export ASCEND_AICPU_PATH=/usr/local/Ascend/ascend-toolkit/latest
++++ ASCEND_AICPU_PATH=/usr/local/Ascend/ascend-toolkit/latest
++++ export ASCEND_OPP_PATH=/usr/local/Ascend/ascend-toolkit/latest/opp
++++ ASCEND_OPP_PATH=/usr/local/Ascend/ascend-toolkit/latest/opp
++++ export TOOLCHAIN_HOME=/usr/local/Ascend/ascend-toolkit/latest/toolkit
++++ TOOLCHAIN_HOME=/usr/local/Ascend/ascend-toolkit/latest/toolkit
++++ export ASCEND_HOME_PATH=/usr/local/Ascend/ascend-toolkit/latest
++++ ASCEND_HOME_PATH=/usr/local/Ascend/ascend-toolkit/latest
+++ export HCCL_CONNECT_TIMEOUT=7200
+++ HCCL_CONNECT_TIMEOUT=7200
+++ export HCCL_EXEC_TIMEOUT=7200
+++ HCCL_EXEC_TIMEOUT=7200
+++ export COMBINED_ENABLE=1
+++ COMBINED_ENABLE=1
+++ export MULTI_STREAM_MEMORY_REUSE=1
+++ MULTI_STREAM_MEMORY_REUSE=1
+++ export HCCL_RDMA_TC=160
+++ HCCL_RDMA_TC=160
+++ export HCCL_RDMA_SL=5
+++ HCCL_RDMA_SL=5
+++ export HCCL_INTRA_PCIE_ENABLE=0
+++ HCCL_INTRA_PCIE_ENABLE=0
+++ export HCCL_INTRA_ROCE_ENABLE=1
+++ HCCL_INTRA_ROCE_ENABLE=1
+++ export HCCL_RDMA_TIMEOUT=20
+++ HCCL_RDMA_TIMEOUT=20
+++ export INF_NAN_MODE_ENABLE=1
+++ INF_NAN_MODE_ENABLE=1
+++ export DISTRIBUTED_BACKEND=hccl
+++ DISTRIBUTED_BACKEND=hccl
+++ export ASCEND_LAUNCH_BLOCKING=0
+++ ASCEND_LAUNCH_BLOCKING=0
+++ export ASCEND_SLOG_PRINT_TO_STDOUT=0
+++ ASCEND_SLOG_PRINT_TO_STDOUT=0
+++ export ASCEND_GLOBAL_LOG_LEVEL=3
+++ ASCEND_GLOBAL_LOG_LEVEL=3
+++ export ASCEND_GLOBAL_EVENT_ENABLE=0
+++ ASCEND_GLOBAL_EVENT_ENABLE=0
+++ export TASK_QUEUE_ENABLE=1
+++ TASK_QUEUE_ENABLE=1
+++ export PTCOPY_ENABLE=1
+++ PTCOPY_ENABLE=1
+++ export COMBINED_ENABLE=1
+++ COMBINED_ENABLE=1
+++ export DYNAMIC_OP=ADD#MUL
+++ DYNAMIC_OP=ADD#MUL
+++ export HCCL_WHITELIST_DISABLE=1
+++ HCCL_WHITELIST_DISABLE=1
+++ export HCCL_CONNECT_TIMEOUT=7200
+++ HCCL_CONNECT_TIMEOUT=7200
+++ export HCCL_WHITELIST_DISABLE=1
+++ HCCL_WHITELIST_DISABLE=1
+++ export CUDA_DEVICE_MAX_CONNECTIONS=1
+++ CUDA_DEVICE_MAX_CONNECTIONS=1
+++ rm -fr /usr/local/python3.7.5/bin/
+++ apt-get install -y libaio-dev
+Reading package lists...
+Building dependency tree...
+Reading state information...
+The following additional packages will be installed:
+  libaio1
+The following NEW packages will be installed:
+  libaio-dev libaio1
+0 upgraded, 2 newly installed, 0 to remove and 55 not upgraded.
+Need to get 19.3 kB of archives.
+After this operation, 87.0 kB of additional disk space will be used.
+Get:1 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 libaio1 amd64 0.3.110-5ubuntu0.1 [6,476 B]
+Get:2 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 libaio-dev amd64 0.3.110-5ubuntu0.1 [12.8 kB]
+debconf: delaying package configuration, since apt-utils is not installed
+Fetched 19.3 kB in 0s (599 kB/s)
+Selecting previously unselected package libaio1:amd64.
+(Reading database ... (Reading database ... 5%(Reading database ... 10%(Reading database ... 15%(Reading database ... 20%(Reading database ... 25%(Reading database ... 30%(Reading database ... 35%(Reading database ... 40%(Reading database ... 45%(Reading database ... 50%(Reading database ... 55%(Reading database ... 60%(Reading database ... 65%(Reading database ... 70%(Reading database ... 75%(Reading database ... 80%(Reading database ... 85%(Reading database ... 90%(Reading database ... 95%(Reading database ... 100%(Reading database ... 21494 files and directories currently installed.)
+Preparing to unpack .../libaio1_0.3.110-5ubuntu0.1_amd64.deb ...
+Unpacking libaio1:amd64 (0.3.110-5ubuntu0.1) ...
+Selecting previously unselected package libaio-dev:amd64.
+Preparing to unpack .../libaio-dev_0.3.110-5ubuntu0.1_amd64.deb ...
+Unpacking libaio-dev:amd64 (0.3.110-5ubuntu0.1) ...
+Processing triggers for libc-bin (2.27-3ubuntu1) ...
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-cfg.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcudadebugger.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ptxjitcompiler.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcuda.so is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcuda.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-allocator.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-cfg.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-pkcs11.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-opencl.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcudadebugger.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ptxjitcompiler.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcuda.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-opencl.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-allocator.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ptxjitcompiler.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-opencl.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-cfg.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-nvvm.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-nvvm.so.4 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-compiler.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-allocator.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcuda.so.515.65.01 is empty, not checked.
+Setting up libaio1:amd64 (0.3.110-5ubuntu0.1) ...
+Setting up libaio-dev:amd64 (0.3.110-5ubuntu0.1) ...
+Processing triggers for libc-bin (2.27-3ubuntu1) ...
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-cfg.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcudadebugger.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ptxjitcompiler.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcuda.so is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcuda.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-allocator.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-cfg.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-pkcs11.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-opencl.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcudadebugger.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ptxjitcompiler.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcuda.so.1 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-opencl.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-allocator.so.535.54.04 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ptxjitcompiler.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-opencl.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-cfg.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-nvvm.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-nvvm.so.4 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-compiler.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libnvidia-allocator.so.515.65.01 is empty, not checked.
+/sbin/ldconfig.real: File /usr/lib/x86_64-linux-gnu/libcuda.so.515.65.01 is empty, not checked.
+++ apt-get install -y python3-pybind11
+Reading package lists...
+Building dependency tree...
+Reading state information...
+The following additional packages will be installed:
+  pybind11-dev
+Suggested packages:
+  libeigen3-dev pybind11-doc
+The following NEW packages will be installed:
+  pybind11-dev python3-pybind11
+0 upgraded, 2 newly installed, 0 to remove and 55 not upgraded.
+Need to get 77.4 kB of archives.
+After this operation, 427 kB of additional disk space will be used.
+Get:1 http://mirrors.tencentyun.com/ubuntu bionic/universe amd64 pybind11-dev all 2.0.1-4 [72.8 kB]
+Get:2 http://mirrors.tencentyun.com/ubuntu bionic/universe amd64 python3-pybind11 all 2.0.1-4 [4,652 B]
+debconf: delaying package configuration, since apt-utils is not installed
+Fetched 77.4 kB in 0s (2,243 kB/s)
+Selecting previously unselected package pybind11-dev.
+(Reading database ... (Reading database ... 5%(Reading database ... 10%(Reading database ... 15%(Reading database ... 20%(Reading database ... 25%(Reading database ... 30%(Reading database ... 35%(Reading database ... 40%(Reading database ... 45%(Reading database ... 50%(Reading database ... 55%(Reading database ... 60%(Reading database ... 65%(Reading database ... 70%(Reading database ... 75%(Reading database ... 80%(Reading database ... 85%(Reading database ... 90%(Reading database ... 95%(Reading database ... 100%(Reading database ... 21517 files and directories currently installed.)
+Preparing to unpack .../pybind11-dev_2.0.1-4_all.deb ...
+Unpacking pybind11-dev (2.0.1-4) ...
+Selecting previously unselected package python3-pybind11.
+Preparing to unpack .../python3-pybind11_2.0.1-4_all.deb ...
+Unpacking python3-pybind11 (2.0.1-4) ...
+Setting up pybind11-dev (2.0.1-4) ...
+Setting up python3-pybind11 (2.0.1-4) ...
+++ apt-get install -y python3-dev
+Reading package lists...
+Building dependency tree...
+Reading state information...
+The following additional packages will be installed:
+  dh-python libexpat1-dev libpython3-dev libpython3.6-dev python3-distutils
+  python3-lib2to3 python3.6-dev
+The following NEW packages will be installed:
+  dh-python libexpat1-dev libpython3-dev libpython3.6-dev python3-dev
+  python3-distutils python3-lib2to3 python3.6-dev
+0 upgraded, 8 newly installed, 0 to remove and 55 not upgraded.
+Need to get 45.8 MB of archives.
+After this operation, 81.5 MB of additional disk space will be used.
+Get:1 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 python3-lib2to3 all 3.6.9-1~18.04 [77.4 kB]
+Get:2 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 python3-distutils all 3.6.9-1~18.04 [144 kB]
+Get:3 http://mirrors.tencentyun.com/ubuntu bionic/main amd64 dh-python all 3.20180325ubuntu2 [89.2 kB]
+Get:4 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 libexpat1-dev amd64 2.2.5-3ubuntu0.9 [124 kB]
+Get:5 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 libpython3.6-dev amd64 3.6.9-1~18.04ubuntu1.12 [44.9 MB]
+Get:6 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 libpython3-dev amd64 3.6.7-1~18.04 [7,328 B]
+Get:7 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 python3.6-dev amd64 3.6.9-1~18.04ubuntu1.12 [511 kB]
+Get:8 http://mirrors.tencentyun.com/ubuntu bionic-updates/main amd64 python3-dev amd64 3.6.7-1~18.04 [1,288 B]
+debconf: delaying package configuration, since apt-utils is not installed
+Fetched 45.8 MB in 1s (66.5 MB/s)
+Selecting previously unselected package python3-lib2to3.
+(Reading database ... (Reading database ... 5%(Reading database ... 10%(Reading database ... 15%(Reading database ... 20%(Reading database ... 25%(Reading database ... 30%(Reading database ... 35%(Reading database ... 40%(Reading database ... 45%(Reading database ... 50%(Reading database ... 55%(Reading database ... 60%(Reading database ... 65%(Reading database ... 70%(Reading database ... 75%(Reading database ... 80%(Reading database ... 85%(Reading database ... 90%(Reading database ... 95%(Reading database ... 100%(Reading database ... 21555 files and directories currently installed.)
+Preparing to unpack .../0-python3-lib2to3_3.6.9-1~18.04_all.deb ...
+Unpacking python3-lib2to3 (3.6.9-1~18.04) ...
+Selecting previously unselected package python3-distutils.
+Preparing to unpack .../1-python3-distutils_3.6.9-1~18.04_all.deb ...
+Unpacking python3-distutils (3.6.9-1~18.04) ...
+Selecting previously unselected package dh-python.
+Preparing to unpack .../2-dh-python_3.20180325ubuntu2_all.deb ...
+Unpacking dh-python (3.20180325ubuntu2) ...
+Selecting previously unselected package libexpat1-dev:amd64.
+Preparing to unpack .../3-libexpat1-dev_2.2.5-3ubuntu0.9_amd64.deb ...
+Unpacking libexpat1-dev:amd64 (2.2.5-3ubuntu0.9) ...
+Selecting previously unselected package libpython3.6-dev:amd64.
+Preparing to unpack .../4-libpython3.6-dev_3.6.9-1~18.04ubuntu1.12_amd64.deb ...
+Unpacking libpython3.6-dev:amd64 (3.6.9-1~18.04ubuntu1.12) ...
+Selecting previously unselected package libpython3-dev:amd64.
+Preparing to unpack .../5-libpython3-dev_3.6.7-1~18.04_amd64.deb ...
+Unpacking libpython3-dev:amd64 (3.6.7-1~18.04) ...
+Selecting previously unselected package python3.6-dev.
+Preparing to unpack .../6-python3.6-dev_3.6.9-1~18.04ubuntu1.12_amd64.deb ...
+Unpacking python3.6-dev (3.6.9-1~18.04ubuntu1.12) ...
+Selecting previously unselected package python3-dev.
+Preparing to unpack .../7-python3-dev_3.6.7-1~18.04_amd64.deb ...
+Unpacking python3-dev (3.6.7-1~18.04) ...
+Setting up libexpat1-dev:amd64 (2.2.5-3ubuntu0.9) ...
+Setting up python3-lib2to3 (3.6.9-1~18.04) ...
+Setting up python3-distutils (3.6.9-1~18.04) ...
+Setting up libpython3.6-dev:amd64 (3.6.9-1~18.04ubuntu1.12) ...
+Setting up python3.6-dev (3.6.9-1~18.04ubuntu1.12) ...
+Setting up dh-python (3.20180325ubuntu2) ...
+Setting up libpython3-dev:amd64 (3.6.7-1~18.04) ...
+Setting up python3-dev (3.6.7-1~18.04) ...
+++ '[' -f /usr/local/bin/python3.9 ']'
+++ pip3 uninstall -y deepspeed_npu
+WARNING: Skipping deepspeed_npu as it is not installed.
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
+++ pip3 uninstall -y deepspeed
+Found existing installation: deepspeed 0.9.2
+Uninstalling deepspeed-0.9.2:
+  Successfully uninstalled deepspeed-0.9.2
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
+++ pip3 uninstall -y torch_npu
+WARNING: Skipping torch_npu as it is not installed.
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
+++ pip3 uninstall -y torch
+Found existing installation: torch 2.1.0+cpu
+Uninstalling torch-2.1.0+cpu:
+  Successfully uninstalled torch-2.1.0+cpu
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
+++ pip3 install --no-index --find-links=/data/software/ torch==2.1.0 torchvision==0.16.0 torch_npu==2.1.0.post6
+Looking in links: /data/software/
+Processing data/software/torch-2.1.0+cpu-cp38-cp38-linux_x86_64.whl
+Requirement already satisfied: torchvision==0.16.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (0.16.0)
+Processing data/software/torch_npu-2.1.0.post6-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
+Requirement already satisfied: filelock in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch==2.1.0) (3.13.1)
+Requirement already satisfied: typing-extensions in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch==2.1.0) (4.9.0)
+Requirement already satisfied: sympy in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch==2.1.0) (1.12)
+Requirement already satisfied: networkx in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch==2.1.0) (3.1)
+Requirement already satisfied: jinja2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch==2.1.0) (3.1.2)
+Requirement already satisfied: fsspec in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch==2.1.0) (2023.10.0)
+Requirement already satisfied: numpy in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torchvision==0.16.0) (1.24.4)
+Requirement already satisfied: requests in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torchvision==0.16.0) (2.31.0)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torchvision==0.16.0) (10.2.0)
+Requirement already satisfied: MarkupSafe>=2.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from jinja2->torch==2.1.0) (2.1.3)
+Requirement already satisfied: charset-normalizer<4,>=2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests->torchvision==0.16.0) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests->torchvision==0.16.0) (3.6)
+Requirement already satisfied: urllib3<3,>=1.21.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests->torchvision==0.16.0) (2.1.0)
+Requirement already satisfied: certifi>=2017.4.17 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests->torchvision==0.16.0) (2023.11.17)
+Requirement already satisfied: mpmath>=0.19 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from sympy->torch==2.1.0) (1.3.0)
+DEPRECATION: apex 0.1-ascend-20231124 has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of apex or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063
+Installing collected packages: torch, torch_npu
+Successfully installed torch-2.1.0+cpu torch_npu-2.1.0.post6
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
+++ pip3 install --no-index --find-links=/data/software/ -r requirements.txt
+Looking in links: /data/software/
+Requirement already satisfied: expecttest in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from -r requirements.txt (line 1)) (0.2.1)
+Requirement already satisfied: peft in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from -r requirements.txt (line 2)) (0.5.0)
+Processing data/software/XlsxWriter-3.2.0-py3-none-any.whl (from -r requirements.txt (line 3))
+Processing data/software/termcolor-2.4.0-py3-none-any.whl (from -r requirements.txt (line 4))
+Processing data/software/tabulate-0.9.0-py3-none-any.whl (from -r requirements.txt (line 5))
+Requirement already satisfied: tiktoken in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from -r requirements.txt (line 6)) (0.5.2)
+Requirement already satisfied: matplotlib in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from -r requirements.txt (line 7)) (3.7.4)
+Processing data/software/datasets-2.21.0-py3-none-any.whl (from -r requirements.txt (line 8))
+Requirement already satisfied: einops in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from -r requirements.txt (line 9)) (0.6.1)
+Requirement already satisfied: pybind11 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from -r requirements.txt (line 10)) (2.11.1)
+Requirement already satisfied: tensorboardX in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from -r requirements.txt (line 11)) (2.6.2.2)
+Processing data/software/pyarrow-16.1.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from -r requirements.txt (line 12))
+Processing data/software/transformers-4.40.1-py3-none-any.whl (from -r requirements.txt (line 13))
+Processing data/software/deepspeed-0.14.2.tar.gz (from -r requirements.txt (line 14))
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Processing data/software/accelerate-0.29.3-py3-none-any.whl (from -r requirements.txt (line 15))
+Processing data/software/timm-1.0.7-py3-none-any.whl (from -r requirements.txt (line 16))
+Processing data/software/flask-3.0.3-py3-none-any.whl (from -r requirements.txt (line 17))
+Processing data/software/Flask_RESTful-0.3.10-py2.py3-none-any.whl (from -r requirements.txt (line 18))
+Processing data/software/decord-0.6.0-py3-none-manylinux2010_x86_64.whl (from -r requirements.txt (line 19))
+Processing data/software/natsort-8.4.0-py3-none-any.whl (from -r requirements.txt (line 20))
+Requirement already satisfied: filelock in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (3.13.1)
+Requirement already satisfied: numpy>=1.17 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (1.24.4)
+Requirement already satisfied: dill<0.3.9,>=0.3.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (0.3.7)
+Requirement already satisfied: pandas in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (2.0.3)
+Processing data/software/requests-2.32.3-py3-none-any.whl (from datasets==2.21.0->-r requirements.txt (line 8))
+Processing data/software/tqdm-4.66.5-py3-none-any.whl (from datasets==2.21.0->-r requirements.txt (line 8))
+Requirement already satisfied: xxhash in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (3.4.1)
+Requirement already satisfied: multiprocess in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (0.70.15)
+Requirement already satisfied: fsspec<=2024.6.1,>=2023.1.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from fsspec[http]<=2024.6.1,>=2023.1.0->datasets==2.21.0->-r requirements.txt (line 8)) (2023.10.0)
+Requirement already satisfied: aiohttp in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (3.9.1)
+Processing data/software/huggingface_hub-0.25.2-py3-none-any.whl (from datasets==2.21.0->-r requirements.txt (line 8))
+Requirement already satisfied: packaging in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (23.2)
+Requirement already satisfied: pyyaml>=5.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets==2.21.0->-r requirements.txt (line 8)) (6.0.1)
+Requirement already satisfied: regex!=2019.12.17 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from transformers==4.40.1->-r requirements.txt (line 13)) (2023.12.25)
+Processing data/software/tokenizers-0.19.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from transformers==4.40.1->-r requirements.txt (line 13))
+Requirement already satisfied: safetensors>=0.4.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from transformers==4.40.1->-r requirements.txt (line 13)) (0.4.1)
+Requirement already satisfied: hjson in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from deepspeed==0.14.2->-r requirements.txt (line 14)) (3.1.0)
+Requirement already satisfied: ninja in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from deepspeed==0.14.2->-r requirements.txt (line 14)) (1.11.1.1)
+Requirement already satisfied: psutil in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from deepspeed==0.14.2->-r requirements.txt (line 14)) (5.9.7)
+Requirement already satisfied: py-cpuinfo in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from deepspeed==0.14.2->-r requirements.txt (line 14)) (9.0.0)
+Requirement already satisfied: pydantic in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from deepspeed==0.14.2->-r requirements.txt (line 14)) (1.10.13)
+Processing data/software/pynvml-11.5.0-py3-none-any.whl (from deepspeed==0.14.2->-r requirements.txt (line 14))
+Requirement already satisfied: torch in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from deepspeed==0.14.2->-r requirements.txt (line 14)) (2.1.0+cpu)
+Requirement already satisfied: contourpy>=1.0.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from matplotlib->-r requirements.txt (line 7)) (1.1.1)
+Requirement already satisfied: cycler>=0.10 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from matplotlib->-r requirements.txt (line 7)) (0.12.1)
+Requirement already satisfied: fonttools>=4.22.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from matplotlib->-r requirements.txt (line 7)) (4.47.2)
+Requirement already satisfied: kiwisolver>=1.0.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from matplotlib->-r requirements.txt (line 7)) (1.4.5)
+Requirement already satisfied: pillow>=6.2.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from matplotlib->-r requirements.txt (line 7)) (10.2.0)
+Requirement already satisfied: pyparsing>=2.3.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from matplotlib->-r requirements.txt (line 7)) (3.1.1)
+Requirement already satisfied: python-dateutil>=2.7 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from matplotlib->-r requirements.txt (line 7)) (2.8.2)
+Requirement already satisfied: importlib-resources>=3.2.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from matplotlib->-r requirements.txt (line 7)) (6.1.1)
+Requirement already satisfied: protobuf>=3.20 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from tensorboardX->-r requirements.txt (line 11)) (3.20.3)
+Requirement already satisfied: torchvision in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from timm->-r requirements.txt (line 16)) (0.16.0)
+Requirement already satisfied: Werkzeug>=3.0.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from flask->-r requirements.txt (line 17)) (3.0.1)
+Requirement already satisfied: Jinja2>=3.1.2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from flask->-r requirements.txt (line 17)) (3.1.2)
+Processing data/software/itsdangerous-2.2.0-py3-none-any.whl (from flask->-r requirements.txt (line 17))
+Requirement already satisfied: click>=8.1.3 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from flask->-r requirements.txt (line 17)) (8.1.7)
+Processing data/software/blinker-1.8.2-py3-none-any.whl (from flask->-r requirements.txt (line 17))
+Requirement already satisfied: importlib-metadata>=3.6.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from flask->-r requirements.txt (line 17)) (7.0.1)
+Processing data/software/aniso8601-9.0.1-py2.py3-none-any.whl (from flask_restful->-r requirements.txt (line 18))
+Requirement already satisfied: six>=1.3.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from flask_restful->-r requirements.txt (line 18)) (1.16.0)
+Requirement already satisfied: pytz in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from flask_restful->-r requirements.txt (line 18)) (2023.3.post1)
+Requirement already satisfied: attrs>=17.3.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets==2.21.0->-r requirements.txt (line 8)) (23.2.0)
+Requirement already satisfied: multidict<7.0,>=4.5 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets==2.21.0->-r requirements.txt (line 8)) (6.0.4)
+Requirement already satisfied: yarl<2.0,>=1.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets==2.21.0->-r requirements.txt (line 8)) (1.9.4)
+Requirement already satisfied: frozenlist>=1.1.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets==2.21.0->-r requirements.txt (line 8)) (1.4.1)
+Requirement already satisfied: aiosignal>=1.1.2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets==2.21.0->-r requirements.txt (line 8)) (1.3.1)
+Requirement already satisfied: async-timeout<5.0,>=4.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets==2.21.0->-r requirements.txt (line 8)) (4.0.3)
+Requirement already satisfied: typing-extensions>=3.7.4.3 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from huggingface-hub>=0.21.2->datasets==2.21.0->-r requirements.txt (line 8)) (4.9.0)
+Requirement already satisfied: zipp>=0.5 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from importlib-metadata>=3.6.0->flask->-r requirements.txt (line 17)) (3.17.0)
+Requirement already satisfied: MarkupSafe>=2.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from Jinja2>=3.1.2->flask->-r requirements.txt (line 17)) (2.1.3)
+Requirement already satisfied: charset-normalizer<4,>=2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests>=2.32.2->datasets==2.21.0->-r requirements.txt (line 8)) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests>=2.32.2->datasets==2.21.0->-r requirements.txt (line 8)) (3.6)
+Requirement already satisfied: urllib3<3,>=1.21.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests>=2.32.2->datasets==2.21.0->-r requirements.txt (line 8)) (2.1.0)
+Requirement already satisfied: certifi>=2017.4.17 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests>=2.32.2->datasets==2.21.0->-r requirements.txt (line 8)) (2023.11.17)
+Requirement already satisfied: sympy in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch->deepspeed==0.14.2->-r requirements.txt (line 14)) (1.12)
+Requirement already satisfied: networkx in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch->deepspeed==0.14.2->-r requirements.txt (line 14)) (3.1)
+Requirement already satisfied: tzdata>=2022.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from pandas->datasets==2.21.0->-r requirements.txt (line 8)) (2023.4)
+Requirement already satisfied: mpmath>=0.19 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from sympy->torch->deepspeed==0.14.2->-r requirements.txt (line 14)) (1.3.0)
+Building wheels for collected packages: deepspeed
+  Building wheel for deepspeed (setup.py): started
+  Building wheel for deepspeed (setup.py): finished with status 'done'
+  Created wheel for deepspeed: filename=deepspeed-0.14.2-py3-none-any.whl size=1432135 sha256=f4756c28a1b98558341d065b58b52f5e8d6233930ed01e400d9f6eecdf48a0d4
+  Stored in directory: /tmp/pip-ephem-wheel-cache-8h64bth2/wheels/54/55/f0/134d74ed2ef12f335a7806742c56604267a8186dfba6135e06
+Successfully built deepspeed
+DEPRECATION: apex 0.1-ascend-20231124 has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of apex or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063
+Installing collected packages: aniso8601, xlsxwriter, tqdm, termcolor, tabulate, requests, pynvml, pyarrow, natsort, itsdangerous, decord, blinker, huggingface-hub, flask, tokenizers, flask_restful, deepspeed, accelerate, transformers, timm, datasets
+  Attempting uninstall: tqdm
+    Found existing installation: tqdm 4.66.1
+    Uninstalling tqdm-4.66.1:
+      Successfully uninstalled tqdm-4.66.1
+  Attempting uninstall: requests
+    Found existing installation: requests 2.31.0
+    Uninstalling requests-2.31.0:
+      Successfully uninstalled requests-2.31.0
+  Attempting uninstall: pyarrow
+    Found existing installation: pyarrow 14.0.2
+    Uninstalling pyarrow-14.0.2:
+      Successfully uninstalled pyarrow-14.0.2
+  Attempting uninstall: huggingface-hub
+    Found existing installation: huggingface-hub 0.20.2
+    Uninstalling huggingface-hub-0.20.2:
+      Successfully uninstalled huggingface-hub-0.20.2
+  Attempting uninstall: tokenizers
+    Found existing installation: tokenizers 0.13.3
+    Uninstalling tokenizers-0.13.3:
+      Successfully uninstalled tokenizers-0.13.3
+  Attempting uninstall: accelerate
+    Found existing installation: accelerate 0.24.0
+    Uninstalling accelerate-0.24.0:
+      Successfully uninstalled accelerate-0.24.0
+  Attempting uninstall: transformers
+    Found existing installation: transformers 4.33.0
+    Uninstalling transformers-4.33.0:
+      Successfully uninstalled transformers-4.33.0
+  Attempting uninstall: datasets
+    Found existing installation: datasets 2.16.1
+    Uninstalling datasets-2.16.1:
+      Successfully uninstalled datasets-2.16.1
+ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
+tikit 1.8.2.240923 requires dicttoxml==1.7.4, which is not installed.
+tikit 1.8.2.240923 requires docopt==0.6.2, which is not installed.
+tikit 1.8.2.240923 requires future==0.18.2, which is not installed.
+tikit 1.8.2.240923 requires hdfs==2.6.0, which is not installed.
+tikit 1.8.2.240923 requires pure-sasl==0.6.2, which is not installed.
+tikit 1.8.2.240923 requires py4j==0.10.7, which is not installed.
+tikit 1.8.2.240923 requires PyHive[hive]==0.6.4, which is not installed.
+tikit 1.8.2.240923 requires pyjwt>=2.4.0, which is not installed.
+tikit 1.8.2.240923 requires requests-kerberos>=0.14.0, which is not installed.
+tikit 1.8.2.240923 requires sasl==0.3.1, which is not installed.
+tikit 1.8.2.240923 requires thrift==0.15.0, which is not installed.
+tikit 1.8.2.240923 requires thrift-sasl>=0.1.0, which is not installed.
+tikit 1.8.2.240923 requires certifi==2021.10.8, but you have certifi 2023.11.17 which is incompatible.
+tikit 1.8.2.240923 requires cos-python-sdk-v5==1.9.29, but you have cos-python-sdk-v5 1.9.27 which is incompatible.
+tikit 1.8.2.240923 requires idna==3.3, but you have idna 3.6 which is incompatible.
+tikit 1.8.2.240923 requires prettytable==2.5.0, but you have prettytable 3.10.0 which is incompatible.
+tikit 1.8.2.240923 requires urllib3==1.26.7, but you have urllib3 2.1.0 which is incompatible.
+tikit 1.8.2.240923 requires wcwidth==0.2.5, but you have wcwidth 0.2.13 which is incompatible.
+Successfully installed accelerate-0.29.3 aniso8601-9.0.1 blinker-1.8.2 datasets-2.21.0 decord-0.6.0 deepspeed-0.14.2 flask-3.0.3 flask_restful-0.3.10 huggingface-hub-0.25.2 itsdangerous-2.2.0 natsort-8.4.0 pyarrow-16.1.0 pynvml-11.5.0 requests-2.32.3 tabulate-0.9.0 termcolor-2.4.0 timm-1.0.7 tokenizers-0.19.1 tqdm-4.66.5 transformers-4.40.1 xlsxwriter-3.2.0
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
++ MEGATRON_DIR=/local_disk/cognitron_vl//third_party/Megatron-LM_core_r0.6.0/
++ MINDSPEED_DIR=/local_disk/cognitron_vl//third_party/MindSpeed_core_r0.6.0/
++ MODELLINK_DIR=/local_disk/cognitron_vl//third_party/ModelLink/
++ pip3 install --no-index --find-links=/data/software/ -e /local_disk/cognitron_vl//third_party/Megatron-LM_core_r0.6.0/
+Looking in links: /data/software/
+Obtaining file://local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0
+  Installing build dependencies: started
+  Installing build dependencies: finished with status 'done'
+  Checking if build backend supports build_editable: started
+  Checking if build backend supports build_editable: finished with status 'done'
+  Getting requirements to build editable: started
+  Getting requirements to build editable: finished with status 'done'
+  Installing backend dependencies: started
+  Installing backend dependencies: finished with status 'done'
+  Preparing editable metadata (pyproject.toml): started
+  Preparing editable metadata (pyproject.toml): finished with status 'done'
+Building wheels for collected packages: megatron_core
+  Building editable for megatron_core (pyproject.toml): started
+  Building editable for megatron_core (pyproject.toml): finished with status 'done'
+  Created wheel for megatron_core: filename=megatron_core-0.6.0-0.editable-cp38-cp38-linux_x86_64.whl size=8790 sha256=1a8036e6c14a24c154ea18e3fa7ca0983cd1a864d83253cc5f5f9f3f35c20fd4
+  Stored in directory: /tmp/pip-ephem-wheel-cache-h5aqxlsh/wheels/54/9c/d1/d2015aa0c34e791e64d65d19395e5a9a5528f0c63fd519b9ff
+Successfully built megatron_core
+DEPRECATION: apex 0.1-ascend-20231124 has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of apex or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063
+Installing collected packages: megatron_core
+  Attempting uninstall: megatron_core
+    Found existing installation: megatron-core 0.1.0
+    Uninstalling megatron-core-0.1.0:
+      Successfully uninstalled megatron-core-0.1.0
+Successfully installed megatron_core-0.6.0
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
++ pip3 install --no-index --find-links=/data/software/ -e /local_disk/cognitron_vl//third_party/MindSpeed_core_r0.6.0/
+Looking in links: /data/software/
+Obtaining file://local_disk/cognitron_vl/third_party/MindSpeed_core_r0.6.0
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+WARNING: Error parsing requirements for tokenizers: [Errno 2] No such file or directory: '/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/tokenizers-0.19.1.dist-info/METADATA'
+WARNING: Error parsing requirements for transformers: [Errno 2] No such file or directory: '/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/transformers-4.40.1.dist-info/METADATA'
+DEPRECATION: apex 0.1-ascend-20231124 has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of apex or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063
+Installing collected packages: mindspeed
+  Running setup.py develop for mindspeed
+Successfully installed mindspeed-0.6.0
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
++ pip3 install --no-index --find-links=/data/software/ -e /local_disk/cognitron_vl//third_party/ModelLink/
+Looking in links: /data/software/
+Obtaining file://local_disk/cognitron_vl/third_party/ModelLink
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Requirement already satisfied: numpy in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (1.24.4)
+Processing data/software/transformers-4.43.2-py3-none-any.whl (from modellink==0.0.1)
+Requirement already satisfied: transformers_stream_generator in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (0.0.4)
+Requirement already satisfied: sympy in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (1.12)
+Requirement already satisfied: decorator in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (5.1.1)
+Requirement already satisfied: scipy in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (1.10.1)
+Requirement already satisfied: sentencepiece in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (0.1.99)
+Requirement already satisfied: einops in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (0.6.1)
+Requirement already satisfied: datasets in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (2.21.0)
+Requirement already satisfied: pybind11 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (2.11.1)
+Requirement already satisfied: accelerate in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (0.29.3)
+Requirement already satisfied: six in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (1.16.0)
+Requirement already satisfied: protobuf in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (3.20.3)
+Processing data/software/peft-0.7.1-py3-none-any.whl (from modellink==0.0.1)
+Requirement already satisfied: tiktoken in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from modellink==0.0.1) (0.5.2)
+Requirement already satisfied: packaging>=20.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from peft==0.7.1->modellink==0.0.1) (23.2)
+Requirement already satisfied: psutil in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from peft==0.7.1->modellink==0.0.1) (5.9.7)
+Requirement already satisfied: pyyaml in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from peft==0.7.1->modellink==0.0.1) (6.0.1)
+Requirement already satisfied: torch>=1.13.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from peft==0.7.1->modellink==0.0.1) (2.1.0+cpu)
+Requirement already satisfied: tqdm in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from peft==0.7.1->modellink==0.0.1) (4.66.5)
+Requirement already satisfied: safetensors in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from peft==0.7.1->modellink==0.0.1) (0.4.1)
+Requirement already satisfied: huggingface-hub>=0.17.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from peft==0.7.1->modellink==0.0.1) (0.25.2)
+Requirement already satisfied: filelock in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from transformers==4.43.2->modellink==0.0.1) (3.13.1)
+Requirement already satisfied: regex!=2019.12.17 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from transformers==4.43.2->modellink==0.0.1) (2023.12.25)
+Requirement already satisfied: requests in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from transformers==4.43.2->modellink==0.0.1) (2.32.3)
+Processing data/software/tokenizers-0.19.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from transformers==4.43.2->modellink==0.0.1)
+Requirement already satisfied: pyarrow>=15.0.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets->modellink==0.0.1) (16.1.0)
+Requirement already satisfied: dill<0.3.9,>=0.3.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets->modellink==0.0.1) (0.3.7)
+Requirement already satisfied: pandas in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets->modellink==0.0.1) (2.0.3)
+Requirement already satisfied: xxhash in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets->modellink==0.0.1) (3.4.1)
+Requirement already satisfied: multiprocess in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets->modellink==0.0.1) (0.70.15)
+Requirement already satisfied: fsspec<=2024.6.1,>=2023.1.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from fsspec[http]<=2024.6.1,>=2023.1.0->datasets->modellink==0.0.1) (2023.10.0)
+Requirement already satisfied: aiohttp in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from datasets->modellink==0.0.1) (3.9.1)
+Requirement already satisfied: mpmath>=0.19 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from sympy->modellink==0.0.1) (1.3.0)
+Requirement already satisfied: attrs>=17.3.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets->modellink==0.0.1) (23.2.0)
+Requirement already satisfied: multidict<7.0,>=4.5 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets->modellink==0.0.1) (6.0.4)
+Requirement already satisfied: yarl<2.0,>=1.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets->modellink==0.0.1) (1.9.4)
+Requirement already satisfied: frozenlist>=1.1.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets->modellink==0.0.1) (1.4.1)
+Requirement already satisfied: aiosignal>=1.1.2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets->modellink==0.0.1) (1.3.1)
+Requirement already satisfied: async-timeout<5.0,>=4.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from aiohttp->datasets->modellink==0.0.1) (4.0.3)
+Requirement already satisfied: typing-extensions>=3.7.4.3 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from huggingface-hub>=0.17.0->peft==0.7.1->modellink==0.0.1) (4.9.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests->transformers==4.43.2->modellink==0.0.1) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests->transformers==4.43.2->modellink==0.0.1) (3.6)
+Requirement already satisfied: urllib3<3,>=1.21.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests->transformers==4.43.2->modellink==0.0.1) (2.1.0)
+Requirement already satisfied: certifi>=2017.4.17 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from requests->transformers==4.43.2->modellink==0.0.1) (2023.11.17)
+Requirement already satisfied: networkx in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch>=1.13.0->peft==0.7.1->modellink==0.0.1) (3.1)
+Requirement already satisfied: jinja2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from torch>=1.13.0->peft==0.7.1->modellink==0.0.1) (3.1.2)
+Requirement already satisfied: python-dateutil>=2.8.2 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from pandas->datasets->modellink==0.0.1) (2.8.2)
+Requirement already satisfied: pytz>=2020.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from pandas->datasets->modellink==0.0.1) (2023.3.post1)
+Requirement already satisfied: tzdata>=2022.1 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from pandas->datasets->modellink==0.0.1) (2023.4)
+Requirement already satisfied: MarkupSafe>=2.0 in /root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages (from jinja2->torch>=1.13.0->peft==0.7.1->modellink==0.0.1) (2.1.3)
+DEPRECATION: apex 0.1-ascend-20231124 has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of apex or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063
+Installing collected packages: tokenizers, transformers, peft, modellink
+  Attempting uninstall: tokenizers
+    Found existing installation: tokenizers 0.20.1
+    Uninstalling tokenizers-0.20.1:
+      Successfully uninstalled tokenizers-0.20.1
+  Attempting uninstall: transformers
+    Found existing installation: transformers 4.45.2
+    Uninstalling transformers-4.45.2:
+      Successfully uninstalled transformers-4.45.2
+  Attempting uninstall: peft
+    Found existing installation: peft 0.5.0
+    Uninstalling peft-0.5.0:
+      Successfully uninstalled peft-0.5.0
+  Running setup.py develop for modellink
+Successfully installed modellink-0.0.1 peft-0.7.1 tokenizers-0.19.1 transformers-4.43.2
+WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
++ export PYTHONPATH=/local_disk/cognitron_vl//third_party/Megatron-LM_core_r0.6.0//:/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/Ascend/ascend-toolkit/latest/opp/op_impl/built-in/ai_core/tbe:
++ PYTHONPATH=/local_disk/cognitron_vl//third_party/Megatron-LM_core_r0.6.0//:/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/Ascend/ascend-toolkit/latest/opp/op_impl/built-in/ai_core/tbe:
++ GPUS_PER_NODE=16
++ NNODES=12
++ NODE_RANK=0
++ MASTER_PORT=34567
++ export CUDA_DEVICE_MAX_CONNECTIONS=1
++ CUDA_DEVICE_MAX_CONNECTIONS=1
++ VISION_SEQ_LENGTH=1025
++ IMAGE_TOKEN_LENGTH=256
++ IMAGE_SIZE=448
++ VISION_MODEL_TYPE=intern_300m
++ TP=8
++ PP=1
++ DISTRIBUTED_ARGS='
+    --nproc_per_node 16     --nnodes 12     --node_rank 0     --master_addr train-1165841964676693248-8uvcht9qqrr4-master-0.train-100034032793.svc.cluster.local     --master_port 34567
+'
++ GPT_ARGS='
+    --use-mcore-models     --tensor-model-parallel-size 8     --pipeline-model-parallel-size 1     --sequence-parallel     --num-layers 48     --hidden-size 5120     --ffn-hidden-size 13824     --num-attention-heads 40     --add-qkv-bias     --group-query-attention     --num-query-groups 8     --tokenizer-type PretrainedFromHF     --tokenizer-name-or-path /data_4/models/Qwen/Qwen2.5-14B-Instruct/     --seq-length 16384     --max-position-embeddings 16384     --micro-batch-size 1     --global-batch-size 528     --make-vocab-size-divisible-by 1     --padded-vocab-size 152064     --lr 1.00e-5     --train-iters 7000     --lr-decay-style cosine     --untie-embeddings-and-output-weights     --disable-bias-linear     --attention-dropout 0.0     --init-method-std 0.01     --hidden-dropout 0.0     --position-embedding-type rope     --rotary-base 1000000.0     --normalization RMSNorm     --norm-epsilon 1e-6     --use-fused-rmsnorm     --use-fused-swiglu     --use-fused-rotary-pos-emb     --use-rotary-position-embeddings     --use-mc2     --swiglu     --use-flash-attn     --no-masked-softmax-fusion     --attention-softmax-in-fp32     --min-lr 1.00e-7     --weight-decay 0.0     --lr-warmup-fraction 0.03     --clip-grad 1.0     --adam-beta1 0.9     --initial-loss-scale 4096     --adam-beta2 0.999     --no-gradient-accumulation-fusion     --use-distributed-optimizer     --bf16     --overlap-grad-reduce     --finetune     --vision-model-lr-mult 0.1     --vision-model-lr-decay-rate 0.9     --vision-model-type intern_300m     --vision-downsample-ratio 0.5     --vision-projection-type mlp     --vision-projection-pre-norm     --vision-process-type dynamic     --vision-normalize-type imagenet     --vision-seq-length 1025     --image-token-length 256     --image-size 448     --prompt-format qwen2     --is-instruction-dataset     --max-num-image 64     --max-num-frame 64     --max-fps 1     --add-class-token     --reset-position-ids     --reset-attention-mask     --min-patch-grid 1     --max-patch-grid 12 '
++ DATA_ARGS='
+    --data-path /local_disk/cognitron_vl//configs/lcvlm_finetune_stage2.yaml     --split 100,0,0     --data-seq-length 16384     --num-workers 8 '
++ CKPT_ARGS='
+    --load /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/     --vit-load /     --no-load-optim     --no-load-rng     --seed 42     --save /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// '
++ OUTPUT_ARGS='
+    --log-interval 1     --save-interval 500     --eval-interval 500     --eval-iters 0     --log-throughput     --distributed-timeout-minutes 120 '
++ torchrun --nproc_per_node 16 --nnodes 12 --node_rank 0 --master_addr train-1165841964676693248-8uvcht9qqrr4-master-0.train-100034032793.svc.cluster.local --master_port 34567 /local_disk/cognitron_vl//lcvlm_modellink/pretrain_lcvlm.py --use-mcore-models --tensor-model-parallel-size 8 --pipeline-model-parallel-size 1 --sequence-parallel --num-layers 48 --hidden-size 5120 --ffn-hidden-size 13824 --num-attention-heads 40 --add-qkv-bias --group-query-attention --num-query-groups 8 --tokenizer-type PretrainedFromHF --tokenizer-name-or-path /data_4/models/Qwen/Qwen2.5-14B-Instruct/ --seq-length 16384 --max-position-embeddings 16384 --micro-batch-size 1 --global-batch-size 528 --make-vocab-size-divisible-by 1 --padded-vocab-size 152064 --lr 1.00e-5 --train-iters 7000 --lr-decay-style cosine --untie-embeddings-and-output-weights --disable-bias-linear --attention-dropout 0.0 --init-method-std 0.01 --hidden-dropout 0.0 --position-embedding-type rope --rotary-base 1000000.0 --normalization RMSNorm --norm-epsilon 1e-6 --use-fused-rmsnorm --use-fused-swiglu --use-fused-rotary-pos-emb --use-rotary-position-embeddings --use-mc2 --swiglu --use-flash-attn --no-masked-softmax-fusion --attention-softmax-in-fp32 --min-lr 1.00e-7 --weight-decay 0.0 --lr-warmup-fraction 0.03 --clip-grad 1.0 --adam-beta1 0.9 --initial-loss-scale 4096 --adam-beta2 0.999 --no-gradient-accumulation-fusion --use-distributed-optimizer --bf16 --overlap-grad-reduce --finetune --vision-model-lr-mult 0.1 --vision-model-lr-decay-rate 0.9 --vision-model-type intern_300m --vision-downsample-ratio 0.5 --vision-projection-type mlp --vision-projection-pre-norm --vision-process-type dynamic --vision-normalize-type imagenet --vision-seq-length 1025 --image-token-length 256 --image-size 448 --prompt-format qwen2 --is-instruction-dataset --max-num-image 64 --max-num-frame 64 --max-fps 1 --add-class-token --reset-position-ids --reset-attention-mask --min-patch-grid 1 --max-patch-grid 12 --data-path /local_disk/cognitron_vl//configs/lcvlm_finetune_stage2.yaml --split 100,0,0 --data-seq-length 16384 --num-workers 8 --load /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/ --vit-load / --no-load-optim --no-load-rng --seed 42 --save /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// --log-interval 1 --save-interval 500 --eval-interval 500 --eval-iters 0 --log-throughput --distributed-timeout-minutes 120 --distributed-backend nccl
+[2024-10-14 13:23:20,558] torch.distributed.run: [WARNING] 
+[2024-10-14 13:23:20,558] torch.distributed.run: [WARNING] *****************************************
+[2024-10-14 13:23:20,558] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+[2024-10-14 13:23:20,558] torch.distributed.run: [WARNING] *****************************************
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:299: ImportWarning: 
+    *************************************************************************************************************
+    The torch.Tensor.cuda and torch.nn.Module.cuda are replaced with torch.Tensor.npu and torch.nn.Module.npu now..
+    The torch.cuda.DoubleTensor is replaced with torch.npu.FloatTensor cause the double type is not supported now..
+    The backend in torch.distributed.init_process_group set to hccl now..
+    The torch.cuda.* and torch.cuda.amp.* are replaced with torch.npu.* and torch.npu.amp.* now..
+    The device parameters have been replaced with npu in the function below:
+    torch.logspace, torch.randint, torch.hann_window, torch.rand, torch.full_like, torch.ones_like, torch.rand_like, torch.randperm, torch.arange, torch.frombuffer, torch.normal, torch._empty_per_channel_affine_quantized, torch.empty_strided, torch.empty_like, torch.scalar_tensor, torch.tril_indices, torch.bartlett_window, torch.ones, torch.sparse_coo_tensor, torch.randn, torch.kaiser_window, torch.tensor, torch.triu_indices, torch.as_tensor, torch.zeros, torch.randint_like, torch.full, torch.eye, torch._sparse_csr_tensor_unsafe, torch.empty, torch._sparse_coo_tensor_unsafe, torch.blackman_window, torch.zeros_like, torch.range, torch.sparse_csr_tensor, torch.randn_like, torch.from_file, torch._cudnn_init_dropout_state, torch._empty_affine_quantized, torch.linspace, torch.hamming_window, torch.empty_quantized, torch._pin_memory, torch.autocast, torch.load, torch.Generator, torch.Tensor.new_empty, torch.Tensor.new_empty_strided, torch.Tensor.new_full, torch.Tensor.new_ones, torch.Tensor.new_tensor, torch.Tensor.new_zeros, torch.Tensor.to, torch.nn.Module.to, torch.nn.Module.to_empty
+    *************************************************************************************************************
+    
+  warnings.warn(msg, ImportWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/contrib/transfer_to_npu.py:260: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+  warnings.warn(msg, RuntimeWarning)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/transformer/custom_layers/transformer_engine.py:10: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+  from pkg_resources import packaging
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('mpl_toolkits')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('google')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/pkg_resources/__init__.py:2871: DeprecationWarning: Deprecated call to `pkg_resources.declare_namespace('zope')`.
+Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
+  declare_namespace(pkg)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+using world size: 192, data-parallel size: 24, context-parallel size: 1 tensor-model-parallel size: 8, pipeline-model-parallel size: 1 
+WARNING: Setting args.overlap_p2p_comm to False since non-interleaved schedule does not support overlapping p2p communication
+accumulate and all-reduce gradients in fp32 for bfloat16 data type.
+using torch.bfloat16 for parameters ...
+When context_parallel is not activated, kv_head_repeat_before_uly_alltoall would be set to False for reducing memory usage.
+[INFO] Setting args.create_attention_mask_in_dataloader to False since reset_data=True or alibi_without_flash_attn=False or args.tokenizer_padding_side=right
+------------------------ ModelLink Arguments ------------------------
+  accumulate_allreduce_grads_in_fp32 .............. True
+  adam_beta1 ...................................... 0.9
+  adam_beta2 ...................................... 0.999
+  adam_eps ........................................ 1e-08
+  adaptive_recompute_device_size .................. -1
+  adaptive_recompute_device_swap .................. False
+  adaptive_recompute_profiling_step ............... 10
+  add_bias_linear ................................. False
+  add_class_token ................................. True
+  add_dense_bias .................................. False
+  add_position_embedding .......................... True
+  add_qkv_bias .................................... True
+  add_rmsnorm_offset .............................. False
+  adlr_autoresume ................................. False
+  adlr_autoresume_interval ........................ 1000
+  apply_layernorm_1p .............................. False
+  apply_query_key_layer_scaling ................... False
+  apply_residual_connection_post_layernorm ........ False
+  apply_rope_fusion ............................... True
+  async_tensor_model_parallel_allreduce ........... False
+  attention_dropout ............................... 0.0
+  attention_softmax_in_fp32 ....................... True
+  attn_logit_softcapping .......................... None
+  auto_detect_ckpt_format ......................... False
+  barrier_with_L1_time ............................ True
+  bert_binary_head ................................ True
+  bert_embedder_type .............................. megatron
+  bert_load ....................................... None
+  bf16 ............................................ True
+  bias_dropout_fusion ............................. True
+  bias_gelu_fusion ................................ False
+  bias_swiglu_fusion .............................. True
+  biencoder_projection_dim ........................ 0
+  biencoder_shared_query_context_model ............ False
+  block_data_path ................................. None
+  check_for_nan_in_loss_and_grad .................. True
+  chunk_size ...................................... 4096
+  ckpt_fully_parallel_save ........................ False
+  ckpt_step ....................................... None
+  classes_fraction ................................ 1.0
+  clip_grad ....................................... 1.0
+  clone_scatter_output_in_embedding ............... True
+  consumed_train_samples .......................... 0
+  consumed_valid_samples .......................... 0
+  context_parallel_algo ........................... ulysses_cp_algo
+  context_parallel_size ........................... 1
+  cp_attention_mask_type .......................... causal
+  create_attention_mask_in_dataloader ............. False
+  data_cache_path ................................. None
+  data_parallel_random_init ....................... False
+  data_parallel_size .............................. 24
+  data_path ....................................... ['/local_disk/cognitron_vl//configs/lcvlm_finetune_stage2.yaml']
+  data_per_class_fraction ......................... 1.0
+  data_seq_length ................................. 16384
+  data_sharding ................................... True
+  dataloader_type ................................. single
+  decoder_num_layers .............................. None
+  decoder_seq_length .............................. None
+  decoupled_lr .................................... None
+  decoupled_min_lr ................................ None
+  delay_grad_reduce ............................... True
+  delay_param_gather .............................. False
+  dim_model_base .................................. None
+  dino_bottleneck_size ............................ 256
+  dino_freeze_last_layer .......................... 1
+  dino_head_hidden_size ........................... 2048
+  dino_local_crops_number ......................... 10
+  dino_local_img_size ............................. 96
+  dino_norm_last_layer ............................ False
+  dino_teacher_temp ............................... 0.07
+  dino_warmup_teacher_temp ........................ 0.04
+  dino_warmup_teacher_temp_epochs ................. 30
+  dist_ckpt_format ................................ torch_dist
+  distribute_saved_activations .................... False
+  distributed_backend ............................. nccl
+  distributed_timeout_minutes ..................... 120
+  dpo_beta ........................................ 0.1
+  dpo_ftx ......................................... 0.0
+  dpo_label_smoothing ............................. 0.0
+  dpo_loss_type ................................... sigmoid
+  embed_layernorm ................................. False
+  embedding_multiplier_scale ...................... 1.0
+  embedding_path .................................. None
+  empty_unused_memory_level ....................... 0
+  enable_chunk_memory ............................. False
+  enable_chunk_sequence ........................... False
+  enable_hbmfault_repair .......................... False
+  enable_high_availability ........................ False
+  enable_one_logger ............................... False
+  enable_optimizer_state_local_copy ............... False
+  enable_recompute_layers_per_pp_rank ............. False
+  enable_token_rearrange_opt ...................... False
+  encoder_num_layers .............................. 48
+  encoder_seq_length .............................. 16384
+  end_weight_decay ................................ 0.0
+  eod_mask_loss ................................... False
+  eval_interval ................................... 500
+  eval_iters ...................................... 0
+  evidence_data_path .............................. None
+  exit_duration_in_mins ........................... None
+  exit_interval ................................... None
+  exit_on_missing_checkpoint ...................... False
+  exit_signal_handler ............................. False
+  expert_interval ................................. 1
+  expert_model_parallel_size ...................... 1
+  ffn_hidden_size ................................. 13824
+  fill_neg_inf .................................... False
+  finetune ........................................ True
+  first_k_dense_replace ........................... None
+  first_pipeline_num_layers ....................... 0
+  fp16 ............................................ False
+  fp16_lm_cross_entropy ........................... False
+  fp32_residual_connection ........................ False
+  fp8 ............................................. None
+  fp8_amax_compute_algo ........................... most_recent
+  fp8_amax_history_len ............................ 1
+  fp8_interval .................................... 1
+  fp8_margin ...................................... 0
+  fp8_wgrad ....................................... True
+  freeze_language_model ........................... False
+  freeze_vision_model ............................. False
+  freeze_vision_projection ........................ False
+  full_shuffle_instruction_dataset ................ False
+  geglu ........................................... False
+  gelu_tanh ....................................... False
+  global_batch_size ............................... 528
+  gradient_accumulation_fusion .................... False
+  group_query_attention ........................... True
+  head_lr_mult .................................... 1.0
+  hidden_dropout .................................. 0.0
+  hidden_size ..................................... 5120
+  high_freq_factor ................................ None
+  hysteresis ...................................... 2
+  ict_head_size ................................... None
+  ict_load ........................................ None
+  image_size ...................................... 448
+  image_token_length .............................. 256
+  img_h ........................................... 224
+  img_w ........................................... 224
+  independent_parallel ............................ False
+  indexer_batch_size .............................. 128
+  indexer_log_interval ............................ 1000
+  inference_batch_times_seqlen_threshold .......... 512
+  init_method_std ................................. 0.01
+  init_method_xavier_uniform ...................... False
+  initial_loss_scale .............................. 4096.0
+  input_embeds_norm ............................... False
+  input_jitter .................................... True
+  input_layernorm_in_fp32 ......................... False
+  interleave_sliding_window ....................... None
+  is_instruction_dataset .......................... True
+  is_pairwise_dataset ............................. False
+  iter_per_epoch .................................. 1250
+  jit_compile ..................................... False
+  kv_channels ..................................... 128
+  kv_head_repeat_before_uly_alltoall .............. False
+  kv_lora_rank .................................... None
+  lazy_mpu_init ................................... None
+  load ............................................ /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/
+  load_checkpoint_loosely ......................... False
+  local_rank ...................................... None
+  log_batch_size_to_tensorboard ................... False
+  log_interval .................................... 1
+  log_learning_rate_to_tensorboard ................ True
+  log_loss_scale_to_tensorboard ................... True
+  log_memory_to_tensorboard ....................... False
+  log_num_zeros_in_grad ........................... False
+  log_params_norm ................................. False
+  log_progress .................................... False
+  log_throughput .................................. True
+  log_timers_to_tensorboard ....................... False
+  log_validation_ppl_to_tensorboard ............... False
+  log_world_size_to_tensorboard ................... False
+  logit_mask ...................................... False
+  lora_alpha ...................................... 32
+  lora_fusion ..................................... False
+  lora_load ....................................... None
+  lora_modules_to_save ............................ None
+  lora_r .......................................... 16
+  lora_register_forward_hook ...................... ['word_embeddings', 'input_layernorm']
+  lora_target_modules ............................. []
+  loss_scale ...................................... None
+  loss_scale_window ............................... 1000
+  low_freq_factor ................................. None
+  lr .............................................. 1e-05
+  lr_decay_iters .................................. None
+  lr_decay_samples ................................ None
+  lr_decay_style .................................. cosine
+  lr_warmup_fraction .............................. 0.03
+  lr_warmup_init .................................. 0.0
+  lr_warmup_iters ................................. 0
+  lr_warmup_samples ............................... 0
+  make_vocab_size_divisible_by .................... 1
+  manual_gc ....................................... False
+  manual_gc_eval .................................. True
+  manual_gc_interval .............................. 0
+  mask_factor ..................................... 1.0
+  mask_prob ....................................... 0.15
+  mask_type ....................................... random
+  masked_softmax_fusion ........................... False
+  max_fps ......................................... 1
+  max_num_frame ................................... 64
+  max_num_image ................................... 64
+  max_patch_grid .................................. 12
+  max_position_embeddings ......................... 16384
+  max_tokens_to_oom ............................... 12000
+  merge_file ...................................... None
+  micro_batch_size ................................ 1
+  min_loss_scale .................................. 1.0
+  min_lr .......................................... 1e-07
+  min_patch_grid .................................. 1
+  mmap_bin_files .................................. True
+  mock_data ....................................... False
+  moe_allgather_overlap_comm ...................... False
+  moe_alltoall_overlap_comm ....................... False
+  moe_aux_loss_coeff .............................. 0.0
+  moe_comm_aux_loss_coeff ......................... 0.0
+  moe_device_level_aux_loss_coeff ................. 0.0
+  moe_expert_capacity_factor ...................... None
+  moe_grouped_gemm ................................ False
+  moe_input_jitter_eps ............................ None
+  moe_intermediate_size ........................... None
+  moe_layer_freq .................................. None
+  moe_pad_expert_input_to_capacity ................ False
+  moe_per_layer_logging ........................... False
+  moe_permutation_async_comm ...................... False
+  moe_router_load_balancing_type .................. aux_loss
+  moe_router_topk ................................. 2
+  moe_token_dispatcher_type ....................... allgather
+  moe_token_drop_policy ........................... probs
+  moe_token_dropping .............................. False
+  moe_tp_extend_ep ................................ False
+  moe_train_capacity_factor ....................... 1.0
+  moe_z_loss_coeff ................................ 0.0
+  multi_head_latent_attention ..................... False
+  n_shared_experts ................................ None
+  nccl_communicator_config_path ................... None
+  next_tockens .................................... 0
+  no_load_optim ................................... True
+  no_load_rng ..................................... True
+  no_persist_layer_norm ........................... False
+  no_post_layer_norm .............................. False
+  no_save_optim ................................... None
+  no_save_rng ..................................... None
+  no_shared_storage ............................... False
+  no_shuffle ...................................... False
+  noisy_gate_policy ............................... None
+  noop_layers ..................................... None
+  norm_epsilon .................................... 1e-06
+  norm_topk_prob .................................. False
+  normalization ................................... RMSNorm
+  num_attention_heads ............................. 40
+  num_channels .................................... 3
+  num_classes ..................................... 1000
+  num_experts ..................................... None
+  num_layer_list .................................. None
+  num_layers ...................................... 48
+  num_layers_per_virtual_pipeline_stage ........... None
+  num_query_groups ................................ 8
+  num_workers ..................................... 8
+  one_logger_entity ............................... hwinf_dcm
+  one_logger_project .............................. e2e-tracking
+  one_logger_run_name ............................. None
+  onnx_safe ....................................... None
+  openai_gelu ..................................... False
+  optimizer ....................................... adam
+  original_max_position_embeddings ................ None
+  output_bert_embeddings .......................... False
+  output_layer_slice_num .......................... 1
+  output_logit_softcapping ........................ None
+  output_multiplier_scale ......................... None
+  overlap_grad_reduce ............................. True
+  overlap_p2p_comm ................................ False
+  overlap_param_gather ............................ False
+  override_opt_param_scheduler .................... False
+  pad_to_multiple_of .............................. 8
+  padded_vocab_size ............................... 152064
+  params_dtype .................................... torch.bfloat16
+  patch_dim ....................................... 16
+  perform_initialization .......................... True
+  pipeline_model_parallel_size .................... 1
+  pipeline_model_parallel_split_rank .............. None
+  position_embedding_type ......................... rope
+  post_norm ....................................... False
+  pre_tockens ..................................... 65536
+  pref_ftx ........................................ 0.0
+  pretrained_checkpoint ........................... None
+  profile ......................................... False
+  profile_level ................................... level0
+  profile_ranks ................................... [-1]
+  profile_record_shapes ........................... False
+  profile_save_path ............................... ./profile_dir
+  profile_step_end ................................ 12
+  profile_step_start .............................. 10
+  profile_with_cpu ................................ False
+  profile_with_memory ............................. False
+  profile_with_stack .............................. False
+  prompt_format ................................... qwen2
+  prompt_type ..................................... None
+  q_lora_rank ..................................... None
+  qk_layernorm .................................... False
+  qk_nope_head_dim ................................ None
+  qk_rope_head_dim ................................ None
+  query_in_block_prob ............................. 0.1
+  query_pre_attn_scalar ........................... None
+  rampup_batch_size ............................... None
+  rank ............................................ 0
+  recompute_activation_function ................... False
+  recompute_activation_function_num_layers ........ None
+  recompute_granularity ........................... None
+  recompute_in_advance ............................ False
+  recompute_in_bubble ............................. False
+  recompute_method ................................ None
+  recompute_num_layers ............................ None
+  reduce_recompute_for_last_chunk ................. False
+  ref_model ....................................... None
+  reset_attention_mask ............................ True
+  reset_position_ids .............................. True
+  retriever_report_topk_accuracies ................ []
+  retriever_score_scaling ......................... False
+  retriever_seq_length ............................ 256
+  retro_add_retriever ............................. False
+  retro_attention_gate ............................ 1
+  retro_cyclic_train_iters ........................ None
+  retro_encoder_attention_dropout ................. 0.1
+  retro_encoder_hidden_dropout .................... 0.1
+  retro_encoder_layers ............................ 2
+  retro_num_neighbors ............................. 2
+  retro_num_retrieved_chunks ...................... 2
+  retro_project_dir ............................... None
+  retro_verify_neighbor_count ..................... True
+  reuse_fp32_param ................................ False
+  rope_scaling_beta_fast .......................... 32
+  rope_scaling_beta_slow .......................... 1
+  rope_scaling_factor ............................. 1.0
+  rope_scaling_mscale ............................. 1.0
+  rope_scaling_mscale_all_dim ..................... 0.0
+  rope_scaling_original_max_position_embeddings ... None
+  rope_scaling_type ............................... None
+  rotary_base ..................................... 1000000.0
+  rotary_interleaved .............................. False
+  rotary_percent .................................. 1.0
+  rotary_seq_len_interpolation_factor ............. None
+  routed_scaling_factor ........................... None
+  sample_rate ..................................... 1.0
+  save ............................................ /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+  save_interval ................................... 500
+  scale_depth ..................................... None
+  scale_emb ....................................... None
+  scatter_gather_tensors_in_pipeline .............. True
+  seed ............................................ 42
+  seq_aux ......................................... False
+  seq_length ...................................... 16384
+  sequence_parallel ............................... True
+  sgd_momentum .................................... 0.9
+  shape_order ..................................... SBH
+  shared_expert_gate .............................. False
+  shared_expert_gate_output_dimension ............. 1
+  short_seq_prob .................................. 0.1
+  skip_bias_add ................................... True
+  skip_train ...................................... False
+  sliding_window .................................. None
+  sparse_mode ..................................... 0
+  spec ............................................ None
+  split ........................................... 100,0,0
+  square_alibi_mask ............................... False
+  squared_relu .................................... False
+  stage ........................................... None
+  standalone_embedding_stage ...................... False
+  start_weight_decay .............................. 0.0
+  swap_attention .................................. False
+  swap_modules .................................... None
+  swiglu .......................................... True
+  swin_backbone_type .............................. tiny
+  tensor_model_parallel_size ...................... 8
+  tensorboard_dir ................................. None
+  tensorboard_log_interval ........................ 1
+  tensorboard_queue_size .......................... 1000
+  test_data_path .................................. None
+  test_mode ....................................... False
+  timing_log_level ................................ 0
+  timing_log_option ............................... minmax
+  titles_data_path ................................ None
+  tokenizer_kwargs ................................ None
+  tokenizer_model ................................. None
+  tokenizer_name_or_path .......................... /data_4/models/Qwen/Qwen2.5-14B-Instruct/
+  tokenizer_not_use_fast .......................... True
+  tokenizer_padding_side .......................... right
+  tokenizer_type .................................. PretrainedFromHF
+  topk_group ...................................... None
+  tp_comm_bulk_dgrad .............................. True
+  tp_comm_bulk_wgrad .............................. True
+  tp_comm_overlap ................................. False
+  tp_comm_overlap_ag .............................. True
+  tp_comm_overlap_cfg ............................. None
+  tp_comm_overlap_rs .............................. True
+  tp_comm_split_ag ................................ True
+  tp_comm_split_rs ................................ True
+  train_data_path ................................. None
+  train_iters ..................................... 7000
+  train_samples ................................... None
+  transformer_impl ................................ local
+  transformer_pipeline_model_parallel_size ........ 1
+  ulysses_degree_in_cp ............................ None
+  untie_embeddings_and_output_weights ............. True
+  use_checkpoint_args ............................. False
+  use_checkpoint_opt_param_scheduler .............. False
+  use_cp_send_recv_overlap ........................ False
+  use_cpu_initialization .......................... None
+  use_deter_comp .................................. False
+  use_dist_ckpt ................................... False
+  use_distributed_optimizer ....................... True
+  use_flash_attn .................................. True
+  use_fused_ring_attention_update ................. False
+  use_fused_rmsnorm ............................... True
+  use_fused_rotary_pos_emb ........................ True
+  use_fused_swiglu ................................ True
+  use_glm_rope .................................... False
+  use_mc2 ......................................... False
+  use_mcore_models ................................ True
+  use_one_sent_docs ............................... False
+  use_ring_exchange_p2p ........................... False
+  use_rotary_position_embeddings .................. True
+  v_head_dim ...................................... None
+  valid_data_path ................................. None
+  variable_seq_lengths ............................ False
+  virtual_pipeline_model_parallel_size ............ None
+  vision_backbone_type ............................ vit
+  vision_context_parallel ......................... False
+  vision_downsample_ratio ......................... 0.5
+  vision_downsample_stride ........................ 1.0
+  vision_model_lr_decay_rate ...................... 0.9
+  vision_model_lr_mult ............................ 0.1
+  vision_model_type ............................... intern_300m
+  vision_normalize_type ........................... imagenet
+  vision_pretraining .............................. False
+  vision_pretraining_type ......................... classify
+  vision_process_type ............................. dynamic
+  vision_projection_pre_norm ...................... True
+  vision_projection_recompute ..................... False
+  vision_projection_type .......................... mlp
+  vision_seq_length ............................... 1025
+  vit_load ........................................ /
+  vocab_extra_ids ................................. 0
+  vocab_file ...................................... None
+  vocab_size ...................................... None
+  wandb_exp_name .................................. 
+  wandb_project ................................... 
+  wandb_save_dir .................................. 
+  weight_decay .................................... 0.0
+  weight_decay_incr_style ......................... constant
+  world_size ...................................... 192
+  yaml_cfg ........................................ None
+-------------------- end of ModelLink Arguments ---------------------
+setting number of micro-batches to constant 22
+ > building PretrainFromHF tokenizer. Vocab file is un-used, loading tokenizer from pre-trained model
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: 'libc10_cuda.so: cannot open shared object file: No such file or directory'If you don't plan on using image functionality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torchvision` from source?
+  warn(
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+> initializing torch distributed ...
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W NPUCachingAllocator.cpp:623] Warning: expandable_segments currently defaults to false. You can enable this feature by `export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True`. (function operator())
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+all tp groups [[0, 1, 2, 3, 4, 5, 6, 7], [8, 9, 10, 11, 12, 13, 14, 15], [16, 17, 18, 19, 20, 21, 22, 23], [24, 25, 26, 27, 28, 29, 30, 31], [32, 33, 34, 35, 36, 37, 38, 39], [40, 41, 42, 43, 44, 45, 46, 47], [48, 49, 50, 51, 52, 53, 54, 55], [56, 57, 58, 59, 60, 61, 62, 63], [64, 65, 66, 67, 68, 69, 70, 71], [72, 73, 74, 75, 76, 77, 78, 79], [80, 81, 82, 83, 84, 85, 86, 87], [88, 89, 90, 91, 92, 93, 94, 95], [96, 97, 98, 99, 100, 101, 102, 103], [104, 105, 106, 107, 108, 109, 110, 111], [112, 113, 114, 115, 116, 117, 118, 119], [120, 121, 122, 123, 124, 125, 126, 127], [128, 129, 130, 131, 132, 133, 134, 135], [136, 137, 138, 139, 140, 141, 142, 143], [144, 145, 146, 147, 148, 149, 150, 151], [152, 153, 154, 155, 156, 157, 158, 159], [160, 161, 162, 163, 164, 165, 166, 167], [168, 169, 170, 171, 172, 173, 174, 175], [176, 177, 178, 179, 180, 181, 182, 183], [184, 185, 186, 187, 188, 189, 190, 191]]
+all ep groups [[0], [8], [16], [24], [32], [40], [48], [56], [64], [72], [80], [88], [96], [104], [112], [120], [128], [136], [144], [152], [160], [168], [176], [184], [1], [9], [17], [25], [33], [41], [49], [57], [65], [73], [81], [89], [97], [105], [113], [121], [129], [137], [145], [153], [161], [169], [177], [185], [2], [10], [18], [26], [34], [42], [50], [58], [66], [74], [82], [90], [98], [106], [114], [122], [130], [138], [146], [154], [162], [170], [178], [186], [3], [11], [19], [27], [35], [43], [51], [59], [67], [75], [83], [91], [99], [107], [115], [123], [131], [139], [147], [155], [163], [171], [179], [187], [4], [12], [20], [28], [36], [44], [52], [60], [68], [76], [84], [92], [100], [108], [116], [124], [132], [140], [148], [156], [164], [172], [180], [188], [5], [13], [21], [29], [37], [45], [53], [61], [69], [77], [85], [93], [101], [109], [117], [125], [133], [141], [149], [157], [165], [173], [181], [189], [6], [14], [22], [30], [38], [46], [54], [62], [70], [78], [86], [94], [102], [110], [118], [126], [134], [142], [150], [158], [166], [174], [182], [190], [7], [15], [23], [31], [39], [47], [55], [63], [71], [79], [87], [95], [103], [111], [119], [127], [135], [143], [151], [159], [167], [175], [183], [191]]
+all dp groups [[0, 8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88, 96, 104, 112, 120, 128, 136, 144, 152, 160, 168, 176, 184], [1, 9, 17, 25, 33, 41, 49, 57, 65, 73, 81, 89, 97, 105, 113, 121, 129, 137, 145, 153, 161, 169, 177, 185], [2, 10, 18, 26, 34, 42, 50, 58, 66, 74, 82, 90, 98, 106, 114, 122, 130, 138, 146, 154, 162, 170, 178, 186], [3, 11, 19, 27, 35, 43, 51, 59, 67, 75, 83, 91, 99, 107, 115, 123, 131, 139, 147, 155, 163, 171, 179, 187], [4, 12, 20, 28, 36, 44, 52, 60, 68, 76, 84, 92, 100, 108, 116, 124, 132, 140, 148, 156, 164, 172, 180, 188], [5, 13, 21, 29, 37, 45, 53, 61, 69, 77, 85, 93, 101, 109, 117, 125, 133, 141, 149, 157, 165, 173, 181, 189], [6, 14, 22, 30, 38, 46, 54, 62, 70, 78, 86, 94, 102, 110, 118, 126, 134, 142, 150, 158, 166, 174, 182, 190], [7, 15, 23, 31, 39, 47, 55, 63, 71, 79, 87, 95, 103, 111, 119, 127, 135, 143, 151, 159, 167, 175, 183, 191]]
+all_dp_modulo_exp_group_ranks [[0, 8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88, 96, 104, 112, 120, 128, 136, 144, 152, 160, 168, 176, 184], [1, 9, 17, 25, 33, 41, 49, 57, 65, 73, 81, 89, 97, 105, 113, 121, 129, 137, 145, 153, 161, 169, 177, 185], [2, 10, 18, 26, 34, 42, 50, 58, 66, 74, 82, 90, 98, 106, 114, 122, 130, 138, 146, 154, 162, 170, 178, 186], [3, 11, 19, 27, 35, 43, 51, 59, 67, 75, 83, 91, 99, 107, 115, 123, 131, 139, 147, 155, 163, 171, 179, 187], [4, 12, 20, 28, 36, 44, 52, 60, 68, 76, 84, 92, 100, 108, 116, 124, 132, 140, 148, 156, 164, 172, 180, 188], [5, 13, 21, 29, 37, 45, 53, 61, 69, 77, 85, 93, 101, 109, 117, 125, 133, 141, 149, 157, 165, 173, 181, 189], [6, 14, 22, 30, 38, 46, 54, 62, 70, 78, 86, 94, 102, 110, 118, 126, 134, 142, 150, 158, 166, 174, 182, 190], [7, 15, 23, 31, 39, 47, 55, 63, 71, 79, 87, 95, 103, 111, 119, 127, 135, 143, 151, 159, 167, 175, 183, 191]]
+all_tensor_and_expert_group_ranks [[0, 1, 2, 3, 4, 5, 6, 7], [8, 9, 10, 11, 12, 13, 14, 15], [16, 17, 18, 19, 20, 21, 22, 23], [24, 25, 26, 27, 28, 29, 30, 31], [32, 33, 34, 35, 36, 37, 38, 39], [40, 41, 42, 43, 44, 45, 46, 47], [48, 49, 50, 51, 52, 53, 54, 55], [56, 57, 58, 59, 60, 61, 62, 63], [64, 65, 66, 67, 68, 69, 70, 71], [72, 73, 74, 75, 76, 77, 78, 79], [80, 81, 82, 83, 84, 85, 86, 87], [88, 89, 90, 91, 92, 93, 94, 95], [96, 97, 98, 99, 100, 101, 102, 103], [104, 105, 106, 107, 108, 109, 110, 111], [112, 113, 114, 115, 116, 117, 118, 119], [120, 121, 122, 123, 124, 125, 126, 127], [128, 129, 130, 131, 132, 133, 134, 135], [136, 137, 138, 139, 140, 141, 142, 143], [144, 145, 146, 147, 148, 149, 150, 151], [152, 153, 154, 155, 156, 157, 158, 159], [160, 161, 162, 163, 164, 165, 166, 167], [168, 169, 170, 171, 172, 173, 174, 175], [176, 177, 178, 179, 180, 181, 182, 183], [184, 185, 186, 187, 188, 189, 190, 191]]
+all_data_parallel_group_ranks_with_cp [[0, 8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88, 96, 104, 112, 120, 128, 136, 144, 152, 160, 168, 176, 184], [1, 9, 17, 25, 33, 41, 49, 57, 65, 73, 81, 89, 97, 105, 113, 121, 129, 137, 145, 153, 161, 169, 177, 185], [2, 10, 18, 26, 34, 42, 50, 58, 66, 74, 82, 90, 98, 106, 114, 122, 130, 138, 146, 154, 162, 170, 178, 186], [3, 11, 19, 27, 35, 43, 51, 59, 67, 75, 83, 91, 99, 107, 115, 123, 131, 139, 147, 155, 163, 171, 179, 187], [4, 12, 20, 28, 36, 44, 52, 60, 68, 76, 84, 92, 100, 108, 116, 124, 132, 140, 148, 156, 164, 172, 180, 188], [5, 13, 21, 29, 37, 45, 53, 61, 69, 77, 85, 93, 101, 109, 117, 125, 133, 141, 149, 157, 165, 173, 181, 189], [6, 14, 22, 30, 38, 46, 54, 62, 70, 78, 86, 94, 102, 110, 118, 126, 134, 142, 150, 158, 166, 174, 182, 190], [7, 15, 23, 31, 39, 47, 55, 63, 71, 79, 87, 95, 103, 111, 119, 127, 135, 143, 151, 159, 167, 175, 183, 191]]
+> initialized tensor model parallel with size 8
+> initialized pipeline model parallel with size 1
+> setting random seeds to 42 ...
+> compiling dataset index builder ...
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+make: Entering directory 'local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/datasets'
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[W ProcessGroupHCCL.cpp:652] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+make: Nothing to be done for 'default'.
+make: Leaving directory 'local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/datasets'
+>>> done with dataset index builder. Compilation time: 0.752 seconds
+time to initialize megatron (seconds): -30.206
+[after megatron is initialized] datetime: 2024-10-14 13:23:45 
+building GPT model ...
+vision_projection_recompute False
+Building megatron mcore vision language model ...
+vision_projection_recompute False
+vision_projection_recompute False
+vision_projection_recompute False
+vision_projection_recompute False
+vision_projection_recompute False
+vision_projection_recompute Falsevision_projection_recompute False
+
+vision_projection_recompute False
+vision_projection_recompute Falsemodel_provider args Namespace(accumulate_allreduce_grads_in_fp32=True, adam_beta1=0.9, adam_beta2=0.999, adam_eps=1e-08, adaptive_recompute_device_size=-1, adaptive_recompute_device_swap=False, adaptive_recompute_profiling_step=10, add_bias_linear=False, add_class_token=True, add_dense_bias=False, add_position_embedding=True, add_qkv_bias=True, add_rmsnorm_offset=False, adlr_autoresume=False, adlr_autoresume_interval=1000, apply_layernorm_1p=False, apply_query_key_layer_scaling=False, apply_residual_connection_post_layernorm=False, apply_rope_fusion=True, async_tensor_model_parallel_allreduce=False, attention_dropout=0.0, attention_softmax_in_fp32=True, attn_logit_softcapping=None, auto_detect_ckpt_format=False, barrier_with_L1_time=True, bert_binary_head=True, bert_embedder_type='megatron', bert_load=None, bf16=True, bias_dropout_fusion=True, bias_gelu_fusion=False, bias_swiglu_fusion=True, biencoder_projection_dim=0, biencoder_shared_query_context_model=False, block_data_path=None, check_for_nan_in_loss_and_grad=True, chunk_size=4096, ckpt_fully_parallel_save=False, ckpt_step=None, classes_fraction=1.0, clip_grad=1.0, clone_scatter_output_in_embedding=True, consumed_train_samples=0, consumed_valid_samples=0, context_parallel_algo='ulysses_cp_algo', context_parallel_size=1, cp_attention_mask_type='causal', create_attention_mask_in_dataloader=False, data_cache_path=None, data_parallel_random_init=False, data_parallel_size=24, data_path=['/local_disk/cognitron_vl//configs/lcvlm_finetune_stage2.yaml'], data_per_class_fraction=1.0, data_seq_length=16384, data_sharding=True, dataloader_type='single', decoder_num_layers=None, decoder_seq_length=None, decoupled_lr=None, decoupled_min_lr=None, delay_grad_reduce=True, delay_param_gather=False, dim_model_base=None, dino_bottleneck_size=256, dino_freeze_last_layer=1, dino_head_hidden_size=2048, dino_local_crops_number=10, dino_local_img_size=96, dino_norm_last_layer=False, dino_teacher_temp=0.07, dino_warmup_teacher_temp=0.04, dino_warmup_teacher_temp_epochs=30, dist_ckpt_format='torch_dist', distribute_saved_activations=False, distributed_backend='nccl', distributed_timeout_minutes=120, dpo_beta=0.1, dpo_ftx=0.0, dpo_label_smoothing=0.0, dpo_loss_type='sigmoid', embed_layernorm=False, embedding_multiplier_scale=1.0, embedding_path=None, empty_unused_memory_level=0, enable_chunk_memory=False, enable_chunk_sequence=False, enable_hbmfault_repair=False, enable_high_availability=False, enable_one_logger=False, enable_optimizer_state_local_copy=False, enable_recompute_layers_per_pp_rank=False, enable_token_rearrange_opt=False, encoder_num_layers=48, encoder_seq_length=16384, end_weight_decay=0.0, eod_mask_loss=False, eval_interval=500, eval_iters=0, evidence_data_path=None, exit_duration_in_mins=None, exit_interval=None, exit_on_missing_checkpoint=False, exit_signal_handler=False, expert_interval=1, expert_model_parallel_size=1, ffn_hidden_size=13824, fill_neg_inf=False, finetune=True, first_k_dense_replace=None, first_pipeline_num_layers=0, fp16=False, fp16_lm_cross_entropy=False, fp32_residual_connection=False, fp8=None, fp8_amax_compute_algo='most_recent', fp8_amax_history_len=1, fp8_interval=1, fp8_margin=0, fp8_wgrad=True, freeze_language_model=False, freeze_vision_model=False, freeze_vision_projection=False, full_shuffle_instruction_dataset=False, geglu=False, gelu_tanh=False, global_batch_size=528, gradient_accumulation_fusion=False, group_query_attention=True, head_lr_mult=1.0, hidden_dropout=0.0, hidden_size=5120, high_freq_factor=None, hysteresis=2, ict_head_size=None, ict_load=None, image_size=448, image_token_length=256, img_h=224, img_w=224, independent_parallel=False, indexer_batch_size=128, indexer_log_interval=1000, inference_batch_times_seqlen_threshold=512, init_method_std=0.01, init_method_xavier_uniform=False, initial_loss_scale=4096.0, input_embeds_norm=False, input_jitter=True, input_layernorm_in_fp32=False, interleave_sliding_window=None, is_instruction_dataset=True, is_pairwise_dataset=False, iter_per_epoch=1250, jit_compile=False, kv_channels=128, kv_head_repeat_before_uly_alltoall=False, kv_lora_rank=None, lazy_mpu_init=None, load='/data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/', load_checkpoint_loosely=False, local_rank=0, log_batch_size_to_tensorboard=False, log_interval=1, log_learning_rate_to_tensorboard=True, log_loss_scale_to_tensorboard=True, log_memory_to_tensorboard=False, log_num_zeros_in_grad=False, log_params_norm=False, log_progress=False, log_throughput=True, log_timers_to_tensorboard=False, log_validation_ppl_to_tensorboard=False, log_world_size_to_tensorboard=False, logit_mask=False, lora_alpha=32, lora_fusion=False, lora_load=None, lora_modules_to_save=None, lora_r=16, lora_register_forward_hook=['word_embeddings', 'input_layernorm'], lora_target_modules=[], loss_scale=None, loss_scale_window=1000, low_freq_factor=None, lr=1e-05, lr_decay_iters=None, lr_decay_samples=None, lr_decay_style='cosine', lr_warmup_fraction=0.03, lr_warmup_init=0.0, lr_warmup_iters=0, lr_warmup_samples=0, make_vocab_size_divisible_by=1, manual_gc=False, manual_gc_eval=True, manual_gc_interval=0, mask_factor=1.0, mask_prob=0.15, mask_type='random', masked_softmax_fusion=False, max_fps=1, max_num_frame=64, max_num_image=64, max_patch_grid=12, max_position_embeddings=16384, max_tokens_to_oom=12000, merge_file=None, micro_batch_size=1, min_loss_scale=1.0, min_lr=1e-07, min_patch_grid=1, mmap_bin_files=True, mock_data=False, model_type=<ModelType.encoder_or_decoder: 1>, moe_allgather_overlap_comm=False, moe_alltoall_overlap_comm=False, moe_aux_loss_coeff=0.0, moe_comm_aux_loss_coeff=0.0, moe_device_level_aux_loss_coeff=0.0, moe_expert_capacity_factor=None, moe_grouped_gemm=False, moe_input_jitter_eps=None, moe_intermediate_size=None, moe_layer_freq=None, moe_pad_expert_input_to_capacity=False, moe_per_layer_logging=False, moe_permutation_async_comm=False, moe_router_load_balancing_type='aux_loss', moe_router_topk=2, moe_token_dispatcher_type='allgather', moe_token_drop_policy='probs', moe_token_dropping=False, moe_tp_extend_ep=False, moe_train_capacity_factor=1.0, moe_z_loss_coeff=0.0, multi_head_latent_attention=False, n_shared_experts=None, nccl_communicator_config_path=None, next_tockens=0, no_load_optim=True, no_load_rng=True, no_persist_layer_norm=False, no_post_layer_norm=False, no_save_optim=None, no_save_rng=None, no_shared_storage=False, no_shuffle=False, noisy_gate_policy=None, noop_layers=None, norm_epsilon=1e-06, norm_topk_prob=False, normalization='RMSNorm', num_attention_heads=40, num_channels=3, num_classes=1000, num_experts=None, num_layer_list=None, num_layers=48, num_layers_per_virtual_pipeline_stage=None, num_query_groups=8, num_workers=8, one_logger_entity='hwinf_dcm', one_logger_project='e2e-tracking', one_logger_run_name=None, onnx_safe=None, openai_gelu=False, optimizer='adam', original_max_position_embeddings=None, output_bert_embeddings=False, output_layer_slice_num=1, output_logit_softcapping=None, output_multiplier_scale=None, overlap_grad_reduce=True, overlap_p2p_comm=False, overlap_param_gather=False, override_opt_param_scheduler=False, pad_to_multiple_of=8, padded_vocab_size=152064, params_dtype=torch.bfloat16, patch_dim=16, perform_initialization=True, pipeline_model_parallel_size=1, pipeline_model_parallel_split_rank=None, position_embedding_type='rope', post_norm=False, pre_tockens=65536, pref_ftx=0.0, pretrained_checkpoint=None, profile=False, profile_level='level0', profile_ranks=[-1], profile_record_shapes=False, profile_save_path='./profile_dir', profile_step_end=12, profile_step_start=10, profile_with_cpu=False, profile_with_memory=False, profile_with_stack=False, prompt_format='qwen2', prompt_type=None, q_lora_rank=None, qk_layernorm=False, qk_nope_head_dim=None, qk_rope_head_dim=None, query_in_block_prob=0.1, query_pre_attn_scalar=None, rampup_batch_size=None, rank=0, recompute_activation_function=False, recompute_activation_function_num_layers=None, recompute_granularity=None, recompute_in_advance=False, recompute_in_bubble=False, recompute_method=None, recompute_num_layers=None, reduce_recompute_for_last_chunk=False, ref_model=None, reset_attention_mask=True, reset_position_ids=True, retriever_report_topk_accuracies=[], retriever_score_scaling=False, retriever_seq_length=256, retro_add_retriever=False, retro_attention_gate=1, retro_cyclic_train_iters=None, retro_encoder_attention_dropout=0.1, retro_encoder_hidden_dropout=0.1, retro_encoder_layers=2, retro_num_neighbors=2, retro_num_retrieved_chunks=2, retro_project_dir=None, retro_verify_neighbor_count=True, reuse_fp32_param=False, rope_scaling_beta_fast=32, rope_scaling_beta_slow=1, rope_scaling_factor=1.0, rope_scaling_mscale=1.0, rope_scaling_mscale_all_dim=0.0, rope_scaling_original_max_position_embeddings=None, rope_scaling_type=None, rotary_base=1000000.0, rotary_interleaved=False, rotary_percent=1.0, rotary_seq_len_interpolation_factor=None, routed_scaling_factor=None, sample_rate=1.0, save='/data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//', save_interval=500, scale_depth=None, scale_emb=None, scatter_gather_tensors_in_pipeline=True, seed=42, seq_aux=False, seq_length=16384, sequence_parallel=True, sgd_momentum=0.9, shape_order='SBH', shared_expert_gate=False, shared_expert_gate_output_dimension=1, short_seq_prob=0.1, skip_bias_add=True, skip_train=False, sliding_window=None, sparse_mode=0, spec=None, split='100,0,0', square_alibi_mask=False, squared_relu=False, stage=None, standalone_embedding_stage=False, start_weight_decay=0.0, swap_attention=False, swap_modules=None, swiglu=True, swin_backbone_type='tiny', tensor_model_parallel_size=8, tensorboard_dir=None, tensorboard_log_interval=1, tensorboard_queue_size=1000, test_data_path=None, test_mode=False, timing_log_level=0, timing_log_option='minmax', titles_data_path=None, tokenizer_kwargs=None, tokenizer_model=None, tokenizer_name_or_path='/data_4/models/Qwen/Qwen2.5-14B-Instruct/', tokenizer_not_use_fast=True, tokenizer_padding_side='right', tokenizer_type='PretrainedFromHF', topk_group=None, tp_comm_bulk_dgrad=True, tp_comm_bulk_wgrad=True, tp_comm_overlap=False, tp_comm_overlap_ag=True, tp_comm_overlap_cfg=None, tp_comm_overlap_rs=True, tp_comm_split_ag=True, tp_comm_split_rs=True, train_data_path=None, train_iters=7000, train_samples=None, transformer_impl='local', transformer_pipeline_model_parallel_size=1, ulysses_degree_in_cp=None, untie_embeddings_and_output_weights=True, use_checkpoint_args=False, use_checkpoint_opt_param_scheduler=False, use_cp_send_recv_overlap=False, use_cpu_initialization=None, use_deter_comp=False, use_dist_ckpt=False, use_distributed_optimizer=True, use_flash_attn=True, use_fused_ring_attention_update=False, use_fused_rmsnorm=True, use_fused_rotary_pos_emb=True, use_fused_swiglu=True, use_glm_rope=False, use_mc2=False, use_mcore_models=True, use_one_sent_docs=False, use_ring_exchange_p2p=False, use_rotary_position_embeddings=True, v_head_dim=None, valid_data_path=None, variable_seq_lengths=False, virtual_pipeline_model_parallel_size=None, vision_backbone_type='vit', vision_context_parallel=False, vision_downsample_ratio=0.5, vision_downsample_stride=1.0, vision_model_lr_decay_rate=0.9, vision_model_lr_mult=0.1, vision_model_type='intern_300m', vision_normalize_type='imagenet', vision_pretraining=False, vision_pretraining_type='classify', vision_process_type='dynamic', vision_projection_pre_norm=True, vision_projection_recompute=False, vision_projection_type='mlp', vision_seq_length=1025, vit_load='/', vocab_extra_ids=0, vocab_file=None, vocab_size=None, wandb_exp_name='', wandb_project='', wandb_save_dir='', weight_decay=0.0, weight_decay_incr_style='constant', world_size=192, yaml_cfg=None)
+
+model_provider config TransformerConfig(tensor_model_parallel_size=8, pipeline_model_parallel_size=1, virtual_pipeline_model_parallel_size=None, sequence_parallel=True, context_parallel_size=1, expert_model_parallel_size=1, perform_initialization=True, use_cpu_initialization=None, fp16=False, bf16=True, params_dtype=torch.bfloat16, timers=None, finalize_model_grads_func=None, grad_scale_func=None, no_sync_func=None, grad_sync_func=None, param_sync_func=None, enable_autocast=False, autocast_dtype=torch.bfloat16, num_microbatches_with_partial_activation_checkpoints=None, gradient_accumulation_fusion=False, async_tensor_model_parallel_allreduce=False, tp_comm_overlap=False, tp_comm_bulk_wgrad=True, tp_comm_bulk_dgrad=True, tp_comm_overlap_ag=True, tp_comm_overlap_rs=True, tp_comm_split_ag=True, tp_comm_atomic_ag=False, tp_comm_split_rs=True, tp_comm_atomic_rs=False, pipeline_dtype=torch.bfloat16, variable_seq_lengths=False, overlap_p2p_comm=False, batch_p2p_comm=True, batch_p2p_sync=True, use_ring_exchange_p2p=False, deallocate_pipeline_outputs=True, defer_embedding_wgrad_compute=False, pipeline_model_parallel_split_rank=None, cpu_offloading=False, cpu_offloading_num_layers=0, _cpu_offloading_context=None, cpu_offloading_activations=True, cpu_offloading_weights=True, barrier_with_L1_time=True, num_layers=48, first_pipeline_num_layers=0, independent_parallel=False, hidden_size=5120, num_attention_heads=40, num_query_groups=8, ffn_hidden_size=13824, kv_channels=128, hidden_dropout=0.0, attention_dropout=0.0, fp32_residual_connection=False, apply_residual_connection_post_layernorm=False, layernorm_epsilon=1e-06, layernorm_zero_centered_gamma=False, add_bias_linear=False, add_qkv_bias=True, gated_linear_unit=True, activation_func=<function silu at 0x7f9470378b80>, activation_func_fp8_input_store=False, num_moe_experts=None, rotary_interleaved=False, window_size=None, normalization='RMSNorm', qk_layernorm=False, test_mode=False, init_method=<function init_method_normal.<locals>.init_ at 0x7f943edaa4c0>, output_layer_init_method=<function scaled_init_method_normal.<locals>.init_ at 0x7f93f8614550>, init_method_std=0.01, apply_query_key_layer_scaling=False, attention_softmax_in_fp32=True, bias_activation_fusion=True, masked_softmax_fusion=False, persist_layer_norm=True, memory_efficient_layer_norm=False, bias_dropout_fusion=True, apply_rope_fusion=True, recompute_granularity=None, recompute_method=None, recompute_num_layers=None, distribute_saved_activations=False, fp8=None, fp8_margin=0, fp8_interval=1, fp8_amax_history_len=1, fp8_amax_compute_algo='most_recent', fp8_wgrad=True, fp8_dot_product_attention=False, fp8_multi_head_attention=False, moe_router_load_balancing_type='aux_loss', moe_router_topk=2, moe_grouped_gemm=False, moe_aux_loss_coeff=0.0, moe_z_loss_coeff=0.0, moe_input_jitter_eps=None, moe_token_dropping=False, moe_token_dispatcher_type='allgather', moe_per_layer_logging=False, moe_expert_capacity_factor=None, moe_pad_expert_input_to_capacity=False, moe_token_drop_policy='probs', moe_layer_recompute=False, clone_scatter_output_in_embedding=True, disable_parameter_transpose_cache=False, enable_cuda_graph=False, max_position_embeddings=16384, rotary_percent=1.0)
+vision_projection_recompute False
+model_provider transformer_layer_spec ModuleSpec(module=<class 'megatron.core.transformer.transformer_layer.TransformerLayer'>, params={}, submodules=TransformerLayerSubmodules(input_layernorm=<class 'modellink.core.transformer.custom_layers.transformer_engine.PTNorm'>, self_attention=ModuleSpec(module=<class 'megatron.core.transformer.attention.SelfAttention'>, params={'attn_mask_type': <AttnMaskType.causal: 2>}, submodules=SelfAttentionSubmodules(linear_qkv=<class 'megatron.core.tensor_parallel.layers.ColumnParallelLinear'>, core_attention=<class 'megatron.core.transformer.dot_product_attention.DotProductAttention'>, linear_proj=<class 'megatron.core.tensor_parallel.layers.RowParallelLinear'>, q_layernorm=<class 'megatron.core.transformer.identity_op.IdentityOp'>, k_layernorm=<class 'megatron.core.transformer.identity_op.IdentityOp'>)), post_attn_norm=<class 'megatron.core.transformer.identity_op.IdentityOp'>, self_attn_bda=<function get_bias_dropout_add at 0x7f9453ddc4c0>, pre_cross_attn_layernorm=<class 'megatron.core.transformer.identity_op.IdentityOp'>, cross_attention=<class 'megatron.core.transformer.identity_op.IdentityOp'>, cross_attn_bda=<class 'megatron.core.transformer.identity_op.IdentityFuncOp'>, pre_mlp_layernorm=<class 'modellink.core.transformer.custom_layers.transformer_engine.PTNorm'>, mlp=ModuleSpec(module=<class 'megatron.core.transformer.mlp.MLP'>, params={}, submodules=MLPSubmodules(linear_fc1=<class 'megatron.core.tensor_parallel.layers.ColumnParallelLinear'>, linear_fc2=<class 'megatron.core.tensor_parallel.layers.RowParallelLinear'>)), post_mlp_layernorm=<class 'megatron.core.transformer.identity_op.IdentityOp'>, mlp_bda=<function get_bias_dropout_add at 0x7f9453ddc4c0>, sharded_state_dict_keys_map={'input_layernorm.': 'self_attention.linear_qkv.layer_norm_', 'pre_mlp_layernorm.': 'mlp.linear_fc1.layer_norm_'}))
+vision_projection_recompute False
+vision_projection_recompute False
+vision_projection_recompute False
+Building intern_300m model ...
+------------------------ vit_args ------------------------
+vision_projection_recompute Falsevision_projection_recompute False
+
+  accumulate_allreduce_grads_in_fp32 .............. True
+  activation_func ................................. <built-in function gelu>
+  adam_beta1 ...................................... 0.9
+  adam_beta2 ...................................... 0.999
+  adam_eps ........................................ 1e-08
+  adaptive_recompute_device_size .................. -1
+  adaptive_recompute_device_swap .................. False
+  adaptive_recompute_profiling_step ............... 10
+  add_bias_linear ................................. True
+  add_class_token ................................. True
+  add_dense_bias .................................. False
+  add_position_embedding .......................... True
+  add_qkv_bias .................................... True
+  add_rmsnorm_offset .............................. False
+  adlr_autoresume ................................. False
+  adlr_autoresume_interval ........................ 1000
+  apply_layernorm_1p .............................. False
+  apply_query_key_layer_scaling ................... False
+  apply_residual_connection_post_layernorm ........ False
+  apply_rope_fusion ............................... False
+  async_tensor_model_parallel_allreduce ........... False
+  attention_dropout ............................... 0.0
+  attention_softmax_in_fp32 ....................... True
+  attn_logit_softcapping .......................... None
+  auto_detect_ckpt_format ......................... False
+  barrier_with_L1_time ............................ True
+  bert_binary_head ................................ True
+  bert_embedder_type .............................. megatron
+  bert_load ....................................... None
+  bf16 ............................................ True
+  bias_activation_fusion .......................... False
+  bias_dropout_fusion ............................. False
+  bias_gelu_fusion ................................ False
+  bias_swiglu_fusion .............................. True
+  biencoder_projection_dim ........................ 0
+  biencoder_shared_query_context_model ............ False
+  block_data_path ................................. None
+  check_for_nan_in_loss_and_grad .................. True
+  chunk_size ...................................... 4096
+  ckpt_fully_parallel_save ........................ False
+  ckpt_step ....................................... None
+  classes_fraction ................................ 1.0
+  clip_grad ....................................... 1.0
+  clone_scatter_output_in_embedding ............... True
+  consumed_train_samples .......................... 0
+  consumed_valid_samples .......................... 0
+  context_parallel_algo ........................... ulysses_cp_algo
+  context_parallel_size ........................... 1
+  cp_attention_mask_type .......................... causal
+  create_attention_mask_in_dataloader ............. False
+  data_cache_path ................................. None
+  data_parallel_random_init ....................... False
+  data_parallel_size .............................. 24
+  data_path ....................................... ['/local_disk/cognitron_vl//configs/lcvlm_finetune_stage2.yaml']
+  data_per_class_fraction ......................... 1.0
+  data_seq_length ................................. 16384
+  data_sharding ................................... True
+  dataloader_type ................................. single
+  decoder_num_layers .............................. None
+  decoder_seq_length .............................. 1025
+  decoupled_lr .................................... None
+  decoupled_min_lr ................................ None
+  delay_grad_reduce ............................... True
+  delay_param_gather .............................. False
+  dim_model_base .................................. None
+  dino_bottleneck_size ............................ 256
+  dino_freeze_last_layer .......................... 1
+  dino_head_hidden_size ........................... 2048
+  dino_local_crops_number ......................... 10
+  dino_local_img_size ............................. 96
+  dino_norm_last_layer ............................ False
+  dino_teacher_temp ............................... 0.07
+  dino_warmup_teacher_temp ........................ 0.04
+  dino_warmup_teacher_temp_epochs ................. 30
+  dist_ckpt_format ................................ torch_dist
+  distribute_saved_activations .................... False
+  distributed_backend ............................. nccl
+  distributed_timeout_minutes ..................... 120
+  dpo_beta ........................................ 0.1
+  dpo_ftx ......................................... 0.0
+  dpo_label_smoothing ............................. 0.0
+  dpo_loss_type ................................... sigmoid
+  embed_layernorm ................................. False
+  embedding_multiplier_scale ...................... 1.0
+  embedding_path .................................. None
+  empty_unused_memory_level ....................... 0
+  enable_chunk_memory ............................. False
+  enable_chunk_sequence ........................... False
+  enable_hbmfault_repair .......................... False
+  enable_high_availability ........................ False
+  enable_one_logger ............................... False
+  enable_optimizer_state_local_copy ............... False
+  enable_recompute_layers_per_pp_rank ............. False
+  enable_token_rearrange_opt ...................... False
+  encoder_num_layers .............................. 48
+  encoder_seq_length .............................. 1025
+  end_weight_decay ................................ 0.0
+  eod_mask_loss ................................... False
+  eval_interval ................................... 500
+  eval_iters ...................................... 0
+  evidence_data_path .............................. None
+  exit_duration_in_mins ........................... None
+  exit_interval ................................... None
+  exit_on_missing_checkpoint ...................... False
+  exit_signal_handler ............................. False
+  expert_interval ................................. 1
+  expert_model_parallel_size ...................... 1
+  ffn_hidden_size ................................. 4096
+  fill_neg_inf .................................... False
+  finetune ........................................ True
+  first_k_dense_replace ........................... None
+  first_pipeline_num_layers ....................... 0
+  fp16 ............................................ False
+  fp16_lm_cross_entropy ........................... False
+  fp32_residual_connection ........................ False
+  fp8 ............................................. None
+  fp8_amax_compute_algo ........................... most_recent
+  fp8_amax_history_len ............................ 1
+  fp8_interval .................................... 1
+  fp8_margin ...................................... 0
+  fp8_wgrad ....................................... True
+  freeze_language_model ........................... False
+  freeze_vision_model ............................. False
+  freeze_vision_projection ........................ False
+  full_shuffle_instruction_dataset ................ False
+  gated_linear_unit ............................... False
+  geglu ........................................... False
+  gelu_tanh ....................................... False
+  global_batch_size ............................... 528
+  gradient_accumulation_fusion .................... False
+  group_query_attention ........................... False
+  head_lr_mult .................................... 1.0
+  hidden_dropout .................................. 0.0
+  hidden_size ..................................... 1024
+  high_freq_factor ................................ None
+  hysteresis ...................................... 2
+  ict_head_size ................................... None
+  ict_load ........................................ None
+  image_size ...................................... 448
+  image_token_length .............................. 256
+  img_h ........................................... 448
+  img_w ........................................... 448
+  independent_parallel ............................ True
+  indexer_batch_size .............................. 128
+  indexer_log_interval ............................ 1000
+  inference_batch_times_seqlen_threshold .......... 512
+  init_method_std ................................. 0.01
+  init_method_xavier_uniform ...................... False
+  initial_loss_scale .............................. 4096.0
+  input_embeds_norm ............................... False
+  input_jitter .................................... True
+  input_layernorm_in_fp32 ......................... False
+  interleave_sliding_window ....................... None
+  is_instruction_dataset .......................... True
+  is_pairwise_dataset ............................. False
+  iter_per_epoch .................................. 1250
+  jit_compile ..................................... False
+  kv_channels ..................................... 64
+  kv_head_repeat_before_uly_alltoall .............. False
+  kv_lora_rank .................................... None
+  layernorm_zero_centered_gamma ................... False
+  lazy_mpu_init ................................... None
+  load ............................................ /
+  load_checkpoint_loosely ......................... False
+  local_rank ...................................... 0
+  log_batch_size_to_tensorboard ................... False
+  log_interval .................................... 1
+  log_learning_rate_to_tensorboard ................ True
+  log_loss_scale_to_tensorboard ................... True
+  log_memory_to_tensorboard ....................... False
+  log_num_zeros_in_grad ........................... False
+  log_params_norm ................................. False
+  log_progress .................................... False
+  log_throughput .................................. True
+  log_timers_to_tensorboard ....................... False
+  log_validation_ppl_to_tensorboard ............... False
+  log_world_size_to_tensorboard ................... False
+  logit_mask ...................................... False
+  lora_alpha ...................................... 32
+  lora_fusion ..................................... False
+  lora_load ....................................... None
+  lora_modules_to_save ............................ None
+  lora_r .......................................... 16
+  lora_register_forward_hook ...................... ['word_embeddings', 'input_layernorm']
+  lora_target_modules ............................. []
+  loss_scale ...................................... None
+  loss_scale_window ............................... 1000
+  low_freq_factor ................................. None
+  lr .............................................. 1e-05
+  lr_decay_iters .................................. None
+  lr_decay_samples ................................ None
+  lr_decay_style .................................. cosine
+  lr_warmup_fraction .............................. 0.03
+  lr_warmup_init .................................. 0.0
+  lr_warmup_iters ................................. 0
+  lr_warmup_samples ............................... 0
+  make_vocab_size_divisible_by .................... 1
+  manual_gc ....................................... False
+  manual_gc_eval .................................. True
+  manual_gc_interval .............................. 0
+  mask_factor ..................................... 1.0
+  mask_prob ....................................... 0.15
+  mask_type ....................................... random
+  masked_softmax_fusion ........................... False
+  max_fps ......................................... 1
+  max_num_frame ................................... 64
+  max_num_image ................................... 64
+  max_patch_grid .................................. 12
+  max_position_embeddings ......................... 1025
+  max_tokens_to_oom ............................... 12000
+  merge_file ...................................... None
+  micro_batch_size ................................ 1
+  min_loss_scale .................................. 1.0
+  min_lr .......................................... 1e-07
+  min_patch_grid .................................. 1
+  mmap_bin_files .................................. True
+  mock_data ....................................... False
+  model_type ...................................... ModelType.encoder_or_decoder
+  moe_allgather_overlap_comm ...................... False
+  moe_alltoall_overlap_comm ....................... False
+  moe_aux_loss_coeff .............................. 0.0
+  moe_comm_aux_loss_coeff ......................... 0.0
+  moe_device_level_aux_loss_coeff ................. 0.0
+  moe_expert_capacity_factor ...................... None
+  moe_grouped_gemm ................................ False
+  moe_input_jitter_eps ............................ None
+  moe_intermediate_size ........................... None
+  moe_layer_freq .................................. None
+  moe_pad_expert_input_to_capacity ................ False
+  moe_per_layer_logging ........................... False
+  moe_permutation_async_comm ...................... False
+  moe_router_load_balancing_type .................. aux_loss
+  moe_router_topk ................................. 2
+  moe_token_dispatcher_type ....................... allgather
+  moe_token_drop_policy ........................... probs
+  moe_token_dropping .............................. False
+  moe_tp_extend_ep ................................ False
+  moe_train_capacity_factor ....................... 1.0
+  moe_z_loss_coeff ................................ 0.0
+  multi_head_latent_attention ..................... False
+  n_shared_experts ................................ None
+  nccl_communicator_config_path ................... None
+  next_tockens .................................... 0
+  no_load_optim ................................... True
+  no_load_rng ..................................... True
+  no_persist_layer_norm ........................... False
+  no_post_layer_norm .............................. False
+  no_save_optim ................................... None
+  no_save_rng ..................................... None
+  no_shared_storage ............................... False
+  no_shuffle ...................................... False
+  noisy_gate_policy ............................... None
+  noop_layers ..................................... None
+  norm_epsilon .................................... 1e-06
+  norm_topk_prob .................................. False
+  normalization ................................... LayerNorm
+  num_attention_heads ............................. 16
+  num_channels .................................... 3
+  num_classes ..................................... 1000
+  num_experts ..................................... None
+  num_layer_list .................................. 
+  num_layers ...................................... 24
+  num_layers_per_virtual_pipeline_stage ........... None
+  num_query_groups ................................ 16
+  num_workers ..................................... 8
+  one_logger_entity ............................... hwinf_dcm
+  one_logger_project .............................. e2e-tracking
+  one_logger_run_name ............................. None
+  onnx_safe ....................................... None
+  openai_gelu ..................................... False
+  optimizer ....................................... adam
+  original_max_position_embeddings ................ None
+  output_bert_embeddings .......................... False
+  output_layer_slice_num .......................... 1
+  output_logit_softcapping ........................ None
+  output_multiplier_scale ......................... None
+  overlap_grad_reduce ............................. False
+  overlap_p2p_comm ................................ False
+  overlap_param_gather ............................ False
+  override_opt_param_scheduler .................... False
+  pad_to_multiple_of .............................. 8
+  padded_vocab_size ............................... 152064
+  params_dtype .................................... torch.bfloat16
+  patch_dim ....................................... 14
+  perform_initialization .......................... True
+  pipeline_model_parallel_size .................... 1
+  pipeline_model_parallel_split_rank .............. None
+  position_embedding_type ......................... rope
+  post_norm ....................................... False
+  pre_tockens ..................................... 65536
+  pref_ftx ........................................ 0.0
+  pretrained_checkpoint ........................... None
+  profile ......................................... False
+  profile_level ................................... level0
+  profile_ranks ................................... [-1]
+  profile_record_shapes ........................... False
+  profile_save_path ............................... ./profile_dir
+  profile_step_end ................................ 12
+  profile_step_start .............................. 10
+  profile_with_cpu ................................ False
+  profile_with_memory ............................. False
+  profile_with_stack .............................. False
+  prompt_format ................................... qwen2
+  prompt_type ..................................... None
+  q_lora_rank ..................................... None
+  qk_layernorm .................................... False
+  qk_nope_head_dim ................................ None
+  qk_rope_head_dim ................................ None
+  query_in_block_prob ............................. 0.1
+  query_pre_attn_scalar ........................... None
+  rampup_batch_size ............................... None
+  rank ............................................ 0
+  recompute_activation_function ................... False
+  recompute_activation_function_num_layers ........ None
+  recompute_granularity ........................... full
+  recompute_in_advance ............................ False
+  recompute_in_bubble ............................. False
+  recompute_method ................................ block
+  recompute_num_layers ............................ 24
+  reduce_recompute_for_last_chunk ................. False
+  ref_model ....................................... None
+  reset_attention_mask ............................ True
+  reset_position_ids .............................. True
+  retriever_report_topk_accuracies ................ []
+  retriever_score_scaling ......................... False
+  retriever_seq_length ............................ 256
+  retro_add_retriever ............................. False
+  retro_attention_gate ............................ 1
+  retro_cyclic_train_iters ........................ None
+  retro_encoder_attention_dropout ................. 0.1
+  retro_encoder_hidden_dropout .................... 0.1
+  retro_encoder_layers ............................ 2
+  retro_num_neighbors ............................. 2
+  retro_num_retrieved_chunks ...................... 2
+  retro_project_dir ............................... None
+  retro_verify_neighbor_count ..................... True
+  reuse_fp32_param ................................ False
+  rope_scaling_beta_fast .......................... 32
+  rope_scaling_beta_slow .......................... 1
+  rope_scaling_factor ............................. 1.0
+  rope_scaling_mscale ............................. 1.0
+  rope_scaling_mscale_all_dim ..................... 0.0
+  rope_scaling_original_max_position_embeddings ... None
+  rope_scaling_type ............................... None
+  rotary_base ..................................... 1000000.0
+  rotary_interleaved .............................. False
+  rotary_percent .................................. 1.0
+  rotary_seq_len_interpolation_factor ............. None
+  routed_scaling_factor ........................... None
+  sample_rate ..................................... 1.0
+  save ............................................ /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+  save_interval ................................... 500
+  scale_depth ..................................... None
+  scale_emb ....................................... None
+  scatter_gather_tensors_in_pipeline .............. True
+  seed ............................................ 42
+  seq_aux ......................................... False
+  seq_length ...................................... 1025
+  sequence_parallel ............................... False
+  sgd_momentum .................................... 0.9
+  shape_order ..................................... SBH
+  shared_expert_gate .............................. False
+  shared_expert_gate_output_dimension ............. 1
+  short_seq_prob .................................. 0.1
+  skip_bias_add ................................... True
+  skip_train ...................................... False
+  sliding_window .................................. None
+  sparse_mode ..................................... 0
+  spec ............................................ None
+  split ........................................... 100,0,0
+  square_alibi_mask ............................... False
+  squared_relu .................................... False
+  stage ........................................... None
+  standalone_embedding_stage ...................... False
+  start_weight_decay .............................. 0.0
+  swap_attention .................................. False
+  swap_modules .................................... None
+  swiglu .......................................... False
+  swin_backbone_type .............................. tiny
+  tensor_model_parallel_size ...................... 8
+  tensorboard_dir ................................. None
+  tensorboard_log_interval ........................ 1
+  tensorboard_queue_size .......................... 1000
+  test_data_path .................................. None
+  test_mode ....................................... False
+  timing_log_level ................................ 0
+  timing_log_option ............................... minmax
+  titles_data_path ................................ None
+  tokenizer_kwargs ................................ None
+  tokenizer_model ................................. None
+  tokenizer_name_or_path .......................... /data_4/models/Qwen/Qwen2.5-14B-Instruct/
+  tokenizer_not_use_fast .......................... True
+  tokenizer_padding_side .......................... right
+  tokenizer_type .................................. PretrainedFromHF
+  topk_group ...................................... None
+  tp_comm_bulk_dgrad .............................. True
+  tp_comm_bulk_wgrad .............................. True
+  tp_comm_overlap ................................. False
+  tp_comm_overlap_ag .............................. True
+  tp_comm_overlap_cfg ............................. None
+  tp_comm_overlap_rs .............................. True
+  tp_comm_split_ag ................................ True
+  tp_comm_split_rs ................................ True
+  train_data_path ................................. None
+  train_iters ..................................... 7000
+  train_samples ................................... None
+  transformer_impl ................................ local
+  transformer_pipeline_model_parallel_size ........ 1
+  ulysses_degree_in_cp ............................ None
+  untie_embeddings_and_output_weights ............. True
+  use_checkpoint_args ............................. False
+  use_checkpoint_opt_param_scheduler .............. False
+  use_cp_send_recv_overlap ........................ False
+  use_cpu_initialization .......................... None
+  use_deter_comp .................................. False
+  use_dist_ckpt ................................... False
+  use_distributed_optimizer ....................... True
+  use_flash_attn .................................. True
+  use_fused_ring_attention_update ................. False
+  use_fused_rmsnorm ............................... True
+  use_fused_rotary_pos_emb ........................ True
+  use_fused_swiglu ................................ True
+  use_glm_rope .................................... False
+  use_mc2 ......................................... False
+  use_mcore_models ................................ True
+  use_one_sent_docs ............................... False
+  use_ring_exchange_p2p ........................... False
+  use_rotary_position_embeddings .................. True
+  v_head_dim ...................................... None
+  valid_data_path ................................. None
+  variable_seq_lengths ............................ False
+  virtual_pipeline_model_parallel_size ............ None
+  vision_backbone_type ............................ vit
+  vision_context_parallel ......................... False
+  vision_downsample_ratio ......................... 0.5
+  vision_downsample_stride ........................ 1.0
+  vision_model_lr_decay_rate ...................... 0.9
+  vision_model_lr_mult ............................ 0.1
+  vision_model_type ............................... intern_300m
+  vision_normalize_type ........................... imagenet
+  vision_pretraining .............................. False
+  vision_pretraining_type ......................... classify
+  vision_process_type ............................. dynamic
+  vision_projection_pre_norm ...................... True
+  vision_projection_recompute ..................... False
+  vision_projection_type .......................... mlp
+  vision_seq_length ............................... 1025
+  vit_load ........................................ /
+  vocab_extra_ids ................................. 0
+  vocab_file ...................................... None
+  vocab_size ...................................... None
+  wandb_exp_name .................................. 
+  wandb_project ................................... 
+  wandb_save_dir .................................. 
+  weight_decay .................................... 0.0
+  weight_decay_incr_style ......................... constant
+  world_size ...................................... 192
+  yaml_cfg ........................................ None
+-------------------- end of vit_args ---------------------
+MegatronVisionModel vision_model_config VisionTransformerConfig(tensor_model_parallel_size=8, pipeline_model_parallel_size=1, virtual_pipeline_model_parallel_size=None, sequence_parallel=False, context_parallel_size=1, expert_model_parallel_size=1, perform_initialization=True, use_cpu_initialization=None, fp16=False, bf16=True, params_dtype=torch.bfloat16, timers=None, finalize_model_grads_func=None, grad_scale_func=None, no_sync_func=None, grad_sync_func=None, param_sync_func=None, enable_autocast=False, autocast_dtype=torch.bfloat16, num_microbatches_with_partial_activation_checkpoints=None, gradient_accumulation_fusion=False, async_tensor_model_parallel_allreduce=False, tp_comm_overlap=False, tp_comm_bulk_wgrad=True, tp_comm_bulk_dgrad=True, tp_comm_overlap_ag=True, tp_comm_overlap_rs=True, tp_comm_split_ag=True, tp_comm_atomic_ag=False, tp_comm_split_rs=True, tp_comm_atomic_rs=False, pipeline_dtype=torch.bfloat16, variable_seq_lengths=False, overlap_p2p_comm=False, batch_p2p_comm=True, batch_p2p_sync=True, use_ring_exchange_p2p=False, deallocate_pipeline_outputs=True, defer_embedding_wgrad_compute=False, pipeline_model_parallel_split_rank=None, cpu_offloading=False, cpu_offloading_num_layers=0, _cpu_offloading_context=None, cpu_offloading_activations=True, cpu_offloading_weights=True, barrier_with_L1_time=True, num_layers=24, first_pipeline_num_layers=0, independent_parallel=True, hidden_size=1024, num_attention_heads=16, num_query_groups=16, ffn_hidden_size=4096, kv_channels=64, hidden_dropout=0.0, attention_dropout=0.0, fp32_residual_connection=False, apply_residual_connection_post_layernorm=False, layernorm_epsilon=1e-06, layernorm_zero_centered_gamma=False, add_bias_linear=True, add_qkv_bias=True, gated_linear_unit=False, activation_func=<built-in function gelu>, activation_func_fp8_input_store=False, num_moe_experts=None, rotary_interleaved=False, window_size=None, normalization='LayerNorm', qk_layernorm=False, test_mode=False, init_method=<function init_method_normal.<locals>.init_ at 0x7f93f86145e0>, output_layer_init_method=<function scaled_init_method_normal.<locals>.init_ at 0x7f93f85b90d0>, init_method_std=0.01, apply_query_key_layer_scaling=False, attention_softmax_in_fp32=True, bias_activation_fusion=False, masked_softmax_fusion=False, persist_layer_norm=True, memory_efficient_layer_norm=False, bias_dropout_fusion=False, apply_rope_fusion=False, recompute_granularity='full', recompute_method='block', recompute_num_layers=24, distribute_saved_activations=False, fp8=None, fp8_margin=0, fp8_interval=1, fp8_amax_history_len=1, fp8_amax_compute_algo='most_recent', fp8_wgrad=True, fp8_dot_product_attention=False, fp8_multi_head_attention=False, moe_router_load_balancing_type='aux_loss', moe_router_topk=2, moe_grouped_gemm=False, moe_aux_loss_coeff=0.0, moe_z_loss_coeff=0.0, moe_input_jitter_eps=None, moe_token_dropping=False, moe_token_dispatcher_type='allgather', moe_per_layer_logging=False, moe_expert_capacity_factor=None, moe_pad_expert_input_to_capacity=False, moe_token_drop_policy='probs', moe_layer_recompute=False, clone_scatter_output_in_embedding=True, disable_parameter_transpose_cache=False, enable_cuda_graph=False, max_position_embeddings=1025, rotary_percent=1.0, img_w=448, img_h=448, patch_dim=14)
+MegatronVisionModel vision_model_layer_spec ModuleSpec(module=<class 'lcvlm_modellink.core.models.vision.intern_vit_model.InternViTTransformerLayer'>, params={}, submodules=TransformerLayerSubmodules(input_layernorm=<class 'modellink.core.transformer.custom_layers.transformer_engine.PTNorm'>, self_attention=ModuleSpec(module=<class 'megatron.core.transformer.attention.SelfAttention'>, params={'attn_mask_type': <AttnMaskType.no_mask: 3>}, submodules=SelfAttentionSubmodules(linear_qkv=<class 'megatron.core.tensor_parallel.layers.ColumnParallelLinear'>, core_attention=<class 'megatron.core.transformer.dot_product_attention.DotProductAttention'>, linear_proj=<class 'megatron.core.tensor_parallel.layers.RowParallelLinear'>, q_layernorm=None, k_layernorm=None)), post_attn_norm=<class 'megatron.core.transformer.identity_op.IdentityOp'>, self_attn_bda=<class 'megatron.core.transformer.identity_op.IdentityFuncOp'>, pre_cross_attn_layernorm=<class 'megatron.core.transformer.identity_op.IdentityOp'>, cross_attention=<class 'megatron.core.transformer.identity_op.IdentityOp'>, cross_attn_bda=<class 'megatron.core.transformer.identity_op.IdentityFuncOp'>, pre_mlp_layernorm=<class 'modellink.core.transformer.custom_layers.transformer_engine.PTNorm'>, mlp=ModuleSpec(module=<class 'megatron.core.transformer.mlp.MLP'>, params={}, submodules=MLPSubmodules(linear_fc1=<class 'megatron.core.tensor_parallel.layers.ColumnParallelLinear'>, linear_fc2=<class 'megatron.core.tensor_parallel.layers.RowParallelLinear'>)), post_mlp_layernorm=<class 'megatron.core.transformer.identity_op.IdentityOp'>, mlp_bda=<class 'megatron.core.transformer.identity_op.IdentityFuncOp'>, sharded_state_dict_keys_map={}))
+WARNING: could not find the metadata file /latest_checkpointed_iteration.txt 
+    will not load any checkpoints and will start from random
+vision_projection_config TransformerConfig(tensor_model_parallel_size=8, pipeline_model_parallel_size=1, virtual_pipeline_model_parallel_size=None, sequence_parallel=True, context_parallel_size=1, expert_model_parallel_size=1, perform_initialization=True, use_cpu_initialization=None, fp16=False, bf16=True, params_dtype=torch.bfloat16, timers=None, finalize_model_grads_func=None, grad_scale_func=None, no_sync_func=None, grad_sync_func=None, param_sync_func=None, enable_autocast=False, autocast_dtype=torch.bfloat16, num_microbatches_with_partial_activation_checkpoints=None, gradient_accumulation_fusion=False, async_tensor_model_parallel_allreduce=False, tp_comm_overlap=False, tp_comm_bulk_wgrad=True, tp_comm_bulk_dgrad=True, tp_comm_overlap_ag=True, tp_comm_overlap_rs=True, tp_comm_split_ag=True, tp_comm_atomic_ag=False, tp_comm_split_rs=True, tp_comm_atomic_rs=False, pipeline_dtype=torch.bfloat16, variable_seq_lengths=False, overlap_p2p_comm=False, batch_p2p_comm=True, batch_p2p_sync=True, use_ring_exchange_p2p=False, deallocate_pipeline_outputs=True, defer_embedding_wgrad_compute=False, pipeline_model_parallel_split_rank=None, cpu_offloading=False, cpu_offloading_num_layers=0, _cpu_offloading_context=None, cpu_offloading_activations=True, cpu_offloading_weights=True, barrier_with_L1_time=True, num_layers=48, first_pipeline_num_layers=0, independent_parallel=False, hidden_size=5120, num_attention_heads=40, num_query_groups=8, ffn_hidden_size=1024, kv_channels=128, hidden_dropout=0.0, attention_dropout=0.0, fp32_residual_connection=False, apply_residual_connection_post_layernorm=False, layernorm_epsilon=1e-06, layernorm_zero_centered_gamma=False, add_bias_linear=False, add_qkv_bias=True, gated_linear_unit=False, activation_func=<built-in function gelu>, activation_func_fp8_input_store=False, num_moe_experts=None, rotary_interleaved=False, window_size=None, normalization='RMSNorm', qk_layernorm=False, test_mode=False, init_method=<function init_method_normal.<locals>.init_ at 0x7f93f85b9160>, output_layer_init_method=<function scaled_init_method_normal.<locals>.init_ at 0x7f93f85b9280>, init_method_std=0.01, apply_query_key_layer_scaling=False, attention_softmax_in_fp32=True, bias_activation_fusion=False, masked_softmax_fusion=False, persist_layer_norm=True, memory_efficient_layer_norm=False, bias_dropout_fusion=True, apply_rope_fusion=True, recompute_granularity=None, recompute_method=None, recompute_num_layers=None, distribute_saved_activations=False, fp8=None, fp8_margin=0, fp8_interval=1, fp8_amax_history_len=1, fp8_amax_compute_algo='most_recent', fp8_wgrad=True, fp8_dot_product_attention=False, fp8_multi_head_attention=False, moe_router_load_balancing_type='aux_loss', moe_router_topk=2, moe_grouped_gemm=False, moe_aux_loss_coeff=0.0, moe_z_loss_coeff=0.0, moe_input_jitter_eps=None, moe_token_dropping=False, moe_token_dispatcher_type='allgather', moe_per_layer_logging=False, moe_expert_capacity_factor=None, moe_pad_expert_input_to_capacity=False, moe_token_drop_policy='probs', moe_layer_recompute=False, clone_scatter_output_in_embedding=True, disable_parameter_transpose_cache=False, enable_cuda_graph=False, max_position_embeddings=16384, rotary_percent=1.0)
+vision_projection_layer_spec MLPSubmodules(linear_fc1=<class 'megatron.core.tensor_parallel.layers.ColumnParallelLinear'>, linear_fc2=<class 'megatron.core.tensor_parallel.layers.RowParallelLinear'>)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+ > number of parameters on (tensor, pipeline) model parallel rank (6, 0): 1887497216
+ > number of parameters on (tensor, pipeline) model parallel rank (7, 0): 1887497216
+ > number of parameters on (tensor, pipeline) model parallel rank (3, 0): 1887497216
+ > number of parameters on (tensor, pipeline) model parallel rank (0, 0): 1887497216
+ > number of parameters on (tensor, pipeline) model parallel rank (4, 0): 1887497216
+ > number of parameters on (tensor, pipeline) model parallel rank (5, 0): 1887497216
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+ > number of parameters on (tensor, pipeline) model parallel rank (2, 0): 1887497216
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+model GPTVLModel(
+  (external_feature_model): MegatronVisionModel(
+    (vit): InternViTModel(
+      (conv1): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14))
+      (position_embeddings): Embedding(1025, 1024)
+      (decoder): TransformerBlock(
+        (layers): ModuleList(
+          (0-23): 24 x InternViTTransformerLayer(
+            (input_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (self_attention): SelfAttention(
+              (core_attention): DotProductAttention(
+                (scale_mask_softmax): FusedScaleMaskSoftmax()
+                (attention_dropout): Dropout(p=0.0, inplace=False)
+              )
+              (linear_proj): RowParallelLinear()
+              (linear_qkv): ColumnParallelLinear()
+            )
+            (self_attn_bda): IdentityFuncOp()
+            (pre_cross_attn_layernorm): IdentityOp()
+            (cross_attention): IdentityOp()
+            (cross_attn_bda): IdentityFuncOp()
+            (pre_mlp_layernorm): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
+            (mlp): MLP(
+              (linear_fc1): ColumnParallelLinear()
+              (linear_fc2): RowParallelLinear()
+            )
+            (mlp_bda): IdentityFuncOp()
+          )
+        )
+      )
+    )
+    (vision_projection): MultimodalProjector(
+      (encoder): MLP(
+        (linear_fc1): ColumnParallelLinear()
+        (linear_fc2): RowParallelLinear()
+      )
+    )
+    (pre_proj_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
+  )
+  (embedding): LanguageModelEmbedding(
+    (word_embeddings): VocabParallelEmbedding()
+    (embedding_dropout): Dropout(p=0.0, inplace=False)
+  )
+  (rotary_pos_emb): RotaryEmbedding()
+  (decoder): TransformerBlock(
+    (layers): ModuleList(
+      (0-47): 48 x TransformerLayer(
+        (input_layernorm): RMSNorm()
+        (self_attention): SelfAttention(
+          (core_attention): DotProductAttention(
+            (scale_mask_softmax): FusedScaleMaskSoftmax()
+            (attention_dropout): Dropout(p=0.0, inplace=False)
+          )
+          (linear_proj): RowParallelLinear()
+          (linear_qkv): ColumnParallelLinear()
+          (q_layernorm): IdentityOp()
+          (k_layernorm): IdentityOp()
+        )
+        (pre_cross_attn_layernorm): IdentityOp()
+        (cross_attention): IdentityOp()
+        (cross_attn_bda): IdentityFuncOp()
+        (pre_mlp_layernorm): RMSNorm()
+        (mlp): MLP(
+          (linear_fc1): ColumnParallelLinear()
+          (linear_fc2): RowParallelLinear()
+        )
+      )
+    )
+    (final_layernorm): RMSNorm()
+  )
+  (output_layer): ColumnParallelLinear()
+)
+ > number of parameters on (tensor, pipeline) model parallel rank (1, 0): 1887497216
+INFO:megatron.core.distributed.param_and_grad_buffer:Number of buckets for gradient all-reduce / reduce-scatter: 40
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 1 (97320960 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.output_layer.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 2 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.47.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.47.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.47.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.47.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.47.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.final_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.47.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.47.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.46.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 3 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.46.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.46.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.45.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.45.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.46.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.46.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.46.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.46.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 4 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.45.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.45.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.45.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.44.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.44.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.45.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.45.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.44.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.44.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.44.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.44.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 5 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.43.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.43.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.43.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.43.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.43.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.44.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.43.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.43.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.42.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 6 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.42.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.42.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.41.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.41.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.42.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.42.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.42.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.42.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 7 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.41.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.41.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.41.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.40.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.40.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.41.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.41.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.40.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.40.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.40.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.40.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 8 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.39.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.39.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.39.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.39.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.39.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.40.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.39.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.39.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.38.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 9 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.38.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.38.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.37.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.37.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.38.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.38.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.38.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.38.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 10 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.37.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.37.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.37.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.36.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.36.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.37.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.37.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.36.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.36.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.36.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.36.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 11 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.35.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.35.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.35.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.35.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.35.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.36.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.35.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.35.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.34.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 12 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.34.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.33.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.33.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.34.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.34.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.34.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.34.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.34.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 13 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.33.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.33.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.33.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.32.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.32.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.33.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.33.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.32.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.32.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.32.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.32.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 14 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.31.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.31.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.31.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.31.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.31.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.32.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.31.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.31.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.30.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 15 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.30.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.30.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.29.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.29.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.30.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.30.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.30.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.30.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 16 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.29.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.29.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.29.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.28.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.28.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.29.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.29.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.28.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.28.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.28.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.28.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 17 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.27.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.27.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.27.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.27.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.27.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.28.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.27.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.27.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.26.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 18 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.26.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.26.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.25.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.25.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.26.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.26.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.26.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.26.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 19 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.25.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.25.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.25.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.24.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.24.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.25.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.25.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.24.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.24.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.24.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.24.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 20 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.23.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.23.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.23.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.23.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.23.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.24.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.23.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.23.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.22.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 21 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.22.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.22.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.21.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.21.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.22.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.22.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.22.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.22.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 22 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.21.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.21.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.21.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.20.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.20.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.21.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.21.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.20.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.20.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.20.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.20.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 23 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.19.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.19.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.19.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.19.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.19.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.20.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.19.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.19.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.18.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 24 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.18.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.18.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.17.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.17.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.18.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.18.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.18.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.18.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 25 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.17.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.17.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.17.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.16.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.16.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.17.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.17.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.16.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.16.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.16.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.16.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 26 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.15.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.15.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.15.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.15.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.15.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.16.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.15.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.15.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.14.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 27 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.14.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.14.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.13.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.13.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.14.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.14.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.14.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.14.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 28 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.13.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.13.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.13.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.12.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.12.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.13.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.13.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.12.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.12.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.12.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.12.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 29 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.11.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.11.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.11.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.11.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.11.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.12.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.11.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.11.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.10.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 30 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.10.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.10.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.9.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.9.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.10.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.10.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.10.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.10.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 31 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.9.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.9.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.9.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.8.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.8.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.9.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.9.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.8.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.8.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.8.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.8.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 32 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.7.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.7.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.7.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.7.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.7.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.6.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.8.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.7.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.7.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 33 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.6.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.6.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.6.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.6.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.6.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.6.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.5.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.5.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 34 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.5.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.5.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.4.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.4.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.4.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.4.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.5.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.5.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.5.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.4.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.4.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 35 (43270016 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.4.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.3.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.3.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.2.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.3.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.3.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.3.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.3.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.3.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 36 (52112256 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.2.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.2.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.2.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.2.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.2.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.2.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.1.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.1.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 37 (42287872 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.1.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.1.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.0.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.0.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.0.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.0.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.1.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.1.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.1.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.0.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.0.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 38 (97326080 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.decoder.layers.0.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.embedding.word_embeddings.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 39 (40204288 elements):
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.pre_proj_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.position_embeddings.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vision_projection.encoder.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vision_projection.encoder.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.pre_proj_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.ls1name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.ls2
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.ls1
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias
+
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.ls1
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weightname module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.ls1
+
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.ls2
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.input_layernorm.biasname module.module.external_feature_model.vit.class_token lr_decay_rate 1.0
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.input_layernorm.biasname module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight
+
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+
+
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.15.ls2name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.ls2_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.ls1
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.1.ls2
+
+
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.ls2
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.ls1
+
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.ls2name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weightname module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias
+
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weightname module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+
+
+
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weightname module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.biasname module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+
+
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.ls1name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.biasname module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.biasname module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+
+
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weightname module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.17.ls2_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.12.ls1
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:Params for bucket 40 (604160 elements):name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.conv1.bias
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.class_token_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+
+INFO:megatron.core.distributed.param_and_grad_buffer:    module.external_feature_model.vit.conv1.weight_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+
+
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+
+
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+
+
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+
+
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+
+
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+
+
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+
+
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+
+
+
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+
+
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+
+
+
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+
+
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+
+
+
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+
+
+
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+
+
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+
+
+
+
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+
+
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:megatron.core.optimizer:Setting up optimizer with OptimizerConfig(optimizer='adam', lr=1e-05, min_lr=1e-07, decoupled_lr=None, decoupled_min_lr=None, weight_decay=0.0, fp16=False, bf16=True, params_dtype=torch.bfloat16, loss_scale=None, initial_loss_scale=4096.0, min_loss_scale=1.0, loss_scale_window=1000, hysteresis=2, adam_beta1=0.9, adam_beta2=0.999, adam_eps=1e-08, sgd_momentum=0.9, use_distributed_optimizer=True, overlap_grad_reduce=True, overlap_param_gather=False, clip_grad=1.0, log_num_zeros_in_grad=False, barrier_with_L1_time=True, timers=<megatron.core.timers.Timers object at 0x7f94505a42e0>)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+
+
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+
+
+
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+
+
+
+
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+
+
+
+
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+
+
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+
+
+
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928
+
+
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+
+
+
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+
+
+
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+
+
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+
+
+
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+
+
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+
+
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+
+
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+
+
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+
+
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+
+
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+
+
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+
+
+
+
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+
+
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+
+
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+
+
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+
+
+
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+
+
+
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+
+
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+
+
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+
+
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+
+
+
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+
+
+
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+
+
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+
+
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+
+
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+
+
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+
+
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935
+
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+
+
+
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+
+
+
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+
+
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+
+
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+
+
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+
+
+
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+
+
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+
+
+
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+
+
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+
+
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+
+
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+
+
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+
+
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+
+_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.class_token lr_decay_rate 1.0_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.class_token key (1.0, 0.1, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.conv1.weight lr_decay_rate 0.0717897987691853_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.conv1.weight key (1.0, 0.00717897987691853, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.conv1.bias lr_decay_rate 0.0717897987691853name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.external_feature_model.vit.conv1.bias key (0.0, 0.00717897987691853, False, False)_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.position_embeddings.weight lr_decay_rate 0.0717897987691853
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.position_embeddings.weight key (1.0, 0.00717897987691853, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.ls1 lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls1 key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.ls2 lr_decay_rate 0.07976644307687256
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.ls2 key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.weight key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.input_layernorm.bias key (0.0, 0.007976644307687256, False, False)_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight lr_decay_rate 0.07976644307687256_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 0.007976644307687256, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias lr_decay_rate 0.07976644307687256
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_proj.bias key (0.0, 0.007976644307687256, False, False)name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 0.007976644307687256, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 0.007976644307687256, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.pre_mlp_layernorm.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias lr_decay_rate 0.07976644307687256
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc1.bias key (0.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight lr_decay_rate 0.07976644307687256name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 0.007976644307687256, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias lr_decay_rate 0.07976644307687256
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.0.mlp.linear_fc2.bias key (0.0, 0.007976644307687256, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.1.ls1 lr_decay_rate 0.08862938119652507
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls1 key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.1.ls2 lr_decay_rate 0.08862938119652507
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.ls2 key (0.0, 0.008862938119652507, False, False)_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight lr_decay_rate 0.08862938119652507name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias lr_decay_rate 0.08862938119652507INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.input_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias lr_decay_rate 0.08862938119652507
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_proj.bias key (0.0, 0.008862938119652507, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight lr_decay_rate 0.08862938119652507
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias lr_decay_rate 0.08862938119652507
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight lr_decay_rate 0.08862938119652507
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias lr_decay_rate 0.08862938119652507INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.pre_mlp_layernorm.bias key (0.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight lr_decay_rate 0.08862938119652507INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 0.008862938119652507, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias lr_decay_rate 0.08862938119652507
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc1.bias key (0.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 0.008862938119652507, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias lr_decay_rate 0.08862938119652507_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.1.mlp.linear_fc2.bias key (0.0, 0.008862938119652507, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001
+name module.module.external_feature_model.vit.decoder.layers.2.ls1 lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls1 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.ls2 lr_decay_rate 0.09847709021836118
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.ls2 key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight lr_decay_rate 0.09847709021836118
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.weight key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.input_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight lr_decay_rate 0.09847709021836118
+
+
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_proj.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 0.00984770902183612, False, False)name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 0.00984770902183612, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.pre_mlp_layernorm.bias key (0.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 0.00984770902183612, False, False)
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias lr_decay_rate 0.09847709021836118
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc1.bias key (0.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight lr_decay_rate 0.09847709021836118
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 0.00984770902183612, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias lr_decay_rate 0.09847709021836118
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.2.mlp.linear_fc2.bias key (0.0, 0.00984770902183612, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.ls1 lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls1 key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.3.ls2 lr_decay_rate 0.10941898913151242_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.ls2 key (0.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias lr_decay_rate 0.10941898913151242
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.input_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight lr_decay_rate 0.10941898913151242INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias lr_decay_rate 0.10941898913151242
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_proj.bias key (0.0, 0.010941898913151242, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 0.010941898913151242, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 0.010941898913151242, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias lr_decay_rate 0.10941898913151242
+
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.pre_mlp_layernorm.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight lr_decay_rate 0.10941898913151242_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias lr_decay_rate 0.10941898913151242
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc1.bias key (0.0, 0.010941898913151242, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias lr_decay_rate 0.10941898913151242
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.3.mlp.linear_fc2.bias key (0.0, 0.010941898913151242, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.ls1 lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls1 key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.ls2 lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.ls2 key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias lr_decay_rate 0.12157665459056935
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.input_layernorm.bias key (0.0, 0.012157665459056936, False, False)_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias lr_decay_rate 0.12157665459056935
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_proj.bias key (0.0, 0.012157665459056936, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 0.012157665459056936, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001
+
+name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 0.012157665459056936, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 0.012157665459056936, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.pre_mlp_layernorm.bias key (0.0, 0.012157665459056936, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 0.012157665459056936, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc1.bias key (0.0, 0.012157665459056936, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight lr_decay_rate 0.12157665459056935
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 0.012157665459056936, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias lr_decay_rate 0.12157665459056935_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.4.mlp.linear_fc2.bias key (0.0, 0.012157665459056936, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.5.ls1 lr_decay_rate 0.13508517176729928
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls1 key (0.0, 0.013508517176729929, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.ls2 lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.ls2 key (0.0, 0.013508517176729929, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.weight key (0.0, 0.013508517176729929, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias lr_decay_rate 0.13508517176729928
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.input_layernorm.bias key (0.0, 0.013508517176729929, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 0.013508517176729929, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_proj.bias key (0.0, 0.013508517176729929, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight lr_decay_rate 0.13508517176729928
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias lr_decay_rate 0.13508517176729928_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 0.013508517176729929, False, False)name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias lr_decay_rate 0.13508517176729928
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.pre_mlp_layernorm.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc1.bias key (0.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight lr_decay_rate 0.13508517176729928_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 0.013508517176729929, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias lr_decay_rate 0.13508517176729928
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.5.mlp.linear_fc2.bias key (0.0, 0.013508517176729929, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.ls1 lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls1 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.6.ls2 lr_decay_rate 0.15009463529699918_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.ls2 key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight lr_decay_rate 0.15009463529699918INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.input_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 0.015009463529699918, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_proj.bias key (0.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 0.015009463529699918, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias lr_decay_rate 0.15009463529699918
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 0.015009463529699918, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight lr_decay_rate 0.15009463529699918INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 0.015009463529699918, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias lr_decay_rate 0.15009463529699918
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.pre_mlp_layernorm.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight lr_decay_rate 0.15009463529699918
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias lr_decay_rate 0.15009463529699918
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc1.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight lr_decay_rate 0.15009463529699918
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias lr_decay_rate 0.15009463529699918name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.6.mlp.linear_fc2.bias key (0.0, 0.015009463529699918, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.7.ls1 lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls1 key (0.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.ls2 lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.ls2 key (0.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.weight key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias lr_decay_rate 0.16677181699666577
+
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.input_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_proj.bias key (0.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight lr_decay_rate 0.16677181699666577_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 0.016677181699666577, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight lr_decay_rate 0.16677181699666577
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 0.016677181699666577, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias lr_decay_rate 0.16677181699666577
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.pre_mlp_layernorm.bias key (0.0, 0.016677181699666577, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight lr_decay_rate 0.16677181699666577INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 0.016677181699666577, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc1.bias key (0.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight lr_decay_rate 0.16677181699666577name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 0.016677181699666577, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias lr_decay_rate 0.16677181699666577
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.7.mlp.linear_fc2.bias key (0.0, 0.016677181699666577, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.ls1 lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls1 key (0.0, 0.018530201888518418, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.ls2 lr_decay_rate 0.18530201888518416
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.ls2 key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias lr_decay_rate 0.18530201888518416
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.input_layernorm.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 0.018530201888518418, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias lr_decay_rate 0.18530201888518416INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_proj.bias key (0.0, 0.018530201888518418, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight lr_decay_rate 0.18530201888518416
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias lr_decay_rate 0.18530201888518416name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight lr_decay_rate 0.18530201888518416
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias lr_decay_rate 0.18530201888518416
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.pre_mlp_layernorm.bias key (0.0, 0.018530201888518418, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight lr_decay_rate 0.18530201888518416
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc1.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias lr_decay_rate 0.18530201888518416
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.8.mlp.linear_fc2.bias key (0.0, 0.018530201888518418, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.ls1 lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls1 key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.ls2 lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.ls2 key (0.0, 0.02058911320946491, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.input_layernorm.bias key (0.0, 0.02058911320946491, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 0.02058911320946491, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_proj.bias key (0.0, 0.02058911320946491, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight lr_decay_rate 0.20589113209464907
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 0.02058911320946491, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias lr_decay_rate 0.20589113209464907name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81
+
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.pre_mlp_layernorm.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight lr_decay_rate 0.20589113209464907
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 0.02058911320946491, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias lr_decay_rate 0.20589113209464907
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc1.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight lr_decay_rate 0.20589113209464907
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias lr_decay_rate 0.20589113209464907INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.9.mlp.linear_fc2.bias key (0.0, 0.02058911320946491, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.10.ls1 lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls1 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.ls2 lr_decay_rate 0.2287679245496101name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.ls2 key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight lr_decay_rate 0.2287679245496101INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias lr_decay_rate 0.2287679245496101
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.input_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight lr_decay_rate 0.2287679245496101INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_proj.bias key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 0.02287679245496101, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 0.02287679245496101, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.pre_mlp_layernorm.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight lr_decay_rate 0.2287679245496101
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 0.02287679245496101, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias lr_decay_rate 0.2287679245496101
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc1.bias key (0.0, 0.02287679245496101, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight lr_decay_rate 0.2287679245496101
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 0.02287679245496101, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+
+name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias lr_decay_rate 0.2287679245496101_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.10.mlp.linear_fc2.bias key (0.0, 0.02287679245496101, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.ls1 lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls1 key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)name module.module.external_feature_model.vit.decoder.layers.11.ls2 lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.ls2 key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.input_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 0.02541865828329001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_proj.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 0.02541865828329001, False, False)_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 0.02541865828329001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 0.02541865828329001, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.pre_mlp_layernorm.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc1.bias key (0.0, 0.02541865828329001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight lr_decay_rate 0.2541865828329001_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 0.02541865828329001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias lr_decay_rate 0.2541865828329001
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.11.mlp.linear_fc2.bias key (0.0, 0.02541865828329001, False, False)
+_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.ls1 lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls1 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.ls2 lr_decay_rate 0.2824295364810001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.ls2 key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.weight key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.input_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias lr_decay_rate 0.2824295364810001
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_proj.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 0.028242953648100012, False, False)_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.pre_mlp_layernorm.bias key (0.0, 0.028242953648100012, False, False)
+
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight lr_decay_rate 0.2824295364810001
+
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias lr_decay_rate 0.2824295364810001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc1.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 0.028242953648100012, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias lr_decay_rate 0.2824295364810001
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.12.mlp.linear_fc2.bias key (0.0, 0.028242953648100012, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.ls1 lr_decay_rate 0.31381059609000006
+
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls1 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.ls2 lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.ls2 key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.weight key (0.0, 0.031381059609000006, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.input_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 0.031381059609000006, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias lr_decay_rate 0.31381059609000006INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_proj.bias key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight lr_decay_rate 0.31381059609000006INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias lr_decay_rate 0.31381059609000006
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.pre_mlp_layernorm.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc1.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 0.031381059609000006, False, False)_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias lr_decay_rate 0.31381059609000006
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.13.mlp.linear_fc2.bias key (0.0, 0.031381059609000006, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.ls1 lr_decay_rate 0.3486784401000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls1 key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.14.ls2 lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.ls2 key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.input_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight lr_decay_rate 0.3486784401000001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias lr_decay_rate 0.3486784401000001_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_proj.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 0.03486784401000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias lr_decay_rate 0.3486784401000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias lr_decay_rate 0.3486784401000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.pre_mlp_layernorm.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 0.03486784401000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc1.bias key (0.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 0.03486784401000001, False, False)_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias lr_decay_rate 0.3486784401000001
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.14.mlp.linear_fc2.bias key (0.0, 0.03486784401000001, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.ls1 lr_decay_rate 0.3874204890000001
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls1 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.15.ls2 lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.ls2 key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias lr_decay_rate 0.3874204890000001
+
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.input_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 0.03874204890000001, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_proj.bias key (0.0, 0.03874204890000001, False, False)
+
+
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight lr_decay_rate 0.3874204890000001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias lr_decay_rate 0.3874204890000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight lr_decay_rate 0.3874204890000001INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.pre_mlp_layernorm.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias lr_decay_rate 0.3874204890000001
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc1.bias key (0.0, 0.03874204890000001, False, False)_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 0.03874204890000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias lr_decay_rate 0.3874204890000001
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.15.mlp.linear_fc2.bias key (0.0, 0.03874204890000001, False, False)
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls1 lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls1 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.ls2 lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.ls2 key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight lr_decay_rate 0.4304672100000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.weight key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias lr_decay_rate 0.4304672100000001
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.input_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+INFO:lcvlm_modellink.core.optimizer:_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_proj.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 0.04304672100000001, False, False)_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.pre_mlp_layernorm.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight lr_decay_rate 0.4304672100000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc1.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight lr_decay_rate 0.4304672100000001_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias lr_decay_rate 0.4304672100000001
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.16.mlp.linear_fc2.bias key (0.0, 0.04304672100000001, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.ls1 lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls1 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.ls2 lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.ls2 key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.weight key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.input_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_proj.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 0.04782969000000001, False, False)_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias lr_decay_rate 0.4782969000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.pre_mlp_layernorm.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc1.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias lr_decay_rate 0.4782969000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.17.mlp.linear_fc2.bias key (0.0, 0.04782969000000001, False, False)
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.ls1 lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls1 key (0.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.ls2 lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.ls2 key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.input_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 0.05314410000000001, False, False)_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_proj.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.pre_mlp_layernorm.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 0.05314410000000001, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias lr_decay_rate 0.531441_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc1.bias key (0.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 0.05314410000000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias lr_decay_rate 0.531441
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.18.mlp.linear_fc2.bias key (0.0, 0.05314410000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls1 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls1 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.ls2 lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.ls2 key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.input_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias lr_decay_rate 0.5904900000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_proj.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.pre_mlp_layernorm.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias lr_decay_rate 0.5904900000000001_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc1.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias lr_decay_rate 0.5904900000000001
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.19.mlp.linear_fc2.bias key (0.0, 0.05904900000000001, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.ls1 lr_decay_rate 0.6561
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls1 key (0.0, 0.06561, False, False)
+
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.ls2 lr_decay_rate 0.6561
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.ls2 key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.input_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_proj.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight lr_decay_rate 0.6561
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.pre_mlp_layernorm.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 0.06561, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc1.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight lr_decay_rate 0.6561_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias lr_decay_rate 0.6561
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.20.mlp.linear_fc2.bias key (0.0, 0.06561, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls1 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls1 key (0.0, 0.0729, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.ls2 lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.ls2 key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.weight key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.input_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_proj.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 0.0729, False, False)
+
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.pre_mlp_layernorm.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight lr_decay_rate 0.7290000000000001_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 0.0729, False, False)_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias lr_decay_rate 0.7290000000000001
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc1.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias lr_decay_rate 0.7290000000000001
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.21.mlp.linear_fc2.bias key (0.0, 0.0729, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.ls1 lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls1 key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.ls2 lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.ls2 key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.weight key (0.0, 0.08100000000000002, False, False)_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.input_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight lr_decay_rate 0.81_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_proj.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 0.08100000000000002, False, False)
+
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.pre_mlp_layernorm.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight lr_decay_rate 0.81
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc1.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 0.08100000000000002, False, False)
+name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias lr_decay_rate 0.81
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.22.mlp.linear_fc2.bias key (0.0, 0.08100000000000002, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.ls1 lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls1 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.ls2 lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.ls2 key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.input_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 0.09000000000000001, False, False)
+
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias lr_decay_rate 0.9_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_proj.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.pre_mlp_layernorm.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight lr_decay_rate 0.9
+
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc1.bias key (0.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 0.09000000000000001, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias lr_decay_rate 0.9
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.external_feature_model.vit.decoder.layers.23.mlp.linear_fc2.bias key (0.0, 0.09000000000000001, False, False)
+
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.vision_projection.encoder.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.external_feature_model.pre_proj_layernorm.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.embedding.word_embeddings.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.input_layernorm.weight key (0.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)_get_param_groups name module.module.decoder.layers.0.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.0.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.1.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.2.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.3.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.4.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.5.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.6.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.7.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.8.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.9.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.10.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.11.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.12.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.13.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.14.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.15.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.16.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.17.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.18.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.19.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.20.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.21.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.22.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.23.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.24.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.25.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.26.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.27.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.28.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.29.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.30.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.31.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.32.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.33.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.34.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.35.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.36.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.37.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.38.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.39.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.40.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.41.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.42.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.43.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.44.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.45.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.46.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.input_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_proj.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.self_attention.linear_qkv.bias key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.pre_mlp_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc1.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.layers.47.mlp.linear_fc2.weight key (1.0, 1.0, False, False)
+_get_param_groups name module.module.decoder.final_layernorm.weight key (0.0, 1.0, False, False)
+_get_param_groups name module.module.output_layer.weight key (1.0, 1.0, False, False)
+> learning rate decay style: cosine
+_load_base_checkpoint iteration_load_base_checkpoint iteration_load_base_checkpoint iteration_load_base_checkpoint iteration_load_base_checkpoint iteration_load_base_checkpoint iteration    1000 _load_base_checkpoint iteration
+10001000 _load_base_checkpoint iteration10001000_load_base_checkpoint iteration1000_load_base_checkpoint iteration_load_base_checkpoint iteration_load_base_checkpoint release_load_base_checkpoint iteration  
+
+1000_load_base_checkpoint iteration_load_base_checkpoint iteration_load_base_checkpoint iteration
+
+_load_base_checkpoint iteration 
+   1000False1000
+_load_base_checkpoint release _load_base_checkpoint release
+
+ _load_base_checkpoint release_load_base_checkpoint release_load_base_checkpoint release  10001000 _load_base_checkpoint release1000
+  1000_load_base_checkpoint release1000 
+ 
+ 1000
+
+False1000_load_base_checkpoint release_load_base_checkpoint release  _load_base_checkpoint releaseFalse
+False
+False
+ _load_base_checkpoint releaseFalse_load_base_checkpoint release False_load_base_checkpoint release
+
+ 
+False 
+_load_base_checkpoint release
+False False
+ 
+FalseFalseFalse
+
+_load_base_checkpoint release
+False 
+
+
+False
+ False
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_06/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_04/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_01/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_05/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_04/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_03/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_05/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_03/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_06/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_07/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_07/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_01/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_00/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_02/model_optim_rng.pt
+ loading checkpoint from /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/ at iteration 1000
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_00/model_optim_rng.pt
+_load_base_checkpoint /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/iter_0001000/mp_rank_02/model_optim_rng.pt
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+could not find arguments in the checkpoint ...
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+ checkpoint version 3.0
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+load_checkpoint iteration 0
+load_checkpoint release False
+strict True
+  successfully loaded checkpoint from /data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/ [ t 0, p 0 ] at iteration 0
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+local_disk/cognitron_vl/third_party/Megatron-LM_core_r0.6.0/megatron/core/timers.py:238: UserWarning: AutoNonVariableTypeMode is deprecated and will be removed in 1.10 release. For kernel implementations please use AutoDispatchBelowADInplaceOrView instead, If you are looking for a user facing API to enable running your inference-only workload, please use c10::InferenceMode. Using AutoDispatchBelowADInplaceOrView in user code is under risk of producing silent wrong result in some edge cases. See Note [AutoDispatchBelowAutograd] for more details. (Triggered internally at torch_npu/csrc/aten/common/TensorFactories.cpp:74.)
+  rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+[after model, optimizer, and learning rate scheduler are built] datetime: 2024-10-14 13:23:48 
+> building train, validation, and test datasets ...
+ > datasets target sizes (minimum size):
+    train:      3696000
+    validation: 0
+    test:       0
+INFO:megatron.core.datasets.blended_megatron_dataset_config:mock = False
+INFO:megatron.core.datasets.blended_megatron_dataset_config:Let split_matrix = [(0, 1.0), None, None]
+> building train, validation, and test datasets for GPT ...
+> rank 3 does not create GPT datasets ...> rank 7 does not create GPT datasets ...
+
+> rank 15 does not create GPT datasets ...> rank 10 does not create GPT datasets ...
+
+> rank 14 does not create GPT datasets ...> rank 1 does not create GPT datasets ...
+
+> rank 11 does not create GPT datasets ...
+> rank 9 does not create GPT datasets ...
+> rank 6 does not create GPT datasets ...> rank 2 does not create GPT datasets ...
+
+> rank 8 is creating GPT datasets ...
+> rank 13 does not create GPT datasets ...
+> rank 4 does not create GPT datasets ...
+> rank 12 does not create GPT datasets ...
+> rank 5 does not create GPT datasets ...
+tokenizer Qwen2TokenizerFast(name_or_path='/data_4/models/Qwen/Qwen2.5-14B-Instruct/', vocab_size=151643, model_max_length=16384, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'eos_token': '<|im_end|>', 'pad_token': '<|endoftext|>', 'additional_special_tokens': ['<|im_start|>', '<|im_end|>', '<|object_ref_start|>', '<|object_ref_end|>', '<|box_start|>', '<|box_end|>', '<|quad_start|>', '<|quad_end|>', '<|vision_start|>', '<|vision_end|>', '<|vision_pad|>', '<|image_pad|>', '<|video_pad|>']}, clean_up_tokenization_spaces=False),  added_tokens_decoder={
+	151643: AddedToken("<|endoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151644: AddedToken("<|im_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151645: AddedToken("<|im_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151646: AddedToken("<|object_ref_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151647: AddedToken("<|object_ref_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151648: AddedToken("<|box_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151649: AddedToken("<|box_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151650: AddedToken("<|quad_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151651: AddedToken("<|quad_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151652: AddedToken("<|vision_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151653: AddedToken("<|vision_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151654: AddedToken("<|vision_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151655: AddedToken("<|image_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151656: AddedToken("<|video_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151657: AddedToken("<tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
+	151658: AddedToken("</tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
+	151659: AddedToken("<|fim_prefix|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
+	151660: AddedToken("<|fim_middle|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
+	151661: AddedToken("<|fim_suffix|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
+	151662: AddedToken("<|fim_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
+	151663: AddedToken("<|repo_name|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
+	151664: AddedToken("<|file_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
+	151665: AddedToken("<img>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151666: AddedToken("</img>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151667: AddedToken("<IMG_CONTEXT>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151668: AddedToken("<vid>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151669: AddedToken("</vid>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151670: AddedToken("<VID_CONTEXT>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151671: AddedToken("<patch>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151672: AddedToken("</patch>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151673: AddedToken("<PATCH_CONTEXT>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151674: AddedToken("<quad>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151675: AddedToken("</quad>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151676: AddedToken("<ref>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151677: AddedToken("</ref>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151678: AddedToken("<box>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	151679: AddedToken("</box>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+}
+> rank 0 is creating GPT datasets ...
+INFO:root:building dataset...
+INFO:root:Namespace(accumulate_allreduce_grads_in_fp32=True, adam_beta1=0.9, adam_beta2=0.999, adam_eps=1e-08, adaptive_recompute_device_size=-1, adaptive_recompute_device_swap=False, adaptive_recompute_profiling_step=10, add_bias_linear=False, add_class_token=True, add_dense_bias=False, add_position_embedding=True, add_qkv_bias=True, add_rmsnorm_offset=False, adlr_autoresume=False, adlr_autoresume_interval=1000, apply_layernorm_1p=False, apply_query_key_layer_scaling=False, apply_residual_connection_post_layernorm=False, apply_rope_fusion=True, async_tensor_model_parallel_allreduce=False, attention_dropout=0.0, attention_softmax_in_fp32=True, attn_logit_softcapping=None, auto_detect_ckpt_format=False, barrier_with_L1_time=True, bert_binary_head=True, bert_embedder_type='megatron', bert_load=None, bf16=True, bias_dropout_fusion=True, bias_gelu_fusion=False, bias_swiglu_fusion=True, biencoder_projection_dim=0, biencoder_shared_query_context_model=False, block_data_path=None, check_for_nan_in_loss_and_grad=True, chunk_size=4096, ckpt_fully_parallel_save=False, ckpt_step=None, classes_fraction=1.0, clip_grad=1.0, clone_scatter_output_in_embedding=True, consumed_train_samples=0, consumed_valid_samples=0, context_parallel_algo='ulysses_cp_algo', context_parallel_size=1, cp_attention_mask_type='causal', create_attention_mask_in_dataloader=False, data_cache_path=None, data_parallel_random_init=False, data_parallel_size=24, data_path=['/local_disk/cognitron_vl//configs/lcvlm_finetune_stage2.yaml'], data_per_class_fraction=1.0, data_seq_length=16384, data_sharding=True, dataloader_type='single', decoder_num_layers=None, decoder_seq_length=None, decoupled_lr=None, decoupled_min_lr=None, delay_grad_reduce=True, delay_param_gather=False, dim_model_base=None, dino_bottleneck_size=256, dino_freeze_last_layer=1, dino_head_hidden_size=2048, dino_local_crops_number=10, dino_local_img_size=96, dino_norm_last_layer=False, dino_teacher_temp=0.07, dino_warmup_teacher_temp=0.04, dino_warmup_teacher_temp_epochs=30, dist_ckpt_format='torch_dist', distribute_saved_activations=False, distributed_backend='nccl', distributed_timeout_minutes=120, dpo_beta=0.1, dpo_ftx=0.0, dpo_label_smoothing=0.0, dpo_loss_type='sigmoid', embed_layernorm=False, embedding_multiplier_scale=1.0, embedding_path=None, empty_unused_memory_level=0, enable_chunk_memory=False, enable_chunk_sequence=False, enable_hbmfault_repair=False, enable_high_availability=False, enable_one_logger=False, enable_optimizer_state_local_copy=False, enable_recompute_layers_per_pp_rank=False, enable_token_rearrange_opt=False, encoder_num_layers=48, encoder_seq_length=16384, end_weight_decay=0.0, eod_mask_loss=False, eval_interval=500, eval_iters=0, evidence_data_path=None, exit_duration_in_mins=None, exit_interval=None, exit_on_missing_checkpoint=False, exit_signal_handler=False, expert_interval=1, expert_model_parallel_size=1, ffn_hidden_size=13824, fill_neg_inf=False, finetune=True, first_k_dense_replace=None, first_pipeline_num_layers=0, fp16=False, fp16_lm_cross_entropy=False, fp32_residual_connection=False, fp8=None, fp8_amax_compute_algo='most_recent', fp8_amax_history_len=1, fp8_interval=1, fp8_margin=0, fp8_wgrad=True, freeze_language_model=False, freeze_vision_model=False, freeze_vision_projection=False, full_shuffle_instruction_dataset=False, geglu=False, gelu_tanh=False, global_batch_size=528, gradient_accumulation_fusion=False, group_query_attention=True, head_lr_mult=1.0, hidden_dropout=0.0, hidden_size=5120, high_freq_factor=None, hysteresis=2, ict_head_size=None, ict_load=None, image_size=448, image_token_length=256, img_h=224, img_w=224, independent_parallel=False, indexer_batch_size=128, indexer_log_interval=1000, inference_batch_times_seqlen_threshold=512, init_method_std=0.01, init_method_xavier_uniform=False, initial_loss_scale=4096.0, input_embeds_norm=False, input_jitter=True, input_layernorm_in_fp32=False, interleave_sliding_window=None, is_instruction_dataset=True, is_pairwise_dataset=False, iter_per_epoch=1250, iteration=0, jit_compile=False, kv_channels=128, kv_head_repeat_before_uly_alltoall=False, kv_lora_rank=None, lazy_mpu_init=None, load='/data_2/output/LM/lcvlm_modellink/scripts/qwen25/pretrain_qwen25_14b_intern_300m_ptd_tp8pp1_stage1.sh/20241012_095536/', load_checkpoint_loosely=False, local_rank=0, log_batch_size_to_tensorboard=False, log_interval=1, log_learning_rate_to_tensorboard=True, log_loss_scale_to_tensorboard=True, log_memory_to_tensorboard=False, log_num_zeros_in_grad=False, log_params_norm=False, log_progress=False, log_throughput=True, log_timers_to_tensorboard=False, log_validation_ppl_to_tensorboard=False, log_world_size_to_tensorboard=False, logit_mask=False, lora_alpha=32, lora_fusion=False, lora_load=None, lora_modules_to_save=None, lora_r=16, lora_register_forward_hook=['word_embeddings', 'input_layernorm'], lora_target_modules=[], loss_scale=None, loss_scale_window=1000, low_freq_factor=None, lr=1e-05, lr_decay_iters=7000, lr_decay_samples=None, lr_decay_style='cosine', lr_warmup_fraction=0.03, lr_warmup_init=0.0, lr_warmup_iters=0, lr_warmup_samples=0, make_vocab_size_divisible_by=1, manual_gc=False, manual_gc_eval=True, manual_gc_interval=0, mask_factor=1.0, mask_prob=0.15, mask_type='random', masked_softmax_fusion=False, max_fps=1, max_num_frame=64, max_num_image=64, max_patch_grid=12, max_position_embeddings=16384, max_tokens_to_oom=12000, merge_file=None, micro_batch_size=1, min_loss_scale=1.0, min_lr=1e-07, min_patch_grid=1, mmap_bin_files=True, mock_data=False, model_type=<ModelType.encoder_or_decoder: 1>, moe_allgather_overlap_comm=False, moe_alltoall_overlap_comm=False, moe_aux_loss_coeff=0.0, moe_comm_aux_loss_coeff=0.0, moe_device_level_aux_loss_coeff=0.0, moe_expert_capacity_factor=None, moe_grouped_gemm=False, moe_input_jitter_eps=None, moe_intermediate_size=None, moe_layer_freq=None, moe_pad_expert_input_to_capacity=False, moe_per_layer_logging=False, moe_permutation_async_comm=False, moe_router_load_balancing_type='aux_loss', moe_router_topk=2, moe_token_dispatcher_type='allgather', moe_token_drop_policy='probs', moe_token_dropping=False, moe_tp_extend_ep=False, moe_train_capacity_factor=1.0, moe_z_loss_coeff=0.0, multi_head_latent_attention=False, n_shared_experts=None, nccl_communicator_config_path=None, next_tockens=0, no_load_optim=True, no_load_rng=True, no_persist_layer_norm=False, no_post_layer_norm=False, no_save_optim=None, no_save_rng=None, no_shared_storage=False, no_shuffle=False, noisy_gate_policy=None, noop_layers=None, norm_epsilon=1e-06, norm_topk_prob=False, normalization='RMSNorm', num_attention_heads=40, num_channels=3, num_classes=1000, num_experts=None, num_floating_point_operations_so_far=3.124314517127824e+21, num_layer_list=None, num_layers=48, num_layers_per_virtual_pipeline_stage=None, num_query_groups=8, num_workers=8, one_logger_entity='hwinf_dcm', one_logger_project='e2e-tracking', one_logger_run_name=None, onnx_safe=None, openai_gelu=False, optimizer='adam', original_max_position_embeddings=None, output_bert_embeddings=False, output_layer_slice_num=1, output_logit_softcapping=None, output_multiplier_scale=None, overlap_grad_reduce=True, overlap_p2p_comm=False, overlap_param_gather=False, override_opt_param_scheduler=False, pad_to_multiple_of=8, padded_vocab_size=152064, params_dtype=torch.bfloat16, patch_dim=16, perform_initialization=True, pipeline_model_parallel_size=1, pipeline_model_parallel_split_rank=None, position_embedding_type='rope', post_norm=False, pre_tockens=65536, pref_ftx=0.0, pretrained_checkpoint=None, profile=False, profile_level='level0', profile_ranks=[-1], profile_record_shapes=False, profile_save_path='./profile_dir', profile_step_end=12, profile_step_start=10, profile_with_cpu=False, profile_with_memory=False, profile_with_stack=False, prompt_format='qwen2', prompt_type=None, q_lora_rank=None, qk_layernorm=False, qk_nope_head_dim=None, qk_rope_head_dim=None, query_in_block_prob=0.1, query_pre_attn_scalar=None, rampup_batch_size=None, rank=0, recompute_activation_function=False, recompute_activation_function_num_layers=None, recompute_granularity=None, recompute_in_advance=False, recompute_in_bubble=False, recompute_method=None, recompute_num_layers=None, reduce_recompute_for_last_chunk=False, ref_model=None, reset_attention_mask=True, reset_position_ids=True, retriever_report_topk_accuracies=[], retriever_score_scaling=False, retriever_seq_length=256, retro_add_retriever=False, retro_attention_gate=1, retro_cyclic_train_iters=None, retro_encoder_attention_dropout=0.1, retro_encoder_hidden_dropout=0.1, retro_encoder_layers=2, retro_num_neighbors=2, retro_num_retrieved_chunks=2, retro_project_dir=None, retro_verify_neighbor_count=True, reuse_fp32_param=False, rope_scaling_beta_fast=32, rope_scaling_beta_slow=1, rope_scaling_factor=1.0, rope_scaling_mscale=1.0, rope_scaling_mscale_all_dim=0.0, rope_scaling_original_max_position_embeddings=None, rope_scaling_type=None, rotary_base=1000000.0, rotary_interleaved=False, rotary_percent=1.0, rotary_seq_len_interpolation_factor=None, routed_scaling_factor=None, sample_rate=1.0, save='/data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//', save_interval=500, scale_depth=None, scale_emb=None, scatter_gather_tensors_in_pipeline=True, seed=42, seq_aux=False, seq_length=16384, sequence_parallel=True, sgd_momentum=0.9, shape_order='SBH', shared_expert_gate=False, shared_expert_gate_output_dimension=1, short_seq_prob=0.1, skip_bias_add=True, skip_train=False, sliding_window=None, sparse_mode=0, spec=None, split='100,0,0', square_alibi_mask=False, squared_relu=False, stage=None, standalone_embedding_stage=False, start_weight_decay=0.0, swap_attention=False, swap_modules=None, swiglu=True, swin_backbone_type='tiny', tensor_model_parallel_size=8, tensorboard_dir=None, tensorboard_log_interval=1, tensorboard_queue_size=1000, test_data_path=None, test_mode=False, timing_log_level=0, timing_log_option='minmax', titles_data_path=None, tokenizer_kwargs=None, tokenizer_model=None, tokenizer_name_or_path='/data_4/models/Qwen/Qwen2.5-14B-Instruct/', tokenizer_not_use_fast=True, tokenizer_padding_side='right', tokenizer_type='PretrainedFromHF', topk_group=None, tp_comm_bulk_dgrad=True, tp_comm_bulk_wgrad=True, tp_comm_overlap=False, tp_comm_overlap_ag=True, tp_comm_overlap_cfg=None, tp_comm_overlap_rs=True, tp_comm_split_ag=True, tp_comm_split_rs=True, train_data_path=None, train_iters=7000, train_samples=None, transformer_impl='local', transformer_pipeline_model_parallel_size=1, ulysses_degree_in_cp=None, untie_embeddings_and_output_weights=True, use_checkpoint_args=False, use_checkpoint_opt_param_scheduler=False, use_cp_send_recv_overlap=False, use_cpu_initialization=None, use_deter_comp=False, use_dist_ckpt=False, use_distributed_optimizer=True, use_flash_attn=True, use_fused_ring_attention_update=False, use_fused_rmsnorm=True, use_fused_rotary_pos_emb=True, use_fused_swiglu=True, use_glm_rope=False, use_mc2=False, use_mcore_models=True, use_one_sent_docs=False, use_ring_exchange_p2p=False, use_rotary_position_embeddings=True, v_head_dim=None, valid_data_path=None, variable_seq_lengths=False, virtual_pipeline_model_parallel_size=None, vision_backbone_type='vit', vision_context_parallel=False, vision_downsample_ratio=0.5, vision_downsample_stride=1.0, vision_model_lr_decay_rate=0.9, vision_model_lr_mult=0.1, vision_model_type='intern_300m', vision_normalize_type='imagenet', vision_pretraining=False, vision_pretraining_type='classify', vision_process_type='dynamic', vision_projection_pre_norm=True, vision_projection_recompute=False, vision_projection_type='mlp', vision_seq_length=1025, vit_load='/', vit_num_layers=24, vocab_extra_ids=0, vocab_file=None, vocab_size=None, wandb_exp_name='', wandb_project='', wandb_save_dir='', weight_decay=0.0, weight_decay_incr_style='constant', world_size=192, yaml_cfg=None)
+target_ratios [(1, 1), (1, 2), (2, 1), (3, 1), (1, 3), (2, 2), (4, 1), (1, 4), (5, 1), (1, 5), (1, 6), (6, 1), (3, 2), (2, 3), (7, 1), (1, 7), (4, 2), (2, 4), (1, 8), (8, 1), (1, 9), (3, 3), (9, 1), (2, 5), (5, 2), (10, 1), (1, 10), (11, 1), (1, 11), (12, 1), (3, 4), (4, 3), (1, 12), (6, 2), (2, 6)]
+possible_resolutions [[448, 448], [448, 896], [896, 448], [1344, 448], [448, 1344], [896, 896], [1792, 448], [448, 1792], [2240, 448], [448, 2240], [448, 2688], [2688, 448], [1344, 896], [896, 1344], [3136, 448], [448, 3136], [1792, 896], [896, 1792], [448, 3584], [3584, 448], [448, 4032], [1344, 1344], [4032, 448], [896, 2240], [2240, 896], [4480, 448], [448, 4480], [4928, 448], [448, 4928], [5376, 448], [1344, 1792], [1792, 1344], [448, 5376], [2688, 896], [896, 2688]]
+INFO:cognitron_vl.data.dataset_base:cfg {'xlsx_sample_num': 5, 'dataset': {'LLaVA': {'ratio': 0, 'data_paths': ['datasets/LMM/lcvlm_jsonl/liuhaotian/LLaVA-Instruct-150K/llava_v1_5_mix665k.jsonl']}, 'LLaVA-ReCap': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-558K/data.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-118K/data.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-CC3M/data.jsonl']}, 'ALLaVA': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/FreedomIntelligence/ALLaVA-4V/allava_vflan/ALLaVA-Caption-VFLAN-4V.jsonl', 'datasets/LMM/lcvlm_jsonl/FreedomIntelligence/ALLaVA-4V/allava_laion/ALLaVA-Caption-LAION-4V.jsonl', 'datasets/LMM/lcvlm_jsonl/FreedomIntelligence/ALLaVA-4V/allava_vflan/ALLaVA-Instruct-VFLAN-4V.jsonl', 'datasets/LMM/lcvlm_jsonl/FreedomIntelligence/ALLaVA-4V/allava_laion/ALLaVA-Instruct-LAION-4V.jsonl']}, 'LVIS': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/X2FD/LVIS-Instruct4V/lvis_instruct4v_220k.jsonl']}, 'ShareGPT4V': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/Lin-Chen/ShareGPT4V/share-captioner_coco_lcs_sam_1246k_1107.jsonl', 'datasets/LMM/lcvlm_jsonl/Lin-Chen/ShareGPT4V/sharegpt4v_instruct_gpt4-vision_cap100k.jsonl']}, 'the_cauldron': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/chart2text.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/cocoqa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/datikz.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/diagram_image_to_text.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/docvqa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/finqa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/geomverse.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/iam.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/intergps.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/localized_narratives.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/mimic_cgd.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/multihiertt.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/nlvr2.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/ocrvqa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/okvqa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/plotqa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/raven.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/rendered_text.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/robut_sqa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/robut_wikisql.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/screen2words.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/spot_the_diff.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/tabmwp.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/tat_qa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/textvqa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/vistext.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/visualmrc.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/vqav2.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/websight.jsonl']}, 'Docmatix': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl']}, 'LLaVA-OneVision-Mid-Data': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Mid-Data/evol_instruct/evol_instruct_processed.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Mid-Data/synthdog_en/synthdog_en_processed.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Mid-Data/synthdog_zh/synthdog_zh_processed.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Mid-Data/ureader_tr/ureader_tr_processed.jsonl']}, 'LLaVA-OneVision-Data': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/CLEVR-Math(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/FigureQA(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/GEOS(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/GeoQA+(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/Geometry3K(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/IconQA(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/MapQA(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/PMC-VQA(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/Super-CLEVR(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/TabMWP(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/UniGeo(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/VisualWebInstruct(filtered).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/VizWiz(MathV360K).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ai2d(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ai2d(gpt4v).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ai2d(internvl).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/aokvqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/cambrian(filtered).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/chartqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/chrome_writting.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/clevr(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/dvqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/figureqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/geo170k(align).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/geo170k(qa).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/geo3k.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/hateful_memes(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/hitab(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/hme100k.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/iconqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/iiit5k.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/image_textualization(filtered).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/infographic(gpt4v).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/infographic_vqa.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/infographic_vqa_llava_format.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/k12_printing.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/llavar_gpt4_20k.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/lrv_chart.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/lrv_normal(filtered).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/magpie_pro(l3_80b_mt).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/magpie_pro(l3_80b_st).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/magpie_pro(qwen2_72b_st).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/mapqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/mathqa.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/mavis_math_metagen.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/mavis_math_rule_geo.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/orand_car_a.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/robut_wtq(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/scienceqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/scienceqa(nona_context).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/sharegpt4o.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/sroie.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/st_vqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/tallyqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/textcaps.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/textocr(gpt4v).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/tqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_cap.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_ie.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_kg.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_qa.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/vision_flan(filtered).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/visual7w(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/vqarad(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/vsr(cauldron,llava_format).jsonl']}, 'M4-Instruct-Data': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/lmms-lab/M4-Instruct-Data/m4_instruct_annotations.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/M4-Instruct-Data/m4_instruct_video.jsonl']}, 'OpenHermes': {'ratio': 1, 'num': 300000, 'data_paths': ['datasets/LLM/jsons/teknium/OpenHermes-2.5/openhermes2_5.jsonl']}, 'lima': {'ratio': 1, 'data_paths': ['datasets/LLM/jsons/GAIR/lima/train.jsonl']}, 'databricks-dolly-15k': {'ratio': 1, 'data_paths': ['datasets/LLM/jsons/databricks/databricks-dolly-15k/databricks-dolly-15k.jsonl']}, 'MetaMathQA': {'ratio': 1, 'num': 100000, 'data_paths': ['datasets/LLM/jsons/meta-math/MetaMathQA/MetaMathQA-395K.jsonl']}, 'MathInstruct': {'ratio': 1, 'num': 80000, 'data_paths': ['datasets/LLM/jsons/TIGER-Lab/MathInstruct/MathInstruct.jsonl']}, 'orca-math-word-problems-200k': {'ratio': 1, 'num': 50000, 'data_paths': ['datasets/LLM/jsons/microsoft/orca-math-word-problems-200k/data.jsonl']}, 'atlas-math-sets': {'ratio': 1, 'num': 100000, 'data_paths': ['datasets/LLM/jsons/AtlasUnified/atlas-math-sets/train.jsonl']}, 'goat': {'ratio': 1, 'num': 30000, 'data_paths': ['datasets/LLM/jsons/tiedong/goat/dataset.jsonl']}, 'camel-ai': {'ratio': 1, 'num': 30000, 'data_paths': ['datasets/LLM/jsons/camel-ai/math/math.jsonl']}, 'Long-Instruction-with-Paraphrasing': {'ratio': 0, 'data_paths': ['datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/booksum_en.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/multi_doc_qa_en_paraphrasing.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/sharegpt_en.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/short_instruction_from_alpaca_en.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/single_doc_qa_en_paraphrasing.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/translation_en2zh.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/booksum_zh.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/multi_doc_qa_zh_paraphrasing.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/sharegpt_zh.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/short_instruction_from_llama_chinese.jsonl', 'datasets/LLM/jsons/yuyijiong/Long-Instruction-with-Paraphrasing/single_doc_qa_zh_paraphrasing.jsonl']}, 'Long': {'ratio': 0, 'data_paths': ['datasets/LLM/jsons/akoksal/LongForm/data.jsonl', 'datasets/LLM/jsons/THUDM/LongAlign-10k/long.jsonl', 'datasets/LLM/jsons/YeungNLP/LongQLoRA-Dataset/LongQLoRA-SFT-Data-39k.jsonl', 'datasets/LLM/jsons/Yukang/LongAlpaca-12k/LongAlpaca-12k.jsonl', 'datasets/LLM/jsons/togethercomputer/Long-Data-Collections/natural_questions_10_200_docs.jsonl', 'datasets/LLM/jsons/togethercomputer/Long-Data-Collections/booksum.jsonl']}, 'VideoGPT-plus_Training_Dataset': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/caption_videochat.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/classification_k710.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/classification_ssv2.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/conversation_videochat1.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/conversation_videochatgpt.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/reasoning_clevrer_mc.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/reasoning_clevrer_qa.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/reasoning_next_qa.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/vcg_human_annotated.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/vcg-plus_112K.jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/vqa_webvid_qa.jsonl']}, 'Share14/ShareGemini': {'ratio': 1, 'data_paths': ['datasets/LMM/lcvlm_jsonl/Share14/ShareGemini/sharegemini_k400.jsonl', 'datasets/LMM/lcvlm_jsonl/Share14/ShareGemini/sharegemini_webvid_core100k.jsonl']}}}
+target_ratios [(1, 1), (1, 2), (2, 1), (3, 1), (1, 3), (2, 2), (4, 1), (1, 4), (5, 1), (1, 5), (1, 6), (6, 1), (3, 2), (2, 3), (7, 1), (1, 7), (4, 2), (2, 4), (1, 8), (8, 1), (1, 9), (3, 3), (9, 1), (2, 5), (5, 2), (10, 1), (1, 10), (11, 1), (1, 11), (12, 1), (3, 4), (4, 3), (1, 12), (6, 2), (2, 6)]
+possible_resolutions [[448, 448], [448, 896], [896, 448], [1344, 448], [448, 1344], [896, 896], [1792, 448], [448, 1792], [2240, 448], [448, 2240], [448, 2688], [2688, 448], [1344, 896], [896, 1344], [3136, 448], [448, 3136], [1792, 896], [896, 1792], [448, 3584], [3584, 448], [448, 4032], [1344, 1344], [4032, 448], [896, 2240], [2240, 896], [4480, 448], [448, 4480], [4928, 448], [448, 4928], [5376, 448], [1344, 1792], [1792, 1344], [448, 5376], [2688, 896], [896, 2688]]
+INFO:cognitron_vl.data.dataset_base:total_num 558128
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 558128
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 558128
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 558128
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-558K/data.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 118319
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 118319
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 118319
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 676447
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-118K/data.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 2857560
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 2857560
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 2857560
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 3534007
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-CC3M/data.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 202549
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 202549
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 202549
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 3736556
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/FreedomIntelligence/ALLaVA-4V/allava_vflan/ALLaVA-Caption-VFLAN-4V.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 505586
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 505586
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 505586
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 4242142
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/FreedomIntelligence/ALLaVA-4V/allava_laion/ALLaVA-Caption-LAION-4V.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 203062
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 203062
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 203062
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 4445204
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/FreedomIntelligence/ALLaVA-4V/allava_vflan/ALLaVA-Instruct-VFLAN-4V.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 505586
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 505586
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 505586
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 4950790
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/FreedomIntelligence/ALLaVA-4V/allava_laion/ALLaVA-Instruct-LAION-4V.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 222711
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 222711
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 222711
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 5173501
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/X2FD/LVIS-Instruct4V/lvis_instruct4v_220k.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1244418
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 1244418
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 1244418
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6417919
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/Lin-Chen/ShareGPT4V/share-captioner_coco_lcs_sam_1246k_1107.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 100024
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 100024
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 100024
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6517943
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/Lin-Chen/ShareGPT4V/sharegpt4v_instruct_gpt4-vision_cap100k.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 26961
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 26961
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 26961
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6544904
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/chart2text.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 46287
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 46287
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 46287
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6591191
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/cocoqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 47974
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 47974
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 47974
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6639165
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/datikz.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 300
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 300
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 300
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6639465
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/diagram_image_to_text.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 10189
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 10189
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10189
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6649654
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/docvqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 5276
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 5276
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 5276
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6654930
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/finqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 9303
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 9303
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9303
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6664233
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/geomverse.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 5663
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 5663
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 5663
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6669896
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/iam.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1280
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 1280
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 1280
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6671176
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/intergps.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 199998
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 199998
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 199998
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6871174
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/localized_narratives.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 70939
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 70939
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 70939
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6942113
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/mimic_cgd.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 7619
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 7619
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7619
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6949732
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/multihiertt.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 50426
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 50426
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 50426
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7000158
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/nlvr2.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 165746
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 165746
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 165746
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7165904
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/ocrvqa.jsonl
+WARNING:cognitron_vl.data.dataset_base:Data file no found datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/okvqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 157070
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 157070
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 157070
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7322974
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/plotqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 42000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 42000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 42000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7364974
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/raven.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 10000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 10000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7374974
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/rendered_text.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 8514
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 8514
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 8514
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7383488
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/robut_sqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 74989
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 74989
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 74989
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7458477
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/robut_wikisql.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 15730
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 15730
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 15730
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7474207
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/screen2words.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 8566
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 8566
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 8566
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7482773
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/spot_the_diff.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 22722
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 22722
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 22722
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7505495
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/tabmwp.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 2199
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 2199
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 2199
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7507694
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/tat_qa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 21953
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 21953
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 21953
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7529647
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/textvqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 9969
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 9969
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9969
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7539616
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/vistext.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 3027
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 3027
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 3027
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7542643
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/visualmrc.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 82772
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 82772
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 82772
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7625415
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/vqav2.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 10000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 10000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 7635415
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/websight.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1251003
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 1251003
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 1251003
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 8886418
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 143000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 143000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 143000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9029418
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Mid-Data/evol_instruct/evol_instruct_processed.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 100000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 100000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 100000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9129418
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Mid-Data/synthdog_en/synthdog_en_processed.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 100000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 100000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 100000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9229418
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Mid-Data/synthdog_zh/synthdog_zh_processed.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 101880
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 101880
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 101880
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9331298
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Mid-Data/ureader_tr/ureader_tr_processed.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 5280
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 5280
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 5280
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9336578
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/CLEVR-Math(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 17587
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 17587
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 17587
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9354165
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/FigureQA(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 498
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 498
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 498
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9354663
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/GEOS(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 17162
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 17162
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 17162
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9371825
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/GeoQA+(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 9724
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 9724
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9724
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9381549
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/Geometry3K(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 22589
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 22589
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 22589
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9404138
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/IconQA(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 5225
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 5225
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 5225
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9409363
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/MapQA(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 35948
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 35948
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 35948
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9445311
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/PMC-VQA(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 8642
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 8642
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 8642
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9453953
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/Super-CLEVR(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 22452
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 22452
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 22452
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9476405
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/TabMWP(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 11949
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 11949
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 11949
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9488354
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/UniGeo(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 263584
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 263584
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 263584
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9751938
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/VisualWebInstruct(filtered).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 6604
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 6604
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 6604
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9758542
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/VizWiz(MathV360K).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 2429
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 2429
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 2429
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9760971
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ai2d(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 4864
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 4864
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 4864
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9765835
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ai2d(gpt4v).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 12403
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 12403
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12403
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9778238
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ai2d(internvl).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 16534
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 16534
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 16534
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9794772
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/aokvqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 83125
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 83125
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 83125
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9877897
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/cambrian(filtered).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 18260
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 18260
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 18260
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9896157
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/chartqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 8825
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 8825
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 8825
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9904982
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/chrome_writting.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 69995
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 69995
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 69995
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 9974977
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/clevr(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 199995
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 199995
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 199995
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10174972
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/dvqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 99995
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 99995
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 99995
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10274967
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/figureqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 60242
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 60242
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 60242
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10335209
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/geo170k(align).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 67823
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 67823
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 67823
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10403032
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/geo170k(qa).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 2091
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 2091
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 2091
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10405123
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/geo3k.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 8495
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 8495
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 8495
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10413618
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/hateful_memes(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 2495
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 2495
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 2495
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10416113
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/hitab(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 74492
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 74492
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 74492
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10490605
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/hme100k.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 27302
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 27302
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 27302
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10517907
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/iconqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1990
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 1990
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 1990
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10519897
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/iiit5k.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 99573
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 99573
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 99573
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10619470
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/image_textualization(filtered).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1982
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 1982
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 1982
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10621452
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/infographic(gpt4v).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 4394
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 4394
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 4394
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10625846
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/infographic_vqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 2113
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 2113
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 2113
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10627959
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/infographic_vqa_llava_format.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 256636
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 256636
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 256636
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10884595
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/k12_printing.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 19790
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 19790
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 19790
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10904385
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/llavar_gpt4_20k.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1776
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 1776
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 1776
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10906161
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/lrv_chart.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 10490
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 10490
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10490
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 10916651
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/lrv_normal(filtered).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 299988
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 299988
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 299988
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 11216639
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/magpie_pro(l3_80b_mt).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 299990
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 299990
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 299990
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 11516629
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/magpie_pro(l3_80b_st).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 299982
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 299982
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 299982
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 11816611
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/magpie_pro(qwen2_72b_st).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 37412
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 37412
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 37412
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 11854023
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/mapqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 29827
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 29827
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 29827
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 11883850
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/mathqa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 87348
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 87348
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 87348
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 11971198
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/mavis_math_metagen.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 99990
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 99990
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 99990
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12071188
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/mavis_math_rule_geo.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1999
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 1999
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 1999
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12073187
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/orand_car_a.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 38241
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 38241
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 38241
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12111428
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/robut_wtq(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 4971
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 4971
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 4971
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12116399
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/scienceqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 19208
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 19208
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 19208
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12135607
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/scienceqa(nona_context).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 57284
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 57284
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 57284
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12192891
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/sharegpt4o.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 33616
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 33616
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 33616
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12226507
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/sroie.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 17242
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 17242
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 17242
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12243749
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/st_vqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 98675
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 98675
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 98675
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12342424
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/tallyqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 21942
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 21942
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 21942
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12364366
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/textcaps.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 25104
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 25104
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 25104
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12389470
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/textocr(gpt4v).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 27302
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 27302
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 27302
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12416772
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/tqa(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 91434
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 91434
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 91434
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12508206
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_cap.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 17322
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 17322
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 17322
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12525528
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_ie.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 37550
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 37550
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 37550
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12563078
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_kg.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 252954
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 252954
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 252954
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 12816032
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_qa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 186060
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 186060
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 186060
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 13002092
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/vision_flan(filtered).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 14361
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 14361
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14361
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 13016453
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/visual7w(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 308
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 308
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 308
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 13016761
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/vqarad(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 2152
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 2152
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 2152
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 13018913
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/vsr(cauldron,llava_format).jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 615814
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 615814
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 615814
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 13634727
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/M4-Instruct-Data/m4_instruct_annotations.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 255000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 255000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 255000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 13889727
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/lmms-lab/M4-Instruct-Data/m4_instruct_video.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1001551
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 300000
+INFO:cognitron_vl.data.dataset_base:used_num 300000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 300000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14189727
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/teknium/OpenHermes-2.5/openhermes2_5.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1030
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 1030
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 1030
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14190757
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/GAIR/lima/train.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 15011
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 15011
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 15011
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14205768
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/databricks/databricks-dolly-15k/databricks-dolly-15k.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 395000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 100000
+INFO:cognitron_vl.data.dataset_base:used_num 100000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 100000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14305768
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/meta-math/MetaMathQA/MetaMathQA-395K.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 262039
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 80000
+INFO:cognitron_vl.data.dataset_base:used_num 80000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 80000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14385768
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/TIGER-Lab/MathInstruct/MathInstruct.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 200035
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 50000
+INFO:cognitron_vl.data.dataset_base:used_num 50000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 50000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14435768
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/microsoft/orca-math-word-problems-200k/data.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 17807579
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 100000
+INFO:cognitron_vl.data.dataset_base:used_num 100000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 100000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14535768
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/AtlasUnified/atlas-math-sets/train.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 1746300
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 30000
+INFO:cognitron_vl.data.dataset_base:used_num 30000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 30000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14565768
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/tiedong/goat/dataset.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 50000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 30000
+INFO:cognitron_vl.data.dataset_base:used_num 30000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'source', 'images', 'videos'],
+    num_rows: 30000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14595768
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LLM/jsons/camel-ai/math/math.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 6884
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 6884
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 6884
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14602652
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/caption_videochat.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 39949
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 39949
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 39949
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14642601
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/classification_k710.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 40000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 40000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 40000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14682601
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/classification_ssv2.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 33923
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 33923
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 33923
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14716524
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/conversation_videochat1.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 100010
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 100010
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 100010
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14816534
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/conversation_videochatgpt.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 42620
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 42620
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 42620
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14859154
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/reasoning_clevrer_mc.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 40000
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 40000
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 40000
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14899154
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/reasoning_clevrer_qa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 34132
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 34132
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 34132
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14933286
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/reasoning_next_qa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 25803
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 25803
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 25803
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 14959089
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/vcg_human_annotated.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 112716
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 112716
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 112716
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 15071805
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/vcg-plus_112K.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 99923
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 99923
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 99923
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 15171728
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/vqa_webvid_qa.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 221966
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 221966
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 221966
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 15393694
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/Share14/ShareGemini/sharegemini_k400.jsonl
+INFO:cognitron_vl.data.dataset_base:total_num 101781
+INFO:cognitron_vl.data.dataset_base:data_ratio 1.0
+INFO:cognitron_vl.data.dataset_base:data_num 999999999
+INFO:cognitron_vl.data.dataset_base:used_num 101781
+INFO:cognitron_vl.data.dataset_base:this_data Dataset({
+    features: ['conversations', 'videos', 'source', 'images'],
+    num_rows: 101781
+})
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 15495475
+})
+INFO:cognitron_vl.data.dataset_base:Successful load datasets/LMM/lcvlm_jsonl/Share14/ShareGemini/sharegemini_webvid_core100k.jsonl
+INFO:cognitron_vl.data.dataset_base:output_xlsx /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//lcvlm_finetune_stage2.xlsx
+INFO:cognitron_vl.data.dataset_base:raw_data Dataset({
+    features: ['conversations', 'images', 'source', 'videos'],
+    num_rows: 15495475
+})
+INFO:cognitron_vl.data.dataset_base:raw_data {'conversations': [[{'from': 'user', 'value': 'What is the primary purpose of the document?\n<image>'}, {'from': 'assistant', 'value': 'The primary purpose of the document is to provide information on how to request a copy of an Owners Corporation Certificate and the associated costs, process, and payment details.'}, {'from': 'user', 'value': 'What do I need to provide to request a copy of the Owners Corporation Certificate?'}, {'from': 'assistant', 'value': 'You need to provide details such as the Name and Plan Number of Owners Corporation, lot number(s), lot address, and your personal or company details including Name(s) / Company, Postal Address, Email Address, and Telephone number.'}, {'from': 'user', 'value': 'What happens if I still need to cancel or request a refund after the application process?'}, {'from': 'assistant', 'value': 'Unfortunately, no refunds or cancellations will be provided on an already processed order, and any refund request will attract an administration processing fee.'}, {'from': 'user', 'value': 'When will the certificate be issued?'}, {'from': 'assistant', 'value': 'The certificate will be issued within the number of business days listed above when the application and payment are received. However, URGENT certificates will only be issued when there is capacity to do so.'}, {'from': 'user', 'value': 'Are the certificate fees subject to change and when?'}, {'from': 'assistant', 'value': 'Yes, the pricing is subject to change on 01/07/2022 in line with the Department of Treasury and Finance indexation of fees.'}, {'from': 'user', 'value': 'Where should I send my payment for the Owners Corporation Certificate?'}, {'from': 'assistant', 'value': 'You should send your EFT payment to BSB: 033 059, ACC: 654 608, and include the proper EFT Reference.'}], [{'from': 'user', 'value': '<image><image>\nWhat is the primary focus of the Fellowship Development Committee (FDC)?'}, {'from': 'assistant', 'value': 'The primary focus of the Fellowship Development Committee is to enable NA Communities to work towards being fully self-supporting and functional within NA as a whole by offering necessary tools and resources to reach common standards.'}, {'from': 'user', 'value': 'What are the suggested general service criteria for the Fellowship Development Committee Chair?'}, {'from': 'assistant', 'value': 'The suggested general service criteria for the Fellowship Development Committee Chair include a minimum of six years clean time, five years clean time for the FD Chair, the ability to fulfill tasks within the FDC responsibilities, a working knowledge of the 12 traditions and 12 concepts of NA service, a commitment to serve the full two-year term, and availability to attend both EDM meetings for five days, every year, as well as online or conference call meetings in the interim periods.'}, {'from': 'user', 'value': 'How does the Fellowship Development Committee (FDC) make financial decisions and manage its budget?'}, {'from': 'assistant', 'value': "The FDC has a fixed budget of 5000 Euros, which can be altered under extraordinary circumstances with approval from the EDM body. In case of unforeseeable matters requiring more money, the FDC and SC have the discretion to use funds from the EDM account's accessible money. The administration of the FDC budget, including distribution of money and collection of receipts, is done by the Treasurer of the SC. All financial decisions are taken by the FDC, while the final responsibility rests on the FDC itself."}, {'from': 'user', 'value': 'Who is responsible for preparing the "EDM NEWS" and what information does it typically contain?'}, {'from': 'assistant', 'value': 'The Fellowship Development Committee is responsible for preparing the "EDM NEWS," which is based on any updates or news they wish to communicate and will be published on the EDM website. The "EDM NEWS" typically contains information about updates or news related to the FDC\'s activities and events.'}, {'from': 'user', 'value': 'What is the role of the Task Team (TT) in the Fellowship Development process?'}, {'from': 'assistant', 'value': 'The Task Team (TT) is responsible for facilitating requested workshops and presentations, preparing written reports for the FDC, and participating in other fellowship activities. They work in coordination with the local fellowship and Liaison Person to ensure the success of the task and provide feedback and recommendations for future collaborations.'}, {'from': 'user', 'value': 'How are members selected for the Task Team (TT) and what factors influence their selection?'}, {'from': 'assistant', 'value': 'Suitable and qualified members for the Task Team are chosen by the FDC based on the Human Resources Pool (HRP), which consists of current and former Regional Delegates and Trusted Servants who have declared themselves available to assist and support the EDM, primarily the FDC. The FDC evaluates the TT request, the available members from the HRP, and the workshop topics to make appropriate suggestions that could improve the task efficiency.'}], [{'from': 'user', 'value': '<image>\nWhat is the serving size of the Jelly Mix?'}, {'from': 'assistant', 'value': 'The serving size of the Jelly Mix is 7 Pieces (38g).'}, {'from': 'user', 'value': 'How many calories are in each serving of Jelly Mix?'}, {'from': 'assistant', 'value': 'There are 130 calories in each serving of Jelly Mix.'}, {'from': 'user', 'value': 'What are the ingredients of the Jelly Mix?'}, {'from': 'assistant', 'value': 'The ingredients of the Jelly Mix include sugar, corn syrup, modified food starch, citric acid, sodium citrate, natural and artificial flavors.'}, {'from': 'user', 'value': 'How much total fat is there in each serving of Jelly Mix?'}, {'from': 'assistant', 'value': 'There is 0g of total fat in each serving of Jelly Mix.'}, {'from': 'user', 'value': 'What is the amount of sodium per serving in the Jelly Mix?'}, {'from': 'assistant', 'value': 'The amount of sodium per serving in the Jelly Mix is 5mg.'}, {'from': 'user', 'value': 'How many grams of total carbohydrates are there in each serving of Jelly Mix?'}, {'from': 'assistant', 'value': 'There are 33g of total carbohydrates in each serving of Jelly Mix.'}, {'from': 'user', 'value': 'How much sugar is there in each serving of Jelly Mix?'}, {'from': 'assistant', 'value': 'There are 21g of sugar in each serving of Jelly Mix.'}, {'from': 'user', 'value': 'How many calories from fat are there in each serving of Jelly Mix?'}, {'from': 'assistant', 'value': 'There are 0 calories from fat in each serving of Jelly Mix, as the total fat content is 0g.'}, {'from': 'user', 'value': 'Is there any cholesterol in the Jelly Mix?'}, {'from': 'assistant', 'value': 'No, there is no cholesterol in the Jelly Mix.'}, {'from': 'user', 'value': 'What ingredients in the Jelly Mix are related to potential allergies?'}, {'from': 'assistant', 'value': 'The potential allergy ingredients in the Jelly Mix include soy, milk, egg, wheat, coconut, and peanuts/tree nuts.'}, {'from': 'user', 'value': 'According to the nutrition facts, does the Jelly Mix contain any fiber?'}, {'from': 'assistant', 'value': 'No, the Jelly Mix does not contain any fiber as its fiber content is 0g per serving.'}, {'from': 'user', 'value': 'Does the Jelly Mix contribute any vitamin A or vitamin C to your daily intake?'}, {'from': 'assistant', 'value': 'No, according to the nutrition facts, the Jelly Mix does not contribute to your daily intake of vitamin A or vitamin C.'}, {'from': 'user', 'value': 'What is the recommended daily intake for total fat, saturated fat, cholesterol, sodium, total carbohydrates, and dietary fiber, based on the nutrition facts of the Jelly Mix?'}, {'from': 'assistant', 'value': 'Based on the nutrition facts of the Jelly Mix, the recommended daily intake for total fat is less than 80g, saturated fat is less than 20g, cholesterol is less than 300mg, sodium is less than 2400mg, total carbohydrates is 300g, and dietary fiber is 25g.'}, {'from': 'user', 'value': 'According to the nutrition facts, how many grams of protein are in each serving of Jelly Mix?'}, {'from': 'assistant', 'value': 'There are 0 grams of protein in each serving of Jelly Mix.'}, {'from': 'user', 'value': 'What colorings are used in the Jelly Mix, and what dyes do they refer to?'}, {'from': 'assistant', 'value': 'The Jelly Mix uses the colorings red #40, yellow #5, yellow #6, and blue #1. These refer to FD&C color dyes.'}, {'from': 'user', 'value': 'How many calories per gram are there from fat in the Jelly Mix?'}, {'from': 'assistant', 'value': 'There are 9 calories per gram from fat in the Jelly Mix. The rest 4 calories per gram come from carbohydrates and 4 calories per gram come from protein. (Please note that the Jelly Mix does not contain any protein, fat or fiber - the numbers mentioned are for general nutritional knowledge. The full breakdown is: Fat 0g for 0 calories, Carbohydrates 33g for 132 calories, and Protein 0g for 0 calories.)'}], [{'from': 'human', 'value': '<image>\nhow much do the nachos cost?\nAnswer the question using a single word or phrase.'}, {'from': 'gpt', 'value': '15'}], [{'from': 'user', 'value': 'What information is required for each applicant on the Rental Application Form?\n<image><image><image>'}, {'from': 'assistant', 'value': "For each applicant, the following information is required: First name, middle initial, last name, SIN/SSN (optional), email address, date of birth, daytime and evening telephone numbers, information about a spouse/other person living at the rental unit (if applicable), number of children aged 18 or below, prior addresses for the past seven years, current rent amount, tenant insurance provider and policy number, reason for leaving the current residence, employers' contact details, salary, and hours worked per week, sources of other income, total monthly income, vehicle details, information about pets, information about bank accounts, and information about credit cards, loans, and lines of credit."}, {'from': 'user', 'value': 'How many personal references are required, and what information should be provided for each reference?'}, {'from': 'assistant', 'value': "Two personal references are required, and the information that should be provided for each reference includes the reference's full name, phone number, street address, city, province, and postal code."}, {'from': 'user', 'value': 'What are the consequences of providing false information on the Rental Application Form?'}, {'from': 'assistant', 'value': 'If misrepresentations are found after the rental agreement is signed, the rental agreement will be terminated.'}, {'from': 'user', 'value': 'What does the Applicant authorize by signing the Privacy Consent Form?'}, {'from': 'assistant', 'value': 'By signing the Privacy Consent Form, the applicant authorizes the Landlord to obtain a consumer credit report and to make any other necessary inquiries to determine eligibility for tenancy and assess creditworthiness. The applicant also authorizes the disclosure and use of provided information to establish a credit or rental history, support credit approval processes, or maintain statistical data. Additionally, the applicant authorizes Rent Check Credit Bureau to retain positive Credit Information for up to 20 years and to maintain negative Credit Information in accordance with provincial credit and consumer reporting acts.'}, {'from': 'user', 'value': 'What is the purpose of Schedule A - Privacy Consent Form?'}, {'from': 'assistant', 'value': "Schedule A - Privacy Consent Form provides definitions of key terms and outlines the collection, use, and disclosure of information related to the Rental Application and tenancy. It also includes the applicant's consent to these practices. If there are more than three co-tenancy applicants, the landlord is advised to provide each applicant with a separate copy of the Residential Rental Application."}, {'from': 'user', 'value': 'What is the purpose of the Consumer Credit Report authorized by the applicant?'}, {'from': 'assistant', 'value': "The purpose of the Consumer Credit Report authorized by the applicant is to provide the Landlord with information about the applicant's creditworthiness and financial history. This information helps the Landlord determine the suitability of the applicant as a tenant and aids in the credit approval process. The report may also be used to establish or update the applicant's credit or rental history and to support statistical data analysis. The report should comply with provincial credit and consumer reporting acts."}], [{'from': 'user', 'value': '<image>\nWho appointed Camilla Townsend to the Joint Commission on Los Angeles Unified School District (LAUSD) Governance?'}, {'from': 'assistant', 'value': 'Los Angeles City Council President Alex Padilla appointed Camilla Townsend to the Joint Commission on Los Angeles Unified School District (LAUSD) Governance.'}, {'from': 'user', 'value': 'How many years of experience in education does Camilla Townsend have?'}, {'from': 'assistant', 'value': 'Camilla Townsend has 40 years of experience in education.'}, {'from': 'user', 'value': 'What is the main purpose of the ad-hoc commission that Camilla Townsend joined?'}, {'from': 'assistant', 'value': 'The main purpose of the ad-hoc commission is to evaluate the governance of the LAUSD and provide recommendations for its improvement.'}, {'from': 'user', 'value': 'Prior to serving as a Harbor Commissioner, what roles did Camilla Townsend hold within the Los Angeles Unified School District?'}, {'from': 'assistant', 'value': 'Torres held roles as a teacher, administrator, Deputy Superintendent of Schools, and as the former principal of Harbor Community Adult School within the Los Angeles Unified School District.'}, {'from': 'user', 'value': 'How long has Camilla Townsend been a resident of San Pedro?'}, {'from': 'assistant', 'value': 'Camilla Townsend has been a resident of San Pedro for 25 years.'}, {'from': 'user', 'value': "What is the expiration year of Camilla Townsend's current term as a Harbor Commissioner?"}, {'from': 'assistant', 'value': "The expiration year of Camilla Townsend's current term as a Harbor Commissioner is 2009."}, {'from': 'user', 'value': 'Can you name an organization other than the LAUSD where Camilla Townsend served in an educational role?'}, {'from': 'assistant', 'value': 'Camilla Townsend served as an assistant professor of education in the graduate schools of California State University, Los Angeles; California Lutheran College; Loyola Marymount University and UCLA Extension School.'}, {'from': 'user', 'value': "Who confirmed Camilla Townsend's appointment to the Los Angeles Board of Harbor Commissioners?"}, {'from': 'assistant', 'value': "The Los Angeles City Council confirmed Camilla Townsend's appointment to the Los Angeles Board of Harbor Commissioners."}, {'from': 'user', 'value': 'What position did Camilla Townsend hold under Mayor Richard Riordan?'}, {'from': 'assistant', 'value': 'Camilla Townsend served on the City’s Commission for Children, Youth and Their Families under Mayor Richard Riordan.'}, {'from': 'user', 'value': 'What contact information is provided for Theresa Adams Lopez?'}, {'from': 'assistant', 'value': 'The contact number for Theresa Adams Lopez is (310) 732-3507.'}], [{'from': 'user', 'value': '<image>\nWhat contact information is requested in the provided form?'}, {'from': 'assistant', 'value': "The provided form requests the user's first name, last name, company name, email, and telephone number."}, {'from': 'user', 'value': 'Which sections of the form are indicated as mandatory?'}, {'from': 'assistant', 'value': 'All sections of the form, including the first name, last name, company name, email, telephone, city, subject, and message, are indicated as mandatory.'}, {'from': 'user', 'value': 'What does the user need to do after filling out the form?'}, {'from': 'assistant', 'value': 'After filling out the form, the user needs to indicate that they have read and agreed to the disclaimer, then submit the form.'}, {'from': 'user', 'value': 'What information does the copyright notice at the end of the form provide about the organization?'}, {'from': 'assistant', 'value': 'The copyright notice indicates that it is the year 2021, and the organization is Dentons, a global legal practice providing client services worldwide through its 1 member firms and affiliates.'}], [{'from': 'human', 'value': '<video>\nWhat is the final transformation of the wooden deck after the stain is fully applied?'}, {'from': 'gpt', 'value': 'The wooden deck becomes a richer, darker shade after the application of the stain.'}], [{'from': 'user', 'value': 'What engine was for the vehicle with a cooper t43 chassis?\n<image>'}, {'from': 'assistant', 'value': 'Climax L-4.'}], [{'from': 'user', 'value': 'What are the reservation criteria for the RBA category?\n<image><image>'}, {'from': 'assistant', 'value': 'The reservation criteria for the RBA category specify that the candidates must have obtained 40% marks in aggregate in the qualifying examination.'}]], 'images': [['datasets/LMM/HuggingFaceM4/Docmatix/images/be53aa0445efb7e43aa3b42886011d8f.png'], ['datasets/LMM/HuggingFaceM4/Docmatix/images/f4b6a01008f57945191a70e18edd8e68.png', 'datasets/LMM/HuggingFaceM4/Docmatix/images/dacb3bc612cbdc4f2346a6c85a06716f.png'], ['datasets/LMM/HuggingFaceM4/Docmatix/images/51de2676719c4556c062dcdf30cdf4b8.png'], ['datasets/LMM/lmms-lab/LLaVA-OneVision-Data/ureader_qa/ureader-instruction-1.0/TextVQA/train_images/3131ddc6a3d5c0b9.jpg'], ['datasets/LMM/HuggingFaceM4/Docmatix/images/e447970ea8c756fff46243ff6b0a9281.png', 'datasets/LMM/HuggingFaceM4/Docmatix/images/5009eb642cade27527b40ef036c4cb2e.png', 'datasets/LMM/HuggingFaceM4/Docmatix/images/16d291f2a41f21cf1c7b357bc83ee3f7.png'], ['datasets/LMM/HuggingFaceM4/Docmatix/images/e079ae030874f5c40f529ce7f41d1704.png'], ['datasets/LMM/HuggingFaceM4/Docmatix/images/4f1dfb768acf42fe5294e9e633637e5e.png'], None, ['datasets/LMM/HuggingFaceM4/the_cauldron/images/robut_wikisql/b18a77b2bb80d2d8ebce3631e11b1f3a.png'], ['datasets/LMM/HuggingFaceM4/Docmatix/images/3fe527f6f4d32d38acb7e476a80f2abc.png', 'datasets/LMM/HuggingFaceM4/Docmatix/images/cb042fa571fc4ea26765978524500d71.png']], 'source': ['datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/ureader_qa.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/M4-Instruct-Data/m4_instruct_video.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/robut_wikisql.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/Docmatix/data.jsonl'], 'videos': [None, None, None, None, None, None, None, ['datasets/LMM/ShareGPTVideo/train_video_and_instruction/train_300k/v_zCijq4G1B3Q-Scene-002'], None, None]}
+INFO:cognitron_vl.data.dataset_base:raw_data {'conversations': [[{'from': 'human', 'value': '<image>\nPlease generate detailed descriptions of the given image.'}, {'from': 'gpt', 'value': "The image shows a square cake with white frosting, placed on a cake stand. The cake is adorned with chocolate decorations that resemble a pattern or design, possibly a border or a specific shape, but it's not entirely clear from this angle. There are four lit candles on the cake, each with a different color flame blue, orange, red, and white. The candles are inserted into the cake, and their flames are bright and steady.\n\nThe cake is set against a background that includes a tablecloth with a green and white pattern, which could be a floral or leaf design. There is also a hint of a yellow flower arrangement in the upper right corner of the image, suggesting that the cake is part of a celebration or special occasion. The lighting in the image is warm, giving the scene a cozy and festive atmosphere."}], [{'from': 'human', 'value': '<image>\nWhich item sold the most units?\nAnswer the question using a single word or phrase.'}, {'from': 'gpt', 'value': 'Mess.'}, {'from': 'human', 'value': 'Which item sold the least units?'}, {'from': 'gpt', 'value': 'Paint.'}, {'from': 'human', 'value': 'How many units of the the most sold item were sold?'}, {'from': 'gpt', 'value': '6.'}, {'from': 'human', 'value': 'How many units of the the least sold item were sold?'}, {'from': 'gpt', 'value': '2.'}, {'from': 'human', 'value': 'How many more of the most sold item were sold compared to the least sold item?'}, {'from': 'gpt', 'value': '4.'}, {'from': 'human', 'value': 'How many items sold more than 4 units?'}, {'from': 'gpt', 'value': 'One.'}, {'from': 'human', 'value': 'How many units of items beauty and mess were sold?'}, {'from': 'gpt', 'value': '10.'}, {'from': 'human', 'value': 'How many units of the item coast were sold?'}, {'from': 'gpt', 'value': '4.'}, {'from': 'human', 'value': 'What is the label of the third bar from the left?'}, {'from': 'gpt', 'value': 'Paint.'}, {'from': 'human', 'value': 'Are the bars horizontal?'}, {'from': 'gpt', 'value': 'No.'}, {'from': 'human', 'value': 'Is each bar a single solid color without patterns?'}, {'from': 'gpt', 'value': 'Yes.'}], [{'from': 'human', 'value': '<video>\nWhat is the main activity being shown in the video?'}, {'from': 'gpt', 'value': "The main activity shown in the video is the man lifting weights of increasing sizes and performing squats in a gym. The video captures the man's dedication to a strength training routine."}], [{'from': 'human', 'value': '<image>\nPlease generate detailed descriptions of the given image.'}, {'from': 'gpt', 'value': "The image shows a man standing on a stage with a microphone stand visible to his right. He is dressed in a dark suit with a white shirt and a striped tie. His hands are clasped together in front of him, and he is smiling at the audience. The background features a blue and purple gradient, suggesting a nighttime setting, and there appears to be a cityscape or architectural design visible behind him, which could be part of the stage design. The lighting on the man is bright, highlighting his features and the suit he is wearing. The overall style of the image suggests it is a still from a television show or a live event, capturing a moment of the man's performance or hosting duties."}], [{'from': 'human', 'value': '<image>\nPlease generate detailed descriptions of the given image.'}, {'from': 'gpt', 'value': 'The image depicts a scene on a street where two police officers are escorting a person. The person being escorted is wearing a light-colored top and dark pants, and appears to be in handcuffs. The individual is walking between the two officers, who are dressed in dark uniforms with "POLICE" written across the back. The officers are wearing gloves, and one of them is holding a piece of paper or a document.\n\nThe setting is an urban environment with a stone building in the background that has a sign that reads "THE COURTHOUSE." There is a parked police van with a yellow and blue checkered pattern, which is a common design for police vehicles in some countries. The street is paved with cobblestones, and there are other vehicles and pedestrians in the background, suggesting a busy city area. The lighting suggests it is daytime.'}], [{'from': 'human', 'value': '<image>\nPlease generate detailed descriptions of the given image.'}, {'from': 'gpt', 'value': 'The image shows a commercial building with a sign that reads "STATE TRUCK CENTER" in large, bold letters. The building has a red and white color scheme with a flat roof and a facade that includes a mix of horizontal siding and what appears to be a stucco or similar finish. In front of the building, there are three large trucks parked side by side.\n\nThe first truck on the left is black with a flatbed trailer attached to it. The second truck in the middle is white with a cab that has a sleeper compartment, and it is also attached to a flatbed trailer. The third truck on the right is blue with a cab that also has a sleeper compartment, and it is connected to a flatbed trailer. All three trucks have large side mirrors, and the cabs are equipped with multiple windows.\n\nThe sky is clear and blue, suggesting a sunny day. The ground is paved, and there is a grassy area visible in the foreground. The overall style of the image is a straightforward, real-world photograph with no apparent filters or artistic manipulations.'}], [{'from': 'user', 'value': '<image>\nAre the number of bars per tick equal to the number of legend labels?\nYour answer should be very brief.'}, {'from': 'assistant', 'value': 'Yes.'}, {'from': 'user', 'value': 'Are the number of bars on each tick of the X-axis equal?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': 'Yes.'}, {'from': 'user', 'value': 'How many bars are there on the 1st tick from the right?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': '4.'}, {'from': 'user', 'value': 'What is the label of the 1st group of bars from the left?\nGive a very brief answer.'}, {'from': 'assistant', 'value': 'Sanitation services.'}, {'from': 'user', 'value': 'What is the percentage of urban population who used sanitation services in Bolivia?\nMake the answer very short.'}, {'from': 'assistant', 'value': '58.5.'}, {'from': 'user', 'value': 'Across all countries, what is the maximum percentage of urban population who used sanitation services?\nGive a very brief answer.'}, {'from': 'assistant', 'value': '96.15.'}, {'from': 'user', 'value': 'Across all countries, what is the minimum percentage of urban population who used sanitation services?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '58.5.'}, {'from': 'user', 'value': 'In which country was the percentage of urban population who used drinking water services maximum?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': 'Europe(developing only).'}, {'from': 'user', 'value': 'In which country was the percentage of urban population who used sanitation services minimum?\nOffer a terse response.'}, {'from': 'assistant', 'value': 'Bolivia.'}, {'from': 'user', 'value': 'What is the total percentage of urban population who used drinking water services in the graph?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': '390.15.'}, {'from': 'user', 'value': 'What is the difference between the percentage of urban population who used sanitation services in Bolivia and that in Bahamas?\nYour response must be concise.'}, {'from': 'assistant', 'value': '-33.2.'}, {'from': 'user', 'value': 'What is the difference between the percentage of urban population who used drinking water services in Bahamas and the percentage of urban population who used sanitation services in Europe(developing only)?\nProvide a succinct answer.'}, {'from': 'assistant', 'value': '2.05.'}, {'from': 'user', 'value': 'What is the average percentage of urban population who used sanitation services per country?\nYour answer should be compact.'}, {'from': 'assistant', 'value': '82.49.'}, {'from': 'user', 'value': 'What is the difference between the percentage of urban population who used sanitation services and percentage of urban population who used drinking water services in Bahamas?\nMake the answer very short.'}, {'from': 'assistant', 'value': '-6.5.'}, {'from': 'user', 'value': 'What is the ratio of the percentage of urban population who used drinking water services in Bolivia to that in China?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '0.98.'}, {'from': 'user', 'value': 'Is the percentage of urban population who used drinking water services in Bahamas less than that in Bolivia?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': 'No.'}, {'from': 'user', 'value': 'In how many countries, is the percentage of urban population who used drinking water services greater than the average percentage of urban population who used drinking water services taken over all countries?\nGive a very brief answer.'}, {'from': 'assistant', 'value': '2.'}, {'from': 'user', 'value': 'What does the 1st bar from the right in Sanitation services represents?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': 'China.'}, {'from': 'user', 'value': 'How many bars are there?\nOffer a terse response.'}, {'from': 'assistant', 'value': '8.'}, {'from': 'user', 'value': 'What is the difference between two consecutive major ticks on the Y-axis?\nYour response must be concise.'}, {'from': 'assistant', 'value': '20.'}, {'from': 'user', 'value': 'Are the values on the major ticks of Y-axis written in scientific E-notation?\nYour answer should be compact.'}, {'from': 'assistant', 'value': 'No.'}, {'from': 'user', 'value': 'Does the graph contain any zero values?\nYour answer should be compact.'}, {'from': 'assistant', 'value': 'No.'}, {'from': 'user', 'value': 'Does the graph contain grids?\nGive a very brief answer.'}, {'from': 'assistant', 'value': 'Yes.'}, {'from': 'user', 'value': 'Where does the legend appear in the graph?\nMake the answer very short.'}, {'from': 'assistant', 'value': 'Bottom right.'}, {'from': 'user', 'value': 'How are the legend labels stacked?\nMake the answer very short.'}, {'from': 'assistant', 'value': 'Vertical.'}, {'from': 'user', 'value': 'What is the title of the graph?\nEnsure brevity in your answer. '}, {'from': 'assistant', 'value': 'Percentage of urban population who used safely managed services in 2011.'}, {'from': 'user', 'value': 'What is the label or title of the X-axis?\nEnsure brevity in your answer. '}, {'from': 'assistant', 'value': 'Types of services.'}, {'from': 'user', 'value': 'What is the label or title of the Y-axis?\nMake the answer very short.'}, {'from': 'assistant', 'value': '% of urban population.'}, {'from': 'user', 'value': 'What is the % of urban population in Europe(developing only) in Sanitation services?\nOffer a terse response.'}, {'from': 'assistant', 'value': '96.15.'}, {'from': 'user', 'value': 'What is the % of urban population of Bahamas in Sanitation services?\nGive a very brief answer.'}, {'from': 'assistant', 'value': '91.7.'}, {'from': 'user', 'value': 'What is the % of urban population of Bolivia in Sanitation services?\nProvide a succinct answer.'}, {'from': 'assistant', 'value': '58.5.'}, {'from': 'user', 'value': 'What is the % of urban population of China in Sanitation services?\nMake the answer very short.'}, {'from': 'assistant', 'value': '83.6.'}, {'from': 'user', 'value': 'What is the % of urban population in Europe(developing only) in Drinking water services?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '98.65.'}, {'from': 'user', 'value': 'What is the % of urban population of Bahamas in Drinking water services?\nEnsure brevity in your answer. '}, {'from': 'assistant', 'value': '98.2.'}, {'from': 'user', 'value': 'What is the % of urban population of Bolivia in Drinking water services?\nOffer a very short reply.'}, {'from': 'assistant', 'value': '95.9.'}, {'from': 'user', 'value': 'What is the % of urban population of China in Drinking water services?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '97.4.'}, {'from': 'user', 'value': 'Across all Types of services, what is the maximum % of urban population in Europe(developing only)?\nOffer a terse response.'}, {'from': 'assistant', 'value': '98.65.'}, {'from': 'user', 'value': 'Across all Types of services, what is the maximum % of urban population of Bahamas?\nYour answer should be compact.'}, {'from': 'assistant', 'value': '98.2.'}, {'from': 'user', 'value': 'Across all Types of services, what is the maximum % of urban population in Bolivia?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '95.9.'}, {'from': 'user', 'value': 'Across all Types of services, what is the maximum % of urban population of China?\nYour answer should be very brief.'}, {'from': 'assistant', 'value': '97.4.'}, {'from': 'user', 'value': 'Across all Types of services, what is the minimum % of urban population of Europe(developing only)?\nYour answer should be very brief.'}, {'from': 'assistant', 'value': '96.15.'}, {'from': 'user', 'value': 'Across all Types of services, what is the minimum % of urban population of Bahamas?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': '91.7.'}, {'from': 'user', 'value': 'Across all Types of services, what is the minimum % of urban population of Bolivia?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '58.5.'}, {'from': 'user', 'value': 'Across all Types of services, what is the minimum % of urban population of China?\nMake the answer very short.'}, {'from': 'assistant', 'value': '83.6.'}, {'from': 'user', 'value': 'What is the total % of urban population in Europe(developing only) in the graph?\nYour response must be concise.'}, {'from': 'assistant', 'value': '194.8.'}, {'from': 'user', 'value': 'What is the total % of urban population in Bahamas in the graph?\nGive a very brief answer.'}, {'from': 'assistant', 'value': '189.9.'}, {'from': 'user', 'value': 'What is the total % of urban population of Bolivia in the graph?\nProvide a succinct answer.'}, {'from': 'assistant', 'value': '154.4.'}, {'from': 'user', 'value': 'What is the total % of urban population of China in the graph?\nOffer a very short reply.'}, {'from': 'assistant', 'value': '181.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population of Europe(developing only) in Sanitation services and that in Drinking water services?\nYour answer should be compact.'}, {'from': 'assistant', 'value': '-2.51.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population in Bolivia in Sanitation services and that in Drinking water services?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '-37.4.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population in Europe(developing only) in Sanitation services and the % of urban population in Bahamas in Drinking water services?\nProvide a succinct answer.'}, {'from': 'assistant', 'value': '-2.05.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population in Europe(developing only) in Sanitation services and the % of urban population in Bolivia in Drinking water services?\nEnsure brevity in your answer. '}, {'from': 'assistant', 'value': '0.25.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population in Europe(developing only) in Sanitation services and the % of urban population in China in Drinking water services?\nOffer a terse response.'}, {'from': 'assistant', 'value': '-1.25.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population in Bahamas in Sanitation services and the % of urban population in China in Drinking water services?\nYour response must be concise.'}, {'from': 'assistant', 'value': '-5.7.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population of Bolivia in Sanitation services and the % of urban population of China in Drinking water services?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '-38.9.'}, {'from': 'user', 'value': 'What is the average % of urban population of Europe(developing only) per Types of services?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': '97.4.'}, {'from': 'user', 'value': 'What is the average % of urban population in Bahamas per Types of services?\nOffer a very short reply.'}, {'from': 'assistant', 'value': '94.95.'}, {'from': 'user', 'value': 'What is the average % of urban population of Bolivia per Types of services?\nGive a very brief answer.'}, {'from': 'assistant', 'value': '77.2.'}, {'from': 'user', 'value': 'What is the average % of urban population of China per Types of services?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': '90.5.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population of Europe(developing only) and % of urban population of Bahamas in Sanitation services?\nYour answer should be compact.'}, {'from': 'assistant', 'value': '4.45.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population of Europe(developing only) and % of urban population of Bolivia in Sanitation services?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': '37.65.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population in Europe(developing only) and % of urban population in China in Sanitation services?\nYour answer should be very brief.'}, {'from': 'assistant', 'value': '12.55.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population in Bahamas and % of urban population in Bolivia in Sanitation services?\nOffer a terse response.'}, {'from': 'assistant', 'value': '33.2.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population of Bahamas and % of urban population of China in Sanitation services?\nOffer a very short reply.'}, {'from': 'assistant', 'value': '8.1.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population of Bolivia and % of urban population of China in Sanitation services?\nOffer a very short reply.'}, {'from': 'assistant', 'value': '-25.1.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population of Europe(developing only) and % of urban population of Bahamas in Drinking water services?\nMake the answer very short.'}, {'from': 'assistant', 'value': '0.45.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population of Europe(developing only) and % of urban population of Bolivia in Drinking water services?\nYour response must be concise.'}, {'from': 'assistant', 'value': '2.75.'}, {'from': 'user', 'value': 'What is the difference between the % of urban population in Europe(developing only) and % of urban population in China in Drinking water services?\nYour answer should be very brief.'}, {'from': 'assistant', 'value': '1.25.'}, {'from': 'user', 'value': 'What is the ratio of the % of urban population in Europe(developing only) in Sanitation services to that in Drinking water services?\nYour response must be concise.'}, {'from': 'assistant', 'value': '0.97.'}, {'from': 'user', 'value': 'What is the ratio of the % of urban population of Bahamas in Sanitation services to that in Drinking water services?\nKeep it short and to the point.'}, {'from': 'assistant', 'value': '0.93.'}, {'from': 'user', 'value': 'What is the ratio of the % of urban population in Bolivia in Sanitation services to that in Drinking water services?\nProvide a short and direct response.'}, {'from': 'assistant', 'value': '0.61.'}, {'from': 'user', 'value': 'What is the ratio of the % of urban population of China in Sanitation services to that in Drinking water services?\nMake the answer very short.'}, {'from': 'assistant', 'value': '0.86.'}, {'from': 'user', 'value': 'What is the difference between the highest and the second highest % of urban population in Europe(developing only)?\nYour answer should be compact.'}, {'from': 'assistant', 'value': '2.51.'}, {'from': 'user', 'value': 'What is the difference between the highest and the second highest % of urban population of Bahamas?\nYour answer should be compact.'}, {'from': 'assistant', 'value': '6.5.'}, {'from': 'user', 'value': 'What is the difference between the highest and the second highest % of urban population in Bolivia?\nEnsure brevity in your answer. '}, {'from': 'assistant', 'value': '37.4.'}, {'from': 'user', 'value': 'What is the difference between the highest and the lowest % of urban population of Europe(developing only)?\nYour answer should be very brief.'}, {'from': 'assistant', 'value': '2.51.'}, {'from': 'user', 'value': 'What is the difference between the highest and the lowest % of urban population of Bahamas?\nGive a very brief answer.'}, {'from': 'assistant', 'value': '6.5.'}, {'from': 'user', 'value': 'What is the difference between the highest and the lowest % of urban population of Bolivia?\nYour answer should be compact.'}, {'from': 'assistant', 'value': '37.4.'}, {'from': 'user', 'value': 'What is the difference between the highest and the lowest % of urban population of China?\nYour answer should be compact.'}, {'from': 'assistant', 'value': '13.8.'}], [{'from': 'human', 'value': '<image>\nAnalyze the image in a comprehensive and detailed manner.'}, {'from': 'gpt', 'value': 'In the image, there are two women standing in front of a backdrop adorned with the logos of the BFI London Film Festival and EbonyLife TV. The woman on the left is dressed in a white dress, while the woman on the right is wearing a black dress. The woman on the right is holding a gold clutch in her hand. Both women are smiling and looking directly at the camera. The backdrop they are standing in front of is white and features the logos of the BFI London Film Festival and EbonyLife TV. The women appear to be at a film festival event, as suggested by the backdrop.'}], [{'from': 'human', 'value': '<image>\nPlease generate detailed descriptions of the given image.'}, {'from': 'gpt', 'value': 'The image shows a hand-drawn illustration of a woman. She has long, flowing hair that cascades down her back, and her facial features are detailed with a soft, artistic touch. The woman is wearing a sleeveless top with a V-neckline, and the color of the top appears to be a light blue or turquoise. She is also wearing a skirt that is a bright yellow, which contrasts with the top. The skirt has a full, flowing design that suggests movement. The background of the illustration is plain white, which puts the focus entirely on the woman. The style of the drawing is reminiscent of a sketch or a watercolor painting, with a delicate and somewhat whimsical quality to it.'}], [{'from': 'human', 'value': '<image>\nPlease generate detailed descriptions of the given image.'}, {'from': 'gpt', 'value': 'The image depicts a breathtaking landscape of a slot canyon at twilight. The canyon walls, composed of red and orange rock formations, rise steeply on both sides, creating a narrow passage that draws the eye towards the vanishing point in the distance. The sky above is a deep blue, transitioning to black as it stretches upwards, dotted with numerous stars that suggest a clear, cloudless night. The lighting conditions indicate that the photo was taken either during the golden hour before sunset or during the early hours of the morning, as the sky is still illuminated with the soft glow of the setting or rising sun. The image is marked with the watermark "alamy" followed by a series of numbers "J270GX," indicating the source and reference number of the photograph. The overall composition of the image emphasizes the grandeur and natural beauty of the slot canyon, capturing the essence of the landscape\'s geological features and the tranquility of the night sky.'}]], 'images': [['datasets/CV/coco/train2017/000000279305.jpg'], ['datasets/LMM/lmms-lab/LLaVA-OneVision-Data/images/dvqa(cauldron,llava_format)/88ce0dc2e47e0c37a9b682e946c62f37.png'], None, ['datasets/LMM/liuhaotian/LLaVA-Pretrain/00152/001520687.jpg'], ['datasets/LMM/lmms-lab/LLaVA-ReCap-CC3M/images/000635107.png'], ['datasets/LMM/lmms-lab/LLaVA-ReCap-CC3M/images/001964449.png'], ['datasets/LMM/HuggingFaceM4/the_cauldron/images/plotqa/1e6763475020d5201020084663b0bfe5.png'], ['datasets/LMM/liuhaotian/LLaVA-Pretrain/00071/000713113.jpg'], ['datasets/LMM/lmms-lab/LLaVA-ReCap-CC3M/images/003047336.png'], ['datasets/LMM/lmms-lab/LLaVA-ReCap-CC3M/images/002719420.png']], 'source': ['datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-118K/data.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-OneVision-Data/dvqa(cauldron,llava_format).jsonl', 'datasets/LMM/lcvlm_jsonl/MBZUAI/VideoGPT-plus_Training_Dataset/conversation_videochatgpt.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-558K/data.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-CC3M/data.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-CC3M/data.jsonl', 'datasets/LMM/lcvlm_jsonl/HuggingFaceM4/the_cauldron/plotqa.jsonl', 'datasets/LMM/lcvlm_jsonl/Lin-Chen/ShareGPT4V/share-captioner_coco_lcs_sam_1246k_1107.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-CC3M/data.jsonl', 'datasets/LMM/lcvlm_jsonl/lmms-lab/LLaVA-ReCap-CC3M/data.jsonl'], 'videos': [None, None, ['datasets/LMM/MBZUAI/VideoGPT-plus_Training_Dataset/instruction_tuning/Activity_Videos/v_lkCpF06uEmE.mkv'], None, None, None, None, None, None, None]}
+> finished creating GPT datasets ...
+[after dataloaders are built] datetime: 2024-10-14 13:29:18 
+done with setup ...
+training ...
+[before the start of training step] datetime: 2024-10-14 13:29:18 
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+Warning: Device do not support double dtype now, dtype cast repalce with float.
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+WARNING:megatron.core.models.common.embeddings.rotary_pos_embedding:Setting apply_rope_fusion to false because its implementation is not included in Apex. Try upgrading to the latest version
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:3403: UserWarning: torch.distributed._reduce_scatter_base is a private function and will be deprecated. Please use torch.distributed.reduce_scatter_tensor instead.
+  warnings.warn(
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch/distributed/distributed_c10d.py:2927: UserWarning: torch.distributed._all_gather_base is a private function and will be deprecated. Please use torch.distributed.all_gather_into_tensor instead.
+  warnings.warn(
+----------------\\\\\\\\\\\\\\\\||||||||||||||||////////////////-----------/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+-----/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/torch_npu/utils/storage.py:38: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()
+  if self.device.type != 'cpu':
+\\\\\\\\\\\\\\\\[Rank 4] (after 1 iterations) memory (MB) | allocated: 12707.57373046875 | max allocated: 34683.3173828125 | reserved: 36758.0 | max reserved: 36758.0
+[Rank 0] (after 1 iterations) memory (MB) | allocated: 12707.57373046875 | max allocated: 34683.3173828125 | reserved: 36758.0 | max reserved: 36758.0
+[Rank 2] (after 1 iterations) memory (MB) | allocated: 12707.57373046875 | max allocated: 34683.3173828125 | reserved: 36758.0 | max reserved: 36758.0
+[Rank 1] (after 1 iterations) memory (MB) | allocated: 12707.57373046875 | max allocated: 34683.3173828125 | reserved: 36758.0 | max reserved: 36758.0
+[Rank 7] (after 1 iterations) memory (MB) | allocated: 12707.57373046875 | max allocated: 34683.3173828125 | reserved: 36758.0 | max reserved: 36758.0
+[Rank 5] (after 1 iterations) memory (MB) | allocated: 12707.57373046875 | max allocated: 34683.3173828125 | reserved: 36758.0 | max reserved: 36758.0
+[Rank 3] (after 1 iterations) memory (MB) | allocated: 12707.57373046875 | max allocated: 34683.3173828125 | reserved: 36758.0 | max reserved: 36758.0
+[Rank 6] (after 1 iterations) memory (MB) | allocated: 12707.57373046875 | max allocated: 34683.3173828125 | reserved: 36758.0 | max reserved: 36758.0
+Token indices sequence length is longer than the specified maximum sequence length for this model (43099 > 16384). Running this sequence through the model will result in indexing errors
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/KVQA+image_captioning_53_35396.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/KVQA+image_captioning_503_33203.JPG'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+Token indices sequence length is longer than the specified maximum sequence length for this model (18507 > 16384). Running this sequence through the model will result in indexing errors
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/PIL/TiffImagePlugin.py:870: UserWarning: Corrupt EXIF data.  Expecting to read 4 bytes but only got 0. 
+  warnings.warn(str(msg))
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/lmms-lab/M4-Instruct-Data/mmchat/images/mw2048_005DwmbBgy1fpk830v9ehj30j20rs0vs.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+saving checkpoint at iteration     500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration     500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+processed_samples 10197 unjoint_samples 10000
+processed_samples 10198 unjoint_samples 10000
+processed_samples 10198 unjoint_samples 10000
+processed_samples 10202 unjoint_samples 10000
+processed_samples 10205 unjoint_samples 10000
+processed_samples 10210 unjoint_samples 10000
+processed_samples 10210 unjoint_samples 10000
+processed_samples 10230 unjoint_samples 10000
+processed_samples 10188 unjoint_samples 10000
+processed_samples 10189 unjoint_samples 10000
+processed_samples 10191 unjoint_samples 10000
+processed_samples 10195 unjoint_samples 10000
+processed_samples 10196 unjoint_samples 10000
+processed_samples 10207 unjoint_samples 10000
+processed_samples 10225 unjoint_samples 10000
+processed_samples 10234 unjoint_samples 10000
+Token indices sequence length is longer than the specified maximum sequence length for this model (49402 > 16384). Running this sequence through the model will result in indexing errors
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/KVQA+image_captioning_503_33203.JPG'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+Token indices sequence length is longer than the specified maximum sequence length for this model (105255 > 16384). Running this sequence through the model will result in indexing errors
+saving checkpoint at iteration    1000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    1000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/WIT+detailed_description_293_New_Bus_Exchange_893.JPG'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+Token indices sequence length is longer than the specified maximum sequence length for this model (29509 > 16384). Running this sequence through the model will result in indexing errors
+processed_samples 20392 unjoint_samples 20000
+processed_samples 20400 unjoint_samples 20000
+processed_samples 20402 unjoint_samples 20000
+processed_samples 20406 unjoint_samples 20000
+processed_samples 20408 unjoint_samples 20000
+processed_samples 20409 unjoint_samples 20000
+processed_samples 20410 unjoint_samples 20000
+processed_samples 20412 unjoint_samples 20000
+processed_samples 20379 unjoint_samples 20000
+processed_samples 20393 unjoint_samples 20000
+processed_samples 20395 unjoint_samples 20000
+processed_samples 20409 unjoint_samples 20000
+processed_samples 20415 unjoint_samples 20000
+processed_samples 20416 unjoint_samples 20000
+processed_samples 20425 unjoint_samples 20000
+processed_samples 20434 unjoint_samples 20000
+saving checkpoint at iteration    1500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    1500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/lmms-lab/LLaVA-OneVision-Data/cambrian(filtered)/cambrian_selection/sharegpt4v_web-landmark_images_Golden_Temple.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/lmms-lab/M4-Instruct-Data/contrastive_caption/0.0.0/c55fcb268ead378049e4743c77ca2db3142e12a0f7dfc42eb8267e08efa85f58/train_images/sharegpt4v/web-landmark/images/Statue_of_Liberty.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+Token indices sequence length is longer than the specified maximum sequence length for this model (22274 > 16384). Running this sequence through the model will result in indexing errors
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/WIT+detailed_description_471_Emiel_Wastyn.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+Token indices sequence length is longer than the specified maximum sequence length for this model (35679 > 16384). Running this sequence through the model will result in indexing errors
+processed_samples 30588 unjoint_samples 30000
+processed_samples 30613 unjoint_samples 30000
+processed_samples 30613 unjoint_samples 30000
+processed_samples 30619 unjoint_samples 30000
+processed_samples 30621 unjoint_samples 30000
+processed_samples 30624 unjoint_samples 30000
+processed_samples 30627 unjoint_samples 30000
+processed_samples 30631 unjoint_samples 30000
+processed_samples 30587 unjoint_samples 30000
+processed_samples 30588 unjoint_samples 30000
+processed_samples 30597 unjoint_samples 30000
+processed_samples 30614 unjoint_samples 30000
+processed_samples 30615 unjoint_samples 30000
+processed_samples 30634 unjoint_samples 30000
+processed_samples 30639 unjoint_samples 30000
+processed_samples 30677 unjoint_samples 30000
+saving checkpoint at iteration    2000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    2000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/PIL/TiffImagePlugin.py:870: UserWarning: Truncated File Read
+  warnings.warn(str(msg))
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/ExDark+object_recognition_387_2015_04883.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+saving checkpoint at iteration    2500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    2500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/WIT+detailed_description_346_004_Gouesnac%27h_Chapelle_Notre-Dame_de_Vray_Secours.JPG'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/PIL/TiffImagePlugin.py:870: UserWarning: Corrupt EXIF data.  Expecting to read 2 bytes but only got 0. 
+  warnings.warn(str(msg))
+processed_samples 40790 unjoint_samples 40000
+processed_samples 40802 unjoint_samples 40000
+processed_samples 40781 unjoint_samples 40000
+processed_samples 40784 unjoint_samples 40000
+processed_samples 40827 unjoint_samples 40000
+processed_samples 40831 unjoint_samples 40000
+processed_samples 40799 unjoint_samples 40000
+processed_samples 40833 unjoint_samples 40000
+processed_samples 40837 unjoint_samples 40000
+processed_samples 40806 unjoint_samples 40000
+processed_samples 40846 unjoint_samples 40000
+processed_samples 40848 unjoint_samples 40000
+processed_samples 40820 unjoint_samples 40000
+processed_samples 40840 unjoint_samples 40000
+processed_samples 40854 unjoint_samples 40000
+processed_samples 40880 unjoint_samples 40000
+Token indices sequence length is longer than the specified maximum sequence length for this model (100072 > 16384). Running this sequence through the model will result in indexing errors
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/PIL/TiffImagePlugin.py:870: UserWarning: Corrupt EXIF data.  Expecting to read 4 bytes but only got 0. 
+  warnings.warn(str(msg))
+Token indices sequence length is longer than the specified maximum sequence length for this model (143211 > 16384). Running this sequence through the model will result in indexing errors
+saving checkpoint at iteration    3000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    3000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+Token indices sequence length is longer than the specified maximum sequence length for this model (386890 > 16384). Running this sequence through the model will result in indexing errors
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/WIT+detailed_description_498_GleirscherRosskogelFromSE.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+processed_samples 50979 unjoint_samples 50000
+processed_samples 51005 unjoint_samples 50000
+processed_samples 51009 unjoint_samples 50000
+processed_samples 51011 unjoint_samples 50000
+processed_samples 51010 unjoint_samples 50000
+processed_samples 51012 unjoint_samples 50000
+processed_samples 51027 unjoint_samples 50000
+processed_samples 51029 unjoint_samples 50000
+processed_samples 51041 unjoint_samples 50000
+processed_samples 51047 unjoint_samples 50000
+processed_samples 51052 unjoint_samples 50000
+processed_samples 51056 unjoint_samples 50000
+processed_samples 51055 unjoint_samples 50000
+processed_samples 51064 unjoint_samples 50000
+processed_samples 51067 unjoint_samples 50000
+processed_samples 51085 unjoint_samples 50000
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/PIL/TiffImagePlugin.py:870: UserWarning: Corrupt EXIF data.  Expecting to read 12 bytes but only got 10. 
+  warnings.warn(str(msg))
+Token indices sequence length is longer than the specified maximum sequence length for this model (36760 > 16384). Running this sequence through the model will result in indexing errors
+saving checkpoint at iteration    3500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    3500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+Token indices sequence length is longer than the specified maximum sequence length for this model (48788 > 16384). Running this sequence through the model will result in indexing errors
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/PIL/TiffImagePlugin.py:870: UserWarning: Corrupt EXIF data.  Expecting to read 2 bytes but only got 0. 
+  warnings.warn(str(msg))
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/PIL/TiffImagePlugin.py:870: UserWarning: Truncated File Read
+  warnings.warn(str(msg))
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/Vision-Flan/vision-flan_191-task_1k/images_191task_1k/WIT+detailed_description_146_Vernonia_amygdalina_06.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+processed_samples 61179 unjoint_samples 60000
+processed_samples 61224 unjoint_samples 60000
+processed_samples 61228 unjoint_samples 60000
+processed_samples 61228 unjoint_samples 60000
+processed_samples 61251 unjoint_samples 60000
+processed_samples 61252 unjoint_samples 60000
+processed_samples 61216 unjoint_samples 60000
+processed_samples 61216 unjoint_samples 60000
+processed_samples 61278 unjoint_samples 60000
+processed_samples 61276 unjoint_samples 60000
+processed_samples 61253 unjoint_samples 60000
+processed_samples 61257 unjoint_samples 60000
+processed_samples 61257 unjoint_samples 60000
+processed_samples 61260 unjoint_samples 60000
+processed_samples 61270 unjoint_samples 60000
+processed_samples 61283 unjoint_samples 60000
+saving checkpoint at iteration    4000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    4000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+/root/miniconda3/envs/torch21_python38/lib/python3.8/site-packages/PIL/TiffImagePlugin.py:870: UserWarning: Corrupt EXIF data.  Expecting to read 2 bytes but only got 0. 
+  warnings.warn(str(msg))
+local_disk/cognitron_vl/cognitron_vl/data/processor/image_processor.py:240: ResourceWarning: unclosed file <_io.BufferedReader name='datasets/LMM/lmms-lab/M4-Instruct-Data/mmchat/images/mw2048_b1df343fgw1f3ofk1s0bej20ku112gp9.jpg'>
+  image = Image.open(img_or_path).convert("RGB")
+ResourceWarning: Enable tracemalloc to get the object allocation traceback
+saving checkpoint at iteration    4500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    4500 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//
+processed_samples 71393 unjoint_samples 70000
+processed_samples 71399 unjoint_samples 70000
+processed_samples 71427 unjoint_samples 70000
+processed_samples 71430 unjoint_samples 70000
+processed_samples 71435 unjoint_samples 70000
+processed_samples 71445 unjoint_samples 70000
+processed_samples 71444 unjoint_samples 70000
+processed_samples 71454 unjoint_samples 70000
+processed_samples 71466 unjoint_samples 70000
+processed_samples 71472 unjoint_samples 70000
+processed_samples 71479 unjoint_samples 70000
+processed_samples 71485 unjoint_samples 70000
+processed_samples 71483 unjoint_samples 70000
+processed_samples 71487 unjoint_samples 70000
+processed_samples 71493 unjoint_samples 70000
+processed_samples 71490 unjoint_samples 70000
+Token indices sequence length is longer than the specified maximum sequence length for this model (36295 > 16384). Running this sequence through the model will result in indexing errors
+saving checkpoint at iteration    5000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952// in torch format
+  successfully saved checkpoint at iteration    5000 to /data_2/output/LM/lcvlm_modellink/scripts/qwen25/finetune_qwen25_14b_intern_300m_ptd_tp8pp1_stage2.sh/20241014_131952//