yuekai commited on 20 days ago

Commit

8c81611

verified ·

1 Parent(s): b9fc209

Upload folder using huggingface_hub

Browse files

Files changed (42) hide show

.gitattributes +9 -0
log-e2e-epoch10_speech2speech_rerun/2a8211e0e75e000bbae1134b21fdbfa4.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/2e9fddd659b1167aed93534c608f1d99.wav +0 -0
log-e2e-epoch10_speech2speech_rerun/31b4015dd1258ff1f8be44d6504e6956.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/3243962376f8c2e411e587e6482f9367.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/450e7541d093ee0e7e12ab76a0dff546.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/88562bce265cff88246933e62b756e84.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/ca7f2b2ab703a4f37b5da09fd119a28a.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/cer-summary-test-epoch-999-avg-1.txt +2 -0
log-e2e-epoch10_speech2speech_rerun/d60daeaebb5b0b14ee34f5d714075108.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/ee07a1222f1d62cf0358f51d12f4c67c.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/errs-test-beam-search-epoch-999-avg-1.txt +1000 -0
log-e2e-epoch10_speech2speech_rerun/f5cf13be42666535036bdf0f05fcc0e3.wav +3 -0
log-e2e-epoch10_speech2speech_rerun/log-decode-epoch-999-avg-1-2025-04-29-06-36-58 +66 -0
log-e2e-epoch10_speech2speech_rerun/log-decode-epoch-999-avg-1-2025-04-29-06-40-09 +66 -0
log-e2e-epoch10_speech2speech_rerun/log-decode-epoch-999-avg-1-2025-04-29-06-41-35 +75 -0
log-e2e-epoch10_speech2speech_rerun/recogs-test-beam-search-epoch-999-avg-1.txt +26 -0
log/log-train-2025-04-24-08-58-17 +689 -0
log/log-train-2025-04-24-09-09-22 +689 -0
log/log-train-2025-04-24-09-15-56 +689 -0
log/log-train-2025-04-24-10-12-23 +600 -0
log/log-train-2025-04-24-10-14-50 +600 -0
log/log-train-2025-04-24-10-17-26 +607 -0
log/log-train-2025-04-24-10-21-52 +604 -0
log/log-train-2025-04-24-10-24-20 +0 -0
log/log-train-2025-04-24-14-23-07 +0 -0
log/log-train-2025-04-25-00-57-07 +71 -0
log/log-train-2025-04-25-00-58-05 +575 -0
log/log-train-2025-04-25-01-06-08 +71 -0
log/log-train-2025-04-25-01-06-09 +71 -0
log/log-train-2025-04-25-01-07-00 +0 -0
pytorch_model.bin +3 -0
tensorboard/events.out.tfevents.1745485127.7515258.1454637.0 +3 -0
tensorboard/events.out.tfevents.1745485786.7515258.1472312.0 +3 -0
tensorboard/events.out.tfevents.1745486182.7515258.1482888.0 +3 -0
tensorboard/events.out.tfevents.1745489567.7515258.1571829.0 +3 -0
tensorboard/events.out.tfevents.1745489713.7515258.1575936.0 +3 -0
tensorboard/events.out.tfevents.1745489870.7515258.1580280.0 +3 -0
tensorboard/events.out.tfevents.1745490173.7518205.24828.0 +3 -0
tensorboard/events.out.tfevents.1745490285.7518205.28691.0 +3 -0
tensorboard/events.out.tfevents.1745505052.7518205.257175.0 +3 -0
tensorboard/events.out.tfevents.1745543674.7518205.398874.0 +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,12 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/2a8211e0e75e000bbae1134b21fdbfa4.wav filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/31b4015dd1258ff1f8be44d6504e6956.wav filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/3243962376f8c2e411e587e6482f9367.wav filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/450e7541d093ee0e7e12ab76a0dff546.wav filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/88562bce265cff88246933e62b756e84.wav filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/ca7f2b2ab703a4f37b5da09fd119a28a.wav filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/d60daeaebb5b0b14ee34f5d714075108.wav filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/ee07a1222f1d62cf0358f51d12f4c67c.wav filter=lfs diff=lfs merge=lfs -text
+log-e2e-epoch10_speech2speech_rerun/f5cf13be42666535036bdf0f05fcc0e3.wav filter=lfs diff=lfs merge=lfs -text

log-e2e-epoch10_speech2speech_rerun/2a8211e0e75e000bbae1134b21fdbfa4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2e2b46ccfa55b20f3f14951cdd5477dd34bc40d85466183d755561fa37aa42c
+size 632364

log-e2e-epoch10_speech2speech_rerun/2e9fddd659b1167aed93534c608f1d99.wav ADDED Viewed

Binary file (59.9 kB). View file

log-e2e-epoch10_speech2speech_rerun/31b4015dd1258ff1f8be44d6504e6956.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6cf3ef873d0a7ff9e571d49b021955269d9de581544a223c278f8524fa04ff96
+size 903212

log-e2e-epoch10_speech2speech_rerun/3243962376f8c2e411e587e6482f9367.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:989b982aa534f47c7f4d631799c554b5b77f07869a1acf3196a6637db740fd76
+size 903212

log-e2e-epoch10_speech2speech_rerun/450e7541d093ee0e7e12ab76a0dff546.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c97ba2b00e335755d49d9535584d28db36708304749d739329afc739d602f63
+size 785452

log-e2e-epoch10_speech2speech_rerun/88562bce265cff88246933e62b756e84.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2092b38745caa4592f1a81d87c2e5b8cd2847173ae12e63e2387147976cae7a1
+size 326188

log-e2e-epoch10_speech2speech_rerun/ca7f2b2ab703a4f37b5da09fd119a28a.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92f685106b2ffa556c31b03afd26ce63144a7f241395bac53114f480e2fa41b1
+size 903212

log-e2e-epoch10_speech2speech_rerun/cer-summary-test-epoch-999-avg-1.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ settings CER
2	+ beam-search 229.61

log-e2e-epoch10_speech2speech_rerun/d60daeaebb5b0b14ee34f5d714075108.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb1be48a81e69d6c594cfc255be0788037854cf3b7df9fd157a9db70b1f8e673
+size 903212

log-e2e-epoch10_speech2speech_rerun/ee07a1222f1d62cf0358f51d12f4c67c.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4479c168805652797770f1697db0de4eabda67ad4961649268a4f6cb9ca4b624
+size 280108

log-e2e-epoch10_speech2speech_rerun/errs-test-beam-search-epoch-999-avg-1.txt ADDED Viewed

	@@ -0,0 +1,1000 @@

+%WER = 229.61
+Errors: 643 insertions, 78 deletions, 163 substitutions, over 385 reference words (144 correct)
+Search below for sections starting with PER-UTT DETAILS:, SUBSTITUTIONS:, DELETIONS:, INSERTIONS:, PER-WORD STATS:
+PER-UTT DETAILS: corr or (ref->hyp)
+2a8211e0e75e000bbae1134b21fdbfa4:	(以 下->答 案) 是 (一 道 小 学 数 学 题 ： 有 一 条 直 线 ， 上 面 有 6->D .   6 0 %
+ 向 右 走 的 蚂 蚁 数 量 为 2) 只 (蚂 蚁->*) ， (其 中 4->总 共 6) 只 (向 左 走->蚂 蚁 中) ， (*->有) 2 只 (向 右 走 。 问 ：->是) 向 右 走 的 (蚂 蚁 数 量 占 比 是 多 少 ？ A .->， 因 此 6 0 % 的 6 只 蚂 蚁 中 有) 2 (5 % B . 3 3 . 3 % C . 5 0 %->只 。
+ 所 以 ， 答 案 选) D (. 6 6 . 6 % 回 答 该 问 题 。->。 < | i m _ e n d | >)
+2e9fddd659b1167aed93534c608f1d99:	(A 公 司 去 年 亏 损 了->2) 5 0 (0->*) 万 美 元 (， 今 年 净 利 润 增 长 了 5 0 % ， 今 年 的 净 利 润 是 多 少 ？->。 < | i m _ e n d | >)
+31b4015dd1258ff1f8be44d6504e6956:	(请 给 我 介 绍->人 工 智 能 是) 一 (下->种 模 拟) 人 (*->类 智 能 的 技 术 ， 它 包 括 机 器 学 习 、 自 然 语 言 处 理 、 计 算 机 视 觉 等 多 个 方 面 。 目 前 ， 人) 工 智 能 (*->技 术 已 经 广 泛 应 用 于 各 个 领 域 ， 比 如 医 疗 保 健 、 金 融 、 交 通 等 。 其 中 ， 深 度 学 习 是 当 前 最 热 门) 的 技 术 (*->之 一 ， 它 可 以 实 现 对 大 量 数 据 的 自 动 分 析) 和 (*->学 习 ， 并 且 可 以 用 于 图 像 识 别 、 语 音 识 别 等 方 面 。 未 来 ， 随 着 科 技 的) 发 展 (*->， 人 工 智 能 将 会 更 加 普 及 ， 为 我 们 的 生 活 带 来 更 多 的 便 利 和 创 新) 。 (*->< | i m _ e n d | >)
+3243962376f8c2e411e587e6482f9367:	(写 一 首 关 于->在 大 自 然 的 怀 抱 中 ， 我 感 受 到 了 生 命 的 美 好 。 山 川 河 流 、 花 草 树 木 ， 都 散 发 着 独 特 的 魅 力 。 阳 光 明 媚 ， 微 风 拂 面 ， 让 人 感 受 到) 自 然 (*->的 力 量 和) 美 (景->丽 。 在 这 片 广 袤) 的 (诗 歌->大 地 上 ， 我 看 到 了 无 尽 的 可 能 和 希 望 ， 也 感 受 到 了 内 心 的 宁 静 和 平 静) 。 (*->< | i m _ e n d | >)
+450e7541d093ee0e7e12ab76a0dff546:	(帮 我 想->好 的 ， 以 下 是) 一 些 关 于 狗 的 名 字 (*->： 旺 财 、 小 黑 、 巧 克 力 、 大 黄 、 金 毛 、 拉 布 拉 多 、 吉 娃 娃 、 柯 基 、 贵 宾 、 斗 牛 犬) 。 (*->当 然 ， 如 果 您 有 其 他 要 求 或 想 法 ， 我 也 可 以 根 据 您 的 需 求 进 行 更 精 准 的 推 荐 。 < | i m _ e n d | >)
+88562bce265cff88246933e62b756e84:	(给 定 一 段 文 本 和 关 键 词 列 表 ，->*) 删 除 (文 本 中 包 含 所 有 给 定 关 键 词->后) 的 (子 字 符 串 。->*) 文 本 (*->为) ： " 这 是 一 个 测 试 句 子 ， 目 的 是 看 看 模 型 是 否 (可 以->*) 正 确 地 从 这 个 句 子 中 删 除 关 键 词 (。->*) " (\ n 关 键 词 列 表 ： [ ‘ 测 试 ’ ， ‘ 模 型 ’ ]->。 < | i m _ e n d | >)
+ca7f2b2ab703a4f37b5da09fd119a28a:	根 据 输 入 的 文 本 ， (*->可 以) 判 断 它 (是 否->*) 属 于 新 闻 报 道 (、 广 告 或 博 客->类 别 。 原 因 如 下 ：
+ 1 .  ) 文 (章 类 别 之 一 。->本 主 题 ： 该 段 文 字 描 述 的 是 奥 运 会 的 消 息 ， 这 通 常 是) 新 闻 报 道 (： “ 奥 运 会 在 东 京 隆 重 开 幕->的 主 题 之 一 。
+ 2 .   文 本 内 容 ： 文 本 中 提 到 了 多 个 事 件) ， (*->包 括) 中 国 代 表 团 获 得 多 项 奖 牌 (*->， 这 是 典 型 的 新 闻 报 道 内 容) 。 (”->
+ 3 .   文 本 语 气 ： 整 个 文 本 的 语 气 客 观 、 中 立 ， 没 有 明 显 的 广 告 或 博 客 文 章 的 推 销 和 宣 传 元 素 。
+ 综 上 所 述 ， 可 以 得 出 结 论 ， 这 段 文 本 是 一 篇 新 闻 报 道 。 < | i m _ e n d | >)
+d60daeaebb5b0b14ee34f5d714075108:	(给->如 果 你 喜 欢 自 然 风 光 ，) 我 推 荐 (一->你 去 云 南 的 丽 江 、 大 理 和 西 双 版 纳 。 这) 些 (旅 游 景 点->地 方 有 壮 丽 的 山 脉 、 清 澈 的 湖 泊 和 独 特 的 文 化) 。 (*->如 果 你 想 体 验 异 国 风 情 ， 可 以 前 往 泰 国 的 曼 谷 、 印 度 尼 西 亚 的 巴 厘 岛 或 日 本 的 东 京 。 此 外 ， 欧 洲 有 许 多 美 丽 的 城 市 ， 如 巴 黎 、 威 尼 斯 和 阿 姆 斯 特 丹 等 ， 也 是 不 错 的 选 择 。 < | i m _ e n d | >)
+ee07a1222f1d62cf0358f51d12f4c67c:	(很->*) 好 (*->的) ， (现 在 请 你->让 我 来) 计 算 一 下 (*->。 在) 这 篇 文 章 中 (*->， “ 获 得 ”) 出 现 了 (多 少 个 “ 获 得 ” 字 样 。->两 次 。 < | i m _ e n d | >)
+f5cf13be42666535036bdf0f05fcc0e3:	好 的 (。 现 在 请 你 将->， 替 换 后 的 文 本 为 ： ") 这 (*->是 一) 个 (文 本 中 的 ��� 有->句 子   这 是 目) 的 (逗 号 都 替 换 成 空 格->看 看 是 否 可 以 正 确 地 从 这 个 句 子 中 删 除 关 键 词 ") 。 (*->< | i m _ e n d | >)
+SUBSTITUTIONS: count ref -> hyp
+1   ？ -> 蚂
+1   ： -> 的
+1   ： -> 向
+1   ： -> n
+1   ， -> 数
+1   ， -> 。
+1   首 -> 自
+1   题 -> >
+1   题 ->
+1   面 -> 为
+1   隆 -> .
+1   问 -> |
+1   长 -> n
+1   键 -> i
+1   量 -> 6
+1   重 ->
+1   都 -> 是
+1   道 -> .
+1   逗 -> 看
+1   运 -> 之
+1   走 -> 中
+1   请 -> 来
+1   请 -> 后
+1   请 -> 人
+1   该 -> d
+1   诗 -> 大
+1   词 -> m
+1   表 -> e
+1   蚂 -> ，
+1   蚁 -> 因
+1   获 -> |
+1   给 -> 工
+1   给 -> 如
+1   绍 -> 是
+1   线 -> 蚁
+1   类 -> 主
+1   答 -> n
+1   章 -> 本
+1   空 -> 正
+1   直 -> 蚂
+1   的 -> 这
+1   现 -> 让
+1   现 -> 替
+1   点 -> 壮
+1   游 -> 方
+1   润 -> _
+1   测 -> >
+1   比 -> %
+1   歌 -> 地
+1   格 -> 确
+1   样 -> e
+1   条 -> 的
+1   本 -> 子
+1   有 -> 目
+1   有 -> 右
+1   有 -> 2
+1   替 -> 否
+1   景 -> 有
+1   景 -> 丽
+1   是 -> 的
+1   旅 -> 地
+1   文 -> 后
+1   文 -> 句
+1   数 -> 此
+1   数 -> 0
+1   换 -> 可
+1   所 -> 是
+1   或 -> 原
+1   我 -> 的
+1   我 -> 智
+1   成 -> 以
+1   想 -> ，
+1   得 -> i
+1   开 -> 文
+1   广 -> 别
+1   年 -> |
+1   幕 -> 本
+1   帮 -> 好
+1   左 -> 蚁
+1   少 -> 次
+1   少 -> 只
+1   小 ->
+1   将 -> 文
+1   客 -> 如
+1   学 -> 6
+1   学 -> %
+1   字 -> _
+1   奥 -> 题
+1   多 -> 两
+1   多 -> 6
+1   增 -> e
+1   在 -> 换
+1   在 -> 我
+1   在 -> 。
+1   回 -> e
+1   告 -> 。
+1   向 -> 蚂
+1   向 -> 是
+1   号 -> 看
+1   占 -> 0
+1   博 -> 因
+1   别 -> 题
+1   利 -> m
+1   列 -> _
+1   净 -> i
+1   写 -> 在
+1   其 -> 总
+1   关 -> 然
+1   关 -> |
+1   你 -> 的
+1   会 -> 一
+1   以 -> 答
+1   介 -> 能
+1   今 -> <
+1   京 -> 2
+1   于 -> 的
+1   了 -> d
+1   之 -> ：
+1   中 -> 共
+1   中 ->
+1   个 -> 。
+1   东 ->
+1   下 -> 种
+1   下 -> 案
+1   上 -> 量
+1   一 -> 走
+1   一 -> 该
+1   一 -> 大
+1   一 -> 你
+1   一 -> D
+1   。 -> ，
+1   。 -> 段
+1   。 -> n
+1   、 -> 类
+1   ” -> m
+1   ” ->
+1   “ -> 主
+1   “ -> <
+1   ‘ -> |
+1   n -> <
+1   \ -> 。
+1   [ -> d
+1   B ->
+1   A -> 蚁
+1   A -> 2
+1   6 -> |
+1   6 -> m
+1   6 -> <
+1   5 -> 只
+1   5 -> |
+1   4 -> 6
+1   3 -> ，
+1   3 -> 案
+1   3 -> 以
+1   0 -> >
+1   . -> 答
+1   . -> 所
+1   . -> 中
+1   . -> 。
+1   . -> i
+1   % -> 选
+1   % -> 。
+1   % -> _
+DELETIONS: count ref
+4   。
+3   ，
+2   键
+2   词
+2   给
+2   本
+2   是
+2   年
+2   定
+2   关
+2   ’
+2   0
+2   %
+1   ？
+1   ：
+1   问
+1   走
+1   试
+1   表
+1   蚂
+1   蚁
+1   符
+1   的
+1   润
+1   段
+1   模
+1   有
+1   文
+1   损
+1   所
+1   很
+1   少
+1   字
+1   子
+1   多
+1   型
+1   和
+1   含
+1   否
+1   司
+1   右
+1   可
+1   去
+1   包
+1   利
+1   列
+1   净
+1   公
+1   你
+1   以
+1   今
+1   亏
+1   了
+1   串
+1   中
+1   一
+1   ‘
+1   ]
+1   C
+1   6
+1   5
+1   .
+INSERTIONS: count hyp
+28   ，
+28   的
+20   、
+13   。
+13   |
+8   是
+8   和
+7   文
+7   可
+7   以
+7   d
+7   >
+6   这
+6   本
+6   n
+6   m
+6   i
+6   e
+6   _
+6   <
+5   ：
+5   有
+5   多
+5   到
+5   中
+5   个
+4   语
+4   等
+4   我
+4   如
+4   了
+3   风
+3   面
+3   自
+3   能
+3   特
+3   然
+3   果
+3   更
+3   新
+3   技
+3   或
+3   感
+3   广
+3   学
+3   大
+3   受
+3   力
+3   前
+3   内
+3   人
+3   习
+3   也
+3   丽
+3   为
+3   一
+2   静
+2   闻
+2   金
+2   量
+2   道
+2   通
+2   述
+2   识
+2   西
+2   美
+2   着
+2   用
+2   生
+2   理
+2   独
+2   求
+2   气
+2   来
+2   机
+2   术
+2   智
+2   明
+2   方
+2   斯
+2   推
+2   据
+2   括
+2   拉
+2   报
+2   想
+2   您
+2   得
+2   当
+2   度
+2   巴
+2   山
+2   尼
+2   容
+2   客
+2   它
+2   娃
+2   在
+2   国
+2   包
+2   别
+2   其
+2   光
+2   你
+2   会
+2   于
+2   下
+2   上
+2   .
+2   "
+2
+2
+1   黑
+1   黎
+1   黄
+1   魅
+1   验
+1   领
+1   音
+1   需
+1   随
+1   除
+1   阿
+1   阳
+1   门
+1   键
+1   错
+1   销
+1   都
+1   选
+1   进
+1   运
+1   贵
+1   财
+1   谷
+1   词
+1   论
+1   许
+1   让
+1   计
+1   言
+1   觉
+1   视
+1   观
+1   要
+1   袤
+1   行
+1   融
+1   获
+1   荐
+1   草
+1   花
+1   脉
+1   综
+1   结
+1   经
+1   纳
+1   素
+1   精
+1   类
+1   篇
+1   算
+1   章
+1   立
+1   科
+1   看
+1   目
+1   疗
+1   现
+1   犬
+1   牛
+1   版
+1   片
+1   热
+1   澈
+1   湖
+1   清
+1   深
+1   消
+1   流
+1   活
+1   洲
+1   泰
+1   泛
+1   法
+1   泊
+1   河
+1   没
+1   江
+1   毛
+1   比
+1   段
+1   此
+1   欧
+1   欢
+1   模
+1   根
+1   树
+1   柯
+1   析
+1   未
+1   木
+1   望
+1   最
+1   曼
+1   普
+1   显
+1   旺
+1   日
+1   无
+1   斗
+1   整
+1   数
+1   散
+1   提
+1   描
+1   择
+1   拟
+1   拂
+1   抱
+1   所
+1   情
+1   息
+1   怀
+1   心
+1   微
+1   往
+1   异
+1   应
+1   并
+1   平
+1   常
+1   带
+1   希
+1   布
+1   市
+1   已
+1   巧
+1   工
+1   川
+1   岛
+1   尽
+1   小
+1   将
+1   对
+1   宾
+1   宣
+1   实
+1   宁
+1   字
+1   子
+1   媚
+1   威
+1   姆
+1   好
+1   奥
+1   外
+1   处
+1   基
+1   域
+1   城
+1   型
+1   地
+1   图
+1   器
+1   喜
+1   命
+1   告
+1   吉
+1   各
+1   句
+1   发
+1   双
+1   及
+1   去
+1   厘
+1   印
+1   博
+1   南
+1   医
+1   化
+1   动
+1   加
+1   利
+1   删
+1   创
+1   分
+1   出
+1   准
+1   典
+1   关
+1   克
+1   元
+1   像
+1   健
+1   保
+1   便
+1   体
+1   传
+1   件
+1   们
+1   他
+1   从
+1   京
+1   交
+1   亚
+1   云
+1   事
+1   之
+1   丹
+1   东
+1   且
+1   不
+1   ”
+1   “
+1   3
+1   1
+PER-WORD STATS: word  corr tot_errs count_in_ref count_in_hyp
+，   6 37 11 38
+的   9 36 11 43
+。   6 27 13 26
+、   0 21 1 20
+|   0 20 0 20
+是   4 15 7 16
+文   4 12 7 13
+本   2 11 5 10
+以   0 11 2 9
+n   0 11 1 10
+：   1 10 5 7
+有   0 10 4 6
+中   3 10 6 10
+一   4 10 10 8
+m   0 10 0 10
+i   0 10 0 10
+e   0 10 0 10
+d   0 10 0 10
+_   0 10 0 10
+>   0 10 0 10
+<   0 10 0 10
+.   0 10 6 4
+和   1 9 2 9
+可   0 9 1 8
+多   1 8 4 6
+6   0 8 4 4
+这   4 7 4 11
+我   1 7 3 6
+%   0 7 5 2
+如   0 6 0 6
+在   0 6 3 3
+了   1 6 3 5
+个   3 6 4 8
+   0 6 0 6
+蚂   0 5 2 3
+蚁   0 5 2 3
+学   0 5 2 3
+大   0 5 0 5
+到   0 5 0 5
+关   2 5 6 3
+你   0 5 2 3
+0   1 5 4 3
+    0 5 0 5
+题   0 4 2 2
+面   0 4 1 3
+键   1 4 4 2
+量   0 4 1 3
+语   0 4 0 4
+词   1 4 4 2
+自   1 4 1 5
+能   1 4 1 5
+给   0 4 4 0
+等   0 4 0 4
+然   1 4 1 5
+数   0 4 2 2
+所   0 4 2 2
+或   0 4 1 3
+广   0 4 1 3
+别   0 4 1 3
+人   1 4 1 5
+丽   0 4 0 4
+为   0 4 0 4
+下   1 4 3 3
+3   0 4 3 1
+风   0 3 0 3
+道   2 3 3 4
+走   1 3 3 2
+请   0 3 3 0
+类   0 3 1 2
+答   0 3 1 2
+看   2 3 2 5
+现   1 3 3 2
+特   0 3 0 3
+段   0 3 1 2
+果   0 3 0 3
+来   0 3 0 3
+更   0 3 0 3
+智   1 3 1 4
+方   0 3 0 3
+新   2 3 2 5
+技   1 3 1 4
+感   0 3 0 3
+想   0 3 1 2
+得   1 3 2 3
+年   0 3 3 0
+少   0 3 3 0
+客   0 3 1 2
+字   1 3 3 2
+子   2 3 3 4
+地   1 3 1 4
+向   1 3 3 2
+受   0 3 0 3
+包   0 3 1 2
+力   0 3 0 3
+前   0 3 0 3
+利   0 3 2 1
+内   0 3 0 3
+其   0 3 1 2
+会   0 3 1 2
+于   2 3 3 4
+习   0 3 0 3
+也   0 3 0 3
+之   0 3 1 2
+上   0 3 1 2
+”   0 3 2 1
+“   0 3 2 1
+5   1 3 4 1
+2   2 3 2 5
+？   0 2 2 0
+静   0 2 0 2
+闻   2 2 2 4
+问   0 2 2 0
+金   0 2 0 2
+都   0 2 1 1
+通   0 2 0 2
+选   0 2 0 2
+述   0 2 0 2
+运   0 2 1 1
+该   0 2 1 1
+识   0 2 0 2
+让   0 2 0 2
+西   0 2 0 2
+表   1 2 3 1
+获   1 2 2 2
+美   2 2 2 4
+章   1 2 2 2
+着   0 2 0 2
+目   1 2 1 3
+用   0 2 0 2
+生   0 2 0 2
+理   0 2 0 2
+独   0 2 0 2
+润   0 2 2 0
+求   0 2 0 2
+气   0 2 0 2
+比   0 2 1 1
+此   0 2 0 2
+模   1 2 2 2
+案   0 2 0 2
+机   0 2 0 2
+术   1 2 1 3
+替   0 2 1 1
+景   0 2 2 0
+明   0 2 0 2
+斯   0 2 0 2
+推   1 2 1 3
+据   1 2 1 3
+换   0 2 1 1
+括   0 2 0 2
+拉   0 2 0 2
+报   2 2 2 4
+您   0 2 0 2
+当   0 2 0 2
+度   0 2 0 2
+巴   0 2 0 2
+工   1 2 1 3
+山   0 2 0 2
+尼   0 2 0 2
+小   0 2 1 1
+将   0 2 1 1
+容   0 2 0 2
+定   0 2 2 0
+它   1 2 1 3
+娃   0 2 0 2
+好   2 2 2 4
+奥   0 2 1 1
+型   1 2 2 2
+国   1 2 1 3
+因   0 2 0 2
+告   0 2 1 1
+否   1 2 2 2
+后   0 2 0 2
+右   1 2 2 2
+只   3 2 3 5
+句   2 2 2 4
+去   0 2 1 1
+博   0 2 1 1
+列   0 2 2 0
+净   0 2 2 0
+光   0 2 0 2
+今   0 2 2 0
+京   0 2 1 1
+主   0 2 0 2
+东   0 2 1 1
+’   0 2 2 0
+‘   0 2 2 0
+A   0 2 2 0
+"   2 2 2 4
+黑   0 1 0 1
+黎   0 1 0 1
+黄   0 1 0 1
+魅   0 1 0 1
+验   0 1 0 1
+首   0 1 1 0
+领   0 1 0 1
+音   0 1 0 1
+需   0 1 0 1
+随   0 1 0 1
+隆   0 1 1 0
+除   2 1 2 3
+阿   0 1 0 1
+阳   0 1 0 1
+门   0 1 0 1
+长   0 1 1 0
+错   0 1 0 1
+销   0 1 0 1
+重   0 1 1 0
+逗   0 1 1 0
+进   0 1 0 1
+贵   0 1 0 1
+财   0 1 0 1
+谷   0 1 0 1
+诗   0 1 1 0
+试   1 1 2 1
+论   0 1 0 1
+许   0 1 0 1
+计   1 1 1 2
+言   0 1 0 1
+觉   0 1 0 1
+视   0 1 0 1
+观   0 1 0 1
+要   0 1 0 1
+袤   0 1 0 1
+行   0 1 0 1
+融   0 1 0 1
+荐   1 1 1 2
+草   0 1 0 1
+花   0 1 0 1
+脉   0 1 0 1
+综   0 1 0 1
+结   0 1 0 1
+经   0 1 0 1
+绍   0 1 1 0
+线   0 1 1 0
+纳   0 1 0 1
+素   0 1 0 1
+精   0 1 0 1
+篇   1 1 1 2
+算   1 1 1 2
+符   0 1 1 0
+立   0 1 0 1
+空   0 1 1 0
+科   0 1 0 1
+种   0 1 0 1
+确   1 1 1 2
+直   0 1 1 0
+疗   0 1 0 1
+犬   0 1 0 1
+牛   0 1 0 1
+版   0 1 0 1
+片   0 1 0 1
+热   0 1 0 1
+点   0 1 1 0
+澈   0 1 0 1
+湖   0 1 0 1
+游   0 1 1 0
+清   0 1 0 1
+深   0 1 0 1
+消   0 1 0 1
+测   1 1 2 1
+流   0 1 0 1
+活   0 1 0 1
+洲   0 1 0 1
+泰   0 1 0 1
+泛   0 1 0 1
+法   0 1 0 1
+泊   0 1 0 1
+河   0 1 0 1
+没   0 1 0 1
+江   0 1 0 1
+毛   0 1 0 1
+正   1 1 1 2
+歌   0 1 1 0
+欧   0 1 0 1
+欢   0 1 0 1
+次   0 1 0 1
+格   0 1 1 0
+根   1 1 1 2
+样   0 1 1 0
+树   0 1 0 1
+柯   0 1 0 1
+析   0 1 0 1
+条   0 1 1 0
+未   0 1 0 1
+木   0 1 0 1
+望   0 1 0 1
+最   0 1 0 1
+曼   0 1 0 1
+普   0 1 0 1
+显   0 1 0 1
+旺   0 1 0 1
+日   0 1 0 1
+无   0 1 0 1
+旅   0 1 1 0
+斗   0 1 0 1
+整   0 1 0 1
+散   0 1 0 1
+提   0 1 0 1
+描   0 1 0 1
+损   0 1 1 0
+择   0 1 0 1
+拟   0 1 0 1
+拂   0 1 0 1
+抱   0 1 0 1
+成   0 1 1 0
+情   0 1 0 1
+息   0 1 0 1
+总   0 1 0 1
+怀   0 1 0 1
+心   0 1 0 1
+微   0 1 0 1
+很   0 1 1 0
+往   0 1 0 1
+异   0 1 0 1
+开   0 1 1 0
+应   0 1 0 1
+并   0 1 0 1
+平   0 1 0 1
+幕   0 1 1 0
+常   0 1 0 1
+帮   0 1 1 0
+带   0 1 0 1
+希   0 1 0 1
+布   0 1 0 1
+市   0 1 0 1
+已   0 1 0 1
+巧   0 1 0 1
+左   0 1 1 0
+川   0 1 0 1
+岛   0 1 0 1
+尽   0 1 0 1
+对   0 1 0 1
+宾   0 1 0 1
+宣   0 1 0 1
+实   0 1 0 1
+宁   0 1 0 1
+媚   0 1 0 1
+威   0 1 0 1
+姆   0 1 0 1
+外   0 1 0 1
+处   0 1 0 1
+壮   0 1 0 1
+增   0 1 1 0
+基   0 1 0 1
+域   0 1 0 1
+城   0 1 0 1
+图   0 1 0 1
+回   0 1 1 0
+器   0 1 0 1
+喜   0 1 0 1
+命   0 1 0 1
+含   0 1 1 0
+吉   0 1 0 1
+各   0 1 0 1
+司   0 1 1 0
+号   0 1 1 0
+发   1 1 1 2
+双   0 1 0 1
+及   0 1 0 1
+原   0 1 0 1
+厘   0 1 0 1
+印   0 1 0 1
+占   0 1 1 0
+南   0 1 0 1
+医   0 1 0 1
+化   0 1 0 1
+动   0 1 0 1
+加   0 1 0 1
+删   2 1 2 3
+创   0 1 0 1
+分   0 1 0 1
+出   1 1 1 2
+准   0 1 0 1
+写   0 1 1 0
+典   0 1 0 1
+共   0 1 0 1
+公   0 1 1 0
+克   0 1 0 1
+元   1 1 1 2
+像   0 1 0 1
+健   0 1 0 1
+保   0 1 0 1
+便   0 1 0 1
+体   0 1 0 1
+传   0 1 0 1
+件   0 1 0 1
+们   0 1 0 1
+他   0 1 0 1
+从   1 1 1 2
+介   0 1 1 0
+交   0 1 0 1
+亚   0 1 0 1
+云   0 1 0 1
+亏   0 1 1 0
+事   0 1 0 1
+丹   0 1 0 1
+串   0 1 1 0
+两   0 1 0 1
+且   0 1 0 1
+不   0 1 0 1
+]   0 1 1 0
+\   0 1 1 0
+[   0 1 1 0
+D   1 1 1 2
+C   0 1 1 0
+B   0 1 1 0
+4   0 1 1 0
+1   0 1 0 1
+项   1 0 1 1
+输   1 0 1 1
+狗   1 0 1 1
+牌   1 0 1 1
+断   1 0 1 1
+属   1 0 1 1
+展   1 0 1 1
+奖   1 0 1 1
+团   1 0 1 1
+名   1 0 1 1
+判   1 0 1 1
+入   1 0 1 1
+代   1 0 1 1
+些   2 0 2 2
+万   1 0 1 1

log-e2e-epoch10_speech2speech_rerun/f5cf13be42666535036bdf0f05fcc0e3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f4910d3a76bde71dfd2668454aa7caf63978e2ecb8290b97ca868e91dfaa242
+size 320044

log-e2e-epoch10_speech2speech_rerun/log-decode-epoch-999-avg-1-2025-04-29-06-36-58 ADDED Viewed

	@@ -0,0 +1,66 @@

+2025-04-29 06:36:58,118 INFO [decode.py:695] Decoding started
+2025-04-29 06:36:58,120 INFO [decode.py:696] {
+  "audio_key": "question_audio",
+  "avg": 1,
+  "beam_size": 1,
+  "bucketing_sampler": true,
+  "drop_last": true,
+  "enable_musan": true,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.200.181",
+    "hostname": "7522485",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Fri Apr 25 10:31:43 2025",
+    "icefall-git-sha1": "d742043e-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse_pr/lhotse/__init__.py",
+    "lhotse-version": "1.31.0.dev+git.8c56a3e6.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "epoch": 999,
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_dir": "slam_omni/exp_speech2speech_rerun/log-e2e-epoch10_speech2speech_rerun",
+  "manifest_dir": "data/fbank",
+  "max_duration": 1,
+  "method": "e2e-epoch10_speech2speech_rerun",
+  "num_buckets": 30,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "remove_whisper_encoder_input_length_restriction": true,
+  "resample_to_16kHz": true,
+  "return_cuts": true,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "suffix": "epoch-999-avg-1",
+  "text_key": "answer",
+  "token2wav_path": "/workspace/CosyVoice-300M-SFT",
+  "use_flash_attn": true,
+  "use_lora": true
+}
+2025-04-29 06:36:58,120 INFO [decode.py:702] device: cuda
+2025-04-29 06:37:30,467 INFO [flow.py:51] input frame rate=50
+2025-04-29 06:37:34,971 INFO [processor.py:101] building fst for zh_normalizer ...
+2025-04-29 06:37:59,937 INFO [processor.py:106] done
+2025-04-29 06:37:59,942 INFO [processor.py:107] fst path: /opt/conda/lib/python3.11/site-packages/tn/zh_tn_tagger.fst
+2025-04-29 06:37:59,943 INFO [processor.py:108]           /opt/conda/lib/python3.11/site-packages/tn/zh_tn_verbalizer.fst
+2025-04-29 06:37:59,949 INFO [processor.py:95] found existing fst: /opt/conda/lib/python3.11/site-packages/tn/en_tn_tagger.fst
+2025-04-29 06:37:59,950 INFO [processor.py:96]                     /opt/conda/lib/python3.11/site-packages/tn/en_tn_verbalizer.fst
+2025-04-29 06:37:59,950 INFO [processor.py:97] skip building fst for en_normalizer ...
+2025-04-29 06:38:05,719 INFO [decode.py:708] Number of model parameters: 1314396804
+2025-04-29 06:38:05,720 INFO [data_module.py:414] About to get test cuts

log-e2e-epoch10_speech2speech_rerun/log-decode-epoch-999-avg-1-2025-04-29-06-40-09 ADDED Viewed

	@@ -0,0 +1,66 @@

+2025-04-29 06:40:09,268 INFO [decode.py:696] Decoding started
+2025-04-29 06:40:09,270 INFO [decode.py:697] {
+  "audio_key": "question_audio",
+  "avg": 1,
+  "beam_size": 1,
+  "bucketing_sampler": true,
+  "drop_last": true,
+  "enable_musan": true,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.200.181",
+    "hostname": "7522485",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Fri Apr 25 10:31:43 2025",
+    "icefall-git-sha1": "d742043e-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse_pr/lhotse/__init__.py",
+    "lhotse-version": "1.31.0.dev+git.8c56a3e6.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "epoch": 999,
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_dir": "slam_omni/exp_speech2speech_rerun/log-e2e-epoch10_speech2speech_rerun",
+  "manifest_dir": "data/fbank",
+  "max_duration": 1,
+  "method": "e2e-epoch10_speech2speech_rerun",
+  "num_buckets": 30,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "remove_whisper_encoder_input_length_restriction": true,
+  "resample_to_16kHz": true,
+  "return_cuts": true,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "suffix": "epoch-999-avg-1",
+  "text_key": "answer",
+  "token2wav_path": "/workspace/CosyVoice-300M-SFT",
+  "use_flash_attn": true,
+  "use_lora": true
+}
+2025-04-29 06:40:09,270 INFO [decode.py:703] device: cuda
+2025-04-29 06:40:31,296 INFO [flow.py:51] input frame rate=50
+2025-04-29 06:40:32,568 INFO [processor.py:101] building fst for zh_normalizer ...
+2025-04-29 06:40:57,320 INFO [processor.py:106] done
+2025-04-29 06:40:57,320 INFO [processor.py:107] fst path: /opt/conda/lib/python3.11/site-packages/tn/zh_tn_tagger.fst
+2025-04-29 06:40:57,321 INFO [processor.py:108]           /opt/conda/lib/python3.11/site-packages/tn/zh_tn_verbalizer.fst
+2025-04-29 06:40:57,325 INFO [processor.py:95] found existing fst: /opt/conda/lib/python3.11/site-packages/tn/en_tn_tagger.fst
+2025-04-29 06:40:57,325 INFO [processor.py:96]                     /opt/conda/lib/python3.11/site-packages/tn/en_tn_verbalizer.fst
+2025-04-29 06:40:57,325 INFO [processor.py:97] skip building fst for en_normalizer ...
+2025-04-29 06:40:59,720 INFO [decode.py:709] Number of model parameters: 1314396804
+2025-04-29 06:40:59,721 INFO [data_module.py:414] About to get test cuts

log-e2e-epoch10_speech2speech_rerun/log-decode-epoch-999-avg-1-2025-04-29-06-41-35 ADDED Viewed

	@@ -0,0 +1,75 @@

+2025-04-29 06:41:35,728 INFO [decode.py:697] Decoding started
+2025-04-29 06:41:35,729 INFO [decode.py:698] {
+  "audio_key": "question_audio",
+  "avg": 1,
+  "beam_size": 1,
+  "bucketing_sampler": true,
+  "drop_last": true,
+  "enable_musan": true,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.200.181",
+    "hostname": "7522485",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Fri Apr 25 10:31:43 2025",
+    "icefall-git-sha1": "d742043e-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse_pr/lhotse/__init__.py",
+    "lhotse-version": "1.31.0.dev+git.8c56a3e6.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "epoch": 999,
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_dir": "slam_omni/exp_speech2speech_rerun/log-e2e-epoch10_speech2speech_rerun",
+  "manifest_dir": "data/fbank",
+  "max_duration": 1,
+  "method": "e2e-epoch10_speech2speech_rerun",
+  "num_buckets": 30,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "remove_whisper_encoder_input_length_restriction": true,
+  "resample_to_16kHz": true,
+  "return_cuts": true,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "suffix": "epoch-999-avg-1",
+  "text_key": "answer",
+  "token2wav_path": "/workspace/CosyVoice-300M-SFT",
+  "use_flash_attn": true,
+  "use_lora": true
+}
+2025-04-29 06:41:35,729 INFO [decode.py:704] device: cuda
+2025-04-29 06:41:58,540 INFO [flow.py:51] input frame rate=50
+2025-04-29 06:41:59,853 INFO [processor.py:101] building fst for zh_normalizer ...
+2025-04-29 06:42:24,447 INFO [processor.py:106] done
+2025-04-29 06:42:24,447 INFO [processor.py:107] fst path: /opt/conda/lib/python3.11/site-packages/tn/zh_tn_tagger.fst
+2025-04-29 06:42:24,447 INFO [processor.py:108]           /opt/conda/lib/python3.11/site-packages/tn/zh_tn_verbalizer.fst
+2025-04-29 06:42:24,452 INFO [processor.py:95] found existing fst: /opt/conda/lib/python3.11/site-packages/tn/en_tn_tagger.fst
+2025-04-29 06:42:24,452 INFO [processor.py:96]                     /opt/conda/lib/python3.11/site-packages/tn/en_tn_verbalizer.fst
+2025-04-29 06:42:24,452 INFO [processor.py:97] skip building fst for en_normalizer ...
+2025-04-29 06:42:26,967 INFO [decode.py:710] Number of model parameters: 1314396804
+2025-04-29 06:42:26,967 INFO [data_module.py:414] About to get test cuts
+2025-04-29 06:42:35,359 INFO [decode.py:627] batch 0/?, cuts processed until now is 1
+2025-04-29 06:44:35,705 INFO [decode.py:646] The transcripts are stored in slam_omni/exp_speech2speech_rerun/log-e2e-epoch10_speech2speech_rerun/recogs-test-beam-search-epoch-999-avg-1.txt
+2025-04-29 06:44:35,709 INFO [utils.py:670] [test-beam-search] %WER 229.61% [884 / 385, 643 ins, 78 del, 163 sub ]
+2025-04-29 06:44:35,719 INFO [decode.py:664] Wrote detailed error stats to slam_omni/exp_speech2speech_rerun/log-e2e-epoch10_speech2speech_rerun/errs-test-beam-search-epoch-999-avg-1.txt
+2025-04-29 06:44:35,722 INFO [decode.py:678]
+For test, CER of different settings are:
+beam-search	229.61	best for test
+2025-04-29 06:44:35,723 INFO [decode.py:754] Done!

log-e2e-epoch10_speech2speech_rerun/recogs-test-beam-search-epoch-999-avg-1.txt ADDED Viewed

	@@ -0,0 +1,26 @@

+2a8211e0e75e000bbae1134b21fdbfa4:	ref=['以下是一道小学数学题：', '有一条直线，上面有', '6', '只蚂蚁，其中', '4', '只向左走，2', '只向右走。问：向右走的蚂蚁数量占比是多少？', 'A.', '25%', 'B.', '33.3%', 'C.', '50%', 'D.', '66.6%', '回答该问题。']
+2a8211e0e75e000bbae1134b21fdbfa4:	hyp=答案是D. 60%
+向右走的蚂蚁数量为2只，总共6只蚂蚁中，有2只是向右走的，因此60%的6只蚂蚁中有2只。
+所以，答案选D。<|im_end|>
+2e9fddd659b1167aed93534c608f1d99:	ref=['A公司去年亏损了500万美元，今年净利润增长了50%，今年的净利润是多少？']
+2e9fddd659b1167aed93534c608f1d99:	hyp=250万美元。<|im_end|>
+31b4015dd1258ff1f8be44d6504e6956:	ref=['请给我介绍一下人工智能的技术和发展。']
+31b4015dd1258ff1f8be44d6504e6956:	hyp=人工智能是一种模拟人类智能的技术，它包括机器学习、自然语言处理、计算机视觉等多个方面。目前，人工智能技术已经广泛应用于各个领域，比如医疗保健、金融、交通等。其中，深度学习是当前最热门的技术之一，它可以实现对大量数据的自动分析和学习，并且可以用于图像识别、语音识别等方面。未来，随着科技的发展，人工智能将会更加普及，为我们的生活带来更多的便利和创新。<|im_end|>
+3243962376f8c2e411e587e6482f9367:	ref=['写一首关于自然美景的诗歌。']
+3243962376f8c2e411e587e6482f9367:	hyp=在大自然的怀抱中，我感受到了生命的美好。山川河流、花草树木，都散发着独特的魅力。阳光明媚，微风拂面，让人感受到自然的力量和美丽。在这片广袤的大地上，我看到了无尽的可能和希望，也感受到了内心的宁静和平静。<|im_end|>
+450e7541d093ee0e7e12ab76a0dff546:	ref=['帮我想一些关于狗的名字。']
+450e7541d093ee0e7e12ab76a0dff546:	hyp=好的，以下是一些关于狗的名字：旺财、小黑、巧克力、大黄、金毛、拉布拉多、吉娃娃、柯基、贵宾、斗牛犬。当然，如果您有其他要求或想法，我也可以根据您的需求进行更精准的推荐。<|im_end|>
+88562bce265cff88246933e62b756e84:	ref=['给定一段文本和关键词列表，删除文本中包含所有给定关键词的子字符串。', '文本："这是一个测试句子，目的是看看模型是否可以正确地从这个句子中删除关键词。"\\n关键词列表：[‘测试’，‘模型’]']
+88562bce265cff88246933e62b756e84:	hyp=删除后的文本为："这是一个测试句子，目的是看看模型是否正确地从这个句子中删除关键词"。<|im_end|>
+ca7f2b2ab703a4f37b5da09fd119a28a:	ref=['根据输入的文本，判断它是否属于新闻报道、广告或博客文章类别之一。', '新闻报道：“奥运会在东京隆重开幕，中国代表团获得多项奖牌。”']
+ca7f2b2ab703a4f37b5da09fd119a28a:	hyp=根据输入的文本，可以判断它属于新闻报道类别。原因如下：
+1. 文本主题：该段文字描述的是奥运会的消息，这通常是新闻报道的主题之一。
+2. 文本内容：文本中提到了多个事件，包括中国代表团获得多项奖牌，这是典型的新闻报道内容。
+3. 文本语气：整个文本的语气客观、中立，没有明显的广告或博客文章的推销和宣传元素。
+综上所述，可以得出结论，这段文本是一篇新闻报道。<|im_end|>
+d60daeaebb5b0b14ee34f5d714075108:	ref=['给我推荐一些旅游景点。']
+d60daeaebb5b0b14ee34f5d714075108:	hyp=如果你喜欢自然风光，我推荐你去云南的丽江、大理和西双版纳。这些地方有壮丽的山脉、清澈的湖泊和独特的文化。如果你想体验异国风情，可以前往泰国的曼谷、印度尼西亚的巴厘岛或日本的东京。此外，欧洲有许多美丽的城市，如巴黎、威尼斯和阿姆斯特丹等，也是不错的选择。<|im_end|>
+ee07a1222f1d62cf0358f51d12f4c67c:	ref=['很好，现在请你计算一下这篇文章中出现了多少个“获得”字样。']
+ee07a1222f1d62cf0358f51d12f4c67c:	hyp=好的，让我来计算一下。在这篇文章中，“获得”出现了两次。<|im_end|>
+f5cf13be42666535036bdf0f05fcc0e3:	ref=['好的。现在请你将这个文本中的所有的逗号都替换成空格。']
+f5cf13be42666535036bdf0f05fcc0e3:	hyp=好的，替换后的文本为："这是一个句子 这是目的看看是否可以正确地从这个句子中删除关键词"。<|im_end|>

log/log-train-2025-04-24-08-58-17 ADDED Viewed

	@@ -0,0 +1,689 @@

+2025-04-24 08:58:17,434 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.172.122",
+    "hostname": "7515258",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Thu Apr 24 08:24:11 2025",
+    "icefall-git-sha1": "2e9be467-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 40,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": null,
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": null,
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-24 08:58:17,434 INFO [train.py:655] About to create model
+2025-04-24 08:58:43,456 INFO [train.py:808] Number of model parameters: 1326848644
+2025-04-24 08:58:43,457 INFO [train.py:810] Trainable parameters (excluding model.eval modules):
+2025-04-24 08:58:43,457 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,458 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,459 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,460 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,461 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,462 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,463 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,464 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,465 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,466 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,467 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,468 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,469 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,470 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,471 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,472 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,473 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,474 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,475 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,475 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 08:58:43,475 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 08:58:43,475 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 08:58:43,475 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 08:58:43,475 INFO [train.py:813] encoder_projector.linear1.weight: torch.Size([896, 10240])
+2025-04-24 08:58:43,475 INFO [train.py:813] encoder_projector.linear1.bias: torch.Size([896])
+2025-04-24 08:58:43,475 INFO [train.py:813] encoder_projector.linear2.weight: torch.Size([896, 896])
+2025-04-24 08:58:43,475 INFO [train.py:813] encoder_projector.linear2.bias: torch.Size([896])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,475 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,476 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,477 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,478 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,479 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,480 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,481 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,482 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 08:58:43,483 INFO [train.py:813] speech_token_projector.weight: torch.Size([1024, 896])
+2025-04-24 08:58:43,483 INFO [train.py:813] speech_token_projector.bias: torch.Size([1024])
+2025-04-24 08:58:43,483 INFO [train.py:813] codec_lm_head.weight: torch.Size([4100, 1024])
+2025-04-24 08:58:43,484 INFO [train.py:813] codec_lm_head.bias: torch.Size([4100])
+2025-04-24 08:58:43,484 INFO [train.py:819] Device: cuda:1
+2025-04-24 08:58:44,314 INFO [train.py:823] Using DeepSpeed
+2025-04-24 08:58:46,121 INFO [data_module.py:445] About to get train cuts
+2025-04-24 08:58:46,124 INFO [data_module.py:250] Disable MUSAN
+2025-04-24 08:58:46,124 INFO [data_module.py:268] Enable SpecAugment
+2025-04-24 08:58:46,124 INFO [data_module.py:269] Time warp factor: 80
+2025-04-24 08:58:46,124 INFO [data_module.py:279] Num frame mask: 10
+2025-04-24 08:58:46,124 INFO [data_module.py:292] About to create train dataset
+2025-04-24 08:58:46,124 INFO [data_module.py:319] Using DynamicBucketingSampler.
+2025-04-24 08:58:46,156 WARNING [train.py:847] Exclude cut with ID c45eb75253bb65901de61b81270c9974 from training. Duration: 6.199727891156463, lenth: 2321
+2025-04-24 08:58:46,338 WARNING [train.py:847] Exclude cut with ID 82678aa1e73accb2d11a87440a90fd55 from training. Duration: 5.0967800453514736, lenth: 2413
+2025-04-24 08:58:46,831 WARNING [train.py:847] Exclude cut with ID 345bcf1b57cbfcf140007812e992c07a from training. Duration: 5.712108843537415, lenth: 2520
+2025-04-24 08:58:46,985 WARNING [train.py:847] Exclude cut with ID 2bc428341a40605b4887a7e46e3ee4ac from training. Duration: 3.657142857142857, lenth: 2282
+2025-04-24 08:58:47,053 WARNING [train.py:847] Exclude cut with ID 24c14f6007ceb8d993f6496aeb663c24 from training. Duration: 2.391655328798186, lenth: 2218
+2025-04-24 08:58:47,120 INFO [data_module.py:336] About to create train dataloader
+2025-04-24 08:58:47,120 INFO [data_module.py:436] About to get test cuts
+2025-04-24 08:58:47,121 INFO [data_module.py:365] About to create dev dataset
+2025-04-24 08:58:47,209 INFO [data_module.py:379] About to create dev dataloader
+2025-04-24 08:58:47,215 INFO [train.py:875] start training from epoch 1
+2025-04-24 08:58:47,376 WARNING [train.py:847] Exclude cut with ID c45eb75253bb65901de61b81270c9974 from training. Duration: 6.199727891156463, lenth: 2321
+2025-04-24 08:58:47,606 WARNING [train.py:847] Exclude cut with ID 82678aa1e73accb2d11a87440a90fd55 from training. Duration: 5.0967800453514736, lenth: 2413
+2025-04-24 08:58:48,237 WARNING [train.py:847] Exclude cut with ID 345bcf1b57cbfcf140007812e992c07a from training. Duration: 5.712108843537415, lenth: 2520
+2025-04-24 08:58:48,432 WARNING [train.py:847] Exclude cut with ID 2bc428341a40605b4887a7e46e3ee4ac from training. Duration: 3.657142857142857, lenth: 2282
+2025-04-24 08:58:48,511 WARNING [train.py:847] Exclude cut with ID 24c14f6007ceb8d993f6496aeb663c24 from training. Duration: 2.391655328798186, lenth: 2218
+2025-04-24 08:58:49,064 WARNING [train.py:847] Exclude cut with ID de225db1da1393474e4ce9af8cbafb42 from training. Duration: 5.433469387755102, lenth: 2230
+2025-04-24 08:58:49,354 WARNING [train.py:847] Exclude cut with ID ef376c7d1fb4606edb0547b2a7fb95b3 from training. Duration: 2.7399546485260773, lenth: 2637
+2025-04-24 08:58:49,692 WARNING [train.py:847] Exclude cut with ID c7f3c7da44c2c6e27f86bda421b958d8 from training. Duration: 2.995374149659864, lenth: 2318
+2025-04-24 08:58:49,867 WARNING [train.py:847] Exclude cut with ID 8d724f452d1d99549eebf90ab658e7bd from training. Duration: 5.712108843537415, lenth: 2209
+2025-04-24 08:58:49,983 WARNING [train.py:847] Exclude cut with ID a585785e795cb35d02d8f7b599352e16 from training. Duration: 4.911020408163266, lenth: 2575
+2025-04-24 08:58:50,062 WARNING [train.py:847] Exclude cut with ID 31a00c5e63c88ef67402f578ebc6ebf7 from training. Duration: 3.575873015873016, lenth: 2307
+2025-04-24 08:58:50,180 WARNING [train.py:847] Exclude cut with ID 32ab4761aaf08d9473fc8388c3a6cffc from training. Duration: 7.9760544217687075, lenth: 2201
+2025-04-24 08:58:50,237 WARNING [train.py:847] Exclude cut with ID 5fddb6bf9d5265c0409b81c85fadbaec from training. Duration: 3.4597732426303853, lenth: 2210
+2025-04-24 08:58:51,088 WARNING [train.py:847] Exclude cut with ID c5d43a2443ce7820cf864f7c55eafb77 from training. Duration: 3.912562358276644, lenth: 2315
+2025-04-24 08:58:52,211 WARNING [train.py:847] Exclude cut with ID a951e36267c8901d4c03fb6b4dffe636 from training. Duration: 4.73687074829932, lenth: 2223
+2025-04-24 08:58:52,283 WARNING [train.py:847] Exclude cut with ID 595680451c1ee7e42dba0452e165dea3 from training. Duration: 3.959002267573696, lenth: 2251
+2025-04-24 08:58:52,830 WARNING [train.py:847] Exclude cut with ID 20fa9b11557159d78f72ccc6b464de18 from training. Duration: 3.9938321995464854, lenth: 2215
+2025-04-24 08:58:52,884 WARNING [train.py:847] Exclude cut with ID 8a01fc72b4108673fd8393e523450e23 from training. Duration: 8.719092970521542, lenth: 2517
+2025-04-24 08:58:53,397 WARNING [train.py:847] Exclude cut with ID 924d54288847d448a20809a26b320477 from training. Duration: 3.81968253968254, lenth: 2302
+2025-04-24 08:58:53,695 WARNING [train.py:847] Exclude cut with ID a7f91a17f6318d896d0bee7b7307d000 from training. Duration: 5.294149659863946, lenth: 2239
+2025-04-24 08:58:54,189 WARNING [train.py:847] Exclude cut with ID 8d7cff5d1d25a773f9d27590b5912b60 from training. Duration: 4.597551020408163, lenth: 2203
+2025-04-24 08:58:54,309 WARNING [train.py:847] Exclude cut with ID 13407ca1ec78def38346569b54d11a78 from training. Duration: 5.909478458049887, lenth: 2280
+2025-04-24 08:58:54,313 WARNING [train.py:847] Exclude cut with ID 6390ab6964b52f2ee9bf36826393abaa from training. Duration: 4.017052154195011, lenth: 2209
+2025-04-24 08:58:54,357 WARNING [train.py:847] Exclude cut with ID f55c19435d6643ebf7356a1072a014fa from training. Duration: 5.259319727891157, lenth: 2310
+2025-04-24 08:58:55,044 WARNING [train.py:847] Exclude cut with ID 546f5fb6d11db41d104ee7b0667f4e1d from training. Duration: 5.712108843537415, lenth: 2770
+2025-04-24 08:58:55,337 WARNING [train.py:847] Exclude cut with ID b2069846ab4df18f5caa676751aa0b40 from training. Duration: 6.6525170068027215, lenth: 2588
+2025-04-24 08:58:55,708 WARNING [train.py:847] Exclude cut with ID 5717a65b9855425c0330e6022a71cc2f from training. Duration: 5.073560090702948, lenth: 2269
+2025-04-24 08:58:56,015 WARNING [train.py:847] Exclude cut with ID d6e37a975b3c69a86a808347b53e42f2 from training. Duration: 5.259319727891157, lenth: 2885
+2025-04-24 08:58:56,164 WARNING [train.py:847] Exclude cut with ID d15e75257f8dac616c078113f8f96c63 from training. Duration: 7.6741950113378685, lenth: 2276
+2025-04-24 08:58:56,227 WARNING [train.py:847] Exclude cut with ID 7ea49b35e0dc536537ae3ddcd07032af from training. Duration: 4.829750566893424, lenth: 2206
+2025-04-24 08:58:56,689 WARNING [train.py:847] Exclude cut with ID 0a1a80c13fd0c38d97c9491dff84c7da from training. Duration: 2.914104308390023, lenth: 2220
+2025-04-24 08:58:56,739 WARNING [train.py:847] Exclude cut with ID 359ff41c694bb848c3e37b948b1434f7 from training. Duration: 6.478367346938776, lenth: 2881
+2025-04-24 08:58:56,747 WARNING [train.py:847] Exclude cut with ID 6989881203588034ddf38ae5a7cfe238 from training. Duration: 5.491519274376417, lenth: 2243
+2025-04-24 08:58:57,027 WARNING [train.py:847] Exclude cut with ID fd7b5cb9a6bce2c02bf8a7c3dd2b35d6 from training. Duration: 5.793378684807256, lenth: 2305
+2025-04-24 08:58:58,007 WARNING [train.py:847] Exclude cut with ID e1c5efd6d4cd7c6dc0f3ac7720161c49 from training. Duration: 9.438911564625851, lenth: 2201
+2025-04-24 08:58:58,405 WARNING [train.py:847] Exclude cut with ID c13ffcc7b60ea460731e417d2d9575cf from training. Duration: 3.250793650793651, lenth: 2205
+2025-04-24 08:58:58,498 WARNING [train.py:847] Exclude cut with ID ba1a37e64efe00d8b8cbfb0069e65f8d from training. Duration: 3.274013605442177, lenth: 2290
+2025-04-24 08:58:58,579 WARNING [train.py:847] Exclude cut with ID de9f5fe02034bc4b0a66fbe378fffb1a from training. Duration: 6.455147392290249, lenth: 2228
+2025-04-24 08:58:59,067 WARNING [train.py:847] Exclude cut with ID 8ca7a35870994edd410e1ea8e951faa3 from training. Duration: 7.012426303854875, lenth: 2233
+2025-04-24 08:58:59,214 WARNING [train.py:847] Exclude cut with ID 3260368505eddf46fb1c9b562124ff18 from training. Duration: 12.097596371882085, lenth: 2261
+2025-04-24 08:58:59,412 WARNING [train.py:847] Exclude cut with ID 36878ea551121147626747e9fc39ae17 from training. Duration: 5.537959183673469, lenth: 2224
+2025-04-24 08:59:00,361 WARNING [train.py:847] Exclude cut with ID d4c7270e6c9b3dffed8643040b5f922b from training. Duration: 4.133151927437642, lenth: 2329
+2025-04-24 08:59:00,843 WARNING [train.py:847] Exclude cut with ID 179517464c97fbbcb8909a56b849bf73 from training. Duration: 6.617687074829932, lenth: 2257
+2025-04-24 08:59:01,065 WARNING [train.py:847] Exclude cut with ID 17480e9524e4c0f8e405487e50c8e98e from training. Duration: 4.551111111111111, lenth: 2263
+2025-04-24 08:59:01,165 WARNING [train.py:847] Exclude cut with ID 2c10af552b911b8ac45c1fc7bb9fcb5d from training. Duration: 6.2693877551020405, lenth: 2481
+2025-04-24 08:59:01,276 WARNING [train.py:847] Exclude cut with ID aa2539588175d8c96975a06a8993e5b6 from training. Duration: 5.456689342403628, lenth: 2573
+2025-04-24 08:59:01,317 WARNING [train.py:847] Exclude cut with ID 32945d8e21a8628bb3c93fd499330639 from training. Duration: 13.455963718820861, lenth: 2205
+2025-04-24 08:59:01,495 WARNING [train.py:847] Exclude cut with ID 64db5d6166c3edc340d8e1b02c059f19 from training. Duration: 4.818140589569161, lenth: 2259
+2025-04-24 08:59:01,638 WARNING [train.py:847] Exclude cut with ID 39483151e08291efe16217ab41622d59 from training. Duration: 7.952834467120182, lenth: 2439
+2025-04-24 08:59:02,375 WARNING [train.py:847] Exclude cut with ID c4a74dd23aa9a3fb13330113787139d6 from training. Duration: 3.239183673469388, lenth: 2276
+2025-04-24 08:59:02,420 WARNING [train.py:847] Exclude cut with ID b12a8836f1aa525a763ac657a44229a3 from training. Duration: 5.0967800453514736, lenth: 2427
+2025-04-24 08:59:05,911 WARNING [train.py:847] Exclude cut with ID 185cfa3ae9c12babe1e217de612f0c7b from training. Duration: 6.257777777777778, lenth: 2587
+2025-04-24 08:59:06,001 WARNING [train.py:847] Exclude cut with ID 08eff5b64d191a0d50634630437a3107 from training. Duration: 10.135510204081633, lenth: 2273
+2025-04-24 08:59:06,092 WARNING [train.py:847] Exclude cut with ID bcd8207538deeccfcf8d1de872b8f7e9 from training. Duration: 4.179591836734694, lenth: 2242
+2025-04-24 08:59:06,302 WARNING [train.py:847] Exclude cut with ID f909651c923fdd6cc0eaa81de64f4a5b from training. Duration: 8.068934240362811, lenth: 2421
+2025-04-24 08:59:06,330 WARNING [train.py:847] Exclude cut with ID f5d34097b89bd201018189ff44b10b33 from training. Duration: 3.7964625850340137, lenth: 2250
+2025-04-24 08:59:06,425 WARNING [train.py:847] Exclude cut with ID 245530abe5a62b390611b7a3b91ddfef from training. Duration: 9.079002267573696, lenth: 2299
+2025-04-24 08:59:07,344 WARNING [train.py:847] Exclude cut with ID 79d0d3129c764fd4d9c5391b6353e349 from training. Duration: 5.0967800453514736, lenth: 2309
+2025-04-24 08:59:07,382 WARNING [train.py:847] Exclude cut with ID 1969177f73511ef204642f43ce029d05 from training. Duration: 3.657142857142857, lenth: 2339
+2025-04-24 08:59:07,895 WARNING [train.py:847] Exclude cut with ID f601e756ecd6074cd3037c61e413cb6e from training. Duration: 5.712108843537415, lenth: 2287
+2025-04-24 08:59:08,149 WARNING [train.py:847] Exclude cut with ID 9f7758e035b3eebcb9267aa49ad65d4c from training. Duration: 3.9938321995464854, lenth: 2303
+2025-04-24 08:59:08,619 WARNING [train.py:847] Exclude cut with ID b29a42e8c0af813bf605d7f0a974620c from training. Duration: 5.050340136054421, lenth: 2219
+2025-04-24 08:59:08,791 WARNING [train.py:847] Exclude cut with ID 192e5517b050a4659892a2832d986764 from training. Duration: 5.12, lenth: 2420
+2025-04-24 08:59:08,959 WARNING [train.py:847] Exclude cut with ID bc262e923d16a434a3c5701bea841e4e from training. Duration: 7.418775510204082, lenth: 2205
+2025-04-24 08:59:09,126 WARNING [train.py:847] Exclude cut with ID 5141e01019dec47ed309fbf5881ab675 from training. Duration: 8.034104308390022, lenth: 2284
+2025-04-24 08:59:09,156 WARNING [train.py:847] Exclude cut with ID 3555e5c7123d744b39ba7ecce44ce1e2 from training. Duration: 3.7151927437641725, lenth: 2226
+2025-04-24 08:59:09,605 WARNING [train.py:847] Exclude cut with ID 973a1dc43ca452580d6999027a82fbec from training. Duration: 5.270929705215419, lenth: 2250
+2025-04-24 08:59:09,718 WARNING [train.py:847] Exclude cut with ID e2791accb62bb5e4bde9e0e2b04945c5 from training. Duration: 3.517823129251701, lenth: 2286
+2025-04-24 08:59:09,897 WARNING [train.py:847] Exclude cut with ID e91152d010c4479932b7ab64a998d5c9 from training. Duration: 4.771700680272109, lenth: 2468
+2025-04-24 08:59:10,032 WARNING [train.py:847] Exclude cut with ID cff6a8011a86580fcf47595d18819ae9 from training. Duration: 4.458231292517007, lenth: 2205
+2025-04-24 08:59:10,081 WARNING [train.py:847] Exclude cut with ID 1623cdac3d17f7a211e8a8f434f70657 from training. Duration: 4.191201814058957, lenth: 2308
+2025-04-24 08:59:10,723 WARNING [train.py:847] Exclude cut with ID 273cfc04aebaf8b0cad541d0f3d1cded from training. Duration: 6.408707482993197, lenth: 2609
+2025-04-24 08:59:10,804 WARNING [train.py:847] Exclude cut with ID 7d591b090a42935fd1edd8de97c690b6 from training. Duration: 5.038730158730159, lenth: 2229
+2025-04-24 08:59:10,900 WARNING [train.py:847] Exclude cut with ID 1cfa9ef743b568bb034b415000c8c479 from training. Duration: 7.174965986394557, lenth: 2440
+2025-04-24 08:59:11,699 WARNING [train.py:847] Exclude cut with ID 762676d460719a9203fa7e7537560530 from training. Duration: 3.1346938775510202, lenth: 2443
+2025-04-24 08:59:12,205 WARNING [train.py:847] Exclude cut with ID 43575814ad7bb6d631483cdc513b49ac from training. Duration: 10.95981859410431, lenth: 2380
+2025-04-24 08:59:12,326 WARNING [train.py:847] Exclude cut with ID ae208dee7119ca436f380b99077bcde9 from training. Duration: 5.2128798185941045, lenth: 2615
+2025-04-24 08:59:12,425 WARNING [train.py:847] Exclude cut with ID b56757708077ab00baa7857c1cef8491 from training. Duration: 5.456689342403628, lenth: 2206
+2025-04-24 08:59:12,660 WARNING [train.py:847] Exclude cut with ID f3f6d5671f3d11bc83f8fcad598007ff from training. Duration: 4.179591836734694, lenth: 2262
+2025-04-24 08:59:13,091 WARNING [train.py:847] Exclude cut with ID 6af07f098cd794b9dd5a6bd660f53505 from training. Duration: 4.435011337868481, lenth: 2251
+2025-04-24 08:59:13,234 WARNING [train.py:847] Exclude cut with ID 4ac1131393136a35ef54499bf3c728d4 from training. Duration: 7.732244897959184, lenth: 2211
+2025-04-24 08:59:13,236 WARNING [train.py:847] Exclude cut with ID 482877e78defa83a355d2cdeb5a629ed from training. Duration: 5.154829931972789, lenth: 2891
+2025-04-24 08:59:16,145 WARNING [train.py:847] Exclude cut with ID a93637e8f3e7bdf34bc8eb5d34d34197 from training. Duration: 3.215963718820862, lenth: 2235
+2025-04-24 08:59:17,828 WARNING [train.py:847] Exclude cut with ID 90c6fbf20eeb34c13ffb97a198d84b0b from training. Duration: 5.0967800453514736, lenth: 2236
+2025-04-24 08:59:17,931 INFO [train.py:539] Computing validation loss

log/log-train-2025-04-24-09-09-22 ADDED Viewed

	@@ -0,0 +1,689 @@

+2025-04-24 09:09:22,425 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.172.122",
+    "hostname": "7515258",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Thu Apr 24 08:24:11 2025",
+    "icefall-git-sha1": "2e9be467-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 40,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": null,
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": null,
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-24 09:09:22,426 INFO [train.py:655] About to create model
+2025-04-24 09:09:42,388 INFO [train.py:808] Number of model parameters: 1326848644
+2025-04-24 09:09:42,389 INFO [train.py:810] Trainable parameters (excluding model.eval modules):
+2025-04-24 09:09:42,389 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,390 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,391 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,391 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,391 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,391 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,391 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,391 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,391 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,391 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,393 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,394 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,395 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,396 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,397 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,398 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,399 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,400 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,401 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,402 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,403 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,404 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,405 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,406 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,407 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,408 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:09:42,409 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:09:42,409 INFO [train.py:813] encoder_projector.linear1.weight: torch.Size([896, 10240])
+2025-04-24 09:09:42,409 INFO [train.py:813] encoder_projector.linear1.bias: torch.Size([896])
+2025-04-24 09:09:42,409 INFO [train.py:813] encoder_projector.linear2.weight: torch.Size([896, 896])
+2025-04-24 09:09:42,410 INFO [train.py:813] encoder_projector.linear2.bias: torch.Size([896])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,410 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,411 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,412 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,413 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,414 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,415 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,416 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,417 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:09:42,418 INFO [train.py:813] speech_token_projector.weight: torch.Size([1024, 896])
+2025-04-24 09:09:42,418 INFO [train.py:813] speech_token_projector.bias: torch.Size([1024])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm_head.weight: torch.Size([4100, 1024])
+2025-04-24 09:09:42,418 INFO [train.py:813] codec_lm_head.bias: torch.Size([4100])
+2025-04-24 09:09:42,419 INFO [train.py:819] Device: cuda:0
+2025-04-24 09:09:43,225 INFO [train.py:823] Using DeepSpeed
+2025-04-24 09:09:45,005 INFO [data_module.py:445] About to get train cuts
+2025-04-24 09:09:45,007 INFO [data_module.py:250] Disable MUSAN
+2025-04-24 09:09:45,007 INFO [data_module.py:268] Enable SpecAugment
+2025-04-24 09:09:45,007 INFO [data_module.py:269] Time warp factor: 80
+2025-04-24 09:09:45,007 INFO [data_module.py:279] Num frame mask: 10
+2025-04-24 09:09:45,007 INFO [data_module.py:292] About to create train dataset
+2025-04-24 09:09:45,008 INFO [data_module.py:319] Using DynamicBucketingSampler.
+2025-04-24 09:09:45,039 WARNING [train.py:847] Exclude cut with ID c45eb75253bb65901de61b81270c9974 from training. Duration: 6.199727891156463, lenth: 2321
+2025-04-24 09:09:45,222 WARNING [train.py:847] Exclude cut with ID 82678aa1e73accb2d11a87440a90fd55 from training. Duration: 5.0967800453514736, lenth: 2413
+2025-04-24 09:09:45,716 WARNING [train.py:847] Exclude cut with ID 345bcf1b57cbfcf140007812e992c07a from training. Duration: 5.712108843537415, lenth: 2520
+2025-04-24 09:09:45,867 WARNING [train.py:847] Exclude cut with ID 2bc428341a40605b4887a7e46e3ee4ac from training. Duration: 3.657142857142857, lenth: 2282
+2025-04-24 09:09:45,933 WARNING [train.py:847] Exclude cut with ID 24c14f6007ceb8d993f6496aeb663c24 from training. Duration: 2.391655328798186, lenth: 2218
+2025-04-24 09:09:45,998 INFO [data_module.py:336] About to create train dataloader
+2025-04-24 09:09:45,999 INFO [data_module.py:436] About to get test cuts
+2025-04-24 09:09:45,999 INFO [data_module.py:365] About to create dev dataset
+2025-04-24 09:09:46,086 INFO [data_module.py:379] About to create dev dataloader
+2025-04-24 09:09:46,092 INFO [train.py:875] start training from epoch 1
+2025-04-24 09:09:46,257 WARNING [train.py:847] Exclude cut with ID c45eb75253bb65901de61b81270c9974 from training. Duration: 6.199727891156463, lenth: 2321
+2025-04-24 09:09:46,483 WARNING [train.py:847] Exclude cut with ID 82678aa1e73accb2d11a87440a90fd55 from training. Duration: 5.0967800453514736, lenth: 2413
+2025-04-24 09:09:47,106 WARNING [train.py:847] Exclude cut with ID 345bcf1b57cbfcf140007812e992c07a from training. Duration: 5.712108843537415, lenth: 2520
+2025-04-24 09:09:47,300 WARNING [train.py:847] Exclude cut with ID 2bc428341a40605b4887a7e46e3ee4ac from training. Duration: 3.657142857142857, lenth: 2282
+2025-04-24 09:09:47,378 WARNING [train.py:847] Exclude cut with ID 24c14f6007ceb8d993f6496aeb663c24 from training. Duration: 2.391655328798186, lenth: 2218
+2025-04-24 09:09:47,927 WARNING [train.py:847] Exclude cut with ID de225db1da1393474e4ce9af8cbafb42 from training. Duration: 5.433469387755102, lenth: 2230
+2025-04-24 09:09:48,216 WARNING [train.py:847] Exclude cut with ID ef376c7d1fb4606edb0547b2a7fb95b3 from training. Duration: 2.7399546485260773, lenth: 2637
+2025-04-24 09:09:48,545 WARNING [train.py:847] Exclude cut with ID c7f3c7da44c2c6e27f86bda421b958d8 from training. Duration: 2.995374149659864, lenth: 2318
+2025-04-24 09:09:48,715 WARNING [train.py:847] Exclude cut with ID 8d724f452d1d99549eebf90ab658e7bd from training. Duration: 5.712108843537415, lenth: 2209
+2025-04-24 09:09:48,829 WARNING [train.py:847] Exclude cut with ID a585785e795cb35d02d8f7b599352e16 from training. Duration: 4.911020408163266, lenth: 2575
+2025-04-24 09:09:48,909 WARNING [train.py:847] Exclude cut with ID 31a00c5e63c88ef67402f578ebc6ebf7 from training. Duration: 3.575873015873016, lenth: 2307
+2025-04-24 09:09:49,023 WARNING [train.py:847] Exclude cut with ID 32ab4761aaf08d9473fc8388c3a6cffc from training. Duration: 7.9760544217687075, lenth: 2201
+2025-04-24 09:09:49,079 WARNING [train.py:847] Exclude cut with ID 5fddb6bf9d5265c0409b81c85fadbaec from training. Duration: 3.4597732426303853, lenth: 2210
+2025-04-24 09:09:49,909 WARNING [train.py:847] Exclude cut with ID c5d43a2443ce7820cf864f7c55eafb77 from training. Duration: 3.912562358276644, lenth: 2315
+2025-04-24 09:09:50,954 WARNING [train.py:847] Exclude cut with ID a951e36267c8901d4c03fb6b4dffe636 from training. Duration: 4.73687074829932, lenth: 2223
+2025-04-24 09:09:51,025 WARNING [train.py:847] Exclude cut with ID 595680451c1ee7e42dba0452e165dea3 from training. Duration: 3.959002267573696, lenth: 2251
+2025-04-24 09:09:51,576 WARNING [train.py:847] Exclude cut with ID 20fa9b11557159d78f72ccc6b464de18 from training. Duration: 3.9938321995464854, lenth: 2215
+2025-04-24 09:09:51,630 WARNING [train.py:847] Exclude cut with ID 8a01fc72b4108673fd8393e523450e23 from training. Duration: 8.719092970521542, lenth: 2517
+2025-04-24 09:09:52,139 WARNING [train.py:847] Exclude cut with ID 924d54288847d448a20809a26b320477 from training. Duration: 3.81968253968254, lenth: 2302
+2025-04-24 09:09:52,437 WARNING [train.py:847] Exclude cut with ID a7f91a17f6318d896d0bee7b7307d000 from training. Duration: 5.294149659863946, lenth: 2239
+2025-04-24 09:09:52,922 WARNING [train.py:847] Exclude cut with ID 8d7cff5d1d25a773f9d27590b5912b60 from training. Duration: 4.597551020408163, lenth: 2203
+2025-04-24 09:09:53,040 WARNING [train.py:847] Exclude cut with ID 13407ca1ec78def38346569b54d11a78 from training. Duration: 5.909478458049887, lenth: 2280
+2025-04-24 09:09:53,044 WARNING [train.py:847] Exclude cut with ID 6390ab6964b52f2ee9bf36826393abaa from training. Duration: 4.017052154195011, lenth: 2209
+2025-04-24 09:09:53,086 WARNING [train.py:847] Exclude cut with ID f55c19435d6643ebf7356a1072a014fa from training. Duration: 5.259319727891157, lenth: 2310
+2025-04-24 09:09:53,765 WARNING [train.py:847] Exclude cut with ID 546f5fb6d11db41d104ee7b0667f4e1d from training. Duration: 5.712108843537415, lenth: 2770
+2025-04-24 09:09:54,071 WARNING [train.py:847] Exclude cut with ID b2069846ab4df18f5caa676751aa0b40 from training. Duration: 6.6525170068027215, lenth: 2588
+2025-04-24 09:09:54,445 WARNING [train.py:847] Exclude cut with ID 5717a65b9855425c0330e6022a71cc2f from training. Duration: 5.073560090702948, lenth: 2269
+2025-04-24 09:09:54,746 WARNING [train.py:847] Exclude cut with ID d6e37a975b3c69a86a808347b53e42f2 from training. Duration: 5.259319727891157, lenth: 2885
+2025-04-24 09:09:54,894 WARNING [train.py:847] Exclude cut with ID d15e75257f8dac616c078113f8f96c63 from training. Duration: 7.6741950113378685, lenth: 2276
+2025-04-24 09:09:54,958 WARNING [train.py:847] Exclude cut with ID 7ea49b35e0dc536537ae3ddcd07032af from training. Duration: 4.829750566893424, lenth: 2206
+2025-04-24 09:09:55,412 WARNING [train.py:847] Exclude cut with ID 0a1a80c13fd0c38d97c9491dff84c7da from training. Duration: 2.914104308390023, lenth: 2220
+2025-04-24 09:09:55,461 WARNING [train.py:847] Exclude cut with ID 359ff41c694bb848c3e37b948b1434f7 from training. Duration: 6.478367346938776, lenth: 2881
+2025-04-24 09:09:55,469 WARNING [train.py:847] Exclude cut with ID 6989881203588034ddf38ae5a7cfe238 from training. Duration: 5.491519274376417, lenth: 2243
+2025-04-24 09:09:55,741 WARNING [train.py:847] Exclude cut with ID fd7b5cb9a6bce2c02bf8a7c3dd2b35d6 from training. Duration: 5.793378684807256, lenth: 2305
+2025-04-24 09:09:56,713 WARNING [train.py:847] Exclude cut with ID e1c5efd6d4cd7c6dc0f3ac7720161c49 from training. Duration: 9.438911564625851, lenth: 2201
+2025-04-24 09:09:57,105 WARNING [train.py:847] Exclude cut with ID c13ffcc7b60ea460731e417d2d9575cf from training. Duration: 3.250793650793651, lenth: 2205
+2025-04-24 09:09:57,196 WARNING [train.py:847] Exclude cut with ID ba1a37e64efe00d8b8cbfb0069e65f8d from training. Duration: 3.274013605442177, lenth: 2290
+2025-04-24 09:09:57,273 WARNING [train.py:847] Exclude cut with ID de9f5fe02034bc4b0a66fbe378fffb1a from training. Duration: 6.455147392290249, lenth: 2228
+2025-04-24 09:09:57,753 WARNING [train.py:847] Exclude cut with ID 8ca7a35870994edd410e1ea8e951faa3 from training. Duration: 7.012426303854875, lenth: 2233
+2025-04-24 09:09:57,897 WARNING [train.py:847] Exclude cut with ID 3260368505eddf46fb1c9b562124ff18 from training. Duration: 12.097596371882085, lenth: 2261
+2025-04-24 09:09:58,088 WARNING [train.py:847] Exclude cut with ID 36878ea551121147626747e9fc39ae17 from training. Duration: 5.537959183673469, lenth: 2224
+2025-04-24 09:09:59,042 WARNING [train.py:847] Exclude cut with ID d4c7270e6c9b3dffed8643040b5f922b from training. Duration: 4.133151927437642, lenth: 2329
+2025-04-24 09:09:59,502 WARNING [train.py:847] Exclude cut with ID 179517464c97fbbcb8909a56b849bf73 from training. Duration: 6.617687074829932, lenth: 2257
+2025-04-24 09:09:59,704 WARNING [train.py:847] Exclude cut with ID 17480e9524e4c0f8e405487e50c8e98e from training. Duration: 4.551111111111111, lenth: 2263
+2025-04-24 09:09:59,792 WARNING [train.py:847] Exclude cut with ID 2c10af552b911b8ac45c1fc7bb9fcb5d from training. Duration: 6.2693877551020405, lenth: 2481
+2025-04-24 09:09:59,902 WARNING [train.py:847] Exclude cut with ID aa2539588175d8c96975a06a8993e5b6 from training. Duration: 5.456689342403628, lenth: 2573
+2025-04-24 09:09:59,933 WARNING [train.py:847] Exclude cut with ID 32945d8e21a8628bb3c93fd499330639 from training. Duration: 13.455963718820861, lenth: 2205
+2025-04-24 09:10:00,098 WARNING [train.py:847] Exclude cut with ID 64db5d6166c3edc340d8e1b02c059f19 from training. Duration: 4.818140589569161, lenth: 2259
+2025-04-24 09:10:00,235 WARNING [train.py:847] Exclude cut with ID 39483151e08291efe16217ab41622d59 from training. Duration: 7.952834467120182, lenth: 2439
+2025-04-24 09:10:00,924 WARNING [train.py:847] Exclude cut with ID c4a74dd23aa9a3fb13330113787139d6 from training. Duration: 3.239183673469388, lenth: 2276
+2025-04-24 09:10:00,966 WARNING [train.py:847] Exclude cut with ID b12a8836f1aa525a763ac657a44229a3 from training. Duration: 5.0967800453514736, lenth: 2427
+2025-04-24 09:10:04,105 WARNING [train.py:847] Exclude cut with ID 185cfa3ae9c12babe1e217de612f0c7b from training. Duration: 6.257777777777778, lenth: 2587
+2025-04-24 09:10:04,192 WARNING [train.py:847] Exclude cut with ID 08eff5b64d191a0d50634630437a3107 from training. Duration: 10.135510204081633, lenth: 2273
+2025-04-24 09:10:04,279 WARNING [train.py:847] Exclude cut with ID bcd8207538deeccfcf8d1de872b8f7e9 from training. Duration: 4.179591836734694, lenth: 2242
+2025-04-24 09:10:04,474 WARNING [train.py:847] Exclude cut with ID f909651c923fdd6cc0eaa81de64f4a5b from training. Duration: 8.068934240362811, lenth: 2421
+2025-04-24 09:10:04,502 WARNING [train.py:847] Exclude cut with ID f5d34097b89bd201018189ff44b10b33 from training. Duration: 3.7964625850340137, lenth: 2250
+2025-04-24 09:10:04,592 WARNING [train.py:847] Exclude cut with ID 245530abe5a62b390611b7a3b91ddfef from training. Duration: 9.079002267573696, lenth: 2299
+2025-04-24 09:10:05,468 WARNING [train.py:847] Exclude cut with ID 79d0d3129c764fd4d9c5391b6353e349 from training. Duration: 5.0967800453514736, lenth: 2309
+2025-04-24 09:10:05,505 WARNING [train.py:847] Exclude cut with ID 1969177f73511ef204642f43ce029d05 from training. Duration: 3.657142857142857, lenth: 2339
+2025-04-24 09:10:06,014 WARNING [train.py:847] Exclude cut with ID f601e756ecd6074cd3037c61e413cb6e from training. Duration: 5.712108843537415, lenth: 2287
+2025-04-24 09:10:06,271 WARNING [train.py:847] Exclude cut with ID 9f7758e035b3eebcb9267aa49ad65d4c from training. Duration: 3.9938321995464854, lenth: 2303
+2025-04-24 09:10:07,035 WARNING [train.py:847] Exclude cut with ID b29a42e8c0af813bf605d7f0a974620c from training. Duration: 5.050340136054421, lenth: 2219
+2025-04-24 09:10:07,208 WARNING [train.py:847] Exclude cut with ID 192e5517b050a4659892a2832d986764 from training. Duration: 5.12, lenth: 2420
+2025-04-24 09:10:07,376 WARNING [train.py:847] Exclude cut with ID bc262e923d16a434a3c5701bea841e4e from training. Duration: 7.418775510204082, lenth: 2205
+2025-04-24 09:10:07,535 WARNING [train.py:847] Exclude cut with ID 5141e01019dec47ed309fbf5881ab675 from training. Duration: 8.034104308390022, lenth: 2284
+2025-04-24 09:10:07,564 WARNING [train.py:847] Exclude cut with ID 3555e5c7123d744b39ba7ecce44ce1e2 from training. Duration: 3.7151927437641725, lenth: 2226
+2025-04-24 09:10:08,012 WARNING [train.py:847] Exclude cut with ID 973a1dc43ca452580d6999027a82fbec from training. Duration: 5.270929705215419, lenth: 2250
+2025-04-24 09:10:08,113 WARNING [train.py:847] Exclude cut with ID e2791accb62bb5e4bde9e0e2b04945c5 from training. Duration: 3.517823129251701, lenth: 2286
+2025-04-24 09:10:08,285 WARNING [train.py:847] Exclude cut with ID e91152d010c4479932b7ab64a998d5c9 from training. Duration: 4.771700680272109, lenth: 2468
+2025-04-24 09:10:08,418 WARNING [train.py:847] Exclude cut with ID cff6a8011a86580fcf47595d18819ae9 from training. Duration: 4.458231292517007, lenth: 2205
+2025-04-24 09:10:08,466 WARNING [train.py:847] Exclude cut with ID 1623cdac3d17f7a211e8a8f434f70657 from training. Duration: 4.191201814058957, lenth: 2308
+2025-04-24 09:10:09,098 WARNING [train.py:847] Exclude cut with ID 273cfc04aebaf8b0cad541d0f3d1cded from training. Duration: 6.408707482993197, lenth: 2609
+2025-04-24 09:10:09,182 WARNING [train.py:847] Exclude cut with ID 7d591b090a42935fd1edd8de97c690b6 from training. Duration: 5.038730158730159, lenth: 2229
+2025-04-24 09:10:09,281 WARNING [train.py:847] Exclude cut with ID 1cfa9ef743b568bb034b415000c8c479 from training. Duration: 7.174965986394557, lenth: 2440
+2025-04-24 09:10:10,073 WARNING [train.py:847] Exclude cut with ID 762676d460719a9203fa7e7537560530 from training. Duration: 3.1346938775510202, lenth: 2443
+2025-04-24 09:10:10,581 WARNING [train.py:847] Exclude cut with ID 43575814ad7bb6d631483cdc513b49ac from training. Duration: 10.95981859410431, lenth: 2380
+2025-04-24 09:10:10,698 WARNING [train.py:847] Exclude cut with ID ae208dee7119ca436f380b99077bcde9 from training. Duration: 5.2128798185941045, lenth: 2615
+2025-04-24 09:10:10,784 WARNING [train.py:847] Exclude cut with ID b56757708077ab00baa7857c1cef8491 from training. Duration: 5.456689342403628, lenth: 2206
+2025-04-24 09:10:11,014 WARNING [train.py:847] Exclude cut with ID f3f6d5671f3d11bc83f8fcad598007ff from training. Duration: 4.179591836734694, lenth: 2262
+2025-04-24 09:10:11,431 WARNING [train.py:847] Exclude cut with ID 6af07f098cd794b9dd5a6bd660f53505 from training. Duration: 4.435011337868481, lenth: 2251
+2025-04-24 09:10:11,568 WARNING [train.py:847] Exclude cut with ID 4ac1131393136a35ef54499bf3c728d4 from training. Duration: 7.732244897959184, lenth: 2211
+2025-04-24 09:10:11,570 WARNING [train.py:847] Exclude cut with ID 482877e78defa83a355d2cdeb5a629ed from training. Duration: 5.154829931972789, lenth: 2891
+2025-04-24 09:10:13,777 WARNING [train.py:847] Exclude cut with ID a93637e8f3e7bdf34bc8eb5d34d34197 from training. Duration: 3.215963718820862, lenth: 2235
+2025-04-24 09:10:15,429 WARNING [train.py:847] Exclude cut with ID 90c6fbf20eeb34c13ffb97a198d84b0b from training. Duration: 5.0967800453514736, lenth: 2236
+2025-04-24 09:10:15,536 INFO [train.py:539] Computing validation loss

log/log-train-2025-04-24-09-15-56 ADDED Viewed

	@@ -0,0 +1,689 @@

+2025-04-24 09:15:56,357 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.172.122",
+    "hostname": "7515258",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Thu Apr 24 08:24:11 2025",
+    "icefall-git-sha1": "2e9be467-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 40,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": null,
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": null,
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-24 09:15:56,357 INFO [train.py:655] About to create model
+2025-04-24 09:16:18,941 INFO [train.py:808] Number of model parameters: 1326848644
+2025-04-24 09:16:18,941 INFO [train.py:810] Trainable parameters (excluding model.eval modules):
+2025-04-24 09:16:18,942 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,942 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,942 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,942 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,942 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,942 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,942 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,942 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,943 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,944 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,945 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,946 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,947 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,948 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,949 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,950 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,951 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,952 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,953 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,954 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,955 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,956 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,957 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,958 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,959 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,960 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,960 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 09:16:18,960 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 09:16:18,960 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 09:16:18,960 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 09:16:18,960 INFO [train.py:813] encoder_projector.linear1.weight: torch.Size([896, 10240])
+2025-04-24 09:16:18,960 INFO [train.py:813] encoder_projector.linear1.bias: torch.Size([896])
+2025-04-24 09:16:18,960 INFO [train.py:813] encoder_projector.linear2.weight: torch.Size([896, 896])
+2025-04-24 09:16:18,960 INFO [train.py:813] encoder_projector.linear2.bias: torch.Size([896])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,960 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,961 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,962 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,963 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,964 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,965 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,966 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,967 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,968 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,969 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,969 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 09:16:18,969 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 09:16:18,969 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 09:16:18,969 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 09:16:18,969 INFO [train.py:813] speech_token_projector.weight: torch.Size([1024, 896])
+2025-04-24 09:16:18,969 INFO [train.py:813] speech_token_projector.bias: torch.Size([1024])
+2025-04-24 09:16:18,969 INFO [train.py:813] codec_lm_head.weight: torch.Size([4100, 1024])
+2025-04-24 09:16:18,969 INFO [train.py:813] codec_lm_head.bias: torch.Size([4100])
+2025-04-24 09:16:18,969 INFO [train.py:819] Device: cuda:0
+2025-04-24 09:16:19,658 INFO [train.py:823] Using DeepSpeed
+2025-04-24 09:16:21,501 INFO [data_module.py:445] About to get train cuts
+2025-04-24 09:16:21,504 INFO [data_module.py:250] Disable MUSAN
+2025-04-24 09:16:21,504 INFO [data_module.py:268] Enable SpecAugment
+2025-04-24 09:16:21,504 INFO [data_module.py:269] Time warp factor: 80
+2025-04-24 09:16:21,505 INFO [data_module.py:279] Num frame mask: 10
+2025-04-24 09:16:21,505 INFO [data_module.py:292] About to create train dataset
+2025-04-24 09:16:21,505 INFO [data_module.py:319] Using DynamicBucketingSampler.
+2025-04-24 09:16:21,537 WARNING [train.py:847] Exclude cut with ID c45eb75253bb65901de61b81270c9974 from training. Duration: 6.199727891156463, lenth: 2321
+2025-04-24 09:16:21,720 WARNING [train.py:847] Exclude cut with ID 82678aa1e73accb2d11a87440a90fd55 from training. Duration: 5.0967800453514736, lenth: 2413
+2025-04-24 09:16:22,210 WARNING [train.py:847] Exclude cut with ID 345bcf1b57cbfcf140007812e992c07a from training. Duration: 5.712108843537415, lenth: 2520
+2025-04-24 09:16:22,364 WARNING [train.py:847] Exclude cut with ID 2bc428341a40605b4887a7e46e3ee4ac from training. Duration: 3.657142857142857, lenth: 2282
+2025-04-24 09:16:22,430 WARNING [train.py:847] Exclude cut with ID 24c14f6007ceb8d993f6496aeb663c24 from training. Duration: 2.391655328798186, lenth: 2218
+2025-04-24 09:16:22,494 INFO [data_module.py:336] About to create train dataloader
+2025-04-24 09:16:22,495 INFO [data_module.py:436] About to get test cuts
+2025-04-24 09:16:22,496 INFO [data_module.py:365] About to create dev dataset
+2025-04-24 09:16:22,586 INFO [data_module.py:379] About to create dev dataloader
+2025-04-24 09:16:22,594 INFO [train.py:875] start training from epoch 1
+2025-04-24 09:16:22,719 WARNING [train.py:847] Exclude cut with ID c45eb75253bb65901de61b81270c9974 from training. Duration: 6.199727891156463, lenth: 2321
+2025-04-24 09:16:22,947 WARNING [train.py:847] Exclude cut with ID 82678aa1e73accb2d11a87440a90fd55 from training. Duration: 5.0967800453514736, lenth: 2413
+2025-04-24 09:16:23,573 WARNING [train.py:847] Exclude cut with ID 345bcf1b57cbfcf140007812e992c07a from training. Duration: 5.712108843537415, lenth: 2520
+2025-04-24 09:16:23,764 WARNING [train.py:847] Exclude cut with ID 2bc428341a40605b4887a7e46e3ee4ac from training. Duration: 3.657142857142857, lenth: 2282
+2025-04-24 09:16:23,840 WARNING [train.py:847] Exclude cut with ID 24c14f6007ceb8d993f6496aeb663c24 from training. Duration: 2.391655328798186, lenth: 2218
+2025-04-24 09:16:24,386 WARNING [train.py:847] Exclude cut with ID de225db1da1393474e4ce9af8cbafb42 from training. Duration: 5.433469387755102, lenth: 2230
+2025-04-24 09:16:24,677 WARNING [train.py:847] Exclude cut with ID ef376c7d1fb4606edb0547b2a7fb95b3 from training. Duration: 2.7399546485260773, lenth: 2637
+2025-04-24 09:16:25,021 WARNING [train.py:847] Exclude cut with ID c7f3c7da44c2c6e27f86bda421b958d8 from training. Duration: 2.995374149659864, lenth: 2318
+2025-04-24 09:16:25,194 WARNING [train.py:847] Exclude cut with ID 8d724f452d1d99549eebf90ab658e7bd from training. Duration: 5.712108843537415, lenth: 2209
+2025-04-24 09:16:25,310 WARNING [train.py:847] Exclude cut with ID a585785e795cb35d02d8f7b599352e16 from training. Duration: 4.911020408163266, lenth: 2575
+2025-04-24 09:16:25,391 WARNING [train.py:847] Exclude cut with ID 31a00c5e63c88ef67402f578ebc6ebf7 from training. Duration: 3.575873015873016, lenth: 2307
+2025-04-24 09:16:25,508 WARNING [train.py:847] Exclude cut with ID 32ab4761aaf08d9473fc8388c3a6cffc from training. Duration: 7.9760544217687075, lenth: 2201
+2025-04-24 09:16:25,564 WARNING [train.py:847] Exclude cut with ID 5fddb6bf9d5265c0409b81c85fadbaec from training. Duration: 3.4597732426303853, lenth: 2210
+2025-04-24 09:16:26,408 WARNING [train.py:847] Exclude cut with ID c5d43a2443ce7820cf864f7c55eafb77 from training. Duration: 3.912562358276644, lenth: 2315
+2025-04-24 09:16:27,597 WARNING [train.py:847] Exclude cut with ID a951e36267c8901d4c03fb6b4dffe636 from training. Duration: 4.73687074829932, lenth: 2223
+2025-04-24 09:16:27,668 WARNING [train.py:847] Exclude cut with ID 595680451c1ee7e42dba0452e165dea3 from training. Duration: 3.959002267573696, lenth: 2251
+2025-04-24 09:16:28,218 WARNING [train.py:847] Exclude cut with ID 20fa9b11557159d78f72ccc6b464de18 from training. Duration: 3.9938321995464854, lenth: 2215
+2025-04-24 09:16:28,272 WARNING [train.py:847] Exclude cut with ID 8a01fc72b4108673fd8393e523450e23 from training. Duration: 8.719092970521542, lenth: 2517
+2025-04-24 09:16:28,798 WARNING [train.py:847] Exclude cut with ID 924d54288847d448a20809a26b320477 from training. Duration: 3.81968253968254, lenth: 2302
+2025-04-24 09:16:29,100 WARNING [train.py:847] Exclude cut with ID a7f91a17f6318d896d0bee7b7307d000 from training. Duration: 5.294149659863946, lenth: 2239
+2025-04-24 09:16:29,600 WARNING [train.py:847] Exclude cut with ID 8d7cff5d1d25a773f9d27590b5912b60 from training. Duration: 4.597551020408163, lenth: 2203
+2025-04-24 09:16:29,720 WARNING [train.py:847] Exclude cut with ID 13407ca1ec78def38346569b54d11a78 from training. Duration: 5.909478458049887, lenth: 2280
+2025-04-24 09:16:29,724 WARNING [train.py:847] Exclude cut with ID 6390ab6964b52f2ee9bf36826393abaa from training. Duration: 4.017052154195011, lenth: 2209
+2025-04-24 09:16:29,769 WARNING [train.py:847] Exclude cut with ID f55c19435d6643ebf7356a1072a014fa from training. Duration: 5.259319727891157, lenth: 2310
+2025-04-24 09:16:30,441 WARNING [train.py:847] Exclude cut with ID 546f5fb6d11db41d104ee7b0667f4e1d from training. Duration: 5.712108843537415, lenth: 2770
+2025-04-24 09:16:30,732 WARNING [train.py:847] Exclude cut with ID b2069846ab4df18f5caa676751aa0b40 from training. Duration: 6.6525170068027215, lenth: 2588
+2025-04-24 09:16:31,105 WARNING [train.py:847] Exclude cut with ID 5717a65b9855425c0330e6022a71cc2f from training. Duration: 5.073560090702948, lenth: 2269
+2025-04-24 09:16:31,416 WARNING [train.py:847] Exclude cut with ID d6e37a975b3c69a86a808347b53e42f2 from training. Duration: 5.259319727891157, lenth: 2885
+2025-04-24 09:16:31,564 WARNING [train.py:847] Exclude cut with ID d15e75257f8dac616c078113f8f96c63 from training. Duration: 7.6741950113378685, lenth: 2276
+2025-04-24 09:16:31,632 WARNING [train.py:847] Exclude cut with ID 7ea49b35e0dc536537ae3ddcd07032af from training. Duration: 4.829750566893424, lenth: 2206
+2025-04-24 09:16:32,095 WARNING [train.py:847] Exclude cut with ID 0a1a80c13fd0c38d97c9491dff84c7da from training. Duration: 2.914104308390023, lenth: 2220
+2025-04-24 09:16:32,143 WARNING [train.py:847] Exclude cut with ID 359ff41c694bb848c3e37b948b1434f7 from training. Duration: 6.478367346938776, lenth: 2881
+2025-04-24 09:16:32,151 WARNING [train.py:847] Exclude cut with ID 6989881203588034ddf38ae5a7cfe238 from training. Duration: 5.491519274376417, lenth: 2243
+2025-04-24 09:16:32,424 WARNING [train.py:847] Exclude cut with ID fd7b5cb9a6bce2c02bf8a7c3dd2b35d6 from training. Duration: 5.793378684807256, lenth: 2305
+2025-04-24 09:16:33,613 WARNING [train.py:847] Exclude cut with ID e1c5efd6d4cd7c6dc0f3ac7720161c49 from training. Duration: 9.438911564625851, lenth: 2201
+2025-04-24 09:16:34,013 WARNING [train.py:847] Exclude cut with ID c13ffcc7b60ea460731e417d2d9575cf from training. Duration: 3.250793650793651, lenth: 2205
+2025-04-24 09:16:34,104 WARNING [train.py:847] Exclude cut with ID ba1a37e64efe00d8b8cbfb0069e65f8d from training. Duration: 3.274013605442177, lenth: 2290
+2025-04-24 09:16:34,183 WARNING [train.py:847] Exclude cut with ID de9f5fe02034bc4b0a66fbe378fffb1a from training. Duration: 6.455147392290249, lenth: 2228
+2025-04-24 09:16:34,674 WARNING [train.py:847] Exclude cut with ID 8ca7a35870994edd410e1ea8e951faa3 from training. Duration: 7.012426303854875, lenth: 2233
+2025-04-24 09:16:34,821 WARNING [train.py:847] Exclude cut with ID 3260368505eddf46fb1c9b562124ff18 from training. Duration: 12.097596371882085, lenth: 2261
+2025-04-24 09:16:35,017 WARNING [train.py:847] Exclude cut with ID 36878ea551121147626747e9fc39ae17 from training. Duration: 5.537959183673469, lenth: 2224
+2025-04-24 09:16:35,938 WARNING [train.py:847] Exclude cut with ID d4c7270e6c9b3dffed8643040b5f922b from training. Duration: 4.133151927437642, lenth: 2329
+2025-04-24 09:16:36,406 WARNING [train.py:847] Exclude cut with ID 179517464c97fbbcb8909a56b849bf73 from training. Duration: 6.617687074829932, lenth: 2257
+2025-04-24 09:16:36,608 WARNING [train.py:847] Exclude cut with ID 17480e9524e4c0f8e405487e50c8e98e from training. Duration: 4.551111111111111, lenth: 2263
+2025-04-24 09:16:36,697 WARNING [train.py:847] Exclude cut with ID 2c10af552b911b8ac45c1fc7bb9fcb5d from training. Duration: 6.2693877551020405, lenth: 2481
+2025-04-24 09:16:36,805 WARNING [train.py:847] Exclude cut with ID aa2539588175d8c96975a06a8993e5b6 from training. Duration: 5.456689342403628, lenth: 2573
+2025-04-24 09:16:36,842 WARNING [train.py:847] Exclude cut with ID 32945d8e21a8628bb3c93fd499330639 from training. Duration: 13.455963718820861, lenth: 2205
+2025-04-24 09:16:37,010 WARNING [train.py:847] Exclude cut with ID 64db5d6166c3edc340d8e1b02c059f19 from training. Duration: 4.818140589569161, lenth: 2259
+2025-04-24 09:16:37,145 WARNING [train.py:847] Exclude cut with ID 39483151e08291efe16217ab41622d59 from training. Duration: 7.952834467120182, lenth: 2439
+2025-04-24 09:16:37,842 WARNING [train.py:847] Exclude cut with ID c4a74dd23aa9a3fb13330113787139d6 from training. Duration: 3.239183673469388, lenth: 2276
+2025-04-24 09:16:37,885 WARNING [train.py:847] Exclude cut with ID b12a8836f1aa525a763ac657a44229a3 from training. Duration: 5.0967800453514736, lenth: 2427
+2025-04-24 09:16:41,266 WARNING [train.py:847] Exclude cut with ID 185cfa3ae9c12babe1e217de612f0c7b from training. Duration: 6.257777777777778, lenth: 2587
+2025-04-24 09:16:41,353 WARNING [train.py:847] Exclude cut with ID 08eff5b64d191a0d50634630437a3107 from training. Duration: 10.135510204081633, lenth: 2273
+2025-04-24 09:16:41,441 WARNING [train.py:847] Exclude cut with ID bcd8207538deeccfcf8d1de872b8f7e9 from training. Duration: 4.179591836734694, lenth: 2242
+2025-04-24 09:16:41,639 WARNING [train.py:847] Exclude cut with ID f909651c923fdd6cc0eaa81de64f4a5b from training. Duration: 8.068934240362811, lenth: 2421
+2025-04-24 09:16:41,667 WARNING [train.py:847] Exclude cut with ID f5d34097b89bd201018189ff44b10b33 from training. Duration: 3.7964625850340137, lenth: 2250
+2025-04-24 09:16:41,758 WARNING [train.py:847] Exclude cut with ID 245530abe5a62b390611b7a3b91ddfef from training. Duration: 9.079002267573696, lenth: 2299
+2025-04-24 09:16:42,647 WARNING [train.py:847] Exclude cut with ID 79d0d3129c764fd4d9c5391b6353e349 from training. Duration: 5.0967800453514736, lenth: 2309
+2025-04-24 09:16:42,684 WARNING [train.py:847] Exclude cut with ID 1969177f73511ef204642f43ce029d05 from training. Duration: 3.657142857142857, lenth: 2339
+2025-04-24 09:16:43,198 WARNING [train.py:847] Exclude cut with ID f601e756ecd6074cd3037c61e413cb6e from training. Duration: 5.712108843537415, lenth: 2287
+2025-04-24 09:16:43,450 WARNING [train.py:847] Exclude cut with ID 9f7758e035b3eebcb9267aa49ad65d4c from training. Duration: 3.9938321995464854, lenth: 2303
+2025-04-24 09:16:43,934 WARNING [train.py:847] Exclude cut with ID b29a42e8c0af813bf605d7f0a974620c from training. Duration: 5.050340136054421, lenth: 2219
+2025-04-24 09:16:44,106 WARNING [train.py:847] Exclude cut with ID 192e5517b050a4659892a2832d986764 from training. Duration: 5.12, lenth: 2420
+2025-04-24 09:16:44,279 WARNING [train.py:847] Exclude cut with ID bc262e923d16a434a3c5701bea841e4e from training. Duration: 7.418775510204082, lenth: 2205
+2025-04-24 09:16:44,447 WARNING [train.py:847] Exclude cut with ID 5141e01019dec47ed309fbf5881ab675 from training. Duration: 8.034104308390022, lenth: 2284
+2025-04-24 09:16:44,478 WARNING [train.py:847] Exclude cut with ID 3555e5c7123d744b39ba7ecce44ce1e2 from training. Duration: 3.7151927437641725, lenth: 2226
+2025-04-24 09:16:44,934 WARNING [train.py:847] Exclude cut with ID 973a1dc43ca452580d6999027a82fbec from training. Duration: 5.270929705215419, lenth: 2250
+2025-04-24 09:16:45,047 WARNING [train.py:847] Exclude cut with ID e2791accb62bb5e4bde9e0e2b04945c5 from training. Duration: 3.517823129251701, lenth: 2286
+2025-04-24 09:16:45,223 WARNING [train.py:847] Exclude cut with ID e91152d010c4479932b7ab64a998d5c9 from training. Duration: 4.771700680272109, lenth: 2468
+2025-04-24 09:16:45,358 WARNING [train.py:847] Exclude cut with ID cff6a8011a86580fcf47595d18819ae9 from training. Duration: 4.458231292517007, lenth: 2205
+2025-04-24 09:16:45,406 WARNING [train.py:847] Exclude cut with ID 1623cdac3d17f7a211e8a8f434f70657 from training. Duration: 4.191201814058957, lenth: 2308
+2025-04-24 09:16:46,050 WARNING [train.py:847] Exclude cut with ID 273cfc04aebaf8b0cad541d0f3d1cded from training. Duration: 6.408707482993197, lenth: 2609
+2025-04-24 09:16:46,130 WARNING [train.py:847] Exclude cut with ID 7d591b090a42935fd1edd8de97c690b6 from training. Duration: 5.038730158730159, lenth: 2229
+2025-04-24 09:16:46,229 WARNING [train.py:847] Exclude cut with ID 1cfa9ef743b568bb034b415000c8c479 from training. Duration: 7.174965986394557, lenth: 2440
+2025-04-24 09:16:47,010 WARNING [train.py:847] Exclude cut with ID 762676d460719a9203fa7e7537560530 from training. Duration: 3.1346938775510202, lenth: 2443
+2025-04-24 09:16:47,513 WARNING [train.py:847] Exclude cut with ID 43575814ad7bb6d631483cdc513b49ac from training. Duration: 10.95981859410431, lenth: 2380
+2025-04-24 09:16:47,634 WARNING [train.py:847] Exclude cut with ID ae208dee7119ca436f380b99077bcde9 from training. Duration: 5.2128798185941045, lenth: 2615
+2025-04-24 09:16:47,726 WARNING [train.py:847] Exclude cut with ID b56757708077ab00baa7857c1cef8491 from training. Duration: 5.456689342403628, lenth: 2206
+2025-04-24 09:16:47,959 WARNING [train.py:847] Exclude cut with ID f3f6d5671f3d11bc83f8fcad598007ff from training. Duration: 4.179591836734694, lenth: 2262
+2025-04-24 09:16:48,380 WARNING [train.py:847] Exclude cut with ID 6af07f098cd794b9dd5a6bd660f53505 from training. Duration: 4.435011337868481, lenth: 2251
+2025-04-24 09:16:48,518 WARNING [train.py:847] Exclude cut with ID 4ac1131393136a35ef54499bf3c728d4 from training. Duration: 7.732244897959184, lenth: 2211
+2025-04-24 09:16:48,520 WARNING [train.py:847] Exclude cut with ID 482877e78defa83a355d2cdeb5a629ed from training. Duration: 5.154829931972789, lenth: 2891
+2025-04-24 09:16:51,265 WARNING [train.py:847] Exclude cut with ID a93637e8f3e7bdf34bc8eb5d34d34197 from training. Duration: 3.215963718820862, lenth: 2235
+2025-04-24 09:16:52,934 WARNING [train.py:847] Exclude cut with ID 90c6fbf20eeb34c13ffb97a198d84b0b from training. Duration: 5.0967800453514736, lenth: 2236
+2025-04-24 09:16:53,026 INFO [train.py:539] Computing validation loss

log/log-train-2025-04-24-10-12-23 ADDED Viewed

	@@ -0,0 +1,600 @@

+2025-04-24 10:12:23,878 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.172.122",
+    "hostname": "7515258",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Thu Apr 24 08:24:11 2025",
+    "icefall-git-sha1": "2e9be467-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 40,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": null,
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": null,
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-24 10:12:23,878 INFO [train.py:655] About to create model
+2025-04-24 10:12:44,166 INFO [train.py:808] Number of model parameters: 1326848644
+2025-04-24 10:12:44,166 INFO [train.py:810] Trainable parameters (excluding model.eval modules):
+2025-04-24 10:12:44,167 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,167 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,167 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,167 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,167 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,167 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,168 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,169 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,170 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,171 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,172 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,173 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,174 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,175 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,176 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,177 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,178 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,179 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,180 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,181 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,182 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,183 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,184 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:12:44,185 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:12:44,185 INFO [train.py:813] encoder_projector.linear1.weight: torch.Size([896, 10240])
+2025-04-24 10:12:44,185 INFO [train.py:813] encoder_projector.linear1.bias: torch.Size([896])
+2025-04-24 10:12:44,185 INFO [train.py:813] encoder_projector.linear2.weight: torch.Size([896, 896])
+2025-04-24 10:12:44,185 INFO [train.py:813] encoder_projector.linear2.bias: torch.Size([896])
+2025-04-24 10:12:44,185 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,185 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,185 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,185 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,186 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,187 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,188 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,189 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,190 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,191 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,192 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,193 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:12:44,194 INFO [train.py:813] speech_token_projector.weight: torch.Size([1024, 896])
+2025-04-24 10:12:44,194 INFO [train.py:813] speech_token_projector.bias: torch.Size([1024])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm_head.weight: torch.Size([4100, 1024])
+2025-04-24 10:12:44,194 INFO [train.py:813] codec_lm_head.bias: torch.Size([4100])
+2025-04-24 10:12:44,194 INFO [train.py:819] Device: cuda:0
+2025-04-24 10:12:44,922 INFO [train.py:823] Using DeepSpeed
+2025-04-24 10:12:46,690 INFO [data_module.py:445] About to get train cuts
+2025-04-24 10:12:46,693 INFO [data_module.py:250] Disable MUSAN
+2025-04-24 10:12:46,693 INFO [data_module.py:268] Enable SpecAugment
+2025-04-24 10:12:46,693 INFO [data_module.py:269] Time warp factor: 80
+2025-04-24 10:12:46,693 INFO [data_module.py:279] Num frame mask: 10
+2025-04-24 10:12:46,693 INFO [data_module.py:292] About to create train dataset
+2025-04-24 10:12:46,693 INFO [data_module.py:319] Using DynamicBucketingSampler.
+2025-04-24 10:12:47,691 INFO [data_module.py:336] About to create train dataloader
+2025-04-24 10:12:47,692 INFO [data_module.py:436] About to get test cuts
+2025-04-24 10:12:47,693 INFO [data_module.py:365] About to create dev dataset
+2025-04-24 10:12:47,781 INFO [data_module.py:379] About to create dev dataloader
+2025-04-24 10:12:47,788 INFO [train.py:875] start training from epoch 1
+2025-04-24 10:13:18,332 INFO [train.py:539] Computing validation loss

log/log-train-2025-04-24-10-14-50 ADDED Viewed

	@@ -0,0 +1,600 @@

+2025-04-24 10:14:50,019 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.172.122",
+    "hostname": "7515258",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Thu Apr 24 08:24:11 2025",
+    "icefall-git-sha1": "2e9be467-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 40,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": null,
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": null,
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-24 10:14:50,020 INFO [train.py:655] About to create model
+2025-04-24 10:15:09,864 INFO [train.py:808] Number of model parameters: 1327766148
+2025-04-24 10:15:09,865 INFO [train.py:810] Trainable parameters (excluding model.eval modules):
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,866 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,867 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,868 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,869 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,870 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,871 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,872 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,873 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,874 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,875 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,876 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,877 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,878 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,879 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,880 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,881 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,882 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,883 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:15:09,884 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:15:09,884 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:15:09,884 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:15:09,884 INFO [train.py:813] encoder_projector.linear1.weight: torch.Size([896, 10240])
+2025-04-24 10:15:09,884 INFO [train.py:813] encoder_projector.linear1.bias: torch.Size([896])
+2025-04-24 10:15:09,884 INFO [train.py:813] encoder_projector.linear2.weight: torch.Size([896, 896])
+2025-04-24 10:15:09,884 INFO [train.py:813] encoder_projector.linear2.bias: torch.Size([896])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,884 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,885 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,886 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,887 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,888 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,889 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,890 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,891 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:15:09,892 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:15:09,892 INFO [train.py:813] speech_token_projector.weight: torch.Size([1024, 1792])
+2025-04-24 10:15:09,893 INFO [train.py:813] speech_token_projector.bias: torch.Size([1024])
+2025-04-24 10:15:09,893 INFO [train.py:813] codec_lm_head.weight: torch.Size([4100, 1024])
+2025-04-24 10:15:09,893 INFO [train.py:813] codec_lm_head.bias: torch.Size([4100])
+2025-04-24 10:15:09,893 INFO [train.py:819] Device: cuda:1
+2025-04-24 10:15:10,679 INFO [train.py:823] Using DeepSpeed
+2025-04-24 10:15:12,380 INFO [data_module.py:445] About to get train cuts
+2025-04-24 10:15:12,382 INFO [data_module.py:250] Disable MUSAN
+2025-04-24 10:15:12,382 INFO [data_module.py:268] Enable SpecAugment
+2025-04-24 10:15:12,382 INFO [data_module.py:269] Time warp factor: 80
+2025-04-24 10:15:12,382 INFO [data_module.py:279] Num frame mask: 10
+2025-04-24 10:15:12,382 INFO [data_module.py:292] About to create train dataset
+2025-04-24 10:15:12,382 INFO [data_module.py:319] Using DynamicBucketingSampler.
+2025-04-24 10:15:13,374 INFO [data_module.py:336] About to create train dataloader
+2025-04-24 10:15:13,374 INFO [data_module.py:436] About to get test cuts
+2025-04-24 10:15:13,375 INFO [data_module.py:365] About to create dev dataset
+2025-04-24 10:15:13,462 INFO [data_module.py:379] About to create dev dataloader
+2025-04-24 10:15:13,468 INFO [train.py:875] start training from epoch 1
+2025-04-24 10:15:42,675 INFO [train.py:539] Computing validation loss

log/log-train-2025-04-24-10-17-26 ADDED Viewed

	@@ -0,0 +1,607 @@

+2025-04-24 10:17:26,814 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.172.122",
+    "hostname": "7515258",
+    "icefall-git-branch": "master",
+    "icefall-git-date": "Thu Apr 24 08:24:11 2025",
+    "icefall-git-sha1": "2e9be467-dirty",
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 40,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": null,
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": null,
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-24 10:17:26,814 INFO [train.py:655] About to create model
+2025-04-24 10:17:46,427 INFO [train.py:808] Number of model parameters: 1327766148
+2025-04-24 10:17:46,427 INFO [train.py:810] Trainable parameters (excluding model.eval modules):
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,428 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,429 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,430 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,431 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,432 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,433 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,434 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,435 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,436 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,437 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,438 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,439 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,440 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,441 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,442 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,443 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,444 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:17:46,445 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:17:46,445 INFO [train.py:813] encoder_projector.linear1.weight: torch.Size([896, 10240])
+2025-04-24 10:17:46,445 INFO [train.py:813] encoder_projector.linear1.bias: torch.Size([896])
+2025-04-24 10:17:46,445 INFO [train.py:813] encoder_projector.linear2.weight: torch.Size([896, 896])
+2025-04-24 10:17:46,445 INFO [train.py:813] encoder_projector.linear2.bias: torch.Size([896])
+2025-04-24 10:17:46,445 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,445 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,446 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,447 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,448 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,449 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,450 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,451 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,452 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,453 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:17:46,454 INFO [train.py:813] speech_token_projector.weight: torch.Size([1024, 1792])
+2025-04-24 10:17:46,454 INFO [train.py:813] speech_token_projector.bias: torch.Size([1024])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm_head.weight: torch.Size([4100, 1024])
+2025-04-24 10:17:46,454 INFO [train.py:813] codec_lm_head.bias: torch.Size([4100])
+2025-04-24 10:17:46,454 INFO [train.py:819] Device: cuda:0
+2025-04-24 10:17:47,363 INFO [train.py:823] Using DeepSpeed
+2025-04-24 10:17:49,160 INFO [data_module.py:445] About to get train cuts
+2025-04-24 10:17:49,163 INFO [data_module.py:250] Disable MUSAN
+2025-04-24 10:17:49,163 INFO [data_module.py:268] Enable SpecAugment
+2025-04-24 10:17:49,163 INFO [data_module.py:269] Time warp factor: 80
+2025-04-24 10:17:49,163 INFO [data_module.py:279] Num frame mask: 10
+2025-04-24 10:17:49,163 INFO [data_module.py:292] About to create train dataset
+2025-04-24 10:17:49,163 INFO [data_module.py:319] Using DynamicBucketingSampler.
+2025-04-24 10:17:50,163 INFO [data_module.py:336] About to create train dataloader
+2025-04-24 10:17:50,164 INFO [data_module.py:436] About to get test cuts
+2025-04-24 10:17:50,164 INFO [data_module.py:365] About to create dev dataset
+2025-04-24 10:17:50,251 INFO [data_module.py:379] About to create dev dataloader
+2025-04-24 10:17:50,260 INFO [train.py:875] start training from epoch 1
+2025-04-24 10:18:19,657 INFO [train.py:539] Computing validation loss
+2025-04-24 10:18:23,605 INFO [utils.py:1966] Filtering uneven-sized batch, original batch size is 2, retained batch size is 1.
+2025-04-24 10:18:36,169 INFO [train.py:548] Epoch 1, validation: loss=0.007026, acc=0.4635, codec_acc=0.0004482, codec_topk_acc=0.003435, codec_loss=0.0053, text_loss=0.001726, over 284780.00 frames.
+2025-04-24 10:18:36,170 INFO [train.py:549] Maximum memory allocated so far is 9104MB
+2025-04-24 10:18:36,617 INFO [train.py:611] Epoch 1, batch 0, loss[loss=0.006556, acc=0.4215, codec_acc=0, codec_topk_acc=0.0032025-04-24 10:18:36,617 INFO [train.py:611] Epoch 1, batch 0, loss[loss=0.006369, acc=0.48, codec_acc=0, codec_topk_acc=0.003988, codec_loss=0.004861, text_loss=0.001508, over 1743.00 frames. ], tot_loss[loss=0.006369, acc=0.48, codec_acc=2025-04-24 10:19:00,389 INFO [train.py:611] Epoch 1, batch 50, loss[loss=0.006524, acc=0.4478, codec_acc=0.01511, codec_top2025-04-24 10:19:00,389 INFO [train.py:611] Epoch 1, batch 50, loss[loss=0.006777, acc=0.3789, codec_acc=0.01844, codec_topk_acc=0.08811, codec_loss=0.004652, text_loss=0.002125, over 1371.00 frames. ], tot_loss[loss=0.005674, acc=0.4825, codec_acc=0.00862025-04-24 10:19:26,931 INFO [train.py:611] Epoch 1, batch 100, loss[loss=0.00485, acc=0.4072, codec_acc=0.02365, codec_topk2025-04-24 10:19:26,931 INFO [train.py:611] Epoch 1, batch 100, loss[loss=0.004453, acc=0.6573, codec_acc=0.02348, codec_topk_acc=0.08241, codec_loss=0.003445, text_loss=0.001008, over 1826.00 frames. ], tot_loss[loss=0.005231, acc=0.4903, codec_acc=0.02025-04-24 10:19:40,453 INFO [train.py:940] Saving batch to slam_omni/exp_speech2speech_rerun/batch-bdd640fb-0667-1ad1-1c80-317fa3b1799d.pt
+2025-04-24 10:19:40,475 INFO [train.py:945] features shape: torch.Size([8, 455, 80])
+h-bdd640fb-0667-1ad1-1c80-317fa3b1799d.pt
+2025-04-24 10:19:40,473 INFO [train.py:945] features shape: torch.Size([8, 457, 80])

log/log-train-2025-04-24-10-21-52 ADDED Viewed

	@@ -0,0 +1,604 @@

+2025-04-24 10:21:52,552 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.183.253",
+    "hostname": "7518205",
+    "icefall-git-branch": null,
+    "icefall-git-date": null,
+    "icefall-git-sha1": null,
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 50,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": null,
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": null,
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-24 10:21:52,552 INFO [train.py:655] About to create model
+2025-04-24 10:22:24,486 INFO [train.py:808] Number of model parameters: 1327766148
+2025-04-24 10:22:24,487 INFO [train.py:810] Trainable parameters (excluding model.eval modules):
+2025-04-24 10:22:24,487 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,488 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,489 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,490 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,491 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,492 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,493 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,494 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,495 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,496 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,497 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,498 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,499 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,500 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,501 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,502 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,503 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,504 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-24 10:22:24,505 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-24 10:22:24,505 INFO [train.py:813] encoder_projector.linear1.weight: torch.Size([896, 10240])
+2025-04-24 10:22:24,505 INFO [train.py:813] encoder_projector.linear1.bias: torch.Size([896])
+2025-04-24 10:22:24,505 INFO [train.py:813] encoder_projector.linear2.weight: torch.Size([896, 896])
+2025-04-24 10:22:24,505 INFO [train.py:813] encoder_projector.linear2.bias: torch.Size([896])
+2025-04-24 10:22:24,505 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,505 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,506 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,507 INFO [train.py:813] codec_lm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,508 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,509 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,510 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,511 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,512 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,513 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 1024])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([2048, 64])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 2048])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([1024, 64])
+2025-04-24 10:22:24,514 INFO [train.py:813] speech_token_projector.weight: torch.Size([1024, 1792])
+2025-04-24 10:22:24,514 INFO [train.py:813] speech_token_projector.bias: torch.Size([1024])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm_head.weight: torch.Size([4100, 1024])
+2025-04-24 10:22:24,514 INFO [train.py:813] codec_lm_head.bias: torch.Size([4100])
+2025-04-24 10:22:24,514 INFO [train.py:819] Device: cuda:3
+2025-04-24 10:22:25,742 INFO [train.py:823] Using DeepSpeed
+2025-04-24 10:22:52,214 INFO [data_module.py:445] About to get train cuts
+2025-04-24 10:22:52,216 INFO [data_module.py:250] Disable MUSAN
+2025-04-24 10:22:52,216 INFO [data_module.py:268] Enable SpecAugment
+2025-04-24 10:22:52,216 INFO [data_module.py:269] Time warp factor: 80
+2025-04-24 10:22:52,216 INFO [data_module.py:279] Num frame mask: 10
+2025-04-24 10:22:52,217 INFO [data_module.py:292] About to create train dataset
+2025-04-24 10:22:52,217 INFO [data_module.py:319] Using DynamicBucketingSampler.
+2025-04-24 10:22:53,219 INFO [data_module.py:336] About to create train dataloader
+2025-04-24 10:22:53,219 INFO [data_module.py:436] About to get test cuts
+2025-04-24 10:22:53,220 INFO [data_module.py:365] About to create dev dataset
+2025-04-24 10:22:53,308 INFO [data_module.py:379] About to create dev dataloader
+2025-04-24 10:22:53,315 INFO [train.py:875] start training from epoch 1
+2025-04-24 10:23:23,440 INFO [train.py:539] Computing validation loss
+2025-04-24 10:23:31,208 INFO [train.py:548] Epoch 1, validation: loss=0.005359, acc=0.4658, codec_acc=0.0004324, codec_topk_acc=0.003407, codec_loss=0.004039, text_loss=0.00132, over 285507.00 frames.
+2025-04-24 10:23:31,209 INFO [train.py:549] Maximum memory allocated so far is 12383MB
+2025-04-24 10:23:31,687 INFO [train.py:611] Epoch 1, batch 0, loss[loss=0.005086, acc=0.4173, codec_acc=0.001085, codec_topk_ac2025-04-24 10:23:31,687 INFO [train.py:611] Epoch 1, batch 0, loss[loss=0.004863, acc=0.4196, codec_acc=0.0002915, codec_topk_acc=0.002623, codec_loss=0.00371, text_loss=0.001153, over 2279.00 frames. ], tot_loss[loss=0.004863, acc=0.4196, codec_acc=0.0002025-04-24 10:23:39,106 INFO [train.py:940] Saving batch to slam_omni/exp_speech2speech_rerun/batch-bdd640fb-0667-1ad1-1c80-317fa3b1799d.pt
+2025-04-24 10:23:39,117 INFO [train.py:945] features shape: torch.Size([4, 1168, 80])

log/log-train-2025-04-24-10-24-20 ADDED Viewed

The diff for this file is too large to render. See raw diff

log/log-train-2025-04-24-14-23-07 ADDED Viewed

The diff for this file is too large to render. See raw diff

log/log-train-2025-04-25-00-57-07 ADDED Viewed

	@@ -0,0 +1,71 @@

+2025-04-25 00:57:07,641 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.183.253",
+    "hostname": "7518205",
+    "icefall-git-branch": null,
+    "icefall-git-date": null,
+    "icefall-git-sha1": null,
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 50,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": "./slam_omni/exp_speech2speech_rerun/epoch-1-checkpoint-15000.pt/pytorch_model.bin",
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": "./slam_omni/exp_speech2speech_rerun/epoch-1-checkpoint-15000-sampler.pt",
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-25 00:57:07,641 INFO [train.py:655] About to create model

log/log-train-2025-04-25-00-58-05 ADDED Viewed

	@@ -0,0 +1,575 @@

+2025-04-25 00:58:05,568 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.183.253",
+    "hostname": "7518205",
+    "icefall-git-branch": null,
+    "icefall-git-date": null,
+    "icefall-git-sha1": null,
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 50,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": "./slam_omni/exp_speech2speech_rerun/epoch-1-checkpoint-15000.pt/pytorch_model.bin",
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": "./slam_omni/exp_speech2speech_rerun/epoch-1-checkpoint-15000-sampler.pt",
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-25 00:58:05,569 INFO [train.py:655] About to create model
+2025-04-25 00:58:25,413 INFO [train.py:808] Number of model parameters: 1314396804
+2025-04-25 00:58:25,413 INFO [train.py:810] Trainable parameters (excluding model.eval modules):
+2025-04-25 00:58:25,414 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,414 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,414 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,414 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,414 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,415 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,416 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,417 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,418 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,419 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,420 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,421 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,422 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,423 INFO [train.py:813] llm.base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,424 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,425 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,426 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,427 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,428 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,429 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight: torch.Size([128, 64])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight: torch.Size([64, 896])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight: torch.Size([4864, 64])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight: torch.Size([64, 4864])
+2025-04-25 00:58:25,430 INFO [train.py:813] llm.base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight: torch.Size([896, 64])
+2025-04-25 00:58:25,430 INFO [train.py:813] encoder_projector.linear1.weight: torch.Size([896, 10240])
+2025-04-25 00:58:25,430 INFO [train.py:813] encoder_projector.linear1.bias: torch.Size([896])
+2025-04-25 00:58:25,430 INFO [train.py:813] encoder_projector.linear2.weight: torch.Size([896, 896])
+2025-04-25 00:58:25,430 INFO [train.py:813] encoder_projector.linear2.bias: torch.Size([896])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.embed_tokens.weight: torch.Size([4100, 1024])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.layers.0.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.layers.0.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.layers.0.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.layers.0.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.layers.0.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.layers.0.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.layers.0.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,430 INFO [train.py:813] codec_lm.model.layers.0.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.0.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.0.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.0.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.0.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.1.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.2.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,431 INFO [train.py:813] codec_lm.model.layers.3.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.3.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.4.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.5.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.5.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.5.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.5.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.5.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.5.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,432 INFO [train.py:813] codec_lm.model.layers.5.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.5.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.5.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.5.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.5.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.5.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.6.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.7.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.8.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,433 INFO [train.py:813] codec_lm.model.layers.8.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.8.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.9.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.10.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.10.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.10.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.10.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.10.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.10.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,434 INFO [train.py:813] codec_lm.model.layers.10.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.10.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.10.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.10.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.10.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.10.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.self_attn.q_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.self_attn.q_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.self_attn.k_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.self_attn.k_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.self_attn.v_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.self_attn.v_proj.bias: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.self_attn.o_proj.weight: torch.Size([1024, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.mlp.gate_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.mlp.up_proj.weight: torch.Size([2048, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.mlp.down_proj.weight: torch.Size([1024, 2048])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.input_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.layers.11.post_attention_layernorm.weight: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.model.norm.weight: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm.lm_head.weight: torch.Size([4100, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] speech_token_projector.weight: torch.Size([1024, 1792])
+2025-04-25 00:58:25,435 INFO [train.py:813] speech_token_projector.bias: torch.Size([1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm_head.weight: torch.Size([4100, 1024])
+2025-04-25 00:58:25,435 INFO [train.py:813] codec_lm_head.bias: torch.Size([4100])
+2025-04-25 00:58:25,435 INFO [train.py:819] Device: cuda:1
+2025-04-25 00:58:26,665 INFO [train.py:823] Using DeepSpeed
+2025-04-25 00:58:30,432 INFO [data_module.py:445] About to get train cuts
+2025-04-25 00:58:30,434 INFO [data_module.py:250] Disable MUSAN
+2025-04-25 00:58:30,434 INFO [data_module.py:268] Enable SpecAugment
+2025-04-25 00:58:30,434 INFO [data_module.py:269] Time warp factor: 80
+2025-04-25 00:58:30,434 INFO [data_module.py:279] Num frame mask: 10
+2025-04-25 00:58:30,434 INFO [data_module.py:292] About to create train dataset
+2025-04-25 00:58:30,434 INFO [data_module.py:319] Using DynamicBucketingSampler.
+2025-04-25 00:58:31,421 INFO [data_module.py:336] About to create train dataloader
+2025-04-25 00:58:31,421 INFO [data_module.py:339] Loading sampler state dict

log/log-train-2025-04-25-01-06-08 ADDED Viewed

	@@ -0,0 +1,71 @@

+2025-04-25 01:06:08,819 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.183.253",
+    "hostname": "7518205",
+    "icefall-git-branch": null,
+    "icefall-git-date": null,
+    "icefall-git-sha1": null,
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 50,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": "./slam_omni/exp_speech2speech_rerun/epoch-1-checkpoint-15000.pt/pytorch_model.bin",
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": "./slam_omni/exp_speech2speech_rerun/epoch-1-checkpoint-15000-sampler.pt",
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-25 01:06:08,819 INFO [train.py:655] About to create model

log/log-train-2025-04-25-01-06-09 ADDED Viewed

	@@ -0,0 +1,71 @@

+2025-04-25 01:06:09,289 INFO [train.py:653] {
+  "allowed_excess_duration_ratio": 0.1,
+  "audio_key": "question_audio",
+  "batch_idx_train": 0,
+  "best_train_epoch": -1,
+  "best_train_loss": Infinity,
+  "best_valid_epoch": -1,
+  "best_valid_loss": Infinity,
+  "bucketing_sampler": true,
+  "deepscale": false,
+  "deepscale_config": null,
+  "deepspeed": true,
+  "deepspeed_config": "./slam_omni/ds_config_zero1.json",
+  "drop_last": true,
+  "enable_musan": false,
+  "enable_spec_aug": true,
+  "enable_speech_output": true,
+  "encoder_projector_ds_rate": 8,
+  "env_info": {
+    "IP address": "0.114.183.253",
+    "hostname": "7518205",
+    "icefall-git-branch": null,
+    "icefall-git-date": null,
+    "icefall-git-sha1": null,
+    "icefall-path": "/workspace/slam/icefall_omni",
+    "k2-build-type": "Release",
+    "k2-git-date": "Tue Oct 29 09:02:19 2024",
+    "k2-git-sha1": "75e2ed6b2fd87c22b7f3f34bad48a69984bb8755",
+    "k2-path": "/opt/conda/lib/python3.11/site-packages/k2/__init__.py",
+    "k2-version": "1.24.4",
+    "k2-with-cuda": true,
+    "lhotse-path": "/workspace/slam/lhotse/lhotse/__init__.py",
+    "lhotse-version": "1.30.0.dev+git.13c7616f.dirty",
+    "python-version": "3.11",
+    "torch-cuda-available": true,
+    "torch-cuda-version": "12.4",
+    "torch-version": "2.4.0"
+  },
+  "exp_dir": "slam_omni/exp_speech2speech_rerun",
+  "frame_shift_ms": 10,
+  "huggingface_dataset_path_or_name": "/workspace/Belle_1.4M-SLAM-Omni",
+  "input_strategy": "PrecomputedFeatures",
+  "llm_path_or_name": "models/Qwen2.5-0.5B-Instruct",
+  "log_interval": 50,
+  "manifest_dir": "data/fbank",
+  "max_duration": 50,
+  "num_buckets": 30,
+  "num_epochs": 10,
+  "num_workers": 2,
+  "on_the_fly_feats": false,
+  "pretrained_model_path": "./slam_omni/exp_speech2speech_rerun/epoch-1-checkpoint-15000.pt/pytorch_model.bin",
+  "resample_to_16kHz": true,
+  "reset_interval": 200,
+  "return_cuts": true,
+  "sampler_state_dict_path": "./slam_omni/exp_speech2speech_rerun/epoch-1-checkpoint-15000-sampler.pt",
+  "seed": 42,
+  "shuffle": true,
+  "spec_aug_time_warp_factor": 80,
+  "speech_encoder_path_or_name": "models/whisper/v1.1/whisper-large-v2-multi-hans-zh-epoch-3-avg-10.pt",
+  "start_epoch": 1,
+  "subsampling_factor": 2,
+  "tensorboard": true,
+  "text_key": "answer",
+  "unfreeze_llm": true,
+  "unfreeze_speech_projector": true,
+  "use_flash_attn": true,
+  "use_fp16": true,
+  "use_lora": true,
+  "valid_interval": 5000
+}
+2025-04-25 01:06:09,289 INFO [train.py:655] About to create model

log/log-train-2025-04-25-01-07-00 ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e518bb90d19eff29cab0e36e024ea6c8c51eb0ebf01bbb92026646d414da9c2
+size 749750076

tensorboard/events.out.tfevents.1745485127.7515258.1454637.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3420d0018b82da7a2f43ca561c9fdfa179db66e06bb2d3ac614ce2e15aef91d3
+size 135

tensorboard/events.out.tfevents.1745485786.7515258.1472312.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:574e628eb7cf4b844bcce9409abb79402c7e6572268922ca4e0be5303917364a
+size 135

tensorboard/events.out.tfevents.1745486182.7515258.1482888.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4258223345f90a5e9b4adff784bafa145a6eae5082a911e0f78c0af8f1e8353
+size 135

tensorboard/events.out.tfevents.1745489567.7515258.1571829.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82506830e9b646b9f24e159b391bf95b5d35b7bc747f0ce5a17e357f8e7ecb2a
+size 135

tensorboard/events.out.tfevents.1745489713.7515258.1575936.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6e078e3c3f3220e183555839741d1b351c12f607c8f4faded3aa6ef3320f8a0
+size 135

tensorboard/events.out.tfevents.1745489870.7515258.1580280.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b604e4364358ea7691f076b13759f31ef10f29a085d85bd1b0851b0eedf3bf9a
+size 2749

tensorboard/events.out.tfevents.1745490173.7518205.24828.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65fdf02f6e5f61a8c53283b6bab3e98481ba09c0df80c0b426ebf5098c34a1a4
+size 1239

tensorboard/events.out.tfevents.1745490285.7518205.28691.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38670ceb5697c143c012d8a151c2d7c2a3df929d4078f9d78dea7e75db336bf0
+size 243430

tensorboard/events.out.tfevents.1745505052.7518205.257175.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61e88e23f8a8a50b7e58df2cabdfab400daedb6b180b2d3a6c4d3708234b9c96
+size 68029

tensorboard/events.out.tfevents.1745543674.7518205.398874.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0293cafc5c6bfb857b9c784b441ede3d8066a65e7c2187c8776a7065d906538f
+size 3480854