aiden200
/

anon

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4ba76fbc41735d0ff74c7b6d036dbd2170f764042bdc8759ae76333d2c00e81
 size 1204780872

 version https://git-lfs.github.com/spec/v1
+oid sha256:44f8a7d14f22c01a14ae42fef575ccd9bfbced1fa7a387e0f0fe630a34c22899
 size 1204780872

train.log CHANGED Viewed

@@ -16276,3 +16276,361 @@ tensor(-0.0009, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0009, device=
 tensor(-0.0010, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:0', grad_fn=<MulBackward0>)
 {'train/tv_loss': None, 'train/lm_loss': 0.15130637884140016, 'train/info_loss': 0.1600653976202011, 'train/ref_loss': None, 'train/uncertainty_loss': -9.910131338983775e-05, 'train/video_loss': 0.15996628999710083, 'train/total_loss': 0.31127268075942993}
 tensor(0.0755, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)

 tensor(-0.0010, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:0', grad_fn=<MulBackward0>)
 {'train/tv_loss': None, 'train/lm_loss': 0.15130637884140016, 'train/info_loss': 0.1600653976202011, 'train/ref_loss': None, 'train/uncertainty_loss': -9.910131338983775e-05, 'train/video_loss': 0.15996628999710083, 'train/total_loss': 0.31127268075942993}
 tensor(0.0755, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 3] Trainer log: {'loss': 0.2861, 'grad_norm': 4.437143802642822, 'learning_rate': 3.0097681139307223e-09}
+[Rank 2] Trainer log: {'loss': 0.2861, 'grad_norm': 4.437143802642822, 'learning_rate': 3.0097681139307223e-09}[Rank 0] Trainer log: {'loss': 0.2861, 'grad_norm': 4.437143802642822, 'learning_rate': 3.0097681139307223e-09}
+[Rank 1] Trainer log: {'loss': 0.2861, 'grad_norm': 4.437143802642822, 'learning_rate': 3.0097681139307223e-09}
+{'loss': 0.2861, 'grad_norm': 4.437143802642822, 'learning_rate': 3.0097681139307223e-09, 'epoch': 0.99}
+tensor(-0.0011, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.0001784276915714145, 'train/lm_loss': 1.5091327077243478e-05, 'train/info_loss': 1.3351262168725953e-05, 'train/ref_loss': 0.10094004124403, 'train/uncertainty_loss': -6.672072340734303e-05, 'train/video_loss': 0.10231409221887589, 'train/total_loss': 0.10232918709516525}
+tensor(0.0191, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(0.1469, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.4153, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(0.1078, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.0001733818091452122, 'train/lm_loss': 2.2076342429500076e-05, 'train/info_loss': 1.5854584489716217e-05, 'train/ref_loss': 0.2894924581050873, 'train/uncertainty_loss': 0.010783981531858444, 'train/video_loss': 0.3016793429851532, 'train/total_loss': 0.3017014265060425}
+[Rank 1] Trainer log: {'loss': 0.2588, 'grad_norm': 8.357850074768066, 'learning_rate': 2.753750441613079e-09}
+[Rank 2] Trainer log: {'loss': 0.2588, 'grad_norm': 8.357850074768066, 'learning_rate': 2.753750441613079e-09}
+[Rank 0] Trainer log: {'loss': 0.2588, 'grad_norm': 8.357850074768066, 'learning_rate': 2.753750441613079e-09}[Rank 3] Trainer log: {'loss': 0.2588, 'grad_norm': 8.357850074768066, 'learning_rate': 2.753750441613079e-09}
+{'loss': 0.2588, 'grad_norm': 8.357850074768066, 'learning_rate': 2.753750441613079e-09, 'epoch': 0.99}
+tensor(-0.0009, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(0.0729, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.0004507274366915226, 'train/lm_loss': 2.8608183492906394e-05, 'train/info_loss': 1.740425250318367e-05, 'train/ref_loss': 0.16604295372962952, 'train/uncertainty_loss': -7.334401598200203e-05, 'train/video_loss': 0.16959282755851746, 'train/total_loss': 0.16962143778800964}
+tensor(-0.0012, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.15873619318008425, 'train/info_loss': 0.20619021356105804, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00012108908267691732, 'train/video_loss': 0.20606912672519684, 'train/total_loss': 0.36480534076690674}
+tensor(-0.0012, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.0074, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 3] Trainer log: {'loss': 0.2282, 'grad_norm': 2.0619752407073975, 'learning_rate': 2.509109290893541e-09}[Rank 2] Trainer log: {'loss': 0.2282, 'grad_norm': 2.0619752407073975, 'learning_rate': 2.509109290893541e-09}
+[Rank 1] Trainer log: {'loss': 0.2282, 'grad_norm': 2.0619752407073975, 'learning_rate': 2.509109290893541e-09}
+[Rank 0] Trainer log: {'loss': 0.2282, 'grad_norm': 2.0619752407073975, 'learning_rate': 2.509109290893541e-09}
+{'loss': 0.2282, 'grad_norm': 2.0619752407073975, 'learning_rate': 2.509109290893541e-09, 'epoch': 0.99}
+tensor(-0.0013, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(0.4648, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0008, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0008, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.31027505397796634, 'train/info_loss': 0.33556777238845825, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00012801478151232005, 'train/video_loss': 0.3354397714138031, 'train/total_loss': 0.6457148194313049}
+tensor(-0.0012, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.0001363527961075306, 'train/lm_loss': 2.822676906362176e-05, 'train/info_loss': 1.710624019324314e-05, 'train/ref_loss': 0.13075466454029083, 'train/uncertainty_loss': -6.930269300937652e-05, 'train/video_loss': 0.1317932903766632, 'train/total_loss': 0.13182151317596436}
+tensor(0.0040, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 2] Trainer log: {'loss': 0.4774, 'grad_norm': 2.6274688243865967, 'learning_rate': 2.2758449401638628e-09}
+[Rank 0] Trainer log: {'loss': 0.4774, 'grad_norm': 2.6274688243865967, 'learning_rate': 2.2758449401638628e-09}[Rank 3] Trainer log: {'loss': 0.4774, 'grad_norm': 2.6274688243865967, 'learning_rate': 2.2758449401638628e-09}
+{'loss': 0.4774, 'grad_norm': 2.6274688243865967, 'learning_rate': 2.2758449401638628e-09, 'epoch': 0.99}
+[Rank 1] Trainer log: {'loss': 0.4774, 'grad_norm': 2.6274688243865967, 'learning_rate': 2.2758449401638628e-09}
+tensor(-0.0012, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.30461447238922124, 'train/info_loss': 0.1613609790802002, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00011446572607383133, 'train/video_loss': 0.16124650835990906, 'train/total_loss': 0.4658609926700592}
+tensor(-0.0012, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0008, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0008, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.2111635446548462, 'train/info_loss': 0.14900483191013336, 'train/ref_loss': None, 'train/uncertainty_loss': -8.154477691277862e-05, 'train/video_loss': 0.14892329275608063, 'train/total_loss': 0.3600868582725525}
+tensor(0.1748, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 1] Trainer log: {'loss': 0.4107, 'grad_norm': 6.459842681884766, 'learning_rate': 2.053957654871708e-09}
+[Rank 3] Trainer log: {'loss': 0.4107, 'grad_norm': 6.459842681884766, 'learning_rate': 2.053957654871708e-09}
+[Rank 0] Trainer log: {'loss': 0.4107, 'grad_norm': 6.459842681884766, 'learning_rate': 2.053957654871708e-09}[Rank 2] Trainer log: {'loss': 0.4107, 'grad_norm': 6.459842681884766, 'learning_rate': 2.053957654871708e-09}
+{'loss': 0.4107, 'grad_norm': 6.459842681884766, 'learning_rate': 2.053957654871708e-09, 'epoch': 0.99}
+tensor(-0.0014, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0014, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(0.0091, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.0925, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00016606017015874386, 'train/lm_loss': 7.689904887229205e-05, 'train/info_loss': 2.1993630070937797e-05, 'train/ref_loss': 0.2799209952354431, 'train/uncertainty_loss': 0.009252391010522843, 'train/video_loss': 0.29052385687828064, 'train/total_loss': 0.2906007468700409}
+tensor(-0.0011, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.1732, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(0.1812, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00012968671508133413, 'train/lm_loss': 3.659390495158732e-05, 'train/info_loss': 2.002676046686247e-05, 'train/ref_loss': 0.3349378705024719, 'train/uncertainty_loss': 0.018121950328350067, 'train/video_loss': 0.35411736369132996, 'train/total_loss': 0.35415396094322205}
+[Rank 3] Trainer log: {'loss': 0.3274, 'grad_norm': 3.277092456817627, 'learning_rate': 1.8434476875162088e-09}
+[Rank 2] Trainer log: {'loss': 0.3274, 'grad_norm': 3.277092456817627, 'learning_rate': 1.8434476875162088e-09}
+[Rank 0] Trainer log: {'loss': 0.3274, 'grad_norm': 3.277092456817627, 'learning_rate': 1.8434476875162088e-09}[Rank 1] Trainer log: {'loss': 0.3274, 'grad_norm': 3.277092456817627, 'learning_rate': 1.8434476875162088e-09}
+{'loss': 0.3274, 'grad_norm': 3.277092456817627, 'learning_rate': 1.8434476875162088e-09, 'epoch': 0.99}
+tensor(-0.0014, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0014, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(0.0697, device='cuda:0', grad_fn=<AddBackward0>)tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+ tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00016026009107008579, 'train/lm_loss': 1.6855483409017324e-05, 'train/info_loss': 1.4424115761357825e-05, 'train/ref_loss': 0.26810598373413086, 'train/uncertainty_loss': 0.006967854499816895, 'train/video_loss': 0.2763703167438507, 'train/total_loss': 0.27638718485832214}
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0010, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.10554903745651245, 'train/info_loss': 0.11926790326833725, 'train/ref_loss': None, 'train/uncertainty_loss': -9.559270110912622e-05, 'train/video_loss': 0.11917231231927872, 'train/total_loss': 0.22472134232521057}
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 3] Trainer log: {'loss': 0.2043, 'grad_norm': 7.04038667678833, 'learning_rate': 1.6443152776524085e-09}[Rank 1] Trainer log: {'loss': 0.2043, 'grad_norm': 7.04038667678833, 'learning_rate': 1.6443152776524085e-09}[Rank 0] Trainer log: {'loss': 0.2043, 'grad_norm': 7.04038667678833, 'learning_rate': 1.6443152776524085e-09}
+[Rank 2] Trainer log: {'loss': 0.2043, 'grad_norm': 7.04038667678833, 'learning_rate': 1.6443152776524085e-09}
+{'loss': 0.2043, 'grad_norm': 7.04038667678833, 'learning_rate': 1.6443152776524085e-09, 'epoch': 0.99}
+tensor(-0.0013, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.10073459148406982, 'train/info_loss': 0.14998847246170044, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00012555404100567102, 'train/video_loss': 0.14986291527748108, 'train/total_loss': 0.2505975067615509}
+tensor(-0.0013, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(0.2004, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:0', grad_fn=<AddBackward0>)tensor(-0.0013, device='cuda:2', grad_fn=<MulBackward0>)
+ tensor(-0.0012, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.39838287830352787, 'train/info_loss': 0.1479235589504242, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00012364789145067335, 'train/video_loss': 0.14779990911483765, 'train/total_loss': 0.5461827516555786}
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0006, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0006, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 1] Trainer log: {'loss': 0.3795, 'grad_norm': 2.248142957687378, 'learning_rate': 1.4565606518845976e-09}[Rank 2] Trainer log: {'loss': 0.3795, 'grad_norm': 2.248142957687378, 'learning_rate': 1.4565606518845976e-09}
+[Rank 3] Trainer log: {'loss': 0.3795, 'grad_norm': 2.248142957687378, 'learning_rate': 1.4565606518845976e-09}
+[Rank 0] Trainer log: {'loss': 0.3795, 'grad_norm': 2.248142957687378, 'learning_rate': 1.4565606518845976e-09}
+{'loss': 0.3795, 'grad_norm': 2.248142957687378, 'learning_rate': 1.4565606518845976e-09, 'epoch': 0.99}
+tensor(-0.0012, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00012514020781964063, 'train/lm_loss': 1.3207952724769713e-05, 'train/info_loss': 1.2516818969743326e-05, 'train/ref_loss': 0.19032391905784607, 'train/uncertainty_loss': -6.848637713119388e-05, 'train/video_loss': 0.19126906991004944, 'train/total_loss': 0.1912822723388672}
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(0.2011, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.21502296924591066, 'train/info_loss': 0.1758623719215393, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00011166655458509922, 'train/video_loss': 0.1757507026195526, 'train/total_loss': 0.3907736539840698}
+tensor(-0.0012, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0008, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0008, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 2] Trainer log: {'loss': 0.3061, 'grad_norm': 9.498651504516602, 'learning_rate': 1.2801840238707565e-09}[Rank 0] Trainer log: {'loss': 0.3061, 'grad_norm': 9.498651504516602, 'learning_rate': 1.2801840238707565e-09}[Rank 3] Trainer log: {'loss': 0.3061, 'grad_norm': 9.498651504516602, 'learning_rate': 1.2801840238707565e-09}
+[Rank 1] Trainer log: {'loss': 0.3061, 'grad_norm': 9.498651504516602, 'learning_rate': 1.2801840238707565e-09}
+{'loss': 0.3061, 'grad_norm': 9.498651504516602, 'learning_rate': 1.2801840238707565e-09, 'epoch': 1.0}
+tensor(-0.0009, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.0269, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00012117947917431593, 'train/lm_loss': 2.856050559785217e-05, 'train/info_loss': 1.7702266632113606e-05, 'train/ref_loss': 0.23599904775619507, 'train/uncertainty_loss': 0.0026872064918279648, 'train/video_loss': 0.23967339098453522, 'train/total_loss': 0.23970195651054382}
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.2651496648788452, 'train/info_loss': 0.16941337287425995, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00012172098504379392, 'train/video_loss': 0.1692916452884674, 'train/total_loss': 0.43444132804870605}
+tensor(-0.0012, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(0.0431, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+[Rank 2] Trainer log: {'loss': 0.2937, 'grad_norm': 1.8806184530258179, 'learning_rate': 1.1151855943225543e-09}[Rank 3] Trainer log: {'loss': 0.2937, 'grad_norm': 1.8806184530258179, 'learning_rate': 1.1151855943225543e-09}[Rank 0] Trainer log: {'loss': 0.2937, 'grad_norm': 1.8806184530258179, 'learning_rate': 1.1151855943225543e-09}
+[Rank 1] Trainer log: {'loss': 0.2937, 'grad_norm': 1.8806184530258179, 'learning_rate': 1.1151855943225543e-09}
+{'loss': 0.2937, 'grad_norm': 1.8806184530258179, 'learning_rate': 1.1151855943225543e-09, 'epoch': 1.0}
+tensor(-0.0014, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0014, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(0.1725, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0008, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0008, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00032057708594948056, 'train/lm_loss': 1.3088752166368068e-05, 'train/info_loss': 1.3112849956087302e-05, 'train/ref_loss': 0.06266696751117706, 'train/uncertainty_loss': -7.520327344536782e-05, 'train/video_loss': 0.06516949087381363, 'train/total_loss': 0.06518258154392242}
+tensor(-0.0010, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.35767147541046146, 'train/info_loss': 0.1781483143568039, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00011188344797119498, 'train/video_loss': 0.17803643643856049, 'train/total_loss': 0.5357078909873962}
+tensor(-0.0010, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+[Rank 2] Trainer log: {'loss': 0.3343, 'grad_norm': 7.238387107849121, 'learning_rate': 9.615655510020193e-10}[Rank 3] Trainer log: {'loss': 0.3343, 'grad_norm': 7.238387107849121, 'learning_rate': 9.615655510020193e-10}[Rank 0] Trainer log: {'loss': 0.3343, 'grad_norm': 7.238387107849121, 'learning_rate': 9.615655510020193e-10}
+[Rank 1] Trainer log: {'loss': 0.3343, 'grad_norm': 7.238387107849121, 'learning_rate': 9.615655510020193e-10}
+{'loss': 0.3343, 'grad_norm': 7.238387107849121, 'learning_rate': 9.615655510020193e-10, 'epoch': 1.0}
+tensor(-0.0012, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(0.1212, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00014093549689278006, 'train/lm_loss': 1.683164300629869e-05, 'train/info_loss': 1.4185704458213877e-05, 'train/ref_loss': 0.2974424362182617, 'train/uncertainty_loss': 0.012122622132301331, 'train/video_loss': 0.3107067346572876, 'train/total_loss': 0.31072357296943665}
+tensor(-0.0011, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0010, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.05586314797401429, 'train/info_loss': 0.11093997955322266, 'train/ref_loss': None, 'train/uncertainty_loss': -8.851074380800128e-05, 'train/video_loss': 0.1108514666557312, 'train/total_loss': 0.166714608669281}
+[Rank 0] Trainer log: {'loss': 0.3126, 'grad_norm': 2.235849380493164, 'learning_rate': 8.193240687226489e-10}[Rank 1] Trainer log: {'loss': 0.3126, 'grad_norm': 2.235849380493164, 'learning_rate': 8.193240687226489e-10}[Rank 3] Trainer log: {'loss': 0.3126, 'grad_norm': 2.235849380493164, 'learning_rate': 8.193240687226489e-10}
+[Rank 2] Trainer log: {'loss': 0.3126, 'grad_norm': 2.235849380493164, 'learning_rate': 8.193240687226489e-10}
+{'loss': 0.3126, 'grad_norm': 2.235849380493164, 'learning_rate': 8.193240687226489e-10, 'epoch': 1.0}
+tensor(-0.0013, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.1352, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00017385379178449514, 'train/lm_loss': 6.800925475545228e-05, 'train/info_loss': 1.9728748156921938e-05, 'train/ref_loss': 0.30475878715515137, 'train/uncertainty_loss': 0.013520647585391999, 'train/video_loss': 0.3196900188922882, 'train/total_loss': 0.31975802779197693}
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0008, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0008, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00015056305564939976, 'train/lm_loss': 2.4770156596787277e-05, 'train/info_loss': 1.7702266632113606e-05, 'train/ref_loss': 0.18287095427513123, 'train/uncertainty_loss': -7.037441246211529e-05, 'train/video_loss': 0.18402278423309326, 'train/total_loss': 0.18404754996299744}
+tensor(0.1576, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 3] Trainer log: {'loss': 0.2891, 'grad_norm': 1.8388005495071411, 'learning_rate': 6.88461309351629e-10}
+[Rank 0] Trainer log: {'loss': 0.2891, 'grad_norm': 1.8388005495071411, 'learning_rate': 6.88461309351629e-10}[Rank 1] Trainer log: {'loss': 0.2891, 'grad_norm': 1.8388005495071411, 'learning_rate': 6.88461309351629e-10}
+[Rank 2] Trainer log: {'loss': 0.2891, 'grad_norm': 1.8388005495071411, 'learning_rate': 6.88461309351629e-10}
+{'loss': 0.2891, 'grad_norm': 1.8388005495071411, 'learning_rate': 6.88461309351629e-10, 'epoch': 1.0}
+tensor(-0.0011, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(0.0547, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 9.430212085135282e-05, 'train/lm_loss': 1.3041071360930802e-05, 'train/info_loss': 1.293404056923464e-05, 'train/ref_loss': 0.24797077476978302, 'train/uncertainty_loss': 0.005471675470471383, 'train/video_loss': 0.2542097866535187, 'train/total_loss': 0.2542228400707245}
+tensor(-0.0012, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.0001686649862676859, 'train/lm_loss': 1.6736284305807202e-05, 'train/info_loss': 1.4662527973996475e-05, 'train/ref_loss': 0.16706281900405884, 'train/uncertainty_loss': -7.104419637471437e-05, 'train/video_loss': 0.16835574805736542, 'train/total_loss': 0.1683724820613861}
+[Rank 3] Trainer log: {'loss': 0.2849, 'grad_norm': 2.7503747940063477, 'learning_rate': 5.689774218065047e-10}
+[Rank 0] Trainer log: {'loss': 0.2849, 'grad_norm': 2.7503747940063477, 'learning_rate': 5.689774218065047e-10}[Rank 1] Trainer log: {'loss': 0.2849, 'grad_norm': 2.7503747940063477, 'learning_rate': 5.689774218065047e-10}
+[Rank 2] Trainer log: {'loss': 0.2849, 'grad_norm': 2.7503747940063477, 'learning_rate': 5.689774218065047e-10}
+{'loss': 0.2849, 'grad_norm': 2.7503747940063477, 'learning_rate': 5.689774218065047e-10, 'epoch': 1.0}
+tensor(-0.0013, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0010, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.2963602066040039, 'train/info_loss': 0.15512116253376007, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00010410062968730928, 'train/video_loss': 0.15501706302165985, 'train/total_loss': 0.451377272605896}
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00016122745582833887, 'train/lm_loss': 1.504364627180621e-05, 'train/info_loss': 1.3768483768217266e-05, 'train/ref_loss': 0.12243026494979858, 'train/uncertainty_loss': -7.243495201691985e-05, 'train/video_loss': 0.12366142123937607, 'train/total_loss': 0.12367646396160126}
+tensor(0.0812, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 0] Trainer log: {'loss': 0.3402, 'grad_norm': 4.494094371795654, 'learning_rate': 4.608725420540694e-10}[Rank 1] Trainer log: {'loss': 0.3402, 'grad_norm': 4.494094371795654, 'learning_rate': 4.608725420540694e-10}
+[Rank 2] Trainer log: {'loss': 0.3402, 'grad_norm': 4.494094371795654, 'learning_rate': 4.608725420540694e-10}
+[Rank 3] Trainer log: {'loss': 0.3402, 'grad_norm': 4.494094371795654, 'learning_rate': 4.608725420540694e-10}
+{'loss': 0.3402, 'grad_norm': 4.494094371795654, 'learning_rate': 4.608725420540694e-10, 'epoch': 1.0}
+tensor(-0.0013, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.035262671113014225, 'train/info_loss': 0.207004576921463, 'train/ref_loss': None, 'train/uncertainty_loss': -8.50230921059847e-05, 'train/video_loss': 0.20691955089569092, 'train/total_loss': 0.24218222498893738}
+tensor(0.1316, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.0744, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.08468132019042969, 'train/info_loss': 0.13620348274707794, 'train/ref_loss': None, 'train/uncertainty_loss': -0.0001168315066024661, 'train/video_loss': 0.13608665764331818, 'train/total_loss': 0.22076797485351562}
+tensor(-0.0012, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0008, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0008, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 2] Trainer log: {'loss': 0.3431, 'grad_norm': 8.961502075195312, 'learning_rate': 3.6414679311591595e-10}[Rank 3] Trainer log: {'loss': 0.3431, 'grad_norm': 8.961502075195312, 'learning_rate': 3.6414679311591595e-10}
+[Rank 1] Trainer log: {'loss': 0.3431, 'grad_norm': 8.961502075195312, 'learning_rate': 3.6414679311591595e-10}
+[Rank 0] Trainer log: {'loss': 0.3431, 'grad_norm': 8.961502075195312, 'learning_rate': 3.6414679311591595e-10}
+{'loss': 0.3431, 'grad_norm': 8.961502075195312, 'learning_rate': 3.6414679311591595e-10, 'epoch': 1.0}
+tensor(-0.0013, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.1708, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(0.1118, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.0001698122243396938, 'train/lm_loss': 1.723692112136632e-05, 'train/info_loss': 1.293404056923464e-05, 'train/ref_loss': 0.2866149842739105, 'train/uncertainty_loss': 0.01117597669363022, 'train/video_loss': 0.2991624176502228, 'train/total_loss': 0.29917964339256287}
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.3133418560028076, 'train/info_loss': 0.17231473326683044, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00012505786726251246, 'train/video_loss': 0.17218968272209167, 'train/total_loss': 0.4855315387248993}
+tensor(-0.0012, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0010, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(0.0181, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 2] Trainer log: {'loss': 0.3475, 'grad_norm': 2.2179486751556396, 'learning_rate': 2.7880028506066526e-10}
+[Rank 3] Trainer log: {'loss': 0.3475, 'grad_norm': 2.2179486751556396, 'learning_rate': 2.7880028506066526e-10}
+[Rank 1] Trainer log: {'loss': 0.3475, 'grad_norm': 2.2179486751556396, 'learning_rate': 2.7880028506066526e-10}
+[Rank 0] Trainer log: {'loss': 0.3475, 'grad_norm': 2.2179486751556396, 'learning_rate': 2.7880028506066526e-10}
+{'loss': 0.3475, 'grad_norm': 2.2179486751556396, 'learning_rate': 2.7880028506066526e-10, 'epoch': 1.0}
+tensor(-0.0013, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.3884145736694336, 'train/info_loss': 0.23487679660320282, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00012862115399912, 'train/video_loss': 0.23474816977977753, 'train/total_loss': 0.6231627464294434}
+tensor(-0.0010, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.010719782114028931, 'train/info_loss': 0.19857865571975708, 'train/ref_loss': None, 'train/uncertainty_loss': -8.820317452773452e-05, 'train/video_loss': 0.1984904557466507, 'train/total_loss': 0.20921023190021515}
+tensor(0.0573, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 3] Trainer log: {'loss': 0.2975, 'grad_norm': 3.0862128734588623, 'learning_rate': 2.0483311501062751e-10}
+[Rank 1] Trainer log: {'loss': 0.2975, 'grad_norm': 3.0862128734588623, 'learning_rate': 2.0483311501062751e-10}[Rank 0] Trainer log: {'loss': 0.2975, 'grad_norm': 3.0862128734588623, 'learning_rate': 2.0483311501062751e-10}
+[Rank 2] Trainer log: {'loss': 0.2975, 'grad_norm': 3.0862128734588623, 'learning_rate': 2.0483311501062751e-10}
+{'loss': 0.2975, 'grad_norm': 3.0862128734588623, 'learning_rate': 2.0483311501062751e-10, 'epoch': 1.0}
+tensor(-0.0008, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0008, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.0002269430086016655, 'train/lm_loss': 1.3041071360930802e-05, 'train/info_loss': 1.3768483768217266e-05, 'train/ref_loss': 0.15769097208976746, 'train/uncertainty_loss': -7.11314962245524e-05, 'train/video_loss': 0.15944914519786835, 'train/total_loss': 0.15946218371391296}
+tensor(0.1142, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0008, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0008, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00013790428638458252, 'train/lm_loss': 2.784535172395408e-05, 'train/info_loss': 1.6867830709088594e-05, 'train/ref_loss': 0.2233009785413742, 'train/uncertainty_loss': -7.168206502683461e-05, 'train/video_loss': 0.22434939444065094, 'train/total_loss': 0.22437724471092224}
+tensor(0.1906, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 3] Trainer log: {'loss': 0.2824, 'grad_norm': 2.1807076930999756, 'learning_rate': 1.4224536713847158e-10}[Rank 0] Trainer log: {'loss': 0.2824, 'grad_norm': 2.1807076930999756, 'learning_rate': 1.4224536713847158e-10}[Rank 2] Trainer log: {'loss': 0.2824, 'grad_norm': 2.1807076930999756, 'learning_rate': 1.4224536713847158e-10}
+[Rank 1] Trainer log: {'loss': 0.2824, 'grad_norm': 2.1807076930999756, 'learning_rate': 1.4224536713847158e-10}
+{'loss': 0.2824, 'grad_norm': 2.1807076930999756, 'learning_rate': 1.4224536713847158e-10, 'epoch': 1.0}
+tensor(-0.0012, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.1099284052848816, 'train/info_loss': 0.18190373480319977, 'train/ref_loss': None, 'train/uncertainty_loss': -9.252233430743218e-05, 'train/video_loss': 0.18181121349334717, 'train/total_loss': 0.2917396128177643}
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.2040557146072388, 'train/info_loss': 0.19522923231124878, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00010584730189293623, 'train/video_loss': 0.19512338936328888, 'train/total_loss': 0.3991791009902954}
+[Rank 1] Trainer log: {'loss': 0.4, 'grad_norm': 2.9970059394836426, 'learning_rate': 9.103711266611471e-11}
+[Rank 0] Trainer log: {'loss': 0.4, 'grad_norm': 2.9970059394836426, 'learning_rate': 9.103711266611471e-11}[Rank 3] Trainer log: {'loss': 0.4, 'grad_norm': 2.9970059394836426, 'learning_rate': 9.103711266611471e-11}
+[Rank 2] Trainer log: {'loss': 0.4, 'grad_norm': 2.9970059394836426, 'learning_rate': 9.103711266611471e-11}
+{'loss': 0.4, 'grad_norm': 2.9970059394836426, 'learning_rate': 9.103711266611471e-11, 'epoch': 1.0}
+tensor(-0.0011, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00012163397623226047, 'train/lm_loss': 2.4770156596787277e-05, 'train/info_loss': 1.6629419405944645e-05, 'train/ref_loss': 0.0847846046090126, 'train/uncertainty_loss': -7.099361391738057e-05, 'train/video_loss': 0.0857033059000969, 'train/total_loss': 0.08572807908058167}
+tensor(-0.0013, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.30223650932312013, 'train/info_loss': 0.21647511422634125, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00013338448479771614, 'train/video_loss': 0.21634173393249512, 'train/total_loss': 0.518578290939331}
+tensor(-0.0014, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0014, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+[Rank 3] Trainer log: {'loss': 0.3471, 'grad_norm': 2.964756965637207, 'learning_rate': 5.12084098680532e-11}[Rank 0] Trainer log: {'loss': 0.3471, 'grad_norm': 2.964756965637207, 'learning_rate': 5.12084098680532e-11}[Rank 2] Trainer log: {'loss': 0.3471, 'grad_norm': 2.964756965637207, 'learning_rate': 5.12084098680532e-11}
+{'loss': 0.3471, 'grad_norm': 2.964756965637207, 'learning_rate': 5.12084098680532e-11, 'epoch': 1.0}
+[Rank 1] Trainer log: {'loss': 0.3471, 'grad_norm': 2.964756965637207, 'learning_rate': 5.12084098680532e-11}
+tensor(-0.0010, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00012253506574779748, 'train/lm_loss': 1.4829085557721555e-05, 'train/info_loss': 1.2755231182381976e-05, 'train/ref_loss': 0.06293053925037384, 'train/uncertainty_loss': -6.927629001438618e-05, 'train/video_loss': 0.06385429948568344, 'train/total_loss': 0.06386912614107132}
+tensor(0.3175, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(0.2061, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': 0.00018769102171063424, 'train/lm_loss': 3.144493966829032e-05, 'train/info_loss': 1.710624019324314e-05, 'train/ref_loss': 0.18825295567512512, 'train/uncertainty_loss': -6.965706706978381e-05, 'train/video_loss': 0.18970192968845367, 'train/total_loss': 0.1897333711385727}
+tensor(-0.0009, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:3', grad_fn=<MulBackward0>)
+[Rank 1] Trainer log: {'loss': 0.2313, 'grad_norm': 3.738187551498413, 'learning_rate': 2.2759304065811394e-11}[Rank 0] Trainer log: {'loss': 0.2313, 'grad_norm': 3.738187551498413, 'learning_rate': 2.2759304065811394e-11}[Rank 2] Trainer log: {'loss': 0.2313, 'grad_norm': 3.738187551498413, 'learning_rate': 2.2759304065811394e-11}
+[Rank 3] Trainer log: {'loss': 0.2313, 'grad_norm': 3.738187551498413, 'learning_rate': 2.2759304065811394e-11}
+{'loss': 0.2313, 'grad_norm': 3.738187551498413, 'learning_rate': 2.2759304065811394e-11, 'epoch': 1.0}
+tensor(-0.0011, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.08768467903137207, 'train/info_loss': 0.19097542762756348, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00011287924135103822, 'train/video_loss': 0.19086255133152008, 'train/total_loss': 0.2785472273826599}
+tensor(-0.0011, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0010, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0010, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0012, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.3417798757553101, 'train/info_loss': 0.12373294681310654, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00011930712498724461, 'train/video_loss': 0.123613640666008, 'train/total_loss': 0.4653935432434082}
+tensor(-0.0014, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0014, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0009, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:2', grad_fn=<MulBackward0>)
+[Rank 1] Trainer log: {'loss': 0.3386, 'grad_norm': 3.233135223388672, 'learning_rate': 5.6898276357131296e-12}[Rank 2] Trainer log: {'loss': 0.3386, 'grad_norm': 3.233135223388672, 'learning_rate': 5.6898276357131296e-12}[Rank 3] Trainer log: {'loss': 0.3386, 'grad_norm': 3.233135223388672, 'learning_rate': 5.6898276357131296e-12}
+[Rank 0] Trainer log: {'loss': 0.3386, 'grad_norm': 3.233135223388672, 'learning_rate': 5.6898276357131296e-12}
+{'loss': 0.3386, 'grad_norm': 3.233135223388672, 'learning_rate': 5.6898276357131296e-12, 'epoch': 1.0}
+tensor(-0.0014, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0014, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.22061138153076174, 'train/info_loss': 0.19586126506328583, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00013994580367580057, 'train/video_loss': 0.1957213133573532, 'train/total_loss': 0.4163326919078827}
+tensor(-0.0009, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0009, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0007, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(0.3543, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0007, device='cuda:1', grad_fn=<MulBackward0>)
+tensor(-0.0014, device='cuda:2', grad_fn=<AddBackward0>) tensor(-0.0014, device='cuda:2', grad_fn=<MulBackward0>)
+tensor(-0.0013, device='cuda:0', grad_fn=<AddBackward0>) tensor(-0.0013, device='cuda:0', grad_fn=<MulBackward0>)
+{'train/tv_loss': None, 'train/lm_loss': 0.5868082523345948, 'train/info_loss': 0.14800412952899933, 'train/ref_loss': None, 'train/uncertainty_loss': -0.00013187677832320334, 'train/video_loss': 0.14787225425243378, 'train/total_loss': 0.7346805334091187}
+tensor(-0.0012, device='cuda:3', grad_fn=<AddBackward0>) tensor(-0.0012, device='cuda:3', grad_fn=<MulBackward0>)
+tensor(-0.0011, device='cuda:1', grad_fn=<AddBackward0>) tensor(-0.0011, device='cuda:1', grad_fn=<MulBackward0>)
+[Rank 1] Trainer log: {'loss': 0.4673, 'grad_norm': 8.241683959960938, 'learning_rate': 0.0}[Rank 2] Trainer log: {'loss': 0.4673, 'grad_norm': 8.241683959960938, 'learning_rate': 0.0}[Rank 3] Trainer log: {'loss': 0.4673, 'grad_norm': 8.241683959960938, 'learning_rate': 0.0}
+[Rank 0] Trainer log: {'loss': 0.4673, 'grad_norm': 8.241683959960938, 'learning_rate': 0.0}
+{'loss': 0.4673, 'grad_norm': 8.241683959960938, 'learning_rate': 0.0, 'epoch': 1.0}
+[Rank 1] Trainer log: {'train_runtime': 29823.9547, 'train_samples_per_second': 0.832, 'train_steps_per_second': 0.104, 'total_flos': 4.969273863004226e+18, 'train_loss': 0.11426909348176371}[Rank 2] Trainer log: {'train_runtime': 29822.0432, 'train_samples_per_second': 0.832, 'train_steps_per_second': 0.104, 'total_flos': 4.969273863004226e+18, 'train_loss': 0.11426909348176371}[Rank 3] Trainer log: {'train_runtime': 29817.5825, 'train_samples_per_second': 0.832, 'train_steps_per_second': 0.104, 'total_flos': 4.969273863004226e+18, 'train_loss': 0.11426909348176371}
+[Rank 0] Trainer log: {'train_runtime': 29828.2573, 'train_samples_per_second': 0.832, 'train_steps_per_second': 0.104, 'total_flos': 4.969273863004226e+18, 'train_loss': 0.11426909348176371}
+{'train_runtime': 29828.2573, 'train_samples_per_second': 0.832, 'train_steps_per_second': 0.104, 'train_loss': 0.11426909348176371, 'epoch': 1.0}
+Finished TrainingFinished Training
+Finished Training