aiden200
/

anon

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4da18afe65af7dcd1725167031fac839af3bb5de549fe5b103074d375135fff9
 size 1140991056

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a54bf4b2daf665f7187e1e4a2e0253f97194901c1f5c3704ab843df6d5fb57f
 size 1140991056

train.log CHANGED Viewed

@@ -1845,3 +1845,123 @@ Time to load cpu_adam op: 2.392569065093994 seconds
 [Rank 0] Trainer log: {'loss': 0.8147, 'grad_norm': 3.9575250148773193, 'learning_rate': 8.266503002457191e-06}
 {'loss': 0.8147, 'grad_norm': 3.9575250148773193, 'learning_rate': 8.266503002457191e-06, 'epoch': 0.58}

 [Rank 0] Trainer log: {'loss': 0.8147, 'grad_norm': 3.9575250148773193, 'learning_rate': 8.266503002457191e-06}
 {'loss': 0.8147, 'grad_norm': 3.9575250148773193, 'learning_rate': 8.266503002457191e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.754, 'grad_norm': 5.0994720458984375, 'learning_rate': 8.259787473755625e-06}[Rank 1] Trainer log: {'loss': 0.754, 'grad_norm': 5.0994720458984375, 'learning_rate': 8.259787473755625e-06}[Rank 3] Trainer log: {'loss': 0.754, 'grad_norm': 5.0994720458984375, 'learning_rate': 8.259787473755625e-06}
+[Rank 0] Trainer log: {'loss': 0.754, 'grad_norm': 5.0994720458984375, 'learning_rate': 8.259787473755625e-06}
+{'loss': 0.754, 'grad_norm': 5.0994720458984375, 'learning_rate': 8.259787473755625e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.7934, 'grad_norm': 2.9868428707122803, 'learning_rate': 8.253072754272176e-06}[Rank 1] Trainer log: {'loss': 0.7934, 'grad_norm': 2.9868428707122803, 'learning_rate': 8.253072754272176e-06}[Rank 3] Trainer log: {'loss': 0.7934, 'grad_norm': 2.9868428707122803, 'learning_rate': 8.253072754272176e-06}
+[Rank 0] Trainer log: {'loss': 0.7934, 'grad_norm': 2.9868428707122803, 'learning_rate': 8.253072754272176e-06}
+{'loss': 0.7934, 'grad_norm': 2.9868428707122803, 'learning_rate': 8.253072754272176e-06, 'epoch': 0.58}
+[Rank 0] Trainer log: {'loss': 0.8424, 'grad_norm': 2.291961431503296, 'learning_rate': 8.246358847129256e-06}[Rank 2] Trainer log: {'loss': 0.8424, 'grad_norm': 2.291961431503296, 'learning_rate': 8.246358847129256e-06}
+[Rank 3] Trainer log: {'loss': 0.8424, 'grad_norm': 2.291961431503296, 'learning_rate': 8.246358847129256e-06}
+[Rank 1] Trainer log: {'loss': 0.8424, 'grad_norm': 2.291961431503296, 'learning_rate': 8.246358847129256e-06}
+{'loss': 0.8424, 'grad_norm': 2.291961431503296, 'learning_rate': 8.246358847129256e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 1.0298, 'grad_norm': 7.284506797790527, 'learning_rate': 8.239645755448905e-06}
+[Rank 3] Trainer log: {'loss': 1.0298, 'grad_norm': 7.284506797790527, 'learning_rate': 8.239645755448905e-06}[Rank 0] Trainer log: {'loss': 1.0298, 'grad_norm': 7.284506797790527, 'learning_rate': 8.239645755448905e-06}
+[Rank 1] Trainer log: {'loss': 1.0298, 'grad_norm': 7.284506797790527, 'learning_rate': 8.239645755448905e-06}
+{'loss': 1.0298, 'grad_norm': 7.284506797790527, 'learning_rate': 8.239645755448905e-06, 'epoch': 0.58}
+[Rank 1] Trainer log: {'loss': 1.035, 'grad_norm': 2.5546376705169678, 'learning_rate': 8.232933482352792e-06}[Rank 0] Trainer log: {'loss': 1.035, 'grad_norm': 2.5546376705169678, 'learning_rate': 8.232933482352792e-06}
+[Rank 3] Trainer log: {'loss': 1.035, 'grad_norm': 2.5546376705169678, 'learning_rate': 8.232933482352792e-06}
+[Rank 2] Trainer log: {'loss': 1.035, 'grad_norm': 2.5546376705169678, 'learning_rate': 8.232933482352792e-06}
+{'loss': 1.035, 'grad_norm': 2.5546376705169678, 'learning_rate': 8.232933482352792e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.8326, 'grad_norm': 2.999725818634033, 'learning_rate': 8.226222030962193e-06}[Rank 3] Trainer log: {'loss': 0.8326, 'grad_norm': 2.999725818634033, 'learning_rate': 8.226222030962193e-06}
+[Rank 0] Trainer log: {'loss': 0.8326, 'grad_norm': 2.999725818634033, 'learning_rate': 8.226222030962193e-06}[Rank 1] Trainer log: {'loss': 0.8326, 'grad_norm': 2.999725818634033, 'learning_rate': 8.226222030962193e-06}
+{'loss': 0.8326, 'grad_norm': 2.999725818634033, 'learning_rate': 8.226222030962193e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.7464, 'grad_norm': 10.243378639221191, 'learning_rate': 8.219511404398008e-06}[Rank 3] Trainer log: {'loss': 0.7464, 'grad_norm': 10.243378639221191, 'learning_rate': 8.219511404398008e-06}[Rank 1] Trainer log: {'loss': 0.7464, 'grad_norm': 10.243378639221191, 'learning_rate': 8.219511404398008e-06}
+[Rank 0] Trainer log: {'loss': 0.7464, 'grad_norm': 10.243378639221191, 'learning_rate': 8.219511404398008e-06}
+{'loss': 0.7464, 'grad_norm': 10.243378639221191, 'learning_rate': 8.219511404398008e-06, 'epoch': 0.58}
+[Rank 3] Trainer log: {'loss': 0.6977, 'grad_norm': 6.754606246948242, 'learning_rate': 8.212801605780754e-06}[Rank 2] Trainer log: {'loss': 0.6977, 'grad_norm': 6.754606246948242, 'learning_rate': 8.212801605780754e-06}
+[Rank 0] Trainer log: {'loss': 0.6977, 'grad_norm': 6.754606246948242, 'learning_rate': 8.212801605780754e-06}[Rank 1] Trainer log: {'loss': 0.6977, 'grad_norm': 6.754606246948242, 'learning_rate': 8.212801605780754e-06}
+{'loss': 0.6977, 'grad_norm': 6.754606246948242, 'learning_rate': 8.212801605780754e-06, 'epoch': 0.58}
+[Rank 3] Trainer log: {'loss': 0.8488, 'grad_norm': 4.681671619415283, 'learning_rate': 8.206092638230561e-06}
+[Rank 1] Trainer log: {'loss': 0.8488, 'grad_norm': 4.681671619415283, 'learning_rate': 8.206092638230561e-06}[Rank 0] Trainer log: {'loss': 0.8488, 'grad_norm': 4.681671619415283, 'learning_rate': 8.206092638230561e-06}
+[Rank 2] Trainer log: {'loss': 0.8488, 'grad_norm': 4.681671619415283, 'learning_rate': 8.206092638230561e-06}
+{'loss': 0.8488, 'grad_norm': 4.681671619415283, 'learning_rate': 8.206092638230561e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.7159, 'grad_norm': 3.213949203491211, 'learning_rate': 8.199384504867172e-06}[Rank 3] Trainer log: {'loss': 0.7159, 'grad_norm': 3.213949203491211, 'learning_rate': 8.199384504867172e-06}
+[Rank 0] Trainer log: {'loss': 0.7159, 'grad_norm': 3.213949203491211, 'learning_rate': 8.199384504867172e-06}
+[Rank 1] Trainer log: {'loss': 0.7159, 'grad_norm': 3.213949203491211, 'learning_rate': 8.199384504867172e-06}
+{'loss': 0.7159, 'grad_norm': 3.213949203491211, 'learning_rate': 8.199384504867172e-06, 'epoch': 0.58}
+[Rank 0] Trainer log: {'loss': 0.5498, 'grad_norm': 3.209015130996704, 'learning_rate': 8.192677208809945e-06}[Rank 1] Trainer log: {'loss': 0.5498, 'grad_norm': 3.209015130996704, 'learning_rate': 8.192677208809945e-06}[Rank 2] Trainer log: {'loss': 0.5498, 'grad_norm': 3.209015130996704, 'learning_rate': 8.192677208809945e-06}
+[Rank 3] Trainer log: {'loss': 0.5498, 'grad_norm': 3.209015130996704, 'learning_rate': 8.192677208809945e-06}
+{'loss': 0.5498, 'grad_norm': 3.209015130996704, 'learning_rate': 8.192677208809945e-06, 'epoch': 0.58}
+[Rank 1] Trainer log: {'loss': 0.8484, 'grad_norm': 6.233098983764648, 'learning_rate': 8.18597075317785e-06}[Rank 2] Trainer log: {'loss': 0.8484, 'grad_norm': 6.233098983764648, 'learning_rate': 8.18597075317785e-06}[Rank 3] Trainer log: {'loss': 0.8484, 'grad_norm': 6.233098983764648, 'learning_rate': 8.18597075317785e-06}
+[Rank 0] Trainer log: {'loss': 0.8484, 'grad_norm': 6.233098983764648, 'learning_rate': 8.18597075317785e-06}
+{'loss': 0.8484, 'grad_norm': 6.233098983764648, 'learning_rate': 8.18597075317785e-06, 'epoch': 0.58}
+[Rank 1] Trainer log: {'loss': 0.8498, 'grad_norm': 3.9201512336730957, 'learning_rate': 8.179265141089455e-06}[Rank 2] Trainer log: {'loss': 0.8498, 'grad_norm': 3.9201512336730957, 'learning_rate': 8.179265141089455e-06}[Rank 0] Trainer log: {'loss': 0.8498, 'grad_norm': 3.9201512336730957, 'learning_rate': 8.179265141089455e-06}
+[Rank 3] Trainer log: {'loss': 0.8498, 'grad_norm': 3.9201512336730957, 'learning_rate': 8.179265141089455e-06}
+{'loss': 0.8498, 'grad_norm': 3.9201512336730957, 'learning_rate': 8.179265141089455e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.7884, 'grad_norm': 4.692569255828857, 'learning_rate': 8.172560375662953e-06}
+[Rank 3] Trainer log: {'loss': 0.7884, 'grad_norm': 4.692569255828857, 'learning_rate': 8.172560375662953e-06}
+[Rank 1] Trainer log: {'loss': 0.7884, 'grad_norm': 4.692569255828857, 'learning_rate': 8.172560375662953e-06}
+[Rank 0] Trainer log: {'loss': 0.7884, 'grad_norm': 4.692569255828857, 'learning_rate': 8.172560375662953e-06}
+{'loss': 0.7884, 'grad_norm': 4.692569255828857, 'learning_rate': 8.172560375662953e-06, 'epoch': 0.58}
+[Rank 1] Trainer log: {'loss': 0.9693, 'grad_norm': 2.1812329292297363, 'learning_rate': 8.165856460016128e-06}[Rank 3] Trainer log: {'loss': 0.9693, 'grad_norm': 2.1812329292297363, 'learning_rate': 8.165856460016128e-06}[Rank 2] Trainer log: {'loss': 0.9693, 'grad_norm': 2.1812329292297363, 'learning_rate': 8.165856460016128e-06}
+[Rank 0] Trainer log: {'loss': 0.9693, 'grad_norm': 2.1812329292297363, 'learning_rate': 8.165856460016128e-06}
+{'loss': 0.9693, 'grad_norm': 2.1812329292297363, 'learning_rate': 8.165856460016128e-06, 'epoch': 0.58}
+[Rank 3] Trainer log: {'loss': 0.8143, 'grad_norm': 9.283940315246582, 'learning_rate': 8.159153397266377e-06}[Rank 1] Trainer log: {'loss': 0.8143, 'grad_norm': 9.283940315246582, 'learning_rate': 8.159153397266377e-06}[Rank 2] Trainer log: {'loss': 0.8143, 'grad_norm': 9.283940315246582, 'learning_rate': 8.159153397266377e-06}
+[Rank 0] Trainer log: {'loss': 0.8143, 'grad_norm': 9.283940315246582, 'learning_rate': 8.159153397266377e-06}
+{'loss': 0.8143, 'grad_norm': 9.283940315246582, 'learning_rate': 8.159153397266377e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.8269, 'grad_norm': 5.904989719390869, 'learning_rate': 8.1524511905307e-06}[Rank 3] Trainer log: {'loss': 0.8269, 'grad_norm': 5.904989719390869, 'learning_rate': 8.1524511905307e-06}[Rank 1] Trainer log: {'loss': 0.8269, 'grad_norm': 5.904989719390869, 'learning_rate': 8.1524511905307e-06}
+[Rank 0] Trainer log: {'loss': 0.8269, 'grad_norm': 5.904989719390869, 'learning_rate': 8.1524511905307e-06}
+{'loss': 0.8269, 'grad_norm': 5.904989719390869, 'learning_rate': 8.1524511905307e-06, 'epoch': 0.58}
+[Rank 1] Trainer log: {'loss': 0.6376, 'grad_norm': 13.88896656036377, 'learning_rate': 8.145749842925698e-06}[Rank 3] Trainer log: {'loss': 0.6376, 'grad_norm': 13.88896656036377, 'learning_rate': 8.145749842925698e-06}[Rank 2] Trainer log: {'loss': 0.6376, 'grad_norm': 13.88896656036377, 'learning_rate': 8.145749842925698e-06}
+[Rank 0] Trainer log: {'loss': 0.6376, 'grad_norm': 13.88896656036377, 'learning_rate': 8.145749842925698e-06}
+{'loss': 0.6376, 'grad_norm': 13.88896656036377, 'learning_rate': 8.145749842925698e-06, 'epoch': 0.58}
+[Rank 0] Trainer log: {'loss': 1.0185, 'grad_norm': 2.079887628555298, 'learning_rate': 8.139049357567564e-06}[Rank 1] Trainer log: {'loss': 1.0185, 'grad_norm': 2.079887628555298, 'learning_rate': 8.139049357567564e-06}[Rank 3] Trainer log: {'loss': 1.0185, 'grad_norm': 2.079887628555298, 'learning_rate': 8.139049357567564e-06}
+[Rank 2] Trainer log: {'loss': 1.0185, 'grad_norm': 2.079887628555298, 'learning_rate': 8.139049357567564e-06}
+{'loss': 1.0185, 'grad_norm': 2.079887628555298, 'learning_rate': 8.139049357567564e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.9039, 'grad_norm': 6.526498794555664, 'learning_rate': 8.132349737572107e-06}[Rank 1] Trainer log: {'loss': 0.9039, 'grad_norm': 6.526498794555664, 'learning_rate': 8.132349737572107e-06}[Rank 3] Trainer log: {'loss': 0.9039, 'grad_norm': 6.526498794555664, 'learning_rate': 8.132349737572107e-06}
+[Rank 0] Trainer log: {'loss': 0.9039, 'grad_norm': 6.526498794555664, 'learning_rate': 8.132349737572107e-06}
+{'loss': 0.9039, 'grad_norm': 6.526498794555664, 'learning_rate': 8.132349737572107e-06, 'epoch': 0.58}
+[Rank 2] Trainer log: {'loss': 0.9238, 'grad_norm': 6.45925235748291, 'learning_rate': 8.125650986054726e-06}[Rank 3] Trainer log: {'loss': 0.9238, 'grad_norm': 6.45925235748291, 'learning_rate': 8.125650986054726e-06}
+[Rank 1] Trainer log: {'loss': 0.9238, 'grad_norm': 6.45925235748291, 'learning_rate': 8.125650986054726e-06}
+[Rank 0] Trainer log: {'loss': 0.9238, 'grad_norm': 6.45925235748291, 'learning_rate': 8.125650986054726e-06}
+{'loss': 0.9238, 'grad_norm': 6.45925235748291, 'learning_rate': 8.125650986054726e-06, 'epoch': 0.58}
+[Rank 1] Trainer log: {'loss': 0.9597, 'grad_norm': 2.490858316421509, 'learning_rate': 8.118953106130405e-06}[Rank 3] Trainer log: {'loss': 0.9597, 'grad_norm': 2.490858316421509, 'learning_rate': 8.118953106130405e-06}[Rank 0] Trainer log: {'loss': 0.9597, 'grad_norm': 2.490858316421509, 'learning_rate': 8.118953106130405e-06}
+[Rank 2] Trainer log: {'loss': 0.9597, 'grad_norm': 2.490858316421509, 'learning_rate': 8.118953106130405e-06}
+{'loss': 0.9597, 'grad_norm': 2.490858316421509, 'learning_rate': 8.118953106130405e-06, 'epoch': 0.58}
+[Rank 0] Trainer log: {'loss': 0.9447, 'grad_norm': 5.7371721267700195, 'learning_rate': 8.112256100913738e-06}[Rank 1] Trainer log: {'loss': 0.9447, 'grad_norm': 5.7371721267700195, 'learning_rate': 8.112256100913738e-06}
+[Rank 2] Trainer log: {'loss': 0.9447, 'grad_norm': 5.7371721267700195, 'learning_rate': 8.112256100913738e-06}
+[Rank 3] Trainer log: {'loss': 0.9447, 'grad_norm': 5.7371721267700195, 'learning_rate': 8.112256100913738e-06}
+{'loss': 0.9447, 'grad_norm': 5.7371721267700195, 'learning_rate': 8.112256100913738e-06, 'epoch': 0.58}
+[Rank 0] Trainer log: {'loss': 0.8225, 'grad_norm': 4.1787800788879395, 'learning_rate': 8.105559973518905e-06}[Rank 2] Trainer log: {'loss': 0.8225, 'grad_norm': 4.1787800788879395, 'learning_rate': 8.105559973518905e-06}[Rank 1] Trainer log: {'loss': 0.8225, 'grad_norm': 4.1787800788879395, 'learning_rate': 8.105559973518905e-06}
+[Rank 3] Trainer log: {'loss': 0.8225, 'grad_norm': 4.1787800788879395, 'learning_rate': 8.105559973518905e-06}
+{'loss': 0.8225, 'grad_norm': 4.1787800788879395, 'learning_rate': 8.105559973518905e-06, 'epoch': 0.58}