Update pkanade_24_multi_gpu_train_finetune_accelerate.py

Browse files

Files changed (1) hide show

pkanade_24_multi_gpu_train_finetune_accelerate.py +9 -7

pkanade_24_multi_gpu_train_finetune_accelerate.py CHANGED Viewed

@@ -1,5 +1,7 @@
 # load packages
 import random
 import yaml
 import time
@@ -348,9 +350,9 @@ def main(config_path):
             for bib in range(len(mel_input_length)):
                 mel_length = int(mel_input_length[bib].item())
                 mel = mels[bib, :, :mel_input_length[bib]]
-                s = model.predictor_encoder(mel.unsqueeze(0))
                 ss.append(s)
-                s = model.style_encoder(mel.unsqueeze(0))
                 gs.append(s)
             s_dur = torch.stack(ss).squeeze()  # global prosodic styles
@@ -432,8 +434,8 @@ def main(config_path):
             # if gt.size(-1) < 80:
             #     continue
-            s = model.style_encoder(gt)
-            s_dur = model.predictor_encoder(gt)
             with torch.no_grad():
                 F0_real, _, F0 = model.pitch_extractor(gt.unsqueeze(1))
@@ -664,9 +666,9 @@ def main(config_path):
                     for bib in range(len(mel_input_length)):
                         mel_length = int(mel_input_length[bib].item())
                         mel = mels[bib, :, :mel_input_length[bib]]
-                        s = model.predictor_encoder(mel.unsqueeze(0))
                         ss.append(s)
-                        s = model.style_encoder(mel.unsqueeze(0))
                         gs.append(s)
                     s = torch.stack(ss).squeeze()
@@ -708,7 +710,7 @@ def main(config_path):
                     en = torch.stack(en)
                     p_en = torch.stack(p_en)
                     gt = torch.stack(gt).detach()
-                    s = model.predictor_encoder(gt)
                     F0_fake, N_fake = model.predictor.F0Ntrain(p_en, s)

 # load packages
 import random
 import yaml
 import time
             for bib in range(len(mel_input_length)):
                 mel_length = int(mel_input_length[bib].item())
                 mel = mels[bib, :, :mel_input_length[bib]]
+                s = model.predictor_encoder(mel.unsqueeze(0).unsqueeze(1))
                 ss.append(s)
+                s = model.style_encoder(mel.unsqueeze(0).unsqueeze(1))
                 gs.append(s)
             s_dur = torch.stack(ss).squeeze()  # global prosodic styles
             # if gt.size(-1) < 80:
             #     continue
+            s = model.style_encoder(gt.unsqueeze(0))
+            s_dur = model.predictor_encoder(gt.unsqueeze(0))
             with torch.no_grad():
                 F0_real, _, F0 = model.pitch_extractor(gt.unsqueeze(1))
                     for bib in range(len(mel_input_length)):
                         mel_length = int(mel_input_length[bib].item())
                         mel = mels[bib, :, :mel_input_length[bib]]
+                        s = model.predictor_encoder(mel.unsqueeze(0).unsqueeze(1))
                         ss.append(s)
+                        s = model.style_encoder(mel.unsqueeze(0).unsqueeze(1))
                         gs.append(s)
                     s = torch.stack(ss).squeeze()
                     en = torch.stack(en)
                     p_en = torch.stack(p_en)
                     gt = torch.stack(gt).detach()
+                    s = model.predictor_encoder(gt.unsqueeze(0))
                     F0_fake, N_fake = model.predictor.F0Ntrain(p_en, s)