Spaces:

jbilcke-hf
/

Wan2GP_you_must_clone_this_space_to_use_it

Running on T4

App Files Files Community

DeepBeepMeep commited on May 20

Commit

03085c8

1 Parent(s): e420cd0

optimization for i2v with CausVid

Browse files

Files changed (3) hide show

hyvideo/modules/models.py +1 -2
wan/image2video.py +23 -24
wan/modules/model.py +3 -4

hyvideo/modules/models.py CHANGED Viewed

@@ -492,8 +492,7 @@ class MMSingleStreamBlock(nn.Module):
         return img, txt
 class HYVideoDiffusionTransformer(ModelMixin, ConfigMixin):
-    @staticmethod
-    def preprocess_loras(model_filename, sd):
         if not "i2v" in model_filename:
             return sd
         new_sd = {}

         return img, txt
 class HYVideoDiffusionTransformer(ModelMixin, ConfigMixin):
+    def preprocess_loras(self, model_filename, sd):
         if not "i2v" in model_filename:
             return sd
         new_sd = {}

wan/image2video.py CHANGED Viewed

@@ -330,8 +330,11 @@ class WanI2V:
                 'current_step' :i,
             })
-            if joint_pass:
                 if audio_proj == None:
                     noise_pred_cond, noise_pred_uncond = self.model(
                         [latent_model_input, latent_model_input],
@@ -347,13 +350,7 @@ class WanI2V:
                 if self._interrupt:
                     return None
             else:
-                noise_pred_cond = self.model(
-                    [latent_model_input],
-                    context=[context],
-                    audio_scale = None if audio_scale == None else [audio_scale],
-                    x_id=0,
-                    **kwargs,
-                )[0]
                 if self._interrupt:
                     return None
@@ -377,22 +374,24 @@ class WanI2V:
                     return None
             del latent_model_input
-            # CFG Zero *. Thanks to https://github.com/WeichenFan/CFG-Zero-star/
-            if cfg_star_switch:
-                positive_flat = noise_pred_cond.view(batch_size, -1)
-                negative_flat = noise_pred_uncond.view(batch_size, -1)
-                alpha = optimized_scale(positive_flat,negative_flat)
-                alpha = alpha.view(batch_size, 1, 1, 1)
-                if (i <= cfg_zero_step):
-                    noise_pred = noise_pred_cond*0.  # it would be faster not to compute noise_pred...
                 else:
-                    noise_pred_uncond *= alpha
-            if audio_scale == None:
-                noise_pred = noise_pred_uncond + guide_scale * (noise_pred_cond - noise_pred_uncond)
-            else:
-                noise_pred = noise_pred_uncond + guide_scale * (noise_pred_noaudio - noise_pred_uncond) + audio_cfg_scale * (noise_pred_cond  - noise_pred_noaudio)
             noise_pred_uncond, noise_pred_noaudio = None, None
             temp_x0 = sample_scheduler.step(
                 noise_pred.unsqueeze(0),

                 'current_step' :i,
             })
+            if guide_scale == 1:
+                noise_pred = self.model( [latent_model_input], context=[context], audio_scale = None if audio_scale == None else [audio_scale], x_id=0, **kwargs, )[0]
+                if self._interrupt:
+                    return None
+            elif joint_pass:
                 if audio_proj == None:
                     noise_pred_cond, noise_pred_uncond = self.model(
                         [latent_model_input, latent_model_input],
                 if self._interrupt:
                     return None
             else:
+                noise_pred_cond = self.model( [latent_model_input], context=[context], audio_scale = None if audio_scale == None else [audio_scale], x_id=0, **kwargs, )[0]
                 if self._interrupt:
                     return None
                     return None
             del latent_model_input
+            if guide_scale > 1:
+                # CFG Zero *. Thanks to https://github.com/WeichenFan/CFG-Zero-star/
+                if cfg_star_switch:
+                    positive_flat = noise_pred_cond.view(batch_size, -1)
+                    negative_flat = noise_pred_uncond.view(batch_size, -1)
+                    alpha = optimized_scale(positive_flat,negative_flat)
+                    alpha = alpha.view(batch_size, 1, 1, 1)
+                    if (i <= cfg_zero_step):
+                        noise_pred = noise_pred_cond*0.  # it would be faster not to compute noise_pred...
+                    else:
+                        noise_pred_uncond *= alpha
+                if audio_scale == None:
+                    noise_pred = noise_pred_uncond + guide_scale * (noise_pred_cond - noise_pred_uncond)
                 else:
+                    noise_pred = noise_pred_uncond + guide_scale * (noise_pred_noaudio - noise_pred_uncond) + audio_cfg_scale * (noise_pred_cond  - noise_pred_noaudio)
             noise_pred_uncond, noise_pred_noaudio = None, None
             temp_x0 = sample_scheduler.step(
                 noise_pred.unsqueeze(0),

wan/modules/model.py CHANGED Viewed

@@ -589,8 +589,7 @@ class MLPProj(torch.nn.Module):
 class WanModel(ModelMixin, ConfigMixin):
-    @staticmethod
-    def preprocess_loras(model_filename, sd):
         first = next(iter(sd), None)
         if first == None:
@@ -634,8 +633,8 @@ class WanModel(ModelMixin, ConfigMixin):
                     print(f"Lora alpha'{alpha_key}' is missing")
             new_sd.update(new_alphas)
             sd = new_sd
-        if "text2video" in model_filename:
             new_sd = {}
             # convert loras for i2v to t2v
             for k,v in sd.items():

 class WanModel(ModelMixin, ConfigMixin):
+    def preprocess_loras(self, model_filename, sd):
         first = next(iter(sd), None)
         if first == None:
                     print(f"Lora alpha'{alpha_key}' is missing")
             new_sd.update(new_alphas)
             sd = new_sd
+        from wgp import test_class_i2v
+        if not test_class_i2v(model_filename):
             new_sd = {}
             # convert loras for i2v to t2v
             for k,v in sd.items():