Spaces:

roll-ai
/

EPiC-LowRes

Building on L40S

Muhammad Taqi Raza commited on 2 days ago

Commit

c8296fc

1 Parent(s): 0659b98

adding caption text

Files changed (3) hide show

download/download.py CHANGED Viewed

@@ -2,22 +2,22 @@ from huggingface_hub import snapshot_download
 def download_model():
     snapshot_download(
-        repo_id="tencent/DepthCrafter",
         local_dir="/app/pretrained/DepthCrafter",
         local_dir_use_symlinks=False,
     )
     snapshot_download(
-        repo_id="stabilityai/stable-video-diffusion-img2vid",
         local_dir="/app/pretrained/stable-video-diffusion-img2vid",
         local_dir_use_symlinks=False,
     )
     snapshot_download(
-        repo_id= "Qwen/Qwen2.5-VL-7B-Instruct",
         local_dir="/app/pretrained/Qwen2.5-VL-7B-Instruct",
         local_dir_use_symlinks=False,
     )
     snapshot_download(
-        repo_id="THUDM/CogVideoX-5b-I2V",
         local_dir="/app/pretrained/CogVideoX-5b-I2V",
         local_dir_use_symlinks=False,
     )

 def download_model():
     snapshot_download(
+        repo_id="tencent/DepthCrafter", # 4 GB
         local_dir="/app/pretrained/DepthCrafter",
         local_dir_use_symlinks=False,
     )
     snapshot_download(
+        repo_id="stabilityai/stable-video-diffusion-img2vid", # 25 gb
         local_dir="/app/pretrained/stable-video-diffusion-img2vid",
         local_dir_use_symlinks=False,
     )
     snapshot_download(
+        repo_id= "Qwen/Qwen2.5-VL-7B-Instruct",  # 16 GB
         local_dir="/app/pretrained/Qwen2.5-VL-7B-Instruct",
         local_dir_use_symlinks=False,
     )
     snapshot_download(
+        repo_id="THUDM/CogVideoX-5b-I2V", # 22 GB
         local_dir="/app/pretrained/CogVideoX-5b-I2V",
         local_dir_use_symlinks=False,
     )

gradio_app.py CHANGED Viewed

@@ -50,6 +50,7 @@ def get_anchor_video(video_path, fps, num_frames, target_pose, mode,
     temp_input_path = "/app/temp_input.mp4"
     output_dir = "/app/output_anchor"
     video_output_path = f"{output_dir}/masked_videos/output.mp4"
     if video_path:
         os.system(f"cp '{video_path}' {temp_input_path}")
@@ -104,8 +105,13 @@ def get_anchor_video(video_path, fps, num_frames, target_pose, mode,
     except subprocess.CalledProcessError as e:
         logs += f"Inference failed:\n{e.stderr}{e.stdout}"
         return None, logs
-    return str(video_output_path), logs
 # -----------------------------
 # Step 2: Run Inference
 # -----------------------------
@@ -197,6 +203,7 @@ with demo:
                     video_input = gr.Video(label="Upload Video (MP4)")
                     step1_button = gr.Button("▶️ Run Step 1")
                     step1_video = gr.Video(label="[Step 1] Masked Video")
                     step1_logs = gr.Textbox(label="[Step 1] Logs")
         with gr.TabItem("Step 2: CogVideoX Refinement"):
@@ -235,9 +242,9 @@ with demo:
             depth_steps_input, depth_guidance_input,
             window_input, overlap_input, maxres_input, sample_size,
             seed_input, height, width, aspect_ratio_inputs,
-            init_dx, init_dy, init_dz  # ← NEW INPUTS
         ],
-        outputs=[step1_video, step1_logs]
     )
     step2_button.click(

     temp_input_path = "/app/temp_input.mp4"
     output_dir = "/app/output_anchor"
     video_output_path = f"{output_dir}/masked_videos/output.mp4"
+    captions_text_file = f"{output_dir}/captions/output.txt"
     if video_path:
         os.system(f"cp '{video_path}' {temp_input_path}")
     except subprocess.CalledProcessError as e:
         logs += f"Inference failed:\n{e.stderr}{e.stdout}"
         return None, logs
+    caption_text = ""
+    if os.path.exists(captions_text_file):
+        with open(captions_text_file, "r") as f:
+            caption_text = f.read()
+    return str(video_output_path), logs, caption_text
 # -----------------------------
 # Step 2: Run Inference
 # -----------------------------
                     video_input = gr.Video(label="Upload Video (MP4)")
                     step1_button = gr.Button("▶️ Run Step 1")
                     step1_video = gr.Video(label="[Step 1] Masked Video")
+                    step1_captions = gr.Textbox(label="[Step 1] Captions", lines=4)
                     step1_logs = gr.Textbox(label="[Step 1] Logs")
         with gr.TabItem("Step 2: CogVideoX Refinement"):
             depth_steps_input, depth_guidance_input,
             window_input, overlap_input, maxres_input, sample_size,
             seed_input, height, width, aspect_ratio_inputs,
+            init_dx, init_dy, init_dz
         ],
+        outputs=[step1_video, step1_logs, step1_captions]  # ← updated here
     )
     step2_button.click(

inference/v2v_data/inference.py CHANGED Viewed

@@ -4,7 +4,6 @@ from datetime import datetime
 import argparse
 import torch
 def get_parser():
     parser = argparse.ArgumentParser()
@@ -78,7 +77,7 @@ def get_parser():
     parser.add_argument(
         '--width', type=int, default=1920, help='width'
     )
     parser.add_argument('--anchor_idx', type=int, default=0, help='One GT frame')
     parser.add_argument(

 import argparse
 import torch
 def get_parser():
     parser = argparse.ArgumentParser()
     parser.add_argument(
         '--width', type=int, default=1920, help='width'
     )
     parser.add_argument('--anchor_idx', type=int, default=0, help='One GT frame')
     parser.add_argument(