Spaces:

autophil
/

sonisphere

Running on T4

App Files Files Community

Phil Sobrepena commited on 14 days ago

Commit

d15bc7d

1 Parent(s): bac321f

visibility, simplified ui

Browse files

Files changed (1) hide show

app.py +44 -12

app.py CHANGED Viewed

@@ -60,14 +60,14 @@ net, feature_utils, seq_cfg = get_model()
 @spaces.GPU(duration=120)
 @torch.inference_mode()
-def video_to_audio(video: gr.Video, prompt: str, negative_prompt: str):
-    num_steps = 25
-    cfg_strength = 4.5
-    duration = 8.0
-    rng = torch.Generator(device=device)
-    rng.seed()
     fm = FlowMatching(min_sigma=0, inference_mode='euler', num_steps=num_steps)
     video_info = load_video(video, duration)
@@ -98,6 +98,38 @@ def video_to_audio(video: gr.Video, prompt: str, negative_prompt: str):
     return video_save_path
 video_to_audio_tab = gr.Interface(
     fn=video_to_audio,
     description="""
@@ -112,14 +144,14 @@ video_to_audio_tab = gr.Interface(
         gr.Video(),
         gr.Text(label='Prompt'),
         gr.Text(label='Negative prompt', value='music'),
-        # gr.Number(label='Seed (-1: random)', value=-1, precision=0, minimum=-1),
-        # gr.Number(label='Num steps', value=25, precision=0, minimum=1),
-        # gr.Number(label='Guidance Strength', value=4.5, minimum=1),
-        # gr.Number(label='Duration (sec)', value=8, minimum=1),
     ],
     outputs='playable_video',
     cache_examples=False,
-    title='Sonisphere — Sonic Branding through Multi-modal Audio Synthesis',
     examples=[
     ])

 @spaces.GPU(duration=120)
 @torch.inference_mode()
+def video_to_audio(video: gr.Video, prompt: str, negative_prompt: str, seed: int, num_steps: int,
+                   cfg_strength: float, duration: float):
+    rng = torch.Generator(device=device)
+    if seed >= 0:
+        rng.manual_seed(seed)
+    else:
+        rng.seed()
     fm = FlowMatching(min_sigma=0, inference_mode='euler', num_steps=num_steps)
     video_info = load_video(video, duration)
     return video_save_path
+# @spaces.GPU(duration=120)
+# @torch.inference_mode()
+# def text_to_audio(prompt: str, negative_prompt: str, seed: int, num_steps: int, cfg_strength: float,
+#                   duration: float):
+#     rng = torch.Generator(device=device)
+#     if seed >= 0:
+#         rng.manual_seed(seed)
+#     else:
+#         rng.seed()
+#     fm = FlowMatching(min_sigma=0, inference_mode='euler', num_steps=num_steps)
+#     clip_frames = sync_frames = None
+#     seq_cfg.duration = duration
+#     net.update_seq_lengths(seq_cfg.latent_seq_len, seq_cfg.clip_seq_len, seq_cfg.sync_seq_len)
+#     audios = generate(clip_frames,
+#                       sync_frames, [prompt],
+#                       negative_text=[negative_prompt],
+#                       feature_utils=feature_utils,
+#                       net=net,
+#                       fm=fm,
+#                       rng=rng,
+#                       cfg_strength=cfg_strength)
+#     audio = audios.float().cpu()[0]
+#     audio_save_path = tempfile.NamedTemporaryFile(delete=False, suffix='.flac').name
+#     torchaudio.save(audio_save_path, audio, seq_cfg.sampling_rate)
+#     log.info(f'Saved audio to {audio_save_path}')
+#     return audio_save_path
 video_to_audio_tab = gr.Interface(
     fn=video_to_audio,
     description="""
         gr.Video(),
         gr.Text(label='Prompt'),
         gr.Text(label='Negative prompt', value='music'),
+        gr.Number(label='Seed (-1: random)', value=-1, precision=0, minimum=-1, visible=False),
+        gr.Number(label='Num steps', value=25, precision=0, minimum=1, visible=False),
+        gr.Number(label='Guidance Strength', value=4.5, minimum=1, visible=False),
+        gr.Number(label='Duration (sec)', value=8, minimum=1, visible=False),
     ],
     outputs='playable_video',
     cache_examples=False,
+    title='Sonisphere — Sonic Branding through Multi Modal Audio Synthesis',
     examples=[
     ])