Spaces:

Surn
/

UnlimitedMusicGen

Running on T4

App Files Files Community

Surn commited on Jun 12, 2023

Commit

ee1911a

1 Parent(s): e62d648

Add Background Image to make music easily shareable on FB as video

Browse files

Files changed (4) hide show

app.py +7 -4
app_batched.py +3 -1
assets/background.png +0 -0
audiocraft/utils/extend.py +1 -1

app.py CHANGED Viewed

@@ -25,8 +25,9 @@ def load_model(version):
     return MusicGen.get_pretrained(version)
-def predict(model, text, melody, duration, dimension, topk, topp, temperature, cfg_coef):
-    global MODEL
     topk = int(topk)
     if MODEL is None or MODEL.name != model:
         MODEL = load_model(model)
@@ -77,7 +78,7 @@ def predict(model, text, melody, duration, dimension, topk, topp, temperature, c
         audio_write(
             file.name, output, MODEL.sample_rate, strategy="loudness",
             loudness_headroom_db=16, loudness_compressor=True, add_suffix=False)
-        waveform_video = gr.make_waveform(file.name)
     return waveform_video
@@ -105,6 +106,8 @@ def ui(**kwargs):
                     melody = gr.Audio(source="upload", type="numpy", label="Melody Condition (optional)", interactive=True)
                 with gr.Row():
                     submit = gr.Button("Submit")
                 with gr.Row():
                     model = gr.Radio(["melody", "medium", "small", "large"], label="Model", value="melody", interactive=True)
                 with gr.Row():
@@ -117,7 +120,7 @@ def ui(**kwargs):
                     cfg_coef = gr.Number(label="Classifier Free Guidance", value=3.0, interactive=True)
             with gr.Column():
                 output = gr.Video(label="Generated Music")
-        submit.click(predict, inputs=[model, text, melody, duration, dimension, topk, topp, temperature, cfg_coef], outputs=[output])
         gr.Examples(
             fn=predict,
             examples=[

     return MusicGen.get_pretrained(version)
+def predict(model, text, melody, duration, dimension, topk, topp, temperature, cfg_coef, background):
+    global MODEL
+    output_segments = None
     topk = int(topk)
     if MODEL is None or MODEL.name != model:
         MODEL = load_model(model)
         audio_write(
             file.name, output, MODEL.sample_rate, strategy="loudness",
             loudness_headroom_db=16, loudness_compressor=True, add_suffix=False)
+        waveform_video = gr.make_waveform(file.name,bg_image=background, bar_count=40)
     return waveform_video
                     melody = gr.Audio(source="upload", type="numpy", label="Melody Condition (optional)", interactive=True)
                 with gr.Row():
                     submit = gr.Button("Submit")
+                with gr.Row():
+                    background= gr.Image(value="./assets/background.png", source="upload", label="Background", shape=(768,512), type="filepath", interactive=True)
                 with gr.Row():
                     model = gr.Radio(["melody", "medium", "small", "large"], label="Model", value="melody", interactive=True)
                 with gr.Row():
                     cfg_coef = gr.Number(label="Classifier Free Guidance", value=3.0, interactive=True)
             with gr.Column():
                 output = gr.Video(label="Generated Music")
+        submit.click(predict, inputs=[model, text, melody, duration, dimension, topk, topp, temperature, cfg_coef, background], outputs=[output])
         gr.Examples(
             fn=predict,
             examples=[

app_batched.py CHANGED Viewed

@@ -40,6 +40,8 @@ def predict(texts, melodies):
             processed_melodies.append(None)
         else:
             sr, melody = melody[0], torch.from_numpy(melody[1]).to(MODEL.device).float().t()
             if melody.dim() == 1:
                 melody = melody[None]
             melody = melody[..., :int(sr * duration)]
@@ -50,7 +52,7 @@ def predict(texts, melodies):
         descriptions=texts,
         melody_wavs=processed_melodies,
         melody_sample_rate=target_sr,
-        progress=False
     )
     outputs = outputs.detach().cpu().float()

             processed_melodies.append(None)
         else:
             sr, melody = melody[0], torch.from_numpy(melody[1]).to(MODEL.device).float().t()
+            duration = min(duration, melody.shape[-1] / sr)
+            MODEL.set_generation_params(duration=duration)
             if melody.dim() == 1:
                 melody = melody[None]
             melody = melody[..., :int(sr * duration)]
         descriptions=texts,
         melody_wavs=processed_melodies,
         melody_sample_rate=target_sr,
+        progress=True
     )
     outputs = outputs.detach().cpu().float()

assets/background.png ADDED Viewed

audiocraft/utils/extend.py CHANGED Viewed

@@ -45,7 +45,7 @@ def generate_music_segments(text, melody, MODEL, duration:int=10, segment_durati
     # Iterate over the segments to create list of Meldoy tensors
     for segment_idx in range(total_segments):
-        print(f"segment {segment_idx} of {total_segments} \r")
         sr, verse = melody_segments[segment_idx][0], torch.from_numpy(melody_segments[segment_idx][1]).to(MODEL.device).float().t().unsqueeze(0)
         print(f"shape:{verse.shape} dim:{verse.dim()}")

     # Iterate over the segments to create list of Meldoy tensors
     for segment_idx in range(total_segments):
+        print(f"segment {segment_idx + 1} of {total_segments} \r")
         sr, verse = melody_segments[segment_idx][0], torch.from_numpy(melody_segments[segment_idx][1]).to(MODEL.device).float().t().unsqueeze(0)
         print(f"shape:{verse.shape} dim:{verse.dim()}")