Spaces:

rrg92
/

xtts

Paused

rrg92 commited on Nov 10, 2024

Commit

1643c3b

1 Parent(s): 2eacf0e

Minor fix to avoid ZeroGPU pickle error due buffered binary file

Files changed (2) hide show

app.py CHANGED Viewed

@@ -124,7 +124,7 @@ def FindSpeakerByName(name, speakerType):
 def clone_speaker(upload_file, clone_speaker_name, cloned_speaker_names):
-    embeddings =  xtts.predict_speaker(open(upload_file,"rb"))
     with open(os.path.join(OUTPUT, "cloned_speakers", clone_speaker_name + ".json"), "w") as fp:
         json.dump(embeddings, fp)
     cloned_speakers[clone_speaker_name] = embeddings

 def clone_speaker(upload_file, clone_speaker_name, cloned_speaker_names):
+    embeddings =  xtts.predict_speaker(upload_file)
     with open(os.path.join(OUTPUT, "cloned_speakers", clone_speaker_name + ".json"), "w") as fp:
         json.dump(embeddings, fp)
     cloned_speakers[clone_speaker_name] = embeddings

xtts.py CHANGED Viewed

@@ -47,8 +47,14 @@ print("Running XTTS Server ...", flush=True)
 # @app.post("/clone_speaker")
 def predict_speaker(wav_file):
     """Compute conditioning inputs from reference audio file."""
     temp_audio_name = next(tempfile._get_candidate_names())
     with open(temp_audio_name, "wb") as temp, torch.inference_mode():
         temp.write(io.BytesIO(wav_file.read()).getbuffer())

 # @app.post("/clone_speaker")
+@spaces.GPU
 def predict_speaker(wav_file):
     """Compute conditioning inputs from reference audio file."""
+    wav_file = src
+    if isinstance(wav_file, str):
+        wav_file = open(wav_file,"rb");
     temp_audio_name = next(tempfile._get_candidate_names())
     with open(temp_audio_name, "wb") as temp, torch.inference_mode():
         temp.write(io.BytesIO(wav_file.read()).getbuffer())