Spaces:

tartuNLP
/

XTTSv2-est

Sleeping

App Files Files Community

Rasmus Lellep commited on 27 days ago

Commit

b137cc2

1 Parent(s): 1e4fe3c

working new gradio version, added more example clips

Browse files

Files changed (5) hide show

README.md +1 -1
app.py +25 -29
examples/female.wav +3 -0
examples/male.wav +3 -0
requirements.txt +3 -3

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 🦀
 colorFrom: blue
 colorTo: purple
 sdk: gradio
-sdk_version: 3.50.2
 python_version: 3.11
 app_file: app.py
 pinned: false

 colorFrom: blue
 colorTo: purple
 sdk: gradio
+sdk_version: 5.41.0
 python_version: 3.11
 app_file: app.py
 pinned: false

app.py CHANGED Viewed

@@ -416,9 +416,6 @@ def predict(
                     None,
                 )
         return (
-            gr.make_waveform(
-                audio="output.wav",
-            ),
             "output.wav",
             metrics_text,
             speaker_wav,
@@ -471,7 +468,7 @@ examples = [
     [
         "Once when I was six years old I saw a magnificent picture",
         "en",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -481,7 +478,7 @@ examples = [
     [
         "Lorsque j'avais six ans j'ai vu, une fois, une magnifique image",
         "fr",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -491,7 +488,7 @@ examples = [
     [
         "Als ich sechs war, sah ich einmal ein wunderbares Bild",
         "de",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -501,7 +498,7 @@ examples = [
     [
         "Cuando tenía seis años, vi una vez una imagen magnífica",
         "es",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -511,7 +508,7 @@ examples = [
     [
         "Kunagi, kui olin kuueaastane, nägin ma ühte imelist pilti",
         "et",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -521,7 +518,7 @@ examples = [
     [
         "Quando eu tinha seis anos eu vi, uma vez, uma imagem magnífica",
         "pt",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -531,7 +528,7 @@ examples = [
     [
         "Kiedy miałem sześć lat, zobaczyłem pewnego razu wspaniały obrazek",
         "pl",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -541,7 +538,7 @@ examples = [
     [
         "Un tempo lontano, quando avevo sei anni, vidi un magnifico disegno",
         "it",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -551,7 +548,7 @@ examples = [
     [
         "Bir zamanlar, altı yaşındayken, muhteşem bir resim gördüm",
         "tr",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -561,7 +558,7 @@ examples = [
     [
         "Когда мне было шесть лет, я увидел однажды удивительную картинку",
         "ru",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -571,7 +568,7 @@ examples = [
     [
         "Toen ik een jaar of zes was, zag ik op een keer een prachtige plaat",
         "nl",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -581,7 +578,7 @@ examples = [
     [
         "Když mi bylo šest let, viděl jsem jednou nádherný obrázek",
         "cs",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -591,7 +588,7 @@ examples = [
     [
         "当我还只有六岁的时候， 看到了一副精彩的插画",
         "zh-cn",
-        "examples/LJ001-0030.wav",
         None,
         False,
         False,
@@ -601,7 +598,7 @@ examples = [
     [
         "かつて 六歳のとき、素晴らしい絵を見ました",
         "ja",
-        "examples/LJ001-0030.wav",
         None,
         False,
         True,
@@ -611,17 +608,17 @@ examples = [
     [
         "한번은 내가 여섯 살이었을 때 멋진 그림을 보았습니다.",
         "ko",
-        "examples/LJ001-0030.wav",
         None,
         False,
         True,
         False,
         True,
     ],
-        [
         "Egyszer hat éves koromban láttam egy csodálatos képet",
         "hu",
-        "examples/LJ001-0030.wav",
         None,
         False,
         True,
@@ -655,7 +652,7 @@ with gr.Blocks(analytics_enabled=False) as demo:
             input_text_gr = gr.Textbox(
                 label="Text Prompt",
                 info="One or two sentences at a time is better. Up to 200 text characters.",
-                value="Tere, olen sinu uus häälekloon. Ürita mulle lindistada võimalikult hea kvaliteediga klipp, et oskaksin su häält paremini jäljendada.",
             )
             language_gr = gr.Dropdown(
                 label="Language",
@@ -680,18 +677,18 @@ with gr.Blocks(analytics_enabled=False) as demo:
                     "hu",
                     "hi"
                 ],
-                max_choices=1,
                 value="et",
             )
             ref_gr = gr.Audio(
                 label="Reference Audio",
-                info="Click on the ✎ button to upload your own target speaker audio",
                 type="filepath",
-                value="examples/LJ001-0030.wav",
             )
             mic_gr = gr.Audio(
-                source="microphone",
-                info="Use your microphone to record audio",
                 type="filepath",
                 label="Use Microphone for Reference",
             )
@@ -720,7 +717,6 @@ with gr.Blocks(analytics_enabled=False) as demo:
         with gr.Column():
-            video_gr = gr.Video(label="Waveform Visual")
             audio_gr = gr.Audio(label="Synthesised Audio", autoplay=True)
             out_text_gr = gr.Text(label="Metrics")
             ref_audio_gr = gr.Audio(label="Reference Audio Used")
@@ -729,11 +725,11 @@ with gr.Blocks(analytics_enabled=False) as demo:
         gr.Examples(examples,
                     label="Examples",
                     inputs=[input_text_gr, language_gr, ref_gr, mic_gr, use_mic_gr, clean_ref_gr, auto_det_lang_gr, tos_gr],
-                    outputs=[video_gr, audio_gr, out_text_gr, ref_audio_gr],
                     fn=predict,
                     cache_examples=False,)
-    tts_button.click(predict, [input_text_gr, language_gr, ref_gr, mic_gr, use_mic_gr, clean_ref_gr, auto_det_lang_gr, tos_gr], outputs=[video_gr, audio_gr, out_text_gr, ref_audio_gr])
 if __name__ == "__main__":
     demo.queue()

                     None,
                 )
         return (
             "output.wav",
             metrics_text,
             speaker_wav,
     [
         "Once when I was six years old I saw a magnificent picture",
         "en",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Lorsque j'avais six ans j'ai vu, une fois, une magnifique image",
         "fr",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Als ich sechs war, sah ich einmal ein wunderbares Bild",
         "de",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Cuando tenía seis años, vi una vez una imagen magnífica",
         "es",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Kunagi, kui olin kuueaastane, nägin ma ühte imelist pilti",
         "et",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Quando eu tinha seis anos eu vi, uma vez, uma imagem magnífica",
         "pt",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Kiedy miałem sześć lat, zobaczyłem pewnego razu wspaniały obrazek",
         "pl",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Un tempo lontano, quando avevo sei anni, vidi un magnifico disegno",
         "it",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Bir zamanlar, altı yaşındayken, muhteşem bir resim gördüm",
         "tr",
+        "examples/male.wav",
         None,
         False,
         False,
     [
         "Когда мне было шесть лет, я увидел однажды удивительную картинку",
         "ru",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "Toen ik een jaar of zes was, zag ik op een keer een prachtige plaat",
         "nl",
+        "examples/male.wav",
         None,
         False,
         False,
     [
         "Když mi bylo šest let, viděl jsem jednou nádherný obrázek",
         "cs",
+        "examples/female.wav",
         None,
         False,
         False,
     [
         "当我还只有六岁的时候， 看到了一副精彩的插画",
         "zh-cn",
+        "examples/male.wav",
         None,
         False,
         False,
     [
         "かつて 六歳のとき、素晴らしい絵を見ました",
         "ja",
+        "examples/female.wav",
         None,
         False,
         True,
     [
         "한번은 내가 여섯 살이었을 때 멋진 그림을 보았습니다.",
         "ko",
+        "examples/male.wav",
         None,
         False,
         True,
         False,
         True,
     ],
+    [
         "Egyszer hat éves koromban láttam egy csodálatos képet",
         "hu",
+        "examples/male.wav",
         None,
         False,
         True,
             input_text_gr = gr.Textbox(
                 label="Text Prompt",
                 info="One or two sentences at a time is better. Up to 200 text characters.",
+                value="Tere, olen sinu hääle kloon. Ürita mulle lindistada võimalikult hea kvaliteediga klipp, et oskaksin su kõnet paremini jäljendada.",
             )
             language_gr = gr.Dropdown(
                 label="Language",
                     "hu",
                     "hi"
                 ],
+                multiselect=False,
                 value="et",
             )
             ref_gr = gr.Audio(
                 label="Reference Audio",
+                #info="Click on the ✎ button to upload your own target speaker audio",
                 type="filepath",
+                value="examples/female.wav",
             )
             mic_gr = gr.Audio(
+                sources="microphone",
+                #info="Use your microphone to record audio",
                 type="filepath",
                 label="Use Microphone for Reference",
             )
         with gr.Column():
             audio_gr = gr.Audio(label="Synthesised Audio", autoplay=True)
             out_text_gr = gr.Text(label="Metrics")
             ref_audio_gr = gr.Audio(label="Reference Audio Used")
         gr.Examples(examples,
                     label="Examples",
                     inputs=[input_text_gr, language_gr, ref_gr, mic_gr, use_mic_gr, clean_ref_gr, auto_det_lang_gr, tos_gr],
+                    outputs=[audio_gr, out_text_gr, ref_audio_gr],
                     fn=predict,
                     cache_examples=False,)
+    tts_button.click(predict, [input_text_gr, language_gr, ref_gr, mic_gr, use_mic_gr, clean_ref_gr, auto_det_lang_gr, tos_gr], outputs=[audio_gr, out_text_gr, ref_audio_gr])
 if __name__ == "__main__":
     demo.queue()

examples/female.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89a4fa9a16b6463f852cf9424f72c3d3c87aa83010e89db534c53fcd1ae12c02
+size 1002030

examples/male.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:937c74afad004937e00d1687c68e02210e0c5d93ac072a7c8aeb9ab573517bb1
+size 762126

requirements.txt CHANGED Viewed

@@ -65,9 +65,9 @@ spacy[ja]>=3,<3.8
 tokenizers==0.20.1
 #deps for gradio
 huggingface_hub
-gradio==3.50.2
-pydantic==1.10.13
-python-multipart==0.0.6
 typing-extensions>=4.8.0
 langid
 deepspeed==0.14.5

 tokenizers==0.20.1
 #deps for gradio
 huggingface_hub
+gradio==5.41.0
+pydantic==2.11.7
+python-multipart==0.0.20
 typing-extensions>=4.8.0
 langid
 deepspeed==0.14.5