hexgrad
/

Kokoro-82M

TTS-TEST

#29

by Kavin60606 - opened 8 days ago

←

Files changed (2) hide show

README.md CHANGED Viewed

@@ -6,10 +6,10 @@ base_model:
 - yl4579/StyleTTS2-LJSpeech
 pipeline_tag: text-to-speech
 ---
-📣 Jan 12 Status: Intent to improve the base model https://hf.co/hexgrad/Kokoro-82M/discussions/36
 ❤️ Kokoro Discord Server: https://discord.gg/QuGxSWBfQy
 <audio controls><source src="https://huggingface.co/hexgrad/Kokoro-82M/resolve/main/demo/HEARME.wav" type="audio/wav"></audio>
 **Kokoro** is a frontier TTS model for its size of **82 million parameters** (text in/audio out).
@@ -122,7 +122,7 @@ assert torch.equal(af, torch.load('voices/af.pt', weights_only=True))
 ### Training Details
-**Compute:** Kokoro v0.19 was trained on A100 80GB vRAM instances for approximately 500 total GPU hours. The average cost for each GPU hour was around $0.80, so the total cost was around $400.
 **Data:** Kokoro was trained exclusively on **permissive/non-copyrighted audio data** and IPA phoneme labels. Examples of permissive/non-copyrighted audio include:
 - Public domain audio

 - yl4579/StyleTTS2-LJSpeech
 pipeline_tag: text-to-speech
 ---
 ❤️ Kokoro Discord Server: https://discord.gg/QuGxSWBfQy
+📣 Got Synthetic Data? Want Trained Voicepacks? See https://hf.co/posts/hexgrad/418806998707773
 <audio controls><source src="https://huggingface.co/hexgrad/Kokoro-82M/resolve/main/demo/HEARME.wav" type="audio/wav"></audio>
 **Kokoro** is a frontier TTS model for its size of **82 million parameters** (text in/audio out).
 ### Training Details
+**Compute:** Kokoro was trained on A100 80GB vRAM instances rented from [Vast.ai](https://cloud.vast.ai/?ref_id=79907) (referral link). Vast was chosen over other compute providers due to its competitive on-demand hourly rates. The average hourly cost for the A100 80GB vRAM instances used for training was below $1/hr per GPU, which was around half the quoted rates from other providers at the time.
 **Data:** Kokoro was trained exclusively on **permissive/non-copyrighted audio data** and IPA phoneme labels. Examples of permissive/non-copyrighted audio include:
 - Public domain audio

kokoro.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import phonemizer
 import re
 import torch
-import numpy as np
 def split_num(num):
     num = num.group()
@@ -148,18 +147,3 @@ def generate(model, text, voicepack, lang='a', speed=1, ps=None):
     out = forward(model, tokens, ref_s, speed)
     ps = ''.join(next(k for k, v in VOCAB.items() if i == v) for i in tokens)
     return out, ps
-def generate_full(model, text, voicepack, lang='a', speed=1, ps=None):
-    ps = ps or phonemize(text, lang)
-    tokens = tokenize(ps)
-    if not tokens:
-        return None
-    outs = []
-    loop_count = len(tokens)//510 + (1 if len(tokens) % 510 != 0 else 0)
-    for i in range(loop_count):
-        ref_s = voicepack[len(tokens[i*510:(i+1)*510])]
-        out = forward(model, tokens[i*510:(i+1)*510], ref_s, speed)
-        outs.append(out)
-    outs = np.concatenate(outs)
-    ps = ''.join(next(k for k, v in VOCAB.items() if i == v) for i in tokens)
-    return outs, ps

 import phonemizer
 import re
 import torch
 def split_num(num):
     num = num.group()
     out = forward(model, tokens, ref_s, speed)
     ps = ''.join(next(k for k, v in VOCAB.items() if i == v) for i in tokens)
     return out, ps