Misha Yakovlev commited on
Commit
3557e6f
·
1 Parent(s): a51adb8

update readme

Browse files
examples/ex_1/gen_chuvash_1.wav ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cf9c4364112e4b67609f419e6c70580afb4c20201b6af5436f484311287a039b
3
+ size 328236
examples/ex_1/promt.wav ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f06a4c0da80032c48790358cc6448f4375584693bf21308b1708d0b6dff5fe60
3
+ size 714464
examples/ex_2/gen.wav ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dc8fad6b7951b921c78685dc36f78744def191f6b3689d7b281797dba8c61104
3
+ size 325676
examples/ex_2/ref.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a991b934c53232b51ac3b5bbc65cba62bb92bf927a8647b93d6b1b06816e53e2
3
+ size 59948
examples/ex_3/gen.wav ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:80b9f5e30c6d222e90d6113d91c0e17abf17e54deb275257a60d9c79c5971fcc
3
+ size 220204
examples/ex_3/ref.mp3 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:682532a656ca5e0e8e63b0beae85c1570ecd8ea442735fec71ce5eb88c2a132f
3
+ size 85868
readme.md ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-nc-4.0
3
+ tags:
4
+ - tts
5
+ - chuvash
6
+ - russian
7
+ - fine-tuned
8
+ - f5-tts
9
+ - voice-clone
10
+ - low-resource
11
+ language:
12
+ - chuvash
13
+ base_model:
14
+ - Misha24-10/F5-TTS_CHUVASH
15
+ pipeline_tag: text-to-speech
16
+ ---
17
+
18
+ # F5-TTS_CHUVASH
19
+
20
+ Эксперимент по дообучению модели F5-TTS для чувашского языка, основанный на предварительно обученной русскоязычной модели **[F5-TTS](https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN)**.
21
+
22
+ ## О проекте
23
+
24
+ Данный эксперимент был проведен для проверки возможности дообучения моделей F5-TTS на малоресурсных языке. Для дообучения был выбран чувашский язык, который имеет похожую фонетическую структуру с русским языком.
25
+
26
+ ## Методология
27
+
28
+ - В токенайзер были добавлены специфические символы чувашского алфавита: «ҫ», «ĕ», «ӑ», «ӳ», «ӗ», «Ÿ»
29
+ - Для обучения использован набор данных Common Voice на чувашском языке (все файлы из validated.tsv)
30
+ - Датасет был дополнительно обработан для унификации представления чувашских символов:
31
+ ```python
32
+ text.replace('ӱ', 'ӳ').replace('ÿ', 'ӳ').replace('ӗ', 'ĕ')
33
+ ```
34
+ - Проведена фильтрация аудиофайлов по длительности (0.3-30 секунд)
35
+ - Итоговый объем данных для обучения - 24.2 часа аудио
36
+
37
+ ## Результаты
38
+
39
+ Эксперимент показал возможность успешного дообучения модели на близкородственном языке даже с ограниченным объемом данных (25 часов). Модель частично освоила задачу клонирования голоса на чувашском языке.
40
+
41
+ **Примечание**: Для тестирования использовался чекпоинт без загрузки EMA весов, так как 40 000 итераций оказалось недостаточно для cходимотси EMA весов, необходимо большее количество итераций обучения.
42
+
43
+ ## Примеры сгенерированной речи
44
+
45
+ В таблице ниже представлены некоторые примеры генерации речи на чувашском языке без загрузки EMA весов:
46
+
47
+ | Текст для генерации | Prompt | Generation |
48
+ |---------------------|--------|------------|
49
+ | ҫапла хӑтланнишӗн парламент ертӳҫисем «Тӗрӗслӗхшӗн Раҫҫей» парти пайташне депутат этикине пӑснишӗн ӳпкеленӗ теҫҫӗ. | <audio controls src="examples/ex_1/promt.wav"></audio> | <audio controls src="examples/ex_1/gen_chuvash_1.wav"></audio> |
50
+ | «Чӑваш Ен» кӑларӑм валли Ирина Николаева, Наталья Егорова, Алиса Александрова, Михаил Солин. | <audio controls src="examples/ex_2/ref.mp3"></audio> | <audio controls src="examples/ex_2/gen.wav"></audio> |
51
+ | Ку вӗрентӳре ҫапла, чӑн пурнӑҫра вара штраф ҫын пурнӑҫӗпе танлашать. | <audio controls src="examples/ex_3/ref.mp3"></audio> | <audio controls src="examples/ex_3/gen.wav"></audio> |