Files changed (1) hide show
  1. README.md +75 -63
README.md CHANGED
@@ -1,64 +1,76 @@
1
- ---
2
- datasets:
3
- - IlyaGusev/saiga_scored
4
- - IlyaGusev/saiga_preferences
5
- - dichspace/darulm
6
- language:
7
- - ru
8
- pipeline_tag: text-generation
9
- license: apache-2.0
10
- base_model:
11
- - Qwen/Qwen2.5-32B
12
- - t-tech/T-pro-it-1.0
13
- ---
14
-
15
- ## Описание модели
16
-
17
- WORK IN PROGRESS!!! Текущая версия v1.
18
-
19
- Адаптация модели T-pro-it-1.0 на русский язык. В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника LEP (Learned Embedding Propagation).
20
-
21
- Благодаря новому токенизатору (расширенный tiktoken cl100k с помощью униграм токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла до 60% по сравнению с исходной моделью T-pro-it-1.0.
22
-
23
- *Под скоростью генерации подразумевается количество русскоязычных символов/слов в секунду на одинаковых текстовых последовательностях.
24
-
25
- ## Попробовать
26
-
27
- Модель можно попробовать в поднятом Space (внизу в параметрах выбор модели):
28
- https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
29
-
30
- ## Токенизация
31
-
32
- ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/O4eQEhnowETEatDPcmArB.png)
33
-
34
-
35
- ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/oW0Q6LzD_Py3GdH0kfqu4.png)
36
-
37
- ## Метрики и оценка качества
38
-
39
- Модель была оценена на Ru-Arena-General, MERA, llmtf_open
40
-
41
- #### Результаты на Ru-Arena-General
42
-
43
- Замеры были произведены с использованием оффициального кода лидерборда (https://github.com/VikhrModels/ru_llm_arena), **но с repetition_penalty=1.1**.
44
-
45
-
46
- ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/xxSjW3X56SEfEtZJAurAK.png)
47
-
48
- #### Результаты на MERA
49
-
50
- TODO
51
-
52
- #### Результаты на llmtf_open
53
-
54
- TODO
55
-
56
- ## How to cite:
57
-
58
- Tikhomirov M., Chernyshov D. Facilitating Large Language Model Russian Adaptation with Learned Embedding Propagation //Journal of Language and Education. – 2024. – Т. 10. – №. 4. – С. 130-145.
59
-
60
- Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163-168.
61
-
62
- ## Предупреждение
63
-
 
 
 
 
 
 
 
 
 
 
 
 
64
  Ответы модели не отражают мнения авторов, а лишь повторяют знания полученные из данных на всех этапах обучения (предобучение, смена токенизатора, обучение на инструкциях, калибровка качества ответов). Модель была получена из сторонней предобученной модели, **контроль за предобучением** которой **не является ответственностью текущих авторов**. При создании данной версии модели не производилось никаких дополнительных действий, направленных на изменение заложенных в LLM "мнений". Используйте с осторожностью.
 
1
+ ---
2
+ datasets:
3
+ - IlyaGusev/saiga_scored
4
+ - IlyaGusev/saiga_preferences
5
+ - dichspace/darulm
6
+ language:
7
+ - zho
8
+ - eng
9
+ - fra
10
+ - spa
11
+ - por
12
+ - deu
13
+ - ita
14
+ - rus
15
+ - jpn
16
+ - kor
17
+ - vie
18
+ - tha
19
+ - ara
20
+ pipeline_tag: text-generation
21
+ license: apache-2.0
22
+ base_model:
23
+ - Qwen/Qwen2.5-32B
24
+ - t-tech/T-pro-it-1.0
25
+ ---
26
+
27
+ ## Описание модели
28
+
29
+ WORK IN PROGRESS!!! Текущая версия v1.
30
+
31
+ Адаптация модели T-pro-it-1.0 на русский язык. В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника LEP (Learned Embedding Propagation).
32
+
33
+ Благодаря новому токенизатору (расширенный tiktoken cl100k с помощью униграм токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла до 60% по сравнению с исходной моделью T-pro-it-1.0.
34
+
35
+ *Под скоростью генерации подразумевается количество русскоязычных символов/слов в секунду на одинаковых текстовых последовательностях.
36
+
37
+ ## Попробовать
38
+
39
+ Модель можно попробовать в поднятом Space (внизу в параметрах выбор модели):
40
+ https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
41
+
42
+ ## Токенизация
43
+
44
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/O4eQEhnowETEatDPcmArB.png)
45
+
46
+
47
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/oW0Q6LzD_Py3GdH0kfqu4.png)
48
+
49
+ ## Метрики и оценка качества
50
+
51
+ Модель была оценена на Ru-Arena-General, MERA, llmtf_open
52
+
53
+ #### Результаты на Ru-Arena-General
54
+
55
+ Замеры были произведены с использованием оффициального кода лидерборда (https://github.com/VikhrModels/ru_llm_arena), **но с repetition_penalty=1.1**.
56
+
57
+
58
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/xxSjW3X56SEfEtZJAurAK.png)
59
+
60
+ #### Результаты на MERA
61
+
62
+ TODO
63
+
64
+ #### Результаты на llmtf_open
65
+
66
+ TODO
67
+
68
+ ## How to cite:
69
+
70
+ Tikhomirov M., Chernyshov D. Facilitating Large Language Model Russian Adaptation with Learned Embedding Propagation //Journal of Language and Education. – 2024. – Т. 10. – №. 4. – С. 130-145.
71
+
72
+ Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163-168.
73
+
74
+ ## Предупреждение
75
+
76
  Ответы модели не отражают мнения авторов, а лишь повторяют знания полученные из данных на всех этапах обучения (предобучение, смена токенизатора, обучение на инструкциях, калибровка качества ответов). Модель была получена из сторонней предобученной модели, **контроль за предобучением** которой **не является ответственностью текущих авторов**. При создании данной версии модели не производилось никаких дополнительных действий, направленных на изменение заложенных в LLM "мнений". Используйте с осторожностью.