neavo commited on
Commit
4ffa0ff
·
verified ·
1 Parent(s): 58bba5b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +24 -7
README.md CHANGED
@@ -10,13 +10,15 @@ pipeline_tag: fill-mask
10
 
11
  - KeywordGacha Model 系列是一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,该模型在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
12
  - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
13
- - 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现市面上并没有满足需求的语言模型模型,所以我们动手创造了一个 :)
14
 
15
  ### 综述
16
 
17
- - 通过针对性的预训练,该模型系列对多种语言编写的 `Web小说`、`出版小说`、`游戏脚本`、`漫画脚本` 等故事性内容具有极好的理解能力
18
  - 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的二次元题材的故事内容,NFSW OK
19
- - 支持多种语言,目前我们针对以下语言进行了预训练:`中文`、`英文`、`日文`,我们还计划在未来针对以下语言进行预训练:`韩文`、`俄文`
 
 
20
  - 目前我们提供以下预训练模型:
21
 
22
  | 模型 | 说明 |
@@ -24,14 +26,14 @@ pipeline_tag: fill-mask
24
  | [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual_20240825) | 基础模型,针对具体下游任务进行微调后使用 |
25
  | keyword_gacha_ner_multilingual | 预训练实体识别模型 |
26
 
27
- ### 基础模型
28
 
29
  - 当前版本的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练来创造的
30
  - 在原始模型的基础上,我们针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
31
  - 即总训练语料约 300M Tokens,占用储存空间大约 1.2G,总训练量约为 600M Tokens
32
- - 训练语料中包含 Web小说、文库本小说、AVG 游戏脚本、RPG 游戏脚本
33
- - 其他训练参数如下:
34
- - Batch Szie : 12
35
  - Gradient Accumulation Steps : 10
36
  - Total Batch Size : 120
37
  - Learing Rate : 2e-5
@@ -39,3 +41,18 @@ pipeline_tag: fill-mask
39
  - Optimizer : AdamW_8bit
40
  - Warnup Ratio : 0.1
41
  - Train Precision : BF16
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
 
11
  - KeywordGacha Model 系列是一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,该模型在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
12
  - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
13
+ - 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现市面上并没有满足需求的语言模型模型,所以自己动手创造了一个 :)
14
 
15
  ### 综述
16
 
17
+ - 通过针对性的预训练,该模型系列对 `Web小说`、`出版小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力
18
  - 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的二次元题材的故事内容,NFSW OK
19
+ - 支持多种语言
20
+ - 目前已针对以下语言进行了预训练:`中文`、`英文`、`日文`
21
+ - 未来计划计划针对以下语言进行预训练:`韩文`、`俄文`
22
  - 目前我们提供以下预训练模型:
23
 
24
  | 模型 | 说明 |
 
26
  | [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual_20240825) | 基础模型,针对具体下游任务进行微调后使用 |
27
  | keyword_gacha_ner_multilingual | 预训练实体识别模型 |
28
 
29
+ ### 基础模型 Base
30
 
31
  - 当前版本的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练来创造的
32
  - 在原始模型的基础上,我们针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
33
  - 即总训练语料约 300M Tokens,占用储存空间大约 1.2G,总训练量约为 600M Tokens
34
+ - 训练语料中包含 Web小说、文库本小说、AVG 游戏脚本、RPG 游戏脚本 等不同种类的文本
35
+ - 训练参数如下:
36
+ - Batch Size : 12
37
  - Gradient Accumulation Steps : 10
38
  - Total Batch Size : 120
39
  - Learing Rate : 2e-5
 
41
  - Optimizer : AdamW_8bit
42
  - Warnup Ratio : 0.1
43
  - Train Precision : BF16
44
+
45
+ ### 实体识别模型 NER
46
+
47
+ - 在 Base 模型的基础上,我们使用大约 60000 条合成语料进行了 NER 任务的训练
48
+ - 该模型与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
49
+ - 训练参数如下:
50
+ - Batch Size : 32
51
+ - Gradient Accumulation Steps : 2
52
+ - Total Batch Size : 64
53
+ - Learing Rate : 2e-5
54
+ - Maximum Sequence Length : 256
55
+ - Optimizer : AdamW_8bit
56
+ - Warnup Ratio : 0.1
57
+ - Train Precision : BF16
58
+ - Max Train Epochs : 24