Update README.md
Browse files
README.md
CHANGED
@@ -8,14 +8,14 @@ pipeline_tag: fill-mask
|
|
8 |
|
9 |
### 前言
|
10 |
|
11 |
-
-
|
12 |
- [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
|
13 |
-
- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha)
|
14 |
|
15 |
### 综述
|
16 |
|
17 |
- 通过针对性的预训练,该模型系列对 `Web小说`、`出版小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力
|
18 |
-
- 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的 ACG
|
19 |
- AND NSFW IS OK
|
20 |
- 支持多种语言
|
21 |
- 目前已针对以下语言进行了预训练:`中文`、`英文`、`日文`、`韩文`
|
@@ -29,8 +29,8 @@ pipeline_tag: fill-mask
|
|
29 |
|
30 |
### 基础模型 Base
|
31 |
|
32 |
-
- 当前的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
|
33 |
-
-
|
34 |
- 总训练语料约 400M Tokens,总训练量约为 800M Tokens
|
35 |
- 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
|
36 |
- 训练参数如下:
|
@@ -48,7 +48,7 @@ pipeline_tag: fill-mask
|
|
48 |
### 实体识别模型 NER
|
49 |
|
50 |
- 在 Base 模型的基础上,使用了大约 40000 条合成语料进行 NER 任务的微调
|
51 |
-
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%`
|
52 |
- 训练参数如下:
|
53 |
- Batch Size : 32
|
54 |
- Gradient Accumulation Steps : 2
|
|
|
8 |
|
9 |
### 前言
|
10 |
|
11 |
+
- 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
|
12 |
- [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
|
13 |
+
- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :)
|
14 |
|
15 |
### 综述
|
16 |
|
17 |
- 通过针对性的预训练,该模型系列对 `Web小说`、`出版小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力
|
18 |
+
- 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的 ACG 题材的故事内容
|
19 |
- AND NSFW IS OK
|
20 |
- 支持多种语言
|
21 |
- 目前已针对以下语言进行了预训练:`中文`、`英文`、`日文`、`韩文`
|
|
|
29 |
|
30 |
### 基础模型 Base
|
31 |
|
32 |
+
- 当前的基础模型是在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
|
33 |
+
- 针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
|
34 |
- 总训练语料约 400M Tokens,总训练量约为 800M Tokens
|
35 |
- 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
|
36 |
- 训练参数如下:
|
|
|
48 |
### 实体识别模型 NER
|
49 |
|
50 |
- 在 Base 模型的基础上,使用了大约 40000 条合成语料进行 NER 任务的微调
|
51 |
+
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率(并非 F1 Score 这种理论上的指标)
|
52 |
- 训练参数如下:
|
53 |
- Batch Size : 32
|
54 |
- Gradient Accumulation Steps : 2
|