neavo commited on
Commit
86ad705
·
verified ·
1 Parent(s): 6e7e0c0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +6 -6
README.md CHANGED
@@ -8,14 +8,14 @@ pipeline_tag: fill-mask
8
 
9
  ### 前言
10
 
11
- - KeywordGacha Model 系列是一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,该模型在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
12
  - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
13
- - 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现市面上并没有满足需求的语言模型模型,所以自己动手创造了一个 :)
14
 
15
  ### 综述
16
 
17
  - 通过针对性的预训练,该模型系列对 `Web小说`、`出版小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力
18
- - 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的 ACG 常见题材的故事内容
19
  - AND NSFW IS OK
20
  - 支持多种语言
21
  - 目前已针对以下语言进行了预训练:`中文`、`英文`、`日文`、`韩文`
@@ -29,8 +29,8 @@ pipeline_tag: fill-mask
29
 
30
  ### 基础模型 Base
31
 
32
- - 当前的基础模型是在 [xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
33
- - 在原始模型的基础上,针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
34
  - 总训练语料约 400M Tokens,总训练量约为 800M Tokens
35
  - 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
36
  - 训练参数如下:
@@ -48,7 +48,7 @@ pipeline_tag: fill-mask
48
  ### 实体识别模型 NER
49
 
50
  - 在 Base 模型的基础上,使用了大约 40000 条合成语料进行 NER 任务的微调
51
- - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
52
  - 训练参数如下:
53
  - Batch Size : 32
54
  - Gradient Accumulation Steps : 2
 
8
 
9
  ### 前言
10
 
11
+ - 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
12
  - [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等任意文本中的词汇表的翻译辅助工具
13
+ - 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :)
14
 
15
  ### 综述
16
 
17
  - 通过针对性的预训练,该模型系列对 `Web小说`、`出版小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力
18
+ - 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的 ACG 题材的故事内容
19
  - AND NSFW IS OK
20
  - 支持多种语言
21
  - 目前已针对以下语言进行了预训练:`中文`、`英文`、`日文`、`韩文`
 
29
 
30
  ### 基础模型 Base
31
 
32
+ - 当前的基础模型是在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
33
+ - 针对每种语言使用了大约 100M Token 语料进行了 2 个 epoch 继续预训练
34
  - 总训练语料约 400M Tokens,总训练量约为 800M Tokens
35
  - 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
36
  - 训练参数如下:
 
48
  ### 实体识别模型 NER
49
 
50
  - 在 Base 模型的基础上,使用了大约 40000 条合成语料进行 NER 任务的微调
51
+ - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率(并非 F1 Score 这种理论上的指标)
52
  - 训练参数如下:
53
  - Batch Size : 32
54
  - Gradient Accumulation Steps : 2