Max1798 commited on
Commit
23cfd05
·
verified ·
1 Parent(s): ef823d6

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -21
README.md CHANGED
@@ -1,8 +1,4 @@
1
- # My BPE Tokenizer(我的分词器)
2
 
3
- 这是一个基于 BPE 算法训练的自定义分词器,支持英文文本分词。
4
-
5
- ## 试玩:输入文本查看分词结果
6
  ---
7
  task: token-classification # 指定任务类型(分词属于“token分类”)
8
  widget:
@@ -13,20 +9,4 @@ widget:
13
  inference:
14
  parameters:
15
  add_special_tokens: false # 可选:是否添加特殊token(如[CLS])
16
- ---
17
-
18
- ## 分词效果说明
19
- - 会将连续文本拆分为子词(如 "tokenizer" → ["token", "izer"])
20
- - 支持标点符号和空格的识别(如 "," "!" 会被单独拆分)
21
-
22
- ## 使用方法(代码调用)
23
- ```python
24
- from tokenizers import Tokenizer
25
-
26
- # 加载分词器
27
- tokenizer = Tokenizer.from_pretrained("你的用户名/my-Tokenizer")
28
-
29
- # 分词示例
30
- text = "Hello, world!"
31
- output = tokenizer.encode(text)
32
- print("分词结果:", output.tokens) # 输出拆分后的子词列表
 
 
1
 
 
 
 
2
  ---
3
  task: token-classification # 指定任务类型(分词属于“token分类”)
4
  widget:
 
9
  inference:
10
  parameters:
11
  add_special_tokens: false # 可选:是否添加特殊token(如[CLS])
12
+ ---