Max1798
/

my-tokenizer

Model card Files Files and versions

Max1798 commited on Jul 17

Commit

23cfd05

·

verified ·

1 Parent(s): ef823d6

Update README.md

Files changed (1) hide show

README.md +1 -21

README.md CHANGED Viewed

@@ -1,8 +1,4 @@
-# My BPE Tokenizer（我的分词器）
-这是一个基于 BPE 算法训练的自定义分词器，支持英文文本分词。
-## 试玩：输入文本查看分词结果
 ---
 task: token-classification  # 指定任务类型（分词属于“token分类”）
 widget:
@@ -13,20 +9,4 @@ widget:
 inference:
   parameters:
     add_special_tokens: false  # 可选：是否添加特殊token（如[CLS]）
----
-## 分词效果说明
-- 会将连续文本拆分为子词（如 "tokenizer" → ["token", "izer"]）
-- 支持标点符号和空格的识别（如 "," "!" 会被单独拆分）
-## 使用方法（代码调用）
-```python
-from tokenizers import Tokenizer
-# 加载分词器
-tokenizer = Tokenizer.from_pretrained("你的用户名/my-Tokenizer")
-# 分词示例
-text = "Hello, world!"
-output = tokenizer.encode(text)
-print("分词结果：", output.tokens)  # 输出拆分后的子词列表

 ---
 task: token-classification  # 指定任务类型（分词属于“token分类”）
 widget:
 inference:
   parameters:
     add_special_tokens: false  # 可选：是否添加特殊token（如[CLS]）
+---