Max1798
/

my-tokenizer

Model card Files Files and versions

Max1798 commited on Jul 17

Commit

ef823d6

·

verified ·

1 Parent(s): 42ea18f

Update README.md

Files changed (1) hide show

README.md +29 -3

README.md CHANGED Viewed

@@ -1,6 +1,32 @@
 ---
-license: mit
 widget:
-  - text: "从前有一个小村庄"
-    example_title: "中文故事生成"
 ---

+# My BPE Tokenizer（我的分词器）
+这是一个基于 BPE 算法训练的自定义分词器，支持英文文本分词。
+## 试玩：输入文本查看分词结果
 ---
+task: token-classification  # 指定任务类型（分词属于“token分类”）
 widget:
+  - text: "Hello, this is a test of my BPE tokenizer!"  # 默认测试文本
+    example_title: "基础分词示例"
+  - text: "Natural language processing is fun and useful."  # 第二个示例
+    example_title: "NLP相关文本"
+inference:
+  parameters:
+    add_special_tokens: false  # 可选：是否添加特殊token（如[CLS]）
 ---
+## 分词效果说明
+- 会将连续文本拆分为子词（如 "tokenizer" → ["token", "izer"]）
+- 支持标点符号和空格的识别（如 "," "!" 会被单独拆分）
+## 使用方法（代码调用）
+```python
+from tokenizers import Tokenizer
+# 加载分词器
+tokenizer = Tokenizer.from_pretrained("你的用户名/my-Tokenizer")
+# 分词示例
+text = "Hello, world!"
+output = tokenizer.encode(text)
+print("分词结果：", output.tokens)  # 输出拆分后的子词列表