这是一个基于BPE算法训练的分词器,支持中英文混合文本。
from tokenizers import Tokenizer # 加载分词器 tokenizer = Tokenizer.from_pretrained("你的用户名/my-tokenizer") # 分词示例 text = "Hello, world!" output = tokenizer.encode(text) print("分词结果:", output.tokens)