Bug of tokenize "<|endoftext|>"
#3
by
YeungNLP
- opened
在对"<|endoftext|>"进行tokenize的时候,会将其切分成多个token,而不是151643这一个token。
运行脚本:
tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen-7B', trust_remote_code=True)
print('encode <|endoftext|>: {}'.format(tokenizer.encode('<|endoftext|>')))
分词结果为:
encode <|endoftext|>: [27, 91, 8691, 723, 427, 91, 29]
希望qwen的同学修复一下。
您好,这里的逻辑是为了防止被注入攻击,行为是符合预期的,可以参见https://github.com/QwenLM/Qwen-7B/issues/24 。
如有需要,可以手动拼好token_ids喂进模型进行训练,感谢您的关注。
jklj077
changed discussion status to
closed