Bug of tokenize "<|endoftext|>"
#3
by
YeungNLP
- opened
在对"<|endoftext|>"进行tokenize的时候,会将其切分成多个token,而不是151643这一个token。
运行脚本:
tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen-7B', trust_remote_code=True)
print('encode <|endoftext|>: {}'.format(tokenizer.encode('<|endoftext|>')))
分词结果为:
encode <|endoftext|>: [27, 91, 8691, 723, 427, 91, 29]
希望qwen的同学修复一下。
您好,这里的逻辑是为了防止被注入攻击,行为是符合预期的,可以参见https://github.com/QwenLM/Qwen-7B/issues/24 。
如有需要,可以手动拼好token_ids喂进模型进行训练,感谢您的关注。
感谢提出该问题!尽管该行为符合预期且默认情况下更为安全,但我们已更新代码。默认行为已调整为社区通行方案,以利使用。但我们仍建议您启用注入攻击相关防护。更多信息请参阅GitHub上的文档。
jklj077
changed discussion status to
closed