IDEA-CCNL/Ziya-LLaMA-13B-v1 · 您好，add_token.json内容和models不匹配，这个应该怎么修改

redauzhang

Jun 6, 2023

这个地方出现，vocab和 add_token 不匹配，应该怎么修改。
我是需要把这个bin改成其他格式的文件，比如让 llama.cpp 进行驱动

qiyang

Fengshenbang-LM org Jun 7, 2023

•

edited Jun 7, 2023

实际词表 39410，config 中的 vocab = 39424 是因为我们使用的训练框架中为了便于切分并行（需被128整除）自动给 embedding 增加了 dummy token ，这部分参数没有意义。

具体怎么修改需要看下 llama.cpp 脚本，可以尝试加 added_token 到 39424，或者如果没有类似需要切分补全的操作，在 convert 脚本中取前面有效 39410 个 embedding tensor + 去掉 check vocab size 检验.

redauzhang

Jun 7, 2023

实际词表 39410，config 中的 vocab = 39424 是因为我们使用的训练框架中为了便于切分并行（需被128整除）自动给 embedding 增加了 dummy token ，这部分参数没有意义。

具体怎么修改需要看下 llama.cpp 脚本，可以尝试加 added_token 到 39424，或者如果没有类似需要切分补全的操作，在 convert 脚本中取前面有效 39410 个 embedding tensor + 去掉 check vocab size 检验.

相关 issue 可能有用 https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1/discussions/5

好的，你帮了大忙了，我再研究下。

redauzhang changed discussion status to closed Jun 7, 2023