토크나이저에 이슈가 있었나요?

#1
by StatPan - opened

https://huggingface.co/LDCC/LDCC-SOLAR-10.7B

현 1등 모델의 정보를 보던 중에, 이 모델에 토크나이저 이슈가 있다고 언급이 되어 있던데,
간단하게 테스트 해봤을 땐 문제가 없는 것 같아서 문의 남겨봅니다

The question is if there was a tokenizer issue with the previous version v0.1.
Yes, there was. So we deprecated the previous model.
Tokenizer used in v0.2 has been shown that there is no issue so far. We repeatedly tested this version of the tokenizer and it decoded and encoded tokens well.

답장 감사드립니다~!
LDCC 쪽에서 말씀하신 내용은 v0.1에서 확인된 내용이 맞았습니다.
모델 오픈 소스 기여에 감사드리며 모델 잘 써보겠습니다

tokenizer.model 파일이 v0.2에는 없는데 v0.1에서 다운 받으면 될까요?

Yanolja org

tokenizer.model 파일이 v0.2에는 없는데 v0.1에서 다운 받으면 될까요?

아니요, v0.1과는 vocab size부터 다릅니다. tokenizer.model이 없어도 Fast tokenizer를 쓰시면 불러오실 수 있습니다.

Sign up or log in to comment