Training에 대한 구체적인 정보를 알 수 있을까요??

#8
by beomgon - opened

안녕하세요.
그레이비랩 유범곤입니다.
좋은 모델 공유해 주셔서 감사합니다.

혹시 TRAINING할때 Lora를 사용했는지 아니면 fully training했는지 여부와
시간이 어느 정도 소요됐는지 궁금합니다.

감사합니다.

Owner

Full Params를 사용한 Continued pretrain입니다.
시간은 사용하시는 데이터량/장비에 따라 너무 차이가 크기 때문에 도움이 될 정보가 아닌것 같지만,
이 모델의 경우는 v4-256 TPU 장비 기준 약 일주일 이내로 학습된 모델입니다.

beomi changed discussion status to closed

Sign up or log in to comment