Spaces:
Running
on
CPU Upgrade
Running
on
CPU Upgrade
evaluation prompt의 형식이 어떻게 되는지요?
#56
by
beomgon
- opened
아래에서 Human, Assistant 등이 어떻게 되는지 모르겠습니다.
\n\nHuman: 양파는 어떤 식물 부위인가요? 그리고 고구마는 뿌리인가요?\n\nAssistant: 양파는 잎이 아닌 식물의 줄기 부분입니다.
각 태스크 별 예시 프롬프트 형식이 어떻게 되는지 궁금합니다.
같은 맥락의 질문이 있어 코멘트로 문의드립니다.
리더보드 평가 기반이 lm-evaluation-harness를 따른다고 확인하였는데요, 다른 Discussion을 보다가 일부 차이가 있는 것 같아 질문드립니다.
ARC에 대해 input prompt를 확인한 결과 아래와 같은 차이가 보입니다. 무엇을 기준으로 봐야 하는지 혼동되는 상황입니다.
마찬가지로 Hellaswag 역시 choices를 프롬프트에 입력하여 accuracy를 측정하는지, 혹은 multiple choice의 likelihood를 연산하는지 헷갈리는데요, 태스크별 프롬프트에 대한 가이드 혹은 간단한 안내가 있으면 좋을 것 같습니다.
추가적으로 output 형태 또한 lm-evaluation-harness benchmark 데이터 별 few shot 의 output 형태를 기준으로 하는 것인지
아니면 다른 기준이 있는 것인지 가이드 혹은 간단한 안내가 있으면 좋을 것 같습니다.