beomgon

Mar 8

아래에서 Human, Assistant 등이 어떻게 되는지 모르겠습니다.

\n\nHuman: 양파는 어떤 식물 부위인가요? 그리고 고구마는 뿌리인가요?\n\nAssistant: 양파는 잎이 아닌 식물의 줄기 부분입니다.

각 태스크 별 예시 프롬프트 형식이 어떻게 되는지 궁금합니다.

GyuBack

Mar 8

같은 맥락의 질문이 있어 코멘트로 문의드립니다.

리더보드 평가 기반이 lm-evaluation-harness를 따른다고 확인하였는데요, 다른 Discussion을 보다가 일부 차이가 있는 것 같아 질문드립니다.
ARC에 대해 input prompt를 확인한 결과 아래와 같은 차이가 보입니다. 무엇을 기준으로 봐야 하는지 혼동되는 상황입니다.

마찬가지로 Hellaswag 역시 choices를 프롬프트에 입력하여 accuracy를 측정하는지, 혹은 multiple choice의 likelihood를 연산하는지 헷갈리는데요, 태스크별 프롬프트에 대한 가이드 혹은 간단한 안내가 있으면 좋을 것 같습니다.

추가적으로 output 형태 또한 lm-evaluation-harness benchmark 데이터 별 few shot 의 output 형태를 기준으로 하는 것인지
아니면 다른 기준이 있는 것인지 가이드 혹은 간단한 안내가 있으면 좋을 것 같습니다.

================================================
< lm-evaluation-harness의 ARC Input prompt 예시>

Question: Rocks found on Earth are classified as sedimentary, metamorphic, or igneous based on
Answer: how the rocks were formed.
Question: Soccer players use their muscle systems to kick a ball into a goal. What organ system coordinates the muscles?
Answer:

<Discussion#11의 ARC 포맷 예시>

concept set: {I, moral, content, topic, lecture, do}
1. I give a lecture with a moral theme.
2. I did not give a lecture on a moral topic.
3. I gave a lecture because of a moral topic.
4. Moral content makes me lecture.
Answer: I did not give a lecture on a moral topic.

choco9966

upstage org Mar 13

안녕하세요. 모든 포맷과 프롬프트는 원론적으로는 lm-evaluation-harness를 따르고 있습니다.
관련해서는 lm-evaluation-harness를 보시면 좋을 것 같습니다.

@GyuBack 님 질문에 추가 답변드리면,
Discussion#11의 ARC 포맷 예시 파트는 ARC 데이터가 저런 포맷이라는게 아니라 데이터는 Ko-Commongenv2의 포맷이고 평가가 MMLU / Harness / ARC 중에서 ARC 포맷의 평가라는 것 같습니다.

Spaces:

upstage
/

open-ko-llm-leaderboard

Running on CPU Upgrade

evaluation prompt의 형식이 어떻게 되는지요?