๋ชจ๋ธ ๊ฐ์
์ด ์ฑ๋ด์ ๋ํ๋ฏผ๊ตญ์์ ๋ฐ์ํ ์๋ฃ ์ ๋ฌธ ์ธ๋ ฅ ๋ถ์กฑ๊ณผ ์์ฌ ํ์ ์ผ๋ก ์ธํ ์๋ฃ ์๊ธฐ๋ฅผ ๋์ํ๊ธฐ ์ํด ๊ฐ๋ฐ๋์์ต๋๋ค. ์ด๊ฑฐ๋ AI ํฌ์ค์ผ์ด ์ง์์๋ต ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์๋ฃ ๋ถ์ผ์ ์ ๋ฌธ ์ง์์ ํฌํจํ ๋๊ท๋ชจ AI ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ํ์๋ค์๊ฒ ์ ์ํ๊ณ ์ ํํ ์๋ฃ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ชจ๋ธ ์์ธ ์ค๋ช
- ๋ชจ๋ธ๋ช : RAFT + RAG ๊ธฐ๋ฐ ์๋ฃ ์๋ด ์ฑ๋ด
- ๊ธฐ๋ฐ ๋ชจ๋ธ: Gemma-2-2b-it
- ํ์ต ๋ฐฉ๋ฒ: GPT 4o-mini๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐ RAFT ๋ฐฉ๋ฒ ์ ์ฉ
- ์ํคํ ์ฒ: Gemma-2-2b-it๊ณผ ๋์ผํ ๊ตฌ์กฐ ์ฌ์ฉ
๋ฐ์ดํฐ์
- ๋ฐ์ดํฐ์ ์ด๋ฆ: ์ด๊ฑฐ๋ AI ํฌ์ค์ผ์ด ์ง์์๋ต ๋ฐ์ดํฐ
- ์ถ์ฒ: AI ํ๋ธ
- ๋ฐ์ดํฐ ๊ตฌ์ฑ:
- 40%: ์ ๋ต์ด ํฌํจ๋ ๋ฌธ์ 1๊ฐ + ์ ๋ต๊ณผ ๊ด๋ จ ์๋ ๋ฌธ์ 1๊ฐ
- 60%: ์ ๋ต๊ณผ ๊ด๋ จ ์๋ ๋ฌธ์ 2๊ฐ
ํ์ต ๋ฐฉ๋ฒ
๋ชจ๋ธ์ GPT 4o-mini๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ๊ณผ RAFT(Adapting Language Model to Domain Specific RAG) ๋ฐฉ๋ฒ์ ์ ์ฉํ์ฌ ํ์ต๋์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ํตํด ๋ชจ๋ธ์ ๋ณต์กํ ๋ฌธ๋งฅ ์ดํด์ ์ ํํ ์ ๋ณด ๊ฒ์ ๋ฅ๋ ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
์์
<bos><start_of_turn>user
<Question>: ์กฑ์ ๊ทผ๋ง์ผ ์ฌํ์ ์ํด ์ด๋ค ์กฐ์น๋ฅผ ์ทจํด์ผ ํ๋์?
<Documents>: [
'์กฑ์ ๊ทผ๋ง์ผ ์ฌํ์ ๋ฐ ๊ฑด๊ฐ์ ํ๋ณตํ๊ณ ํต์ฆ์ ์ํํ๊ธฐ ์ํด ๋ค์ํ ์กฐ์น๋ค์ ์ทจํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ...',
'์ธ์ ํ ์คํธ๋ ์ค ์ฅ์ ์น๋ฃ๋ฅผ ์ํด ์ฝ๋ฌผ ์น๋ฃ๊ฐ ์ ํ๋ ์ ์์ต๋๋ค. ...'
]
<end_of_turn>
<start_of_turn>model
<Answer>: ์กฑ์ ๊ทผ๋ง์ผ ์ฌํ์ ์ํด ์ทจํด์ผ ํ ์กฐ์น๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: ...
<end_of_turn><eos>
์์
์ง๋ฌธ:
๋ํต์ด ์์ฃผ ๋ฐ์ํ๋ ์ด์ ๊ฐ ๊ถ๊ธํฉ๋๋ค. ์คํธ๋ ์ค ๋๋ฌธ์ผ๊น์, ์๋๋ฉด ๋ค๋ฅธ ๊ฑด๊ฐ ๋ฌธ์ ์ผ๊น์? ์ด๋ค ์ํฉ์์ ๋ํต์ด ์ฌํด์ง๋์ง์ ํจ๊ป ์ฃผ์ํ ์ ์ ์๊ณ ์ถ์ด์.
๋ต๋ณ:
## ๋ํต์ ์์ธ
๋ํต์ ์ฌ๋ฌ ๊ฐ์ง ์์ธ์ผ๋ก ๋ฐ์ํ ์ ์์ต๋๋ค. ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ์์ธ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒ๋ค์ด ์์ต๋๋ค:
1. **์คํธ๋ ์ค**: ์ผ์์ํ์์์ ์คํธ๋ ์ค๋ ๋ํต์ ์ ๋ฐํ ์ ์์ต๋๋ค. ํนํ ์
๋ฌด๋ ํ์
, ๊ฐ์กฑ ๊ด๊ณ์์์ ์๋ฐ๊ฐ์ด ๋ํต์ ์
ํ์ํฌ ์ ์์ต๋๋ค.
2. **์ ์ฒด์ ์์ธ**: ๊ทผ์ก์ ๊ธด์ฅ, ํ์ก ์ํ ๋ฌธ์ , ํธ๋ฅด๋ชฌ ๋ณํ ๋ฑ ์ ์ฒด์ ์ธ ์์ธ๋ ๋ํต์ ์ ๋ฐํ ์ ์์ต๋๋ค.
3. **์์ ๊ฒฐํ**: ๋นํ๋ฏผ B6 ๊ฒฐํ์ด๋ ๋จ๋ฐฑ์ง ๋ถ์กฑ์ ๋ํต์ ์ผ์ผํฌ ์ ์์ต๋๋ค.
4. **์ฝ๋ฌผ**: ํน์ ์ฝ๋ฌผ, ํนํ ํญ์ฐ์ธ์ ๋ ์งํต์ ๋ฑ์ด ๋ํต์ ์ ๋ฐํ ์ ์์ต๋๋ค.
5. **๋น๋ง**: ์ฒด์ค์ด ๊ณผ๋คํ๋ฉด ํ์ก์ํ์ด ์ ํ๋์ด ๋ํต์ด ๋ฐ์ํ ์ ์์ต๋๋ค.
## ๋ํต์ ์ฃผ์์
๋ํต์ด ์์ฃผ ๋ฐ์ํ๋ ๊ฒฝ์ฐ, ๋ค์๊ณผ ๊ฐ์ ์ฃผ์์ ์ ๋ฐ๋ฅด๋ ๊ฒ์ด ์ค์ํฉ๋๋ค:
- **์คํธ๋ ์ค ๊ด๋ฆฌ**: ์คํธ๋ ์ค๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ช
์, ์๊ฐ, ์ฌํธํก ๋ฑ์ ๋ฐฉ๋ฒ์ ์๋ํด๋ณด์ธ์.
- **๊ฑด๊ฐํ ์์ต๊ด**: ๊ท ํ ์กํ ์์ฌ๋ฅผ ํ๊ณ , ๊ณผ์์ด๋ ํ์ํ๋ฌผ ๊ณผ๋ค ์ญ์ทจ๋ฅผ ํผํ์ธ์.
- **๊ท์น์ ์ธ ์ด๋**: ๋งค์ผ ์งง์ ์ด๋์ ํตํด ํ์ก์ํ์ ๊ฐ์ ํ๊ณ ์คํธ๋ ์ค๋ฅผ ์ค์ด๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
- **์ถฉ๋ถํ ์๋ฉด**: ๊ท์น์ ์ธ ์๋ฉด ํจํด์ ์ ์งํ๊ณ , ์ ์๊ธฐ ์ ์๋ ์คํธ๋ ์ค๋ฅผ ์ค์ด๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
- **์ ๋ฌธ๊ฐ ์๋ด**: ๋ํต์ด ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ์ํ๊ฑฐ๋ ์ฌ๊ฐํ ์ฆ์์ด ์์ ๊ฒฝ์ฐ, ์์ฌ์ ์๋ดํ์ฌ ์ ์ ํ ์ง๋จ๊ณผ ์น๋ฃ๋ฅผ ๋ฐ๋ ๊ฒ์ด ํ์ํฉ๋๋ค.
๋ํต์ ์ผ๋ฐ์ ์ผ๋ก ์ผ์์ํ์ ํฐ ์ง์ฅ์ ์ฃผ์ง ์์ง๋ง, ๋ง์ฝ ์์ฃผ ๋ฐ์ํ๊ฑฐ๋ ์ฌ๊ฐํ ์ฆ์์ด ๋ํ๋๋ค๋ฉด ์ ๋ฌธ๊ฐ์ ๋์์ ๋ฐ๋ ๊ฒ์ด ์ข์ต๋๋ค.
ํ๊ฐ ๊ฒฐ๊ณผ
๋ณธ ์ฐ๊ตฌ์์๋ RAFT + RAG ๋ชจ๋ธ๊ณผ ๊ธฐ์กด ๋ชจ๋ธ์ธ Gemma-2-2b-it์ ๋น๊ตํ์ฌ RAGAS: Automated Evaluation of Retrieval Augmented Generation ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ์ฌ ๋ต๋ณ ์ ์ฌ๋๋ฅผ ํ๊ฐํ์ต๋๋ค.
- Gemma-2-2b-it ๋ชจ๋ธ: ํ๊ท 79.98% ์ ์ ์ฌ๋ ๊ธฐ๋ก
- RAFT + RAG ๋ชจ๋ธ: ํ๊ท 96.02% ์ ์ ์ฌ๋ ๊ธฐ๋ก
- ์ต์ ์ ์ฌ๋: 92.39%
- ์ต๋ ์ ์ฌ๋: 98.56%
์ฝ 16% ์ ์ฑ๋ฅ ํฅ์์ด ํ์ธ๋์์ผ๋ฉฐ, ์ด๋ RAFT + RAG ๋ชจ๋ธ์ด ๋ณต์กํ ๋ฌธ๋งฅ๊ณผ ์ ๋ณด ๊ฒ์์์ ์ฐ์ํ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ๋ณด์ ํ๊ณ ์์์ ๋ํ๋ ๋๋ค.
์ฌ์ฉ ๋ฐฉ๋ฒ
์ฌ์ฉ ๋ฐฉ๋ฒ๊ณผ ์ํคํ ์ฒ๋ Gemma-2-2b-it ๋ชจ๋ธ๊ณผ ๋์ผํฉ๋๋ค. ๋ชจ๋ธ์ ํ๊ตญ์ด ์๋ฃ ์ง์์ ๋ํด ์ ๋ฌธ์ ์ธ ๋ต๋ณ์ ์ ๊ณตํฉ๋๋ค.
๋ชจ๋ธ ๋ฐ ์์ํ ๋ฒ์
์๋๋ ๋ณธ ๋ชจ๋ธ๊ณผ ์์ํํ ๋ฒ์ , ๊ทธ๋ฆฌ๊ณ DSF(Domain-Specific Fine-tuning) ๋ชจ๋ธ์ ๋งํฌ์ ๋๋ค:
- RAFT ๋ชจ๋ธ
- DSF ๋ชจ๋ธ
์ ํ ์ฌํญ ๋ฐ ์ฃผ์์ฌํญ
- ์๋ฃ ์กฐ์ธ: ์ด ๋ชจ๋ธ์ ์๋ฃ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง๋ง, ์ ๋ฌธ์ ์ธ ์๋ฃ ์๋ด์ด๋ ์ง๋จ์ ๋์ฒดํ์ง ์์ต๋๋ค. ๊ฑด๊ฐ ๊ด๋ จ ์์ฌ ๊ฒฐ์ ์ ๋ฐ๋์ ์๋ฃ ์ ๋ฌธ๊ฐ์ ์์ํ์๊ธฐ ๋ฐ๋๋๋ค.
- ๋ฐ์ดํฐ ํ๊ณ: ๋ชจ๋ธ์ ํ์ต๋ ๋ฐ์ดํฐ ๋ฒ์ ๋ด์์ ๋ต๋ณ์ ์ ๊ณตํฉ๋๋ค. ์ต์ ์๋ฃ ์ง์นจ์ด๋ ๊ฐ์ธ๋ณ ์ํฉ์ ๋ํ ๊ณ ๋ ค๋ ๋ถ์กฑํ ์ ์์ต๋๋ค.
- ์ฑ ์ ํ๊ณ: ์ด ๋ชจ๋ธ์ ์ฌ์ฉ์ผ๋ก ๋ฐ์ํ๋ ๊ฒฐ๊ณผ์ ๋ํด ๊ฐ๋ฐ์๋ ์ฑ ์์ ์ง์ง ์์ต๋๋ค.
์ธ์ฉ
์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฑฐ๋ ์ฐ๊ตฌ์ ์ฐธ๊ณ ํ์ค ๊ฒฝ์ฐ ๋ค์ ๋ฌธํ์ ์ธ์ฉํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค:
- ์ด๊ฑฐ๋ AI ํฌ์ค์ผ์ด ์ง์์๋ต ๋ฐ์ดํฐ: AI ํ๋ธ, ์ด๊ฑฐ๋ AI ํฌ์ค์ผ์ด ์ง์์๋ต ๋ฐ์ดํฐ
- Gemma 2 ๋ชจ๋ธ: "Gemma 2: Improving Open Language Models at a Practical Size", 2023.
- RAFT ๋ฐฉ๋ฒ๋ก : Park et al., "Adapting Language Model to Domain Specific RAG", arXiv preprint arXiv:2403.10131, 2023.
- RAGAS ํ๊ฐ ๋ฐฉ๋ฒ๋ก : Kim et al., "RAGAS: Automated Evaluation of Retrieval Augmented Generation", 2023.
๋ผ์ด์ ์ค
์ด ๋ชจ๋ธ์ ํด๋น ๋ฐ์ดํฐ์ ๊ณผ ์์ฒ ๋ชจ๋ธ์ ๋ผ์ด์ ์ค ์กฐ๊ฑด์ ๋ฐ๋ผ ์ฌ์ฉํด์ผ ํฉ๋๋ค. ์ฌ์ฉ ์ ์ ๋ฐ๋์ ๋ผ์ด์ ์ค ๋ด์ฉ์ ํ์ธํ์๊ธฐ ๋ฐ๋๋๋ค.
- Downloads last month
- 5