t5-small-custom / README.md
Jisu80609's picture
Initial commit for the t5-small-custom model
1382001

Model Card for t5_small Summarization Model

Model Details

  • λͺ¨λΈ 이름: t5-small
  • λͺ¨λΈ μ•„ν‚€ν…μ²˜: 이 λͺ¨λΈμ€ T5(Text-To-Text Transfer Transformer) μ•„ν‚€ν…μ²˜λ₯Ό 기반으둜 ν•˜λ©°, λͺ¨λ“  μžμ—°μ–΄ 처리(NLP) μž‘μ—…μ„ ν…μŠ€νŠΈ-투-ν…μŠ€νŠΈ 문제둜 μ²˜λ¦¬ν•˜λ„λ‘ μ„€κ³„λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
  • 사전 ν•™μŠ΅ λͺ¨λΈ Hugging Face transformers 라이브러리의 t5-small 사전 ν•™μŠ΅ λͺ¨λΈμ„ μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€.
  • μž‘μ—…: 이 λͺ¨λΈμ€ CNN/DailyMail 데이터셋을 μ‚¬μš©ν•œ ν…μŠ€νŠΈ μš”μ•½ μž‘μ—…μ— λŒ€ν•΄ λ―Έμ„Έ μ‘°μ •λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

Training Data

  • 데이터셋: λͺ¨λΈμ˜ ν•™μŠ΅μ— μ‚¬μš©λœ λ°μ΄ν„°λŠ” CNN/DailyMail λ°μ΄ν„°μ…‹μ˜ 버전 3.0.0μž…λ‹ˆλ‹€. 이 데이터셋은 λ‰΄μŠ€ 기사(article)와 그에 λŒ€ν•œ μš”μ•½λ¬Έ(highlights)으둜 κ΅¬μ„±λ˜μ–΄ 있으며, λͺ¨λΈμ˜ μž…λ ₯κ³Ό 좜λ ₯으둜 μ‚¬μš©λ©λ‹ˆλ‹€.
  • 데이터 λΆ„ν• :
    • ν•™μŠ΅ 데이터: CNN/DailyMail ν•™μŠ΅ λ°μ΄ν„°μ˜ 1% μ‚¬μš© (~287개 μƒ˜ν”Œ)
    • 검증 데이터: CNN/DailyMail 검증 λ°μ΄ν„°μ˜ 1% μ‚¬μš© (~133개 μƒ˜ν”Œ)

Training Procedure

  • μ΅œμ ν™” μ•Œκ³ λ¦¬μ¦˜: AdamW μ˜΅ν‹°λ§ˆμ΄μ €, ν•™μŠ΅λ₯ μ€ 2e-5둜 μ„€μ •.
  • 배치 크기: ν•™μŠ΅κ³Ό 검증 λͺ¨λ‘μ—μ„œ 배치 크기λ₯Ό 4둜 μ„€μ •.
  • ν•™μŠ΅ 에포크: 1 에포크 λ™μ•ˆ ν•™μŠ΅.
  • μ›Œλ°μ—… 단계: ν•™μŠ΅ μ΄ˆκΈ°μ— 500개의 μ›Œλ°μ—… 단계λ₯Ό 톡해 ν•™μŠ΅λ₯ μ„ μ μ§„μ μœΌλ‘œ μ¦κ°€μ‹œν‚΄.
  • κ°€μ€‘μΉ˜ 감쇠: 0.01의 κ°€μ€‘μΉ˜ 감쇠λ₯Ό 적용.
  • ν˜Όν•© 정밀도: FP16(ν˜Όν•© 정밀도)을 μ‚¬μš©ν•˜μ—¬ λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰κ³Ό ν•™μŠ΅ 속도λ₯Ό μ΅œμ ν™”.

How to Use

이 λͺ¨λΈμ€ FP16(ν˜Όν•© 정밀도)을 ν™œμ„±ν™”ν•œ 단일 GPUμ—μ„œ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

Evaluation

이 λͺ¨λΈμ€ ν…μŠ€νŠΈ 생성 μž‘μ—…μ—μ„œ 주둜 μ‚¬μš©λ˜λŠ” 두 가지 평가 λ©”νŠΈλ¦­μ„ μ‚¬μš©ν•˜μ—¬ ν‰κ°€λ˜μ—ˆμŠ΅λ‹ˆλ‹€:

ROUGE: μžλ™ μš”μ•½κ³Ό 기계 λ²ˆμ—­ 평가에 자주 μ‚¬μš©λ˜λŠ” ROUGE λ©”νŠΈλ¦­μ„ μ‚¬μš©ν•˜μ—¬ 평가. ROUGE-1: μƒμ„±λœ μš”μ•½λ¬Έκ³Ό μ°Έμ‘° μš”μ•½λ¬Έ κ°„μ˜ unigram(단일 단어) 쀑볡을 μΈ‘μ •. ROUGE-2: μƒμ„±λœ μš”μ•½λ¬Έκ³Ό μ°Έμ‘° μš”μ•½λ¬Έ κ°„μ˜ bigram(두 단어 μ‘°ν•©) 쀑볡을 μΈ‘μ •. ROUGE-L: μƒμ„±λœ μš”μ•½λ¬Έκ³Ό μ°Έμ‘° μš”μ•½λ¬Έ κ°„μ˜ κ°€μž₯ κΈ΄ 곡톡 μ„œμ—΄(LCS)을 기반으둜 평가. BLEU: λ²ˆμ—­ ν’ˆμ§ˆμ„ ν‰κ°€ν•˜λŠ” λ©”νŠΈλ¦­μœΌλ‘œ, μƒμ„±λœ ν…μŠ€νŠΈμ™€ μ°Έμ‘° ν…μŠ€νŠΈ κ°„μ˜ n-gram 정밀도λ₯Ό μΈ‘μ •. BLEU-1: unigram 정밀도 μΈ‘μ •. BLEU-2: bigram 정밀도 μΈ‘μ •. BLEU-4: 4-gram 정밀도 μΈ‘μ •. 평가 κ²°κ³ΌλŠ” ROUGE 및 BLEU λ©”νŠΈλ¦­μ„ μ‚¬μš©ν•˜μ—¬ κ³„μ‚°λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

Limitations

ν•™μŠ΅ 데이터 크기: 이 λͺ¨λΈμ€ CNN/DailyMail λ°μ΄ν„°μ…‹μ˜ 1%만으둜 λ―Έμ„Έ μ‘°μ •λ˜μ—ˆκΈ° λ•Œλ¬Έμ— 맀우 적은 μ–‘μ˜ λ°μ΄ν„°λ‘œ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ λ‹€λ₯Έ λ„λ©”μΈμ΄λ‚˜ μœ ν˜•μ˜ ν…μŠ€νŠΈμ— λŒ€ν•΄ 잘 μΌλ°˜ν™”λ˜μ§€ μ•Šμ„ 수 μžˆμŠ΅λ‹ˆλ‹€. μš”μ•½λ¬Έ 길이: μž…λ ₯ κΈΈμ΄λŠ” μ΅œλŒ€ 512 ν† ν°μœΌλ‘œ μ„€μ •λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 512 토큰을 μ΄ˆκ³Όν•˜λŠ” κΈ°μ‚¬λŠ” 잘릴 수 있으며, 이둜 인해 μš”μ•½μ΄ λΆˆμ™„μ „ν•΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€. λͺ¨λΈ 크기: t5-small은 μž‘μ€ λͺ¨λΈμ΄λ―€λ‘œ, 더 λ³΅μž‘ν•˜κ±°λ‚˜ κΈ΄ λ¬Έμ„œμ— λŒ€ν•΄ μ„±λŠ₯이 μ œν•œλ  수 μžˆμŠ΅λ‹ˆλ‹€. 더 큰 버전인 t5-base λ˜λŠ” t5-largeλ₯Ό μ‚¬μš©ν•  경우 μ„±λŠ₯이 κ°œμ„ λ  수 μžˆμŠ΅λ‹ˆλ‹€.

Ethical Considerations

데이터 편ν–₯: CNN/DailyMail 데이터셋은 νŠΉμ • λ‰΄μŠ€ κΈ°κ΄€μ˜ 기사λ₯Ό ν¬ν•¨ν•˜κ³  있기 λ•Œλ¬Έμ—, 데이터에 편ν–₯이 포함될 κ°€λŠ₯성이 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μƒμ„±λœ μš”μ•½λ¬Έμ΄ 편ν–₯λ˜κ±°λ‚˜ μ™œκ³‘λ  κ°€λŠ₯성을 λ‚΄ν¬ν•©λ‹ˆλ‹€. 잘λͺ»λœ 정보: 이 λͺ¨λΈμ€ 좔상적인 μš”μ•½λ¬Έμ„ μƒμ„±ν•˜λ―€λ‘œ, μž…λ ₯ ν…μŠ€νŠΈκ°€ λΉ„κ΅¬μ‘°μ μ΄κ±°λ‚˜ μ• λ§€ν•œ 경우 잘λͺ»λœ 정보λ₯Ό ν¬ν•¨ν•œ μš”μ•½μ„ 생성할 수 μžˆμŠ΅λ‹ˆλ‹€. ν”„λΌμ΄λ²„μ‹œ: 이 λͺ¨λΈμ΄ λ―Όκ°ν•˜κ±°λ‚˜ 개인 정보가 ν¬ν•¨λœ λ‚΄μš©μ„ μš”μ•½ν•˜λŠ” 경우, ν”„λΌμ΄λ²„μ‹œ λ¬Έμ œκ°€ λ°œμƒν•  수 μžˆμŠ΅λ‹ˆλ‹€. 특히 λ―Όκ°ν•œ λ‚΄μš©μ„ μš”μ•½ν•  λ•ŒλŠ” κ΄€λ ¨ λ²•κ·œμ™€ ν”„λΌμ΄λ²„μ‹œ 보호 κ·œμ •μ„ μ€€μˆ˜ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.