Model Card for t5_small Summarization Model
Model Details
- λͺ¨λΈ μ΄λ¦: t5-small
- λͺ¨λΈ μν€ν μ²: μ΄ λͺ¨λΈμ T5(Text-To-Text Transfer Transformer) μν€ν μ²λ₯Ό κΈ°λ°μΌλ‘ νλ©°, λͺ¨λ μμ°μ΄ μ²λ¦¬(NLP) μμ μ ν μ€νΈ-ν¬-ν μ€νΈ λ¬Έμ λ‘ μ²λ¦¬νλλ‘ μ€κ³λμμ΅λλ€.
- μ¬μ νμ΅ λͺ¨λΈ Hugging Face
transformers
λΌμ΄λΈλ¬λ¦¬μt5-small
μ¬μ νμ΅ λͺ¨λΈμ μ¬μ©νμ΅λλ€. - μμ : μ΄ λͺ¨λΈμ CNN/DailyMail λ°μ΄ν°μ μ μ¬μ©ν ν μ€νΈ μμ½ μμ μ λν΄ λ―ΈμΈ μ‘°μ λμμ΅λλ€.
Training Data
- λ°μ΄ν°μ
: λͺ¨λΈμ νμ΅μ μ¬μ©λ λ°μ΄ν°λ CNN/DailyMail λ°μ΄ν°μ
μ λ²μ 3.0.0μ
λλ€. μ΄ λ°μ΄ν°μ
μ λ΄μ€ κΈ°μ¬(
article
)μ κ·Έμ λν μμ½λ¬Έ(highlights
)μΌλ‘ ꡬμ±λμ΄ μμΌλ©°, λͺ¨λΈμ μ λ ₯κ³Ό μΆλ ₯μΌλ‘ μ¬μ©λ©λλ€. - λ°μ΄ν° λΆν :
- νμ΅ λ°μ΄ν°: CNN/DailyMail νμ΅ λ°μ΄ν°μ 1% μ¬μ© (~287κ° μν)
- κ²μ¦ λ°μ΄ν°: CNN/DailyMail κ²μ¦ λ°μ΄ν°μ 1% μ¬μ© (~133κ° μν)
Training Procedure
- μ΅μ ν μκ³ λ¦¬μ¦: AdamW μ΅ν°λ§μ΄μ , νμ΅λ₯ μ 2e-5λ‘ μ€μ .
- λ°°μΉ ν¬κΈ°: νμ΅κ³Ό κ²μ¦ λͺ¨λμμ λ°°μΉ ν¬κΈ°λ₯Ό 4λ‘ μ€μ .
- νμ΅ μν¬ν¬: 1 μν¬ν¬ λμ νμ΅.
- μλ°μ λ¨κ³: νμ΅ μ΄κΈ°μ 500κ°μ μλ°μ λ¨κ³λ₯Ό ν΅ν΄ νμ΅λ₯ μ μ μ§μ μΌλ‘ μ¦κ°μν΄.
- κ°μ€μΉ κ°μ : 0.01μ κ°μ€μΉ κ°μ λ₯Ό μ μ©.
- νΌν© μ λ°λ: FP16(νΌν© μ λ°λ)μ μ¬μ©νμ¬ λ©λͺ¨λ¦¬ μ¬μ©λκ³Ό νμ΅ μλλ₯Ό μ΅μ ν.
How to Use
μ΄ λͺ¨λΈμ FP16(νΌν© μ λ°λ)μ νμ±νν λ¨μΌ GPUμμ νμ΅λμμ΅λλ€.
Evaluation
μ΄ λͺ¨λΈμ ν μ€νΈ μμ± μμ μμ μ£Όλ‘ μ¬μ©λλ λ κ°μ§ νκ° λ©νΈλ¦μ μ¬μ©νμ¬ νκ°λμμ΅λλ€:
ROUGE: μλ μμ½κ³Ό κΈ°κ³ λ²μ νκ°μ μμ£Ό μ¬μ©λλ ROUGE λ©νΈλ¦μ μ¬μ©νμ¬ νκ°. ROUGE-1: μμ±λ μμ½λ¬Έκ³Ό μ°Έμ‘° μμ½λ¬Έ κ°μ unigram(λ¨μΌ λ¨μ΄) μ€λ³΅μ μΈ‘μ . ROUGE-2: μμ±λ μμ½λ¬Έκ³Ό μ°Έμ‘° μμ½λ¬Έ κ°μ bigram(λ λ¨μ΄ μ‘°ν©) μ€λ³΅μ μΈ‘μ . ROUGE-L: μμ±λ μμ½λ¬Έκ³Ό μ°Έμ‘° μμ½λ¬Έ κ°μ κ°μ₯ κΈ΄ κ³΅ν΅ μμ΄(LCS)μ κΈ°λ°μΌλ‘ νκ°. BLEU: λ²μ νμ§μ νκ°νλ λ©νΈλ¦μΌλ‘, μμ±λ ν μ€νΈμ μ°Έμ‘° ν μ€νΈ κ°μ n-gram μ λ°λλ₯Ό μΈ‘μ . BLEU-1: unigram μ λ°λ μΈ‘μ . BLEU-2: bigram μ λ°λ μΈ‘μ . BLEU-4: 4-gram μ λ°λ μΈ‘μ . νκ° κ²°κ³Όλ ROUGE λ° BLEU λ©νΈλ¦μ μ¬μ©νμ¬ κ³μ°λμμ΅λλ€.
Limitations
νμ΅ λ°μ΄ν° ν¬κΈ°: μ΄ λͺ¨λΈμ CNN/DailyMail λ°μ΄ν°μ μ 1%λ§μΌλ‘ λ―ΈμΈ μ‘°μ λμκΈ° λλ¬Έμ λ§€μ° μ μ μμ λ°μ΄ν°λ‘ νμ΅λμμ΅λλ€. λ°λΌμ λ€λ₯Έ λλ©μΈμ΄λ μ νμ ν μ€νΈμ λν΄ μ μΌλ°νλμ§ μμ μ μμ΅λλ€. μμ½λ¬Έ κΈΈμ΄: μ λ ₯ κΈΈμ΄λ μ΅λ 512 ν ν°μΌλ‘ μ€μ λμ΄ μμ΅λλ€. 512 ν ν°μ μ΄κ³Όνλ κΈ°μ¬λ μ릴 μ μμΌλ©°, μ΄λ‘ μΈν΄ μμ½μ΄ λΆμμ ν΄μ§ μ μμ΅λλ€. λͺ¨λΈ ν¬κΈ°: t5-smallμ μμ λͺ¨λΈμ΄λ―λ‘, λ 볡μ‘νκ±°λ κΈ΄ λ¬Έμμ λν΄ μ±λ₯μ΄ μ νλ μ μμ΅λλ€. λ ν° λ²μ μΈ t5-base λλ t5-largeλ₯Ό μ¬μ©ν κ²½μ° μ±λ₯μ΄ κ°μ λ μ μμ΅λλ€.
Ethical Considerations
λ°μ΄ν° νΈν₯: CNN/DailyMail λ°μ΄ν°μ μ νΉμ λ΄μ€ κΈ°κ΄μ κΈ°μ¬λ₯Ό ν¬ν¨νκ³ μκΈ° λλ¬Έμ, λ°μ΄ν°μ νΈν₯μ΄ ν¬ν¨λ κ°λ₯μ±μ΄ μμ΅λλ€. μ΄λ μμ±λ μμ½λ¬Έμ΄ νΈν₯λκ±°λ μ곑λ κ°λ₯μ±μ λ΄ν¬ν©λλ€. μλͺ»λ μ 보: μ΄ λͺ¨λΈμ μΆμμ μΈ μμ½λ¬Έμ μμ±νλ―λ‘, μ λ ₯ ν μ€νΈκ° λΉκ΅¬μ‘°μ μ΄κ±°λ μ 맀ν κ²½μ° μλͺ»λ μ 보λ₯Ό ν¬ν¨ν μμ½μ μμ±ν μ μμ΅λλ€. νλΌμ΄λ²μ: μ΄ λͺ¨λΈμ΄ λ―Όκ°νκ±°λ κ°μΈ μ λ³΄κ° ν¬ν¨λ λ΄μ©μ μμ½νλ κ²½μ°, νλΌμ΄λ²μ λ¬Έμ κ° λ°μν μ μμ΅λλ€. νΉν λ―Όκ°ν λ΄μ©μ μμ½ν λλ κ΄λ ¨ λ²κ·μ νλΌμ΄λ²μ λ³΄νΈ κ·μ μ μ€μνλ κ²μ΄ μ€μν©λλ€.