Dataset Card for Custom Text Dataset
Dataset Name
컀μ€ν CNN/DailyMail μΆμΆ μμ½ λ°μ΄ν°μ
Overview
μ΄ λ°μ΄ν°μ μ CNN/DailyMail λ΄μ€ κΈ°μ¬μμ μΆμΆν λ¬Έμ₯λ€κ³Ό ν΄λΉ λ¬Έμ₯μ μμ½μΌλ‘ ꡬμ±λμ΄ μλ€. μ΄ λ°μ΄ν°μ μ νλ ¨ λ° ν μ€νΈλ₯Ό μν΄ μ»€μ€ν ν μκ·λͺ¨ νμ λ°μ΄ν°μ μ ν¬ν¨νκ³ μλ€.
Composition
- νλ ¨ λ°μ΄ν°: νλμ λ¬Έμ₯κ³Ό κ·Έμ λν μμ½μ΄ ν¬ν¨λ μν.
- ν μ€νΈ λ°μ΄ν°: CNN/DailyMail λ°μ΄ν°μ μ μλ³Έ ν μ€νΈ μΈνΈμμ 100κ°μ μνμ μΆμΆ.
Collection Process
νλ ¨ λ°μ΄ν°λ μμμ
μΌλ‘ μμ±λμμΌλ©°, ν
μ€νΈ λ°μ΄ν°λ cnn_dailymail
λ°μ΄ν°μ
μ ν
μ€νΈ μΈνΈμμ μΆμΆλμλ€.
Preprocessing
Hugging Face datasets
λΌμ΄λΈλ¬λ¦¬λ₯Ό μ¬μ©νμ¬ λ°μ΄ν°λ₯Ό μ μ²λ¦¬νλ€. νλ ¨ λ° ν
μ€νΈ λ°μ΄ν°μ
μ Hugging Faceμμ μ¬μ©ν μ μλ νμμΌλ‘ μ μ₯λμλ€.
How to Use
from datasets import load_from_disk
train_dataset = load_from_disk('./results/custom_dataset/train')
test_dataset = load_from_disk('./results/custom_dataset/test')
Evaluation
μ΄ λ°μ΄ν°μ μ ROUGEμ κ°μ μ ν΅μ μΈ μμ½ νκ° μ§νλ₯Ό μ¬μ©νμ¬ νκ°ν μ μλ€.
Limitations
νλ ¨ λ°μ΄ν°μ μ λ§€μ° μ μ μμΌλ‘, μΌλ°νκ° μ΄λ €μΈ μ μλ€. ν μ€νΈ λ°μ΄ν°λ μΈλΆ μΆμ²μμ κ°μ ΈμμΌλ©°, μλ³Έ λ°μ΄ν°μ μ μ‘΄μ¬νλ νΈν₯μ΄ ν¬ν¨λ μ μλ€.
Ethical Considerations
μ΄ λ°μ΄ν°μ μλ λ―Όκ°ν μ μΉμ μ£Όμ μ κ΄λ ¨λ λ΄μ©μ΄ ν¬ν¨λμ΄ μλ€. μ¬μ©μλ μμ½μμ λ°μν μ μλ μ€ν΄λ νΈν₯μ μ£Όμν΄μΌ νλ€