Initial commit for the t5-small-custom model
Browse files
README.md
ADDED
@@ -0,0 +1,50 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
## Model Card for t5_small Summarization Model
|
3 |
+
|
4 |
+
|
5 |
+
## Model Details
|
6 |
+
- λͺ¨λΈ μ΄λ¦: t5-small
|
7 |
+
- λͺ¨λΈ μν€ν
μ²: μ΄ λͺ¨λΈμ T5(Text-To-Text Transfer Transformer) μν€ν
μ²λ₯Ό κΈ°λ°μΌλ‘ νλ©°, λͺ¨λ μμ°μ΄ μ²λ¦¬(NLP) μμ
μ ν
μ€νΈ-ν¬-ν
μ€νΈ λ¬Έμ λ‘ μ²λ¦¬νλλ‘ μ€κ³λμμ΅λλ€.
|
8 |
+
- μ¬μ νμ΅ λͺ¨λΈ Hugging Face `transformers` λΌμ΄λΈλ¬λ¦¬μ `t5-small` μ¬μ νμ΅ λͺ¨λΈμ μ¬μ©νμ΅λλ€.
|
9 |
+
- μμ
: μ΄ λͺ¨λΈμ CNN/DailyMail λ°μ΄ν°μ
μ μ¬μ©ν ν
μ€νΈ μμ½ μμ
μ λν΄ λ―ΈμΈ μ‘°μ λμμ΅λλ€.
|
10 |
+
|
11 |
+
## Training Data
|
12 |
+
- λ°μ΄ν°μ
: λͺ¨λΈμ νμ΅μ μ¬μ©λ λ°μ΄ν°λ **CNN/DailyMail** λ°μ΄ν°μ
μ λ²μ 3.0.0μ
λλ€. μ΄ λ°μ΄ν°μ
μ λ΄μ€ κΈ°μ¬(`article`)μ κ·Έμ λν μμ½λ¬Έ(`highlights`)μΌλ‘ ꡬμ±λμ΄ μμΌλ©°, λͺ¨λΈμ μ
λ ₯κ³Ό μΆλ ₯μΌλ‘ μ¬μ©λ©λλ€.
|
13 |
+
- λ°μ΄ν° λΆν :
|
14 |
+
- νμ΅ λ°μ΄ν°: CNN/DailyMail νμ΅ λ°μ΄ν°μ 1% μ¬μ© (~287κ° μν)
|
15 |
+
- κ²μ¦ λ°μ΄ν°: CNN/DailyMail κ²μ¦ λ°μ΄ν°μ 1% μ¬μ© (~133κ° μν)
|
16 |
+
|
17 |
+
## Training Procedure
|
18 |
+
- **μ΅μ ν μκ³ λ¦¬μ¦**: AdamW μ΅ν°λ§μ΄μ , νμ΅λ₯ μ 2e-5λ‘ μ€μ .
|
19 |
+
- **λ°°μΉ ν¬κΈ°**: νμ΅κ³Ό κ²μ¦ λͺ¨λμμ λ°°μΉ ν¬κΈ°λ₯Ό 4λ‘ μ€μ .
|
20 |
+
- **νμ΅ μν¬ν¬**: 1 μν¬ν¬ λμ νμ΅.
|
21 |
+
- **μλ°μ
λ¨κ³**: νμ΅ μ΄κΈ°μ 500κ°μ μλ°μ
λ¨κ³λ₯Ό ν΅ν΄ νμ΅λ₯ μ μ μ§μ μΌλ‘ μ¦κ°μν΄.
|
22 |
+
- **κ°μ€μΉ κ°μ **: 0.01μ κ°μ€μΉ κ°μ λ₯Ό μ μ©.
|
23 |
+
- **νΌν© μ λ°λ**: FP16(νΌν© μ λ°λ)μ μ¬μ©νμ¬ λ©λͺ¨λ¦¬ μ¬μ©λκ³Ό νμ΅ μλλ₯Ό μ΅μ ν.
|
24 |
+
|
25 |
+
## How to Use
|
26 |
+
μ΄ λͺ¨λΈμ FP16(νΌν© μ λ°λ)μ νμ±νν λ¨μΌ GPUμμ νμ΅λμμ΅λλ€.
|
27 |
+
|
28 |
+
## Evaluation
|
29 |
+
μ΄ λͺ¨λΈμ ν
μ€νΈ μμ± μμ
μμ μ£Όλ‘ μ¬μ©λλ λ κ°μ§ νκ° λ©νΈλ¦μ μ¬μ©νμ¬ νκ°λμμ΅λλ€:
|
30 |
+
|
31 |
+
ROUGE: μλ μμ½κ³Ό κΈ°κ³ λ²μ νκ°μ μμ£Ό μ¬μ©λλ ROUGE λ©νΈλ¦μ μ¬μ©νμ¬ νκ°.
|
32 |
+
ROUGE-1: μμ±λ μμ½λ¬Έκ³Ό μ°Έμ‘° μμ½λ¬Έ κ°μ unigram(λ¨μΌ λ¨μ΄) μ€λ³΅μ μΈ‘μ .
|
33 |
+
ROUGE-2: μμ±λ μμ½λ¬Έκ³Ό μ°Έμ‘° μμ½λ¬Έ κ°μ bigram(λ λ¨μ΄ μ‘°ν©) μ€λ³΅μ μΈ‘μ .
|
34 |
+
ROUGE-L: μμ±λ μμ½λ¬Έκ³Ό μ°Έμ‘° μμ½λ¬Έ κ°μ κ°μ₯ κΈ΄ κ³΅ν΅ μμ΄(LCS)μ κΈ°λ°μΌλ‘ νκ°.
|
35 |
+
BLEU: λ²μ νμ§μ νκ°νλ λ©νΈλ¦μΌλ‘, μμ±λ ν
μ€νΈμ μ°Έμ‘° ν
μ€νΈ κ°μ n-gram μ λ°λλ₯Ό μΈ‘μ .
|
36 |
+
BLEU-1: unigram μ λ°λ μΈ‘μ .
|
37 |
+
BLEU-2: bigram μ λ°λ μΈ‘μ .
|
38 |
+
BLEU-4: 4-gram μ λ°λ μΈ‘μ .
|
39 |
+
νκ° κ²°κ³Όλ ROUGE λ° BLEU λ©νΈλ¦μ μ¬μ©νμ¬ κ³μ°λμμ΅λλ€.
|
40 |
+
|
41 |
+
## Limitations
|
42 |
+
νμ΅ λ°μ΄ν° ν¬κΈ°: μ΄ λͺ¨λΈμ CNN/DailyMail λ°μ΄ν°μ
μ 1%λ§μΌλ‘ λ―ΈμΈ μ‘°μ λμκΈ° λλ¬Έμ λ§€μ° μ μ μμ λ°μ΄ν°λ‘ νμ΅λμμ΅λλ€. λ°λΌμ λ€λ₯Έ λλ©μΈμ΄λ μ νμ ν
μ€νΈμ λν΄ μ μΌλ°νλμ§ μμ μ μμ΅λλ€.
|
43 |
+
μμ½λ¬Έ κΈΈμ΄: μ
λ ₯ κΈΈμ΄λ μ΅λ 512 ν ν°μΌλ‘ μ€μ λμ΄ μμ΅λλ€. 512 ν ν°μ μ΄κ³Όνλ κΈ°μ¬λ μ릴 μ μμΌλ©°, μ΄λ‘ μΈν΄ μμ½μ΄ λΆμμ ν΄μ§ μ μμ΅λλ€.
|
44 |
+
λͺ¨λΈ ν¬κΈ°: t5-smallμ μμ λͺ¨λΈμ΄λ―λ‘, λ 볡μ‘νκ±°λ κΈ΄ λ¬Έμμ λν΄ μ±λ₯μ΄ μ νλ μ μμ΅λλ€. λ ν° λ²μ μΈ t5-base λλ t5-largeλ₯Ό μ¬μ©ν κ²½μ° μ±λ₯μ΄ κ°μ λ μ μμ΅λλ€.
|
45 |
+
|
46 |
+
## Ethical Considerations
|
47 |
+
λ°μ΄ν° νΈν₯: CNN/DailyMail λ°μ΄ν°μ
μ νΉμ λ΄μ€ κΈ°κ΄μ κΈ°μ¬λ₯Ό ν¬ν¨νκ³ μκΈ° λλ¬Έμ, λ°μ΄ν°μ νΈν₯μ΄ ν¬ν¨λ κ°λ₯μ±μ΄ μμ΅λλ€. μ΄λ μμ±λ μμ½λ¬Έμ΄ νΈν₯λκ±°λ μ곑λ κ°λ₯μ±μ λ΄ν¬ν©λλ€.
|
48 |
+
μλͺ»λ μ 보: μ΄ λͺ¨λΈμ μΆμμ μΈ μμ½λ¬Έμ μμ±νλ―λ‘, μ
λ ₯ ν
μ€νΈκ° λΉκ΅¬μ‘°μ μ΄κ±°λ μ 맀ν κ²½μ° μλͺ»λ μ 보λ₯Ό ν¬ν¨ν μμ½μ μμ±ν μ μμ΅λλ€.
|
49 |
+
νλΌμ΄λ²μ: μ΄ λͺ¨λΈμ΄ λ―Όκ°νκ±°λ κ°μΈ μ λ³΄κ° ν¬ν¨λ λ΄μ©μ μμ½νλ κ²½μ°, νλΌμ΄λ²μ λ¬Έμ κ° λ°μν μ μμ΅λλ€. νΉν λ―Όκ°ν λ΄μ©μ μμ½ν λλ κ΄λ ¨ λ²κ·μ νλΌμ΄λ²μ λ³΄νΈ κ·μ μ μ€μνλ κ²μ΄ μ€μν©λλ€.
|
50 |
+
|