Jisu80609 commited on
Commit
1382001
β€’
1 Parent(s): 9bdbe81

Initial commit for the t5-small-custom model

Browse files
Files changed (1) hide show
  1. README.md +50 -0
README.md ADDED
@@ -0,0 +1,50 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ## Model Card for t5_small Summarization Model
3
+
4
+
5
+ ## Model Details
6
+ - λͺ¨λΈ 이름: t5-small
7
+ - λͺ¨λΈ μ•„ν‚€ν…μ²˜: 이 λͺ¨λΈμ€ T5(Text-To-Text Transfer Transformer) μ•„ν‚€ν…μ²˜λ₯Ό 기반으둜 ν•˜λ©°, λͺ¨λ“  μžμ—°μ–΄ 처리(NLP) μž‘μ—…μ„ ν…μŠ€νŠΈ-투-ν…μŠ€νŠΈ 문제둜 μ²˜λ¦¬ν•˜λ„λ‘ μ„€κ³„λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
8
+ - 사전 ν•™μŠ΅ λͺ¨λΈ Hugging Face `transformers` 라이브러리의 `t5-small` 사전 ν•™μŠ΅ λͺ¨λΈμ„ μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€.
9
+ - μž‘μ—…: 이 λͺ¨λΈμ€ CNN/DailyMail 데이터셋을 μ‚¬μš©ν•œ ν…μŠ€νŠΈ μš”μ•½ μž‘μ—…μ— λŒ€ν•΄ λ―Έμ„Έ μ‘°μ •λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
10
+
11
+ ## Training Data
12
+ - 데이터셋: λͺ¨λΈμ˜ ν•™μŠ΅μ— μ‚¬μš©λœ λ°μ΄ν„°λŠ” **CNN/DailyMail** λ°μ΄ν„°μ…‹μ˜ 버전 3.0.0μž…λ‹ˆλ‹€. 이 데이터셋은 λ‰΄μŠ€ 기사(`article`)와 그에 λŒ€ν•œ μš”μ•½λ¬Έ(`highlights`)으둜 κ΅¬μ„±λ˜μ–΄ 있으며, λͺ¨λΈμ˜ μž…λ ₯κ³Ό 좜λ ₯으둜 μ‚¬μš©λ©λ‹ˆλ‹€.
13
+ - 데이터 λΆ„ν• :
14
+ - ν•™μŠ΅ 데이터: CNN/DailyMail ν•™μŠ΅ λ°μ΄ν„°μ˜ 1% μ‚¬μš© (~287개 μƒ˜ν”Œ)
15
+ - 검증 데이터: CNN/DailyMail 검증 λ°μ΄ν„°μ˜ 1% μ‚¬μš© (~133개 μƒ˜ν”Œ)
16
+
17
+ ## Training Procedure
18
+ - **μ΅œμ ν™” μ•Œκ³ λ¦¬μ¦˜**: AdamW μ˜΅ν‹°λ§ˆμ΄μ €, ν•™μŠ΅λ₯ μ€ 2e-5둜 μ„€μ •.
19
+ - **배치 크기**: ν•™μŠ΅κ³Ό 검증 λͺ¨λ‘μ—μ„œ 배치 크기λ₯Ό 4둜 μ„€μ •.
20
+ - **ν•™μŠ΅ 에포크**: 1 에포크 λ™μ•ˆ ν•™μŠ΅.
21
+ - **μ›Œλ°μ—… 단계**: ν•™μŠ΅ μ΄ˆκΈ°μ— 500개의 μ›Œλ°μ—… 단계λ₯Ό 톡해 ν•™μŠ΅λ₯ μ„ μ μ§„μ μœΌλ‘œ μ¦κ°€μ‹œν‚΄.
22
+ - **κ°€μ€‘μΉ˜ 감쇠**: 0.01의 κ°€μ€‘μΉ˜ 감쇠λ₯Ό 적용.
23
+ - **ν˜Όν•© 정밀도**: FP16(ν˜Όν•© 정밀도)을 μ‚¬μš©ν•˜μ—¬ λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰κ³Ό ν•™μŠ΅ 속도λ₯Ό μ΅œμ ν™”.
24
+
25
+ ## How to Use
26
+ 이 λͺ¨λΈμ€ FP16(ν˜Όν•© 정밀도)을 ν™œμ„±ν™”ν•œ 단일 GPUμ—μ„œ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
27
+
28
+ ## Evaluation
29
+ 이 λͺ¨λΈμ€ ν…μŠ€νŠΈ 생성 μž‘μ—…μ—μ„œ 주둜 μ‚¬μš©λ˜λŠ” 두 가지 평가 λ©”νŠΈλ¦­μ„ μ‚¬μš©ν•˜μ—¬ ν‰κ°€λ˜μ—ˆμŠ΅λ‹ˆλ‹€:
30
+
31
+ ROUGE: μžλ™ μš”μ•½κ³Ό 기계 λ²ˆμ—­ 평가에 자주 μ‚¬μš©λ˜λŠ” ROUGE λ©”νŠΈλ¦­μ„ μ‚¬μš©ν•˜μ—¬ 평가.
32
+ ROUGE-1: μƒμ„±λœ μš”μ•½λ¬Έκ³Ό μ°Έμ‘° μš”μ•½λ¬Έ κ°„μ˜ unigram(단일 단어) 쀑볡을 μΈ‘μ •.
33
+ ROUGE-2: μƒμ„±λœ μš”μ•½λ¬Έκ³Ό μ°Έμ‘° μš”μ•½λ¬Έ κ°„μ˜ bigram(두 단어 μ‘°ν•©) 쀑볡을 μΈ‘μ •.
34
+ ROUGE-L: μƒμ„±λœ μš”μ•½λ¬Έκ³Ό μ°Έμ‘° μš”μ•½λ¬Έ κ°„μ˜ κ°€μž₯ κΈ΄ 곡톡 μ„œμ—΄(LCS)을 기반으둜 평가.
35
+ BLEU: λ²ˆμ—­ ν’ˆμ§ˆμ„ ν‰κ°€ν•˜λŠ” λ©”νŠΈλ¦­μœΌλ‘œ, μƒμ„±λœ ν…μŠ€νŠΈμ™€ μ°Έμ‘° ν…μŠ€νŠΈ κ°„μ˜ n-gram 정밀도λ₯Ό μΈ‘μ •.
36
+ BLEU-1: unigram 정밀도 μΈ‘μ •.
37
+ BLEU-2: bigram 정밀도 μΈ‘μ •.
38
+ BLEU-4: 4-gram 정밀도 μΈ‘μ •.
39
+ 평가 κ²°κ³ΌλŠ” ROUGE 및 BLEU λ©”νŠΈλ¦­μ„ μ‚¬μš©ν•˜μ—¬ κ³„μ‚°λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
40
+
41
+ ## Limitations
42
+ ν•™μŠ΅ 데이터 크기: 이 λͺ¨λΈμ€ CNN/DailyMail λ°μ΄ν„°μ…‹μ˜ 1%만으둜 λ―Έμ„Έ μ‘°μ •λ˜μ—ˆκΈ° λ•Œλ¬Έμ— 맀우 적은 μ–‘μ˜ λ°μ΄ν„°λ‘œ ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ λ‹€λ₯Έ λ„λ©”μΈμ΄λ‚˜ μœ ν˜•μ˜ ν…μŠ€νŠΈμ— λŒ€ν•΄ 잘 μΌλ°˜ν™”λ˜μ§€ μ•Šμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
43
+ μš”μ•½λ¬Έ 길이: μž…λ ₯ κΈΈμ΄λŠ” μ΅œλŒ€ 512 ν† ν°μœΌλ‘œ μ„€μ •λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 512 토큰을 μ΄ˆκ³Όν•˜λŠ” κΈ°μ‚¬λŠ” 잘릴 수 있으며, 이둜 인해 μš”μ•½μ΄ λΆˆμ™„μ „ν•΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.
44
+ λͺ¨λΈ 크기: t5-small은 μž‘μ€ λͺ¨λΈμ΄λ―€λ‘œ, 더 λ³΅μž‘ν•˜κ±°λ‚˜ κΈ΄ λ¬Έμ„œμ— λŒ€ν•΄ μ„±λŠ₯이 μ œν•œλ  수 μžˆμŠ΅λ‹ˆλ‹€. 더 큰 버전인 t5-base λ˜λŠ” t5-largeλ₯Ό μ‚¬μš©ν•  경우 μ„±λŠ₯이 κ°œμ„ λ  수 μžˆμŠ΅λ‹ˆλ‹€.
45
+
46
+ ## Ethical Considerations
47
+ 데이터 편ν–₯: CNN/DailyMail 데이터셋은 νŠΉμ • λ‰΄μŠ€ κΈ°κ΄€μ˜ 기사λ₯Ό ν¬ν•¨ν•˜κ³  있기 λ•Œλ¬Έμ—, 데이터에 편ν–₯이 포함될 κ°€λŠ₯성이 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μƒμ„±λœ μš”μ•½λ¬Έμ΄ 편ν–₯λ˜κ±°λ‚˜ μ™œκ³‘λ  κ°€λŠ₯성을 λ‚΄ν¬ν•©λ‹ˆλ‹€.
48
+ 잘λͺ»λœ 정보: 이 λͺ¨λΈμ€ 좔상적인 μš”μ•½λ¬Έμ„ μƒμ„±ν•˜λ―€λ‘œ, μž…λ ₯ ν…μŠ€νŠΈκ°€ λΉ„κ΅¬μ‘°μ μ΄κ±°λ‚˜ μ• λ§€ν•œ 경우 잘λͺ»λœ 정보λ₯Ό ν¬ν•¨ν•œ μš”μ•½μ„ 생성할 수 μžˆμŠ΅λ‹ˆλ‹€.
49
+ ν”„λΌμ΄λ²„μ‹œ: 이 λͺ¨λΈμ΄ λ―Όκ°ν•˜κ±°λ‚˜ 개인 정보가 ν¬ν•¨λœ λ‚΄μš©μ„ μš”μ•½ν•˜λŠ” 경우, ν”„λΌμ΄λ²„μ‹œ λ¬Έμ œκ°€ λ°œμƒν•  수 μžˆμŠ΅λ‹ˆλ‹€. 특히 λ―Όκ°ν•œ λ‚΄μš©μ„ μš”μ•½ν•  λ•ŒλŠ” κ΄€λ ¨ λ²•κ·œμ™€ ν”„λΌμ΄λ²„μ‹œ 보호 κ·œμ •μ„ μ€€μˆ˜ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.
50
+