File size: 2,004 Bytes
470377c
 
 
 
 
 
 
 
 
 
 
9f0f0e4
470377c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c3960f6
470377c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3b4688f
9f0f0e4
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
---
datasets:
- HuggingFaceFW/fineweb
- erhwenkuo/c4-chinese-zhtw
- erhwenkuo/wikipedia-zhtw
- p208p2002/wudao
- p208p2002/NDLTD-T10-90-111
- codeparrot/github-code-clean
language:
- en
- zh
license: llama3
---
# Llama 3 zhtw

在 Llama 3 上試驗中文 Continue Pretraining (CP),共計訓練 800M tokens。

由於中文預訓練語料品質還有改進空間,CP 後表現未能超越原版 Llama 3,我們比較幾個開源社群訓練的中文 Llama 3 也有類似狀況。

在英文方面 LLaMA 3 zhtw 使用 FineWeb,使得 MMLU 表現高於其他中文CP模型,能力與原版 LLaMA 3 持平。

## Benchmarks
| Models                       |     | ↑ TMMLU+ (ACC) | CMMLU (ACC)   | MMLU (ACC)    |
| ---------------------------- | --- | -------------- | ------------- | ------------- |
|                              |     | TC, Knowledge  | CN, Knowledge | EN, Knowledge |
|                              |     | 5 shot         | 5 shot        | 5 shot        |
| Yi-6B                        | 6B  | 49.63          | 75.53         | 65.35         |
| Qwen-7B                      | 7B  | 42.84          | 73.1          | 61.00         |
| Meta-Llama-3-8B              | 8B  | 41.97          | 50.8          | 65.17         |
| **p208p2002/llama-3-zhtw-8B** | 8B  | 41.84          | 50.6          | 65.31         |
| Breeze-7B-Base-v0_1          | 7B  | 40.35          | 44.05         | 61.63         |
| hfl/llama-3-chinese-8b       | 8B  | 39.64          | 50.9          | 61.1          |

## Recipe

### Datasets
| Dataset        | Lang        | Weight |
|----------------|-------------|--------|
| FineWeb        | en          | 0.35   |
| Wudao          | zh-cn       | 0.1    |
| C4Tw           | zh-tw       | 0.1    |
| WikiZhTw       | zh-tw       | 0.15   |
| NdltdT10       | zh-tw       | 0.1    |
| GitHubMarkDown | code        | 0.1    |
| GitHubPython   | code        | 0.1    |

### Hyper Parameters

- Learning Rate: 1e-7
- Global Batch Size: 60
- Sequence Length: 8192