jiangfeibo
commited on
Commit
•
fa77da9
1
Parent(s):
194e0b8
commit from
Browse files
README.md
ADDED
@@ -0,0 +1,91 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
# llama-3.1-8b-chinese-instruct with SFT and DPO
|
2 |
+
|
3 |
+
## 项目简介
|
4 |
+
|
5 |
+
LLAMA-3.1-8B-Instruct 模型,以其庞大的参数规模、强大的上下文理解能力和灵活的指令遵循能力,在全球范围内赢得了广泛的关注与赞誉。该模型在多种自然语言处理任务上展现出卓越的性能,包括但不限于文本生成、问答系统、文本摘要等,为人工智能领域的研究与应用提供了强大的技术支持。
|
6 |
+
|
7 |
+
然而,尽管LLAMA-3.1-8B-Instruct模型在多种语言环境下均表现出色,但在中文这一特定语境下,其性能却存在一定的局限性。为了弥补这一不足,本项目旨在通过针对中文语境的深入优化,提升LLAMA 3.1-8B-Instruct模型在中文处理上的能力。
|
8 |
+
|
9 |
+
本项目基于llama-3.1-8b-instruct模型,在llama-factory的框架下,使用近30w条中文数据进行微调(Fine-tuning),并尝试应用了动态提示优化(Dynamic Prompt Optimization, DPO)技术,旨在提升模型在中文语境下的理解和生成能力。
|
10 |
+
|
11 |
+
|
12 |
+
|
13 |
+
#### 模型特点
|
14 |
+
|
15 |
+
基础模型:基于开源的llama3.1-8b-instruct,这是一个经过指令微调的大型语言模型。
|
16 |
+
|
17 |
+
中文优化:通过大量中文数据集进行微调,提升模型在中文处理上的表现。
|
18 |
+
|
19 |
+
DPO训练:采用动态提示优化技术,进一步优化模型在特定任务上的性能。
|
20 |
+
|
21 |
+
|
22 |
+
|
23 |
+
## 安装与加载
|
24 |
+
|
25 |
+
克隆本项目到本地:
|
26 |
+
|
27 |
+
git clone
|
28 |
+
|
29 |
+
cd llama-3.1-8b-it-ch-dpo
|
30 |
+
|
31 |
+
|
32 |
+
|
33 |
+
## 模型测评
|
34 |
+
|
35 |
+
#### Ceval
|
36 |
+
|
37 |
+
C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的多项选择题,涵盖了人文、社科、理工以及其他专业四个大方向,包括52个不同的学科和四个难度级别。
|
38 |
+
|
39 |
+
| C-Eval | Average | Average(hard) | STEM | Social Sciences | Humanities | Other |
|
40 |
+
| ------ | ------- | ------------- | ---- | --------------- | ---------- | ----- |
|
41 |
+
| 原模型 | 25.2 | 23.6 | 25 | 26.5 | 25.1 | 24.3 |
|
42 |
+
| 训练后 | 44.0 | 32.5 | 41.6 | 51.9 | 41.1 | 44.0 |
|
43 |
+
|
44 |
+
#### Cmmlu
|
45 |
+
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
|
46 |
+
|
47 |
+
| CMMLU | Average | STEM | Social Sciences | Humanities | Other |
|
48 |
+
| ------ | ------- | ----- | --------------- | ---------- | ----- |
|
49 |
+
| 原模型 | 24.99 | 26.04 | 24.84 | 25.23 | 24.05 |
|
50 |
+
| 训练后 | 44.63 | 37.5 | 45.21 | 45.76 | 49.14 |
|
51 |
+
|
52 |
+
|
53 |
+
|
54 |
+
## 数据集
|
55 |
+
|
56 |
+
微调数据集:
|
57 |
+
|
58 |
+
| | |
|
59 |
+
| --------------------- | ------------------------------------------------------------ |
|
60 |
+
| 中文微调数据集 | https://modelscope.cn/datasets/zhuangxialie/Llama3-Chinese-Dataset/files |
|
61 |
+
| train_1M_CN | https://huggingface.co/datasets/BelleGroup/train_1M_CN |
|
62 |
+
| chinese_modern_poetry | https://huggingface.co/datasets/Iess/chinese_modern_poetry |
|
63 |
+
| code | https://huggingface.co/datasets/iamtarun/python_code_instructions_18k_alpaca |
|
64 |
+
| mathglm | https://cloud.tsinghua.edu.cn/d/8d9ee3e52bb54afd9c16/ |
|
65 |
+
|
66 |
+
dpo数据集:
|
67 |
+
|
68 |
+
| | |
|
69 |
+
| ----------------- | ---------------------------------------------------------- |
|
70 |
+
| DPO-En-Zh-20k | https://huggingface.co/datasets/hiyouga/DPO-En-Zh-20k |
|
71 |
+
| orca_dpo_pairs | https://huggingface.co/datasets/Intel/orca_dpo_pairs |
|
72 |
+
| Chinese-dpo-pairs | https://huggingface.co/datasets/wenbopan/Chinese-dpo-pairs |
|
73 |
+
| DPO-zh-en-emoji | https://huggingface.co/datasets/shareAI/DPO-zh-en-emoji |
|
74 |
+
|
75 |
+
|
76 |
+
|
77 |
+
Sft图像:
|
78 |
+
|
79 |
+
![img](README.assets/clip_image002.gif)
|
80 |
+
|
81 |
+
![img](README.assets/clip_image004.gif)
|
82 |
+
|
83 |
+
Dpo:
|
84 |
+
|
85 |
+
Training loss:
|
86 |
+
|
87 |
+
![img](README.assets/clip_image006.gif)
|
88 |
+
|
89 |
+
Training rewards:
|
90 |
+
|
91 |
+
![img](README.assets/clip_image008.gif)
|