jiangfb
/

llama-3.1-chinese-8b-it-dpo

Safetensors

llama

Model card Files Files and versions Community

sherlor commited on Aug 7

Commit

61eedcb

•

1 Parent(s): c932521

Update README.md

Browse files

Files changed (1) hide show

README.md +9 -10

README.md CHANGED Viewed

@@ -2,12 +2,11 @@
 ## 项目简介
-LLAMA-3.1-8B-Instruct 模型，以其庞大的参数规模、强大的上下文理解能力和灵活的指令遵循能力，在全球范围内赢得了广泛的关注与赞誉。该模型在多种自然语言处理任务上展现出卓越的性能，包括但不限于文本生成、问答系统、文本摘要等，为人工智能领域的研究与应用提供了强大的技术支持。
 然而，尽管LLAMA-3.1-8B-Instruct模型在多种语言环境下均表现出色，但在中文这一特定语境下，其性能却存在一定的局限性。为了弥补这一不足，本项目旨在通过针对中文语境的深入优化，提升LLAMA 3.1-8B-Instruct模型在中文处理上的能力。
-本项目基于llama-3.1-8b-instruct模型，在llama-factory的框架下，使用近30w条中文数据进行微调（Fine-tuning），并尝试应用了动态提示优化（Dynamic Prompt Optimization, DPO）技术，旨在提升模型在中文语境下的理解和生成能力。
 #### 模型特点
@@ -16,7 +15,7 @@ LLAMA-3.1-8B-Instruct 模型，以其庞大的参数规模、强大的上下文
 中文优化：通过大量中文数据集进行微调，提升模型在中文处理上的表现。
-DPO训练：采用动态提示优化技术，进一步优化模型在特定任务上的性能。
@@ -38,22 +37,22 @@ C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的
 | C-Eval | Average | Average(hard) | STEM | Social Sciences | Humanities | Other |
 | ------ | ------- | ------------- | ---- | --------------- | ---------- | ----- |
-| 原模型 | 24.1    | 23.5          | 23.9 | 25.3            | 24.6       | 22.7  |
-| 训练后 | 44.7    | 32.9          | 41.8 | 52.7            | 42.0       | 44.5  |
 #### Cmmlu
 CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
 | CMMLU  | Average | STEM  | Social Sciences | Humanities | Other |
 | ------ | ------- | ----- | --------------- | ---------- | ----- |
-| 原模型 | 25.3    | 26.04 | 25.19           | 25.79      | 25.26 |
-| 训练后 | 46.54   | 39.31 | 47.21           | 47.41      | 51.34 |
 ## 数据集
-微调数据集：
 |                         |                                  |
 | --------------------- | ------------------------------------------------------------ |
@@ -63,7 +62,7 @@ CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在
 | code                  | https://huggingface.co/datasets/iamtarun/python_code_instructions_18k_alpaca |
 | mathglm               | https://cloud.tsinghua.edu.cn/d/8d9ee3e52bb54afd9c16/        |
-dpo数据集：
 |                   |                                                            |
 | ----------------- | ---------------------------------------------------------- |

 ## 项目简介
+LLAMA-3.1系列模型于2024年7月24日发布，是Meta公司迄今为止规模最大、质量最高的开源模型。Meta评估了超150个基准数据集的性能，Llama-3.1系列模型在常识、可操作性、数学、工具使用和多语言翻译等一系列任务中，可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。其中LLAMA-3.1-8B-Instruct模型，以其庞大的参数规模、强大的上下文理解能力和灵活的指令遵循能力，在全球范围内赢得了广泛的关注与赞誉。该模型在多种自然语言处理任务上展现出卓越的性能，包括但不限于文本生成、问答系统、文本摘要等，为人工智能领域的研究与应用提供了强大的技术支持。
 然而，尽管LLAMA-3.1-8B-Instruct模型在多种语言环境下均表现出色，但在中文这一特定语境下，其性能却存在一定的局限性。为了弥补这一不足，本项目旨在通过针对中文语境的深入优化，提升LLAMA 3.1-8B-Instruct模型在中文处理上的能力。
+本项目基于llama-3.1-8b-instruct模型，与当前相关工作不同的是，我们采用了指令微调（Instruction Fine-tuning）和直接偏好对齐（Direct Preference Optimization, DPO）二阶段的学习方法，使用近30w条中文数据进行有监督指令微调，然后应用5000条对齐指令进行直接偏好对齐，旨在进一步提升模型在中文语境下的理解和生成能力。在两个权威的中文评测基准下，C-Eval提升了83.34%的性能，CMMLU提升了83.95%的性能。我们公开了该项目所有的模型权重和训练数据集，欢迎大家一起学习和探讨。
 #### 模型特点
 中文优化：通过大量中文数据集进行微调，提升模型在中文处理上的表现。
+DPO训练：采用直接偏好对齐技术，进一步优化模型在特定任务上的性能。
 | C-Eval | Average | Average(hard) | STEM | Social Sciences | Humanities | Other |
 | ------ | ------- | ------------- | ---- | --------------- | ---------- | ----- |
+| 原生LLaMA3.1模型 | 24.1    | 23.5          | 23.9 | 25.3            | 24.6       | 22.7  |
+| 我们的LLaMA3.1模型 | 44.7    | 32.9          | 41.8 | 52.7            | 42.0       | 44.5  |
 #### Cmmlu
 CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。
 | CMMLU  | Average | STEM  | Social Sciences | Humanities | Other |
 | ------ | ------- | ----- | --------------- | ---------- | ----- |
+| 原生LLaMA3.1模型 | 25.3    | 26.04 | 25.19           | 25.79      | 25.26 |
+| 我们的LLaMA3.1模型 | 46.54   | 39.31 | 47.21           | 47.41      | 51.34 |
 ## 数据集
+SFT数据集：
 |                         |                                  |
 | --------------------- | ------------------------------------------------------------ |
 | code                  | https://huggingface.co/datasets/iamtarun/python_code_instructions_18k_alpaca |
 | mathglm               | https://cloud.tsinghua.edu.cn/d/8d9ee3e52bb54afd9c16/        |
+DPO数据集：
 |                   |                                                            |
 | ----------------- | ---------------------------------------------------------- |