Edit model card

模型介绍

image-20240729083143125 这个版本是基于llama3.1的405B模型,经过特殊处理的中文sft版。与原始的instruct版类似,模型对中文内容和emoji表情的处理更加亲和,确保问答性能与用户体验的优化。

特点: 优化了对中文和emoji表情的处理能力,不影响原有instruct版模型的能力。实测表明,这个中文sft版在问答性能上超越了市面上所有其他llama3.1的中文微调版。

image-20240729083143125

训练细节

  • Lora rank128, alpha256

模型下载

通过Git LFS克隆模型:

git lfs install
git clone https://huggingface.co/opencsg/CSG-Wukong-Chinese-Llama3.1-405B

Lora参数合并指南

实现lora参数的合并,需要使用以下python代码:

from transformers import AutoModelForCausalLM
from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Meta-Llama-3.1-405B-Instruct")
peft_model_id = "OpenCSG/CSG-Wukong-Chinese-Llama3.1-405B"
model = PeftModel.from_pretrained(base_model, peft_model_id)
model.merge_and_unload()

推理指南

为了优化模型的加载与运行效率,建议使用bnb的4bit量化方式进行模型的加载与预测。

  • 硬件8卡H100

image-20240729083143125

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference API
Unable to determine this model's library. Check the docs .