README.md · tencent/Tencent-Hunyuan-Large at 095e11ac6ec17a64556b26eb2e584ea686fae7f3

模型介绍

随着人工智能技术的快速发展，大型语言模型（LLMs）在自然语言处理、计算机视觉和科学任务等领域取得了显著进展。然而，随着模型规模的扩大，如何在保持高性能的同时优化资源消耗成为一个关键挑战。为了应对这一挑战，我们研究了混合专家（MoE）模型，当前亮相的Hunyuan-Large（Hunyuan-MoE-A50B）模型，这是目前业界待开源的基于Transformer的最大MoE模型，拥有3890亿总参数和520亿激活参数。

本次通过开源Hunyuan-Large的技术成果，我们希望激发更多研究者的创新灵感，共同推动AI技术的进步和应用。欢迎加入我们的开源社区，共同探索和优化未来的AI模型！Hunyuan-Large正式版预计月底正式开源，当前在混元一站式上开放Hunyuan-Large-Preview版本供大家体验。

模型技术优势介绍

模型

高质量合成数据：通过合成数据增强训练，Hunyuan-Large能够学习到更丰富的表示，处理长上下文输入，并更好地泛化到未见数据
KV缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了KV缓存的内存占用和计算开销，提高了推理吞吐
专家特定学习率缩放：为不同专家设置不同的学习率，确保每个子模型都能有效地从数据中学习，并为整体性能做出贡献
长上下文处理能力：支持高达128K的文本序列，显著提升了长上下文任务的处理能力
广泛的基准测试：在多种语言和任务上进行广泛实验，验证了Hunyuan-Large的实际应用效果和安全性