【论文学习】DeepSeek-V3 总结

news/2025/2/26 9:58:48

文章目录

  • Abstract
  • 1. Introduction
  • 2. Architecture
    • 2.1 Basic Architecture
    • 2.2 Multi-Token Prediction
  • 3. Infrastructures
    • 3.1 Compute Clusters
    • 3.2 Training Framework
    • 3.3 FP8 Training
  • 4. Pre-Training
    • 4.1 Data Construction
    • 4.2 Hyper-Parameters
    • 4.3 Long Context Extension
    • 4.4 Evaluations
  • 5. Post-Training
    • 5.1 Supervised Fine-Tuning
    • 5.2 Reinforcement Learning
    • 5.3 Evaluations
  • 6. Conclusion, Limitations, and Future Directions

DeepSeek-V3 论文

Abstract

本文介绍了 DeepSeek-V3,这是一个拥有 6710 亿总参数的混合专家(MoE)语言模型,每次激活 370 亿参数。为了实现高效的推理和成本效益的训练,DeepSeek-V3 采用了多头潜在注意力(MLA)和 DeepSeekMoE 架构,并引入了无辅助损失的负载均衡策略以及多令牌预测训练目标。DeepSeek-V3 在 14.8 万亿个高质量、多样化的令牌上进行预训练,随后经过监督式微调和强化学习阶段,以充分发挥其能力。全面评估表明,DeepSeek-V3 的性能优于其他开源模型,并且与领先的闭源模型相当。尽管性能出色,但 DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU 小时,训练过程极为稳定,未出现任何不可恢复的损失峰值或回滚操作。模型检查点可在 GitHub 上找到。

1. Introduction

近年来,大型语言模型(LLMs)迅速迭代和演变,逐渐缩小与人工通用智能(AGI)的差距。除了闭源模型外,开源模型也在努力追赶。为了进一步提升开源模型的能力,我们推出了 DeepSeek-V3,这是一个拥有 6710 亿参数的 MoE 模型,每次激活 370 亿参数。DeepSeek-V3 在架构上采用了 MLA 和 DeepSeekMoE,并引入了无辅助损失的负载均衡策略以及多令牌预测训练目标,以提升模型性能。此外,DeepSeek-V3 支持 FP8 混合精度训练,并通过训练框架的优化,实现了高效的训练和推理。

2. Architecture

DeepSeek-V3 的基本架构基于 Transformer 框架,采用 MLA 和 DeepSeekMoE,以实现高效的推理和经济的训练。此外,DeepSeek-V3 还引入了无辅助损失的负载均衡策略和多令牌预测训练目标。

2.1 Basic Architecture

DeepSeek-V3 的基本架构包括多头潜在注意力(MLA)和 DeepSeekMoE。MLA 通过低秩联合压缩注意力键和值,减少了推理过程中的 KV 缓存。DeepSeekMoE 则通过引入更细粒度的专家和共享专家,优化了训练效率。与传统 MoE 架构不同,DeepSeek-V3 使用无辅助损失的负载均衡策略,通过动态调整专家的偏置项,确保负载均衡,同时避免了辅助损失对模型性能的负面影响。

2.2 Multi-Token Prediction

受 Gloeckle 等人(2024 年)的启发,DeepSeek-V3 采用了多令牌预测(MTP)训练目标,扩展了每个位置的预测范围,以预测多个未来令牌。MTP 通过增加训练信号的密度,可能提高数据效率,并使模型能够更好地规划其表示,以预测未来令牌。

3. Infrastructures

DeepSeek-V3 的训练依赖于高效的计算集群和训练框架。我们采用了 HAI-LLM 框架,并实现了多项工程优化,以支持大规模 MoE 模型的训练。

3.1 Compute Clusters

DeepSeek-V3 在一个包含 2048 个 NVIDIA H800 GPU 的集群上进行训练,节点之间通过 InfiniBand(IB)和 NVLink 互联。

3.2 Training Framework

DeepSeek-V3 的训练框架采用了 16 路流水线并行、64 路专家并行和 ZeRO-1 数据并行。我们设计了 DualPipe 算法,通过重叠计算和通信阶段,减少了流水线气泡,并实现了高效的跨节点 MoE 训练。

3.3 FP8 Training

DeepSeek-V3 引入了 FP8 混合精度训练框架,通过细粒度量化和高精度累加策略,扩展了 FP8 格式的动态范围,实现了高效的训练。

4. Pre-Training

DeepSeek-V3 在 14.8 万亿个高质量、多样化的令牌上进行预训练,采用了多阶段上下文扩展和监督式微调,以提升模型性能。

4.1 Data Construction

预训练语料库经过优化,增加了数学和编程样本的比例,并扩展了多语言覆盖范围。数据处理流程经过改进,以减少冗余并保持语料库的多样性。

4.2 Hyper-Parameters

DeepSeek-V3 的 Transformer 层为 61 层,隐藏维度为 7168。模型使用了 128 个注意力头,每个头的维度为 128。MLA 的 KV 压缩维度为 512,查询压缩维度为 1536。MoE 层包含 1 个共享专家和 256 个路由专家,每个令牌激活 8 个专家。

4.3 Long Context Extension

DeepSeek-V3 通过两阶段扩展训练,将上下文窗口从 4K 扩展到 32K,再扩展到 128K,以支持长文本输入。

4.4 Evaluations

DeepSeek-V3 在多个基准测试中表现出色,尤其是在代码和数学领域。其性能优于其他开源模型,并与领先的闭源模型相当。

5. Post-Training

DeepSeek-V3 的后训练阶段包括监督式微调和强化学习,以进一步提升模型性能。

5.1 Supervised Fine-Tuning

我们为 DeepSeek-V3 准备了包含 150 万实例的指令微调数据集,覆盖多个领域。

5.2 Reinforcement Learning

我们采用了基于规则的奖励模型和基于模型的奖励模型,结合组相对策略优化(GRPO),以提升模型性能。

5.3 Evaluations

DeepSeek-V3 在多个标准和开放式基准测试中表现出色,尤其是在代码和数学领域。其性能优于其他开源模型,并与领先的闭源模型相当。

6. Conclusion, Limitations, and Future Directions

DeepSeek-V3 是目前最强的开源模型之一,其性能与领先的闭源模型相当,同时保持了经济的训练成本。尽管如此,DeepSeek-V3 仍存在一些局限性,例如部署单元较大,可能对小型团队造成负担。未来,我们将继续研究和改进模型架构,探索更高效的训练和推理方法,并扩展模型的推理能力和数据规模。


http://www.niftyadmin.cn/n/5868513.html

相关文章

大白话React第六章深入学习 React 高级特性及生态

大白话React第六章深入学习 React 高级特性及生态 1. React Hooks 深入探究 React Hooks 就像是给你的 React 工具箱里添加了一堆超好用的小工具,让你在写函数组件的时候更轻松、更强大。 useEffect Hook:它就像一个“副作用管理器”。比如你要在组件…

DiskGenius v5.6.1 硬盘管理 文件恢复 数据恢复 官方版

参考原文:DiskGenius v5.6.1 硬盘管理 文件恢复 数据恢复 官方版 软件介绍 老牌软件了,无论是数据恢复,磁盘管理都非常好用 DiskGenius,集数据恢复、分区管理、备份还原等多功能于一身的超级工具软件。DiskGenius是专业级的数据…

虚拟机 | Ubuntu 安装流程以及界面太小问题解决

提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、Ubuntu初识二、使用步骤1.下载ubuntu镜像2.创建虚拟机1、使用典型(节省空间)2、稍后安装方便配置3、优选Linux版本符合4、浏览位置&…

【Elasticsearch】使用Postman操作es的_bulk批量操作

众所周知,Elasticsearch的语法还是很恶心的。因此需要大量的调试,有些人在kibana上进行调试,但是如果想使用Postman进行调试时,大部分还是没有问题的。主要是bulk操作,有一些特殊性。关键问题在于换行这里。 如果你要…

nvm下载node版本npm下载失败

需要切换node版本,使用nvm作为管理工具。 安装node 10.24.1 nvm install 10.24.1 npm下载失败: 使用提示的网址下载npm压缩包(https://github.com/npm/cli/archive/v6.14.12.zip) 将压缩包内容解压到 nvm 对应node版本目录下…

flink operator v1.10对接华为云对象存储OBS

1 概述 flink operator及其flink集群,默认不直接支持华为云OBS,需要在这些java程序的插件目录放一个jar包,以及修改flink配置后,才能支持集成华为云OBS。 相关链接参考: https://support.huaweicloud.com/bestpracti…

论文笔记(七十二)Reward Centering(三)

Reward Centering(三) 文章概括摘要3 基于值的奖励中心化4 案例研究: 以奖励为中心的 Q-learning5 讨论、局限性与未来工作致谢 文章概括 引用: article{naik2024reward,title{Reward Centering},author{Naik, Abhishek and Wan…

洛谷 P8705:[蓝桥杯 2020 省 B1] 填空题之“试题 E :矩阵” ← 卡特兰数

【题目来源】 https://www.luogu.com.cn/problem/P8705 【题目描述】 把 1∼2020 放在 21010 的矩阵里。要求同一行中右边的比左边大,同一列中下边的比上边的大。一共有多少种方案? 答案很大,你只需要给出方案数除以 2020 的余数即可。 【答案提交】 …