当前位置:首页-研究报告-正文

《DeepSeek模型关键创新技术综述》英

本文聚焦于 DeepSeek-V3 和 DeepSeek-R1 这两款领先的开源大语言模型,它们在通用任务和推理方面性能出色,训练成本却较低。文章深入探讨其成功背后的关键创新技术,涵盖对 Transformer 架构的优化,如多头潜在注意力(MLA)和专家混合(MoE);还有多令牌预测、算法框架硬件协同设计、组相对策略优化(GRPO)算法,以及纯强化学习和迭代训练等后训练技术。同时,文中还指出了这些技术中存在的未解决问题,并强调了其为后续研究提供的方向。

《A Review of DeepSeek Models’ Key Innovative Techniques》由 Chengen Wang 和 Murat Kantarcioglu 撰写。报告介绍了 DeepSeek-V3 和 DeepSeek-R1 这两款开源大语言模型的关键创新技术,探讨其对大语言模型研究的推动作用,分析了技术优势、待研究问题及未来研究方向。

研究背景:2022 年末 ChatGPT 出现开启大语言模型(LLM)新时代,GPT、Claude 等表现卓越,开源 LLM 虽有进展但仍落后于专有模型。2025 年 1 月,DeepSeek 推出的 DeepSeek-V3 和 DeepSeek-R1 性能可与顶尖 GPT 模型媲美且训练成本低,研究其技术对推动 LLM 发展意义重大。

创新技术

多头潜在注意力(Multi-Head Latent Attention,MLA):针对传统多头注意力(MHA)中 KV 缓存高内存消耗问题,MLA 通过低秩键值联合压缩减少缓存,还采用解耦旋转位置嵌入优化计算,性能优于 MHA,但解耦旋转位置嵌入未进行消融研究 。

专家混合(Mixture of Experts,MoE):DeepSeekMoE 架构创新,包括细粒度专家分割提升组合灵活性、共享专家隔离减少参数冗余,还提出多种负载均衡策略,不过负载均衡目标的理论依据有待深入研究 。

多令牌预测(Multi-Token Prediction,MTP):DeepSeek-V3 使用 MTP 预测多个额外令牌,提高训练样本效率,但增加了训练时间,且该时间成本在消融研究中未提及 。

算法、框架和硬件协同设计:通过协同设计及优化,DeepSeek-V3 提升训练效率。DualPipe 算法减少通信开销但增加内存消耗,FP8 混合精度训练兼顾效率与稳定性 。

组相对策略优化(Group Relative Policy Optimization,GRPO):GRPO 是近端策略优化(PPO)的变体,通过直接估计优势消除值函数近似,减少内存使用,在 LLM 训练中更高效 。

基于基础模型的强化学习后训练:DeepSeek-R1-Zero 基于纯强化学习训练,展现模型学习和泛化能力;DeepSeek-R1 采用 SFT 和 RL 交替的迭代训练方法,引入多种奖励机制,分阶段提升模型性能 。

研究讨论:在 Transformer 架构改进方面,对解耦旋转位置嵌入和负载均衡目标进行深入研究很有价值;多令牌预测虽提升样本效率,但训练时间长的问题有待解决;算法、框架和硬件协同设计体现了整体设计的重要性,DualPipe 算法已有改进;强化学习在训练中的应用为研究开辟了新途径 。

研究结论:DeepSeek 模型的成功得益于 Transformer 架构创新、样本效率提升技术、算法框架硬件协同设计、GRPO 算法及强化学习后训练应用。研究也指出了该领域存在的未解决问题和潜在研究方向 。

关注启职鹿公众号