《2025年DeepSeek-R1、Kimi 1.5及类强推理模型开发解读报告》
Warning: Array to string conversion in /www/wwwroot/qzl365/wp-content/themes/mnews-pro/Framework/Libraries/Shortcode.class.php on line 320
该报告聚焦于 DeepSeek-R1、Kimi 1.5 等类强推理模型的开发,详细阐述了模型的技术细节、创新点、应用前景以及面临的挑战,为理解当前大语言模型发展趋势提供了全面视角。
模型概述
DeepSeek - R1:开创 RL 加持下强推理慢思考范式新边界,通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升推理能力,在数学代码、知识问答等任务上表现卓越,在 AIME2024 上成绩超越 OpenAI - o1 - 1217,在 MATH - 500 上与 OpenAI - o1 - 1217 相当。
Kimi 1.5:专注用长文本 CoT 解决推理时 Scaling 问题,利用 RL 探索,将 RL 应用于长文本 CoT 推理,通过隐式规划提升推理能力,采用长文本到短文本的训练方法提高性能。
技术剖析
DeepSeek - R1 Zero:无需监督微调 SFT,纯强化学习驱动。采用基于规则的奖励(准确率奖励 + 格式奖励),避免奖励模型相关问题;通过组相对策略优化(GRPO)和瞄准推理任务的大规模强化学习,提升模型数学代码能力和长文本推理能力。
DeepSeek - R1 技术 Pipeline:包括冷启动、推理为中心 RL、拒绝采样和全领域 SFT、全领域 RL 等阶段。冷启动利用带反思和验证的数据集提升模型性能;推理为中心 RL 增加大规模 RL 训练,提升推理能力;拒绝采样和全领域 SFT 使模型语言表现更自然;全领域 RL 进一步提升帮助性和安全性。
GRPO 算法:通过构建多个模型输出的群组计算相对奖励估计基线,避免使用与策略模型大小相同的评论模型,降低计算成本,保证模型学习策略。引入奖励缩放和策略裁剪提升训练稳定性,分为基于结果监督和基于过程监督两种方式。
技术对比
与 Kimi 1.5 对比:二者都关注 RL 方法提升,Kimi 1.5 从 In - Context RL 角度训练模型 approximate Planning 过程;DeepSeek - R1 从纯 RL 入手,利用 GRPO + Rule - Based Reward 激活模型能力。
强推理路径对比(Pure RL vs STaR - based):STaR 将思考过程建模到语言模型的 Next Token Prediction 中,通过自我迭代和监督微调学习 MetaCoT,但对问题结构要求高,难以融入 Rule - Based Reward;Pure RL 直接利用 RL 激活基座模型推理潜力,构建 rule - based reward 和设计 RL Data。
蒸馏 vs 强化学习:蒸馏可学习数据中的推理范式,但多为拟合数据 Pattern,难以学习数学规律和 MetaCoT;强化学习通过试错学习推理规律,泛化性和推理表现上界更高。
未来方向
长思维链可解释性:长思维链推理可提高模型可解释性,但不能完全解决问题,需结合 AI - Driven 监督机制、对比推理和形式验证等方法。
模态扩展 + 模态穿透:通过从语言反馈中学习(LLF)实现任意到任意模态对齐微调,利用多模态大模型的能力拓展智能边界。
强推理赋能 Agentic 发展:利用强推理能力赋能 Agent 和具身智能,需克服内存和记忆模块挑战。
强推理模型监管和保证:大模型存在抗拒对齐现象,需从模型内在机理出发设计算法和评估方法;Deliberative Alignment 利用强推理能力学习安全规范增强模型安全性;形式化验证可提升 AI 系统可靠性和处理复杂推理问题的能力。
报告围绕 DeepSeek-R1、Kimi 1.5 等类强推理模型展开。DeepSeek-R1 开创 RL 加持的强推理慢思考范式,通过 GRPO 等技术在多任务中表现出色。Kimi 1.5 利用长文本 CoT 和 RL 解决推理问题。报告对比了它们与其他模型的技术路径,探讨了蒸馏、强化学习等方法的优劣,分析了 MCTS、PRM 的作用。还展望了未来,包括长思维链可解释性、模态扩展、强推理赋能 Agentic 发展以及模型监管和安全保证等方向。
DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读(含PPT)
