本文在《DeepSeek R1》论文解读的基础上对一些问题进行补充,分析Deepseek如何做到的低成本,高性能。

原文地址:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

强化学习

强化学习(reinforcement learning,RL)讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决策(decision)。然后这个动作会在环境中被执行,环境会根据智能体采取的动作,输出下一个状态以及当前这个动作带来的奖励。智能体的目的就是尽可能多地从环境中获取奖励。 Pasted image 20250312174504

学习强化学习可以参考:蘑菇书EasyRL(仅理解此文不需要看这个)

PPO和GRPO

参考文章:无需RL基础理解 PPO 和 GRPO

Deepseek-R1-Zero的训练

并没有显式提供一些真正的long cot数据让模型去背去学,只在prompt里告诉模型先思考,再回答。接着通过RL一轮又一轮的训练,模型产出的responses越来越长,且在某个时刻出现了自我评估和反思的行为。

zero算是一个实验性质的模型,在zero上不通过任何sft的方式,仅使用RL + 规则RM,就能激发模型产出带反思的long cot。这个重要的实验发现进一步启发了r1的训练。

Deepseek-R1的多阶段训练

  • 收集少量高质量的长链推理数据即CoT数据(保证文本可读性),对Base模型进行SFT作为初始策略模型。
  • 大规模RL:重点在数学、逻辑、代码推理领域进行奖励优化,提高模型推理能力。
  • 再次SFT:在推理收敛后,用拒绝采样方式过滤不良答案,并结合非推理类数据(写作、角色扮演、知识问答等),微调新一轮的Base模型。
  • 最终RL:在更全面的场景中再次强化学习,兼顾推理正确率和帮助/无害性。

为什么Deepseek可以做到低成本,高性能:

算法创新:

传统大模型训练依赖大量监督微调(SFT)步骤,而 DeepSeek-R1 通过强化学习(RL)技术大幅减少 SFT 阶段的数据标注和计算成本。初期尝试完全跳过 SFT(推出 DeepSeek-R1-Zero 版本),直接通过强化学习探索策略优化(GPRO),发现结合少量冷启动数据即可稳定训练过程。

为了解决纯RL训练带来的挑战,DeepSeek团队创新性地开发了群体相对策略优化(GRPO)算法。GRPO算法的核心在于让模型群体相互学习,在竞争与合作中共同进步。更令人惊叹的是,GRPO算法将内存消耗降低至传统PPO算法的三分之一,这意味着在相同的硬件条件下,可以训练更大规模的模型,或者在更少的硬件资源下完成训练,大幅降低了训练成本。

与此同时,DeepSeek-R1并没有完全放弃监督学习的优势。在迭代训练模式上,它巧妙地采用了SFT → RL → SFT → RL的混合训练流程。这种模式就像“学习-实践-学习-实践”的循环,先通过监督学习快速建立基础,再通过强化学习提升策略水平,然后再次利用监督学习巩固知识,最后再次强化学习精进技能。这种结合监督学习与强化学习双重优势的训练方式,使训练效率提升了约40%,进一步加速了模型迭代和成本控制。

工程创新:

除了论文以外,Deepseek开源周开源了五个项目,涵盖 AI 开发的三大核心领域:计算优化、通信效率、存储加速。以下是各项目的核心价值:

FlashMLA(Day1) 功能:针对 NVIDIA Hopper GPU 优化的多头线性注意力解码内核,支持可变长度序列处理。

突破:在 H800 GPU 上实现 580 TFLOPS 计算性能 和 3000 GB/s 内存带宽,推理效率提升 2-3 倍,适用于实时翻译、长文本处理等场景18。

DeepEP(Day2)

功能:专为混合专家模型(MoE)设计的通信库,优化节点间数据分发与合并。

突破:通过低延迟内核和通信-计算重叠技术,实现 训练速度提升 3 倍、延迟降低 5 倍,支持 FP8 低精度通信。

DeepGEMM(Day3)

功能:基于 FP8 的高效矩阵乘法库,专为 MoE 模型优化。

突破:代码仅 300 行,通过即时编译(JIT)和 CUDA 核心双层累加技术,实现 1.1-2.7 倍加速,最高性能达 1350 TFLOPS。

DualPipe & EPLB(Day4)

功能:创新双向流水线并行算法(DualPipe)与动态负载均衡工具(EPLB)。

突破:通过任务交叉排布和专家模型动态复制,减少 GPU 空闲时间,优化资源利用率。

3FS(Day5)

功能:高性能分布式文件系统,支持 RDMA 网络和 SSD 存储。

突破:实现 6.6 TB/s 读取速度,加速海量数据训练与推理阶段的向量搜索。