DeepSeek解读

本文在《DeepSeek R1》论文解读的基础上对一些问题进行补充，分析Deepseek如何做到的低成本，高性能。

原文地址：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

强化学习

强化学习（reinforcement learning，RL）讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment）中最大化它能获得的奖励。如图所示，强化学习由两部分组成：智能体和环境。在强化学习过程中，智能体与环境一直在交互。智能体在环境中获取某个状态后，它会利用该状态输出一个动作（action），这个动作也称为决策（decision）。然后这个动作会在环境中被执行，环境会根据智能体采取的动作，输出下一个状态以及当前这个动作带来的奖励。智能体的目的就是尽可能多地从环境中获取奖励。 Pasted image 20250312174504

学习强化学习可以参考：蘑菇书EasyRL（仅理解此文不需要看这个）

PPO和GRPO

参考文章：无需RL基础理解 PPO 和 GRPO

Deepseek-R1-Zero的训练

并没有显式提供一些真正的long cot数据让模型去背去学，只在prompt里告诉模型先思考，再回答。接着通过RL一轮又一轮的训练，模型产出的responses越来越长，且在某个时刻出现了自我评估和反思的行为。

zero算是一个实验性质的模型，在zero上不通过任何sft的方式，仅使用RL + 规则RM，就能激发模型产出带反思的long cot。这个重要的实验发现进一步启发了r1的训练。

Deepseek-R1的多阶段训练

收集少量高质量的长链推理数据即CoT数据（保证文本可读性），对Base模型进行SFT作为初始策略模型。
大规模RL：重点在数学、逻辑、代码推理领域进行奖励优化，提高模型推理能力。
再次SFT：在推理收敛后，用拒绝采样方式过滤不良答案，并结合非推理类数据（写作、角色扮演、知识问答等），微调新一轮的Base模型。
最终RL：在更全面的场景中再次强化学习，兼顾推理正确率和帮助/无害性。

为什么Deepseek可以做到低成本，高性能：

算法创新：

传统大模型训练依赖大量监督微调（SFT）步骤，而 DeepSeek-R1 通过强化学习（RL）技术大幅减少 SFT 阶段的数据标注和计算成本。初期尝试完全跳过 SFT（推出 DeepSeek-R1-Zero 版本），直接通过强化学习探索策略优化（GPRO），发现结合少量冷启动数据即可稳定训练过程。

为了解决纯RL训练带来的挑战，DeepSeek团队创新性地开发了群体相对策略优化（GRPO）算法。GRPO算法的核心在于让模型群体相互学习，在竞争与合作中共同进步。更令人惊叹的是，GRPO算法将内存消耗降低至传统PPO算法的三分之一，这意味着在相同的硬件条件下，可以训练更大规模的模型，或者在更少的硬件资源下完成训练，大幅降低了训练成本。

与此同时，DeepSeek-R1并没有完全放弃监督学习的优势。在迭代训练模式上，它巧妙地采用了SFT → RL → SFT → RL的混合训练流程。这种模式就像“学习-实践-学习-实践”的循环，先通过监督学习快速建立基础，再通过强化学习提升策略水平，然后再次利用监督学习巩固知识，最后再次强化学习精进技能。这种结合监督学习与强化学习双重优势的训练方式，使训练效率提升了约40%，进一步加速了模型迭代和成本控制。

工程创新：

除了论文以外，Deepseek开源周开源了五个项目，涵盖 AI 开发的三大核心领域：计算优化、通信效率、存储加速。以下是各项目的核心价值：

FlashMLA（Day1） 功能：针对 NVIDIA Hopper GPU 优化的多头线性注意力解码内核，支持可变长度序列处理。

突破：在 H800 GPU 上实现 580 TFLOPS 计算性能和 3000 GB/s 内存带宽，推理效率提升 2-3 倍，适用于实时翻译、长文本处理等场景18。

DeepEP（Day2）

功能：专为混合专家模型（MoE）设计的通信库，优化节点间数据分发与合并。

突破：通过低延迟内核和通信-计算重叠技术，实现训练速度提升 3 倍、延迟降低 5 倍，支持 FP8 低精度通信。

DeepGEMM（Day3）

功能：基于 FP8 的高效矩阵乘法库，专为 MoE 模型优化。

突破：代码仅 300 行，通过即时编译（JIT）和 CUDA 核心双层累加技术，实现 1.1-2.7 倍加速，最高性能达 1350 TFLOPS。

DualPipe & EPLB（Day4）

功能：创新双向流水线并行算法（DualPipe）与动态负载均衡工具（EPLB）。

突破：通过任务交叉排布和专家模型动态复制，减少 GPU 空闲时间，优化资源利用率。

3FS（Day5）

功能：高性能分布式文件系统，支持 RDMA 网络和 SSD 存储。

突破：实现 6.6 TB/s 读取速度，加速海量数据训练与推理阶段的向量搜索。