DeepSeek GRPO 技术深入解析

a year ago

欢迎来到我们的播客，今天我们邀请了一位在AI领域有着丰富经验的专家，一起探讨DeepSeek-R1的核心强化学习算法：GRPO。让我们一起深入了解这个前沿技术及其实际应用。

Scripts

speaker1

欢迎来到我们的播客！我是今天的主持人，今天我们非常荣幸地邀请到了一位在AI领域有着丰富经验的专家。我们将深入探讨DeepSeek-R1的核心强化学习算法：GRPO。那么，让我们先从GRPO算法的背景和意义开始吧！

speaker2

非常高兴能来到这里！首先，能给我们简单介绍一下GRPO算法的背景和意义吗？

speaker1

当然可以！GRPO，即Group Relative Policy Optimization，是一种在强化学习中用于优化大语言模型（LLMs）的算法。传统的PPO（Proximal Policy Optimization）算法在处理LLMs时面临内存和计算资源的挑战，而GRPO通过简化价值函数的使用，显著减少了这些资源的消耗。GRPO通过直接使用多个采样输出的平均奖励作为基线，避免了训练复杂的值函数，从而简化了训练过程。

speaker2

哇，这听起来很有意思！那么，从PPO到GRPO的演变过程中，主要有哪些改进呢？

speaker1

从PPO到GRPO的演变主要集中在减少训练资源的使用和简化训练过程。PPO算法需要一个与策略模型大小相当的价值函数，这在处理大型语言模型时带来了显著的内存和计算负担。而GRPO通过直接使用多个采样输出的平均奖励作为基线，避免了训练复杂的值函数。此外，GRPO通过在损失函数中加入策略模型和参考模型之间的KL散度来正则化，而不是在奖励中加入KL惩罚项，从而进一步简化了训练过程。

speaker2

那GRPO的具体实现和优势是什么呢？能否给我们举个具体的例子？

speaker1

当然可以！在GRPO的具体实现中，对于每个问题，我们从旧策略模型中采样一组输出，并通过最大化目标函数来优化策略模型。具体来说，对于每个问题i，GRPO从旧策略πθold中采样一组输出{oi1, oi2, ..., oiA}，然后通过最大化目标函数来优化策略模型。这个目标函数中，优势Ai,j是基于组内奖励的相对优势估计。通过这种方式，GRPO不仅减少了训练资源的使用，还提高了模型的性能。例如，在处理数学问题时，GRPO能够显著提高模型的推理能力和准确性。

speaker2

结果监督和过程监督在GRPO中是如何实现的？能具体解释一下吗？

speaker1

好的！结果监督和过程监督是GRPO中非常重要的两个概念。结果监督仅在每个输出结束时提供奖励，这可能不足以有效监督复杂数学任务中的策略。因此，我们还引入了过程监督，它在每个推理步骤结束时提供奖励。具体来说，给定问题q和G个抽样输出{oi1, oi2, ..., oiG}，使用过程奖励模型对每个输出步骤进行评分，从而得到相应的奖励。这些奖励经过标准化处理后，用于计算每个标记的优势，从而通过最大化目标函数来优化策略。通过这种方式，GRPO能够更精细地指导模型的学习过程，提高其在复杂任务中的表现。

speaker2

迭代强化学习与GRPO的结合有哪些优势？能否分享一些具体的案例？

speaker1

在迭代强化学习中，随着策略模型的不断进化，旧的奖励模型可能不足以有效地监督当前的策略模型。因此，我们引入了带有GRPO的迭代强化学习方法。具体来说，在每次迭代中，基于当前策略模型生成的数据创建新的奖励模型训练集，并通过包含重播机制的方法持续训练奖励模型。这一过程有助于确保奖励模型能够跟上策略模型的进步，从而更有效地指导后续的训练。例如，在DeepSeekMath-RL模型的训练中，通过迭代强化学习和GRPO的结合，模型在数学推理任务中的准确性和稳定性得到了显著提升。

speaker2

代码训练对数学推理有什么影响？这个问题我一直很感兴趣！

speaker1

代码训练对数学推理的影响非常有趣！研究表明，代码训练可以显著提高模型在有无工具使用的情况下进行数学推理的能力。例如，在两阶段训练设置中，先进行400B代码标记的训练，然后进行150B数学标记的训练，模型在使用Python解决GSM8K和MATH问题的能力上有了显著提高。此外，将代码标记和数学标记混合进行一阶段训练，可以有效地缓解两阶段训练中出现的灾难性遗忘问题，并在编码和使用工具进行数学推理方面实现协同增效。然而，需要注意的是，代码训练对没有工具使用的数学推理能力的影响较为有限，这可能是因为模型规模有限，难以同时完全吸收代码和数学数据。

speaker2

ArXiv论文对数学推理的贡献如何？这个话题我也很好奇！

speaker1

ArXiv论文在数学推理中的贡献是一个有趣的问题。根据我们的实验，ArXiv论文在数学推理中的效果并不显著。例如，当仅在ArXiv语料库上训练时，模型在各种不同复杂度的数学基准测试中均未显示出显著的改进，甚至出现了性能下降。这可能是因为ArXiv论文中的内容较为复杂，模型难以有效吸收和利用。然而，这一结论存在局限性，需要进一步研究。例如，ArXiv论文对特定数学相关任务的影响，以及在更大模型规模下，ArXiv论文是否会显现出其益处，都是未来研究的重要方向。

speaker2

强化学习的统一范式是什么？能否给我们一个简明的解释？

speaker1

强化学习的统一范式提供了一个框架来分析不同的训练方法，如SFT、RFT、DPO、PPO和GRPO。一般来说，训练方法的梯度可以写成一个统一的形式，包括数据源、奖励函数和算法三个关键组成部分。数据源决定了训练数据，奖励函数提供了训练信号，而算法处理数据和奖励信号以确定梯度系数。通过这个框架，我们可以更清晰地理解不同训练方法之间的联系和区别。例如，SFT在人类选择的SFT数据上对预训练模型进行微调，而PPO/GRPO使用SFT模型初始化策略模型，并使用实时策略模型采样的输出进行强化。通过这种统一的视角，我们可以更好地设计和优化强化学习算法，提高模型的性能。

speaker2

未来的研究方向有哪些？我们能期待哪些新的突破？

speaker1

未来的研究方向非常广阔。首先，在数据源方面，我们可以探索更高效的数据采集和处理方法，例如结合基于树搜索的先进采样策略，提高策略模型的探索效率。其次，在算法方面，我们需要开发对噪声奖励信号具有鲁棒性的强化学习算法，以应对复杂任务中的不确定性。第三，在奖励函数方面，我们需要增强奖励模型的泛化能力，使其能够有效处理分布外的问题和先进的解码输出。此外，构建高质量的过程奖励模型，为推理过程提供细粒度的训练信号，也是一个重要的研究方向。通过这些研究，我们有望在强化学习领域取得更多突破，推动AI技术的进一步发展。

Participants

speaker1

专家/主持人

speaker2

嘉宾/共同主持人

Topics

GRPO算法的背景和意义
从PPO到GRPO的演变
GRPO的具体实现和优势
结果监督与过程监督
迭代强化学习与GRPO
DeepSeekMath-RL模型的训练与评估
代码训练对数学推理的影响
ArXiv论文对数学推理的贡献
强化学习的统一范式
未来的研究方向