GRPO 分组相对策略优化

定义

GRPO（Group Relative Policy Optimization，分组相对策略优化） 是 DeepSeek 在 R1 和 V3.2 中使用的强化学习算法，是 PPO（Proximal Policy Optimization）的一种轻量化变体。其核心创新是用组内相对比较替代训练独立的 critic 模型，大幅降低了 RL 训练的计算成本和工程复杂度。

核心机制

为什么需要替代 PPO

传统 RLHF 流程（如 InstructGPT）：

SFT → 训练 Reward Model（RM）→ 用 PPO 优化策略
PPO 需要同时维护 4 个模型：Policy、Reference Policy、Critic（Value Model）、Reward Model
Critic 模型通常需要和 Policy 同等规模，存储和计算开销翻倍

GRPO 的关键创新：去 Critic

GRPO 不需要 critic 模型，替代方案是：

对同一个 prompt，采样 G 个不同的输出（组成一个 group）
对每个输出用 reward model 打分，得到组内 reward：{r₁, r₂, ..., r_G}
组内标准化：将每个 reward 减去组均值除以组标准差 → 相对优势 Â
用 PPO 式的 clipped objective 更新策略，但优势来自组内比较

Â_i = (r_i - mean(r)) / std(r)    // 替代 critic 的价值估计

与 PPO 的对比

维度	PPO	GRPO
模型数量	4（Policy+Ref+Critic+RM）	3（Policy+Ref+RM）
Critic 训练	需要	不需要
GPU 内存	高（critic 占额外 50%+）	中
优势估计	学习 V(s) → TD error	组内相对比较
方差	低（V 函数平滑）	中（组内采样的方差）
适用场景	通用 RL	生成式任务（可多次采样同一 prompt）

为什么 GRPO 有效

组内比较的直觉

绝对奖励信号不稳定（reward model 本身有噪声和偏差）
但同一个 prompt 的不同回答之间的相对优劣更容易判断
GRPO 实质上利用了 prompt 内部的对比信号，绕过了需要精确值函数的难题

前提条件

GRPO 只适用于可以低成本地对同一 prompt 生成多样输出的任务——这正是 LLM 推理的天然场景。对每个数学题，模型可以生成多个不同的推理路径，从中选出最优。

DeepSeek 的实践经验

R1-Zero 用纯 GRPO 训练（无 SFT），涌现出了 self-verification、reflection、aha moment 等推理行为
V3.2 用 GRPO 实现 agent 能力的 RL 训练
关键在于 reward 设计：规则化 reward（数学题答案对错）比学习式 reward model 更有效

扩展：从 GRPO 到 RLVR

RLVR（RL with Verifiable Rewards） 是 GRPO 的泛化概念：

使用可验证的规则化奖励（数学答案、代码执行结果）替代 reward model
避免了 reward hacking 和 reward model 的训练成本
DeepSeek-R1、Kimi k1.5 均大量使用 rule-based RL

与其他方法的关联

vs DPO

DPO：直接优化偏好对，不需要 RL 训练循环，简单但不适合多步推理链的优化
GRPO：保留 RL 训练循环（模型可以通过探索发现新策略），但去掉了 critic 的工程负担
选择：单轮对齐用 DPO，多步推理能力的获取用 GRPO

vs Kimi k1.5 的 online mirror descent

Kimi k1.5 采用了不同的 RL 优化器，但核心思想类似：用规则化奖励驱动推理训练
差异主要在优化算法的选择，不是在 reward 设计层面

与已有 Wiki 的连接

关联概念：推理模型与强化学习、RLHF、Scaling Laws
关联实体：DeepSeek 系列模型（GRPO 起源）、Kimi 系列模型（online mirror descent）
所在主题：大语言模型基础、国产大模型演进

深度分析

GRPO 的真正意义不是”省钱”，而是”降低 RL 门槛”

从表面看，GRPO 只是省了一个 critic 模型。但深层含义是：它让中小团队也有了做 RL 推理训练的可能。PPO 的 4 模型架构需要极强的工程能力（模型并行、pipeline 编排），GRPO 的简化让 RL 训练不再是少数头部玩家的特权。

这也是为什么 DeepSeek-R1 的影响力远超其绝对性能——它展示的是一条更低成本的 RL 路径。

组内相对比较的隐藏弱点

GRPO 组内标准化的前提是组内有足够的方差（不同回答质量差异大）。当模型已经很擅长某个任务（组内回答质量趋于一致），GRPO 的信号就会衰减到接近噪声——优势估计的方差会飙升。

这是目前尚未被充分讨论的 GRPO 天花板：它在中等难度任务上效果最好，在极难（所有回答都差）和极简单（所有回答都好）的任务上信号很弱。

从算法到范式

GRPO 的影响已经超越了算法层面。它和规则化奖励（RLVR）一起，标志着一个新范式的形成：不需要人类偏好标注、不需要 reward model 训练、不需要 critic 模型——只需要可验证的任务和足够的采样预算。这可能是 RL for LLM 走向大规模实用化的关键转折。

Blog1

探索

GRPO 分组相对策略优化

GRPO 分组相对策略优化

定义

核心机制

为什么需要替代 PPO

GRPO 的关键创新：去 Critic

与 PPO 的对比

为什么 GRPO 有效

组内比较的直觉

前提条件

DeepSeek 的实践经验

扩展：从 GRPO 到 RLVR

与其他方法的关联

vs DPO

vs Kimi k1.5 的 online mirror descent

与已有 Wiki 的连接

深度分析

GRPO 的真正意义不是”省钱”，而是”降低 RL 门槛”

组内相对比较的隐藏弱点

从算法到范式

关系图谱

目录

反向链接