GVPO: Group Variance Policy Optimization for Large Language Model Post-Training¶
会议: NeurIPS 2025
arXiv: 2504.19599
代码: https://github.com/jszkc/GVPO
领域: 对齐RLHF
关键词: GRPO, Policy Optimization, KL约束, 训练稳定性, 后训练
一句话总结¶
通过将 KL 约束奖励最大化的解析解融入梯度权重(零和权重消除配分函数),设计了比 GRPO 更稳定的 LLM 后训练方法 GVPO,在 AIME 上达到 20.72%(GRPO 14.79%),并证明具有唯一全局最优解。
研究背景与动机¶
领域现状:GRPO 等后训练方法通过增加采样和相对奖励评分取得了出色性能,但存在严重的训练不稳定性——对超参数(clip 阈值、KL 系数)非常敏感。
现有痛点:GRPO 的不稳定源于两点:① 最小化负概率对数可能不稳定;② 离策略训练中重要性采样权重在策略偏离时导致梯度爆炸。
核心矛盾:DPO 有解析解但可能有多个最小值且不保证收敛到真正最优策略;GRPO 有灵活性但训练不稳定。
本文目标:设计既有 DPO 的理论优势(闭式最优解)又克服其缺陷(收敛保证),同时支持灵活离策略训练的方法。
切入角度:关键发现——当组内所有响应的梯度权重之和为零时,配分函数 \(Z(x)\) 在响应间变得不变,从而被消除。
核心 idea:零和权重设计消除配分函数 + 方差/协方差正则化保证稳定性 = 有理论保证的稳定后训练。
方法详解¶
整体框架¶
GVPO 的梯度权重 = 实际奖励中心距 - 隐式奖励中心距的差值,满足 \(\sum_i w_i = 0\),自然消除配分函数。
关键设计¶
-
零和权重消除配分函数:
- 功能:设计满足 \(\sum_i w_i = 0\) 的梯度权重方案
- 核心思路:\(w_i = (R(x,y_i) - \bar{R}) - \beta(\log\frac{\pi_\theta(y_i|x)}{\pi_{\theta'}(y_i|x)} - \overline{\log\frac{\pi_\theta}{\pi_{\theta'}}})\)
- 设计动机:直接利用 KL 约束最优策略的解析关系,避免估计不可计算的 \(Z(x)\)
-
三重组分分解(RL 视角):
- 功能:将损失分解为优势最大化 + 方差正则化 + 协方差正则化
- 核心思路:优势项优先高回报响应;方差项平衡探索/利用;协方差项作为信任区间约束
- 设计动机:消融显示去掉任一项都导致训练发散,三者缺一不可
-
灵活采样分布支持:
- 功能:对任何满足支撑条件的采样分布都保证最优性(Theorem 3.2)
- 核心思路:无需 on-policy 采样,支持离策略训练、数据重用、混合数据
- 设计动机:避免重要性采样权重爆炸,比传统策略梯度更灵活
损失函数 / 训练策略¶
GVPO 损失等价于 MSE(隐式奖励中心距 vs 实际奖励中心距),保证唯一全局最优解 \(\pi^*(y|x) = \frac{1}{Z(x)}\pi_{\theta'}(y|x)e^{R(x,y)/\beta}\)。
实验关键数据¶
主实验(数学推理)¶
| 算法 | AIME2024 | AMC | MATH500 | Minerva | OlympiadBench |
|---|---|---|---|---|---|
| Qwen2.5-Math-7B | 14.68 | 38.55 | 64.00 | 27.20 | 30.66 |
| + GRPO | 14.79 | 55.42 | 80.00 | 41.17 | 42.07 |
| + Dr.GRPO | 16.56 | 48.19 | 81.20 | 44.48 | 43.40 |
| + GVPO | 20.72 | 62.65 | 83.80 | 45.95 | 46.96 |
消融实验¶
| 配置 | 结果 |
|---|---|
| Full GVPO | 收敛,最优性能 |
| w/o 方差正则化 | 训练完全发散 |
| w/o 协方差正则化 | 训练完全发散 |
| w/o 两者 | 初期收敛后约 10% 步骤发散 |
关键发现¶
- GVPO 在所有 5 个基准上达最佳,AIME 提升 +5.93%(绝对)
- 对 \(\beta \in [0.05, 0.2]\) 鲁棒,波动小(vs GRPO 对超参敏感)
- 1.5B 模型增加采样数 k 可匹配 7B 模型性能——模型规模可用采样换
亮点与洞察¶
- 理论优势明确:唯一全局最优解 > DPO 的多重最小值,收敛保证更强
- 方差分解的优雅性:三组分自然实现三个目标,无需手调复杂系数
- 离策略灵活性突破:混合数据、历史数据都可用,大幅降低采样成本
局限与展望¶
- 主要在数学推理验证,缺语言理解/安全对齐等多元任务评估
- 改进的驱动力(正则化 vs 采样灵活性)未完全解耦
相关工作与启发¶
- vs GRPO: 更稳定(10 种子低方差),更灵活(无需 on-policy),更优(AIME +5.93%)
- vs DPO: 更强收敛保证(唯一最优 vs 可能多重最小值),支持灵活采样分布
评分¶
- 新颖性: ⭐⭐⭐⭐ 零和权重消除配分函数是巧妙创新,多视角分解增加深度
- 实验充分度: ⭐⭐⭐⭐ 多数据集验证+消融充分,但评估领域单一
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,三视角解释直观
- 价值: ⭐⭐⭐⭐ 更稳定的后训练方法对工业界有直接应用价值