GVPO: Group Variance Policy Optimization for Large Language Model Post-Training¶

会议: NeurIPS 2025
arXiv: 2504.19599
代码: https://github.com/jszkc/GVPO
领域: 对齐RLHF
关键词: GRPO, Policy Optimization, KL约束, 训练稳定性, 后训练

一句话总结¶

通过将 KL 约束奖励最大化的解析解融入梯度权重（零和权重消除配分函数），设计了比 GRPO 更稳定的 LLM 后训练方法 GVPO，在 AIME 上达到 20.72%（GRPO 14.79%），并证明具有唯一全局最优解。

领域现状：GRPO 等后训练方法通过增加采样和相对奖励评分取得了出色性能，但存在严重的训练不稳定性——对超参数（clip 阈值、KL 系数）非常敏感。

现有痛点：GRPO 的不稳定源于两点：① 最小化负概率对数可能不稳定；② 离策略训练中重要性采样权重在策略偏离时导致梯度爆炸。

核心矛盾：DPO 有解析解但可能有多个最小值且不保证收敛到真正最优策略；GRPO 有灵活性但训练不稳定。

本文目标：设计既有 DPO 的理论优势（闭式最优解）又克服其缺陷（收敛保证），同时支持灵活离策略训练的方法。

切入角度：关键发现——当组内所有响应的梯度权重之和为零时，配分函数 \(Z(x)\) 在响应间变得不变，从而被消除。

核心 idea：零和权重设计消除配分函数 + 方差/协方差正则化保证稳定性 = 有理论保证的稳定后训练。

GVPO 的梯度权重 = 实际奖励中心距 - 隐式奖励中心距的差值，满足 \(\sum_i w_i = 0\)，自然消除配分函数。

零和权重消除配分函数:
- 功能：设计满足 \(\sum_i w_i = 0\) 的梯度权重方案
- 核心思路：\(w_i = (R(x,y_i) - \bar{R}) - \beta(\log\frac{\pi_\theta(y_i|x)}{\pi_{\theta'}(y_i|x)} - \overline{\log\frac{\pi_\theta}{\pi_{\theta'}}})\)
- 设计动机：直接利用 KL 约束最优策略的解析关系，避免估计不可计算的 \(Z(x)\)
三重组分分解（RL 视角）:
- 功能：将损失分解为优势最大化 + 方差正则化 + 协方差正则化
- 核心思路：优势项优先高回报响应；方差项平衡探索/利用；协方差项作为信任区间约束
- 设计动机：消融显示去掉任一项都导致训练发散，三者缺一不可
灵活采样分布支持:
- 功能：对任何满足支撑条件的采样分布都保证最优性（Theorem 3.2）
- 核心思路：无需 on-policy 采样，支持离策略训练、数据重用、混合数据
- 设计动机：避免重要性采样权重爆炸，比传统策略梯度更灵活

GVPO 损失等价于 MSE（隐式奖励中心距 vs 实际奖励中心距），保证唯一全局最优解 \(\pi^*(y|x) = \frac{1}{Z(x)}\pi_{\theta'}(y|x)e^{R(x,y)/\beta}\)。

算法	AIME2024	AMC	MATH500	Minerva	OlympiadBench
Qwen2.5-Math-7B	14.68	38.55	64.00	27.20	30.66
+ GRPO	14.79	55.42	80.00	41.17	42.07
+ Dr.GRPO	16.56	48.19	81.20	44.48	43.40
+ GVPO	20.72	62.65	83.80	45.95	46.96