跳转至

GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

会议: NeurIPS 2025
arXiv: 2504.19599
代码: https://github.com/jszkc/GVPO
领域: 对齐RLHF
关键词: GRPO, Policy Optimization, KL约束, 训练稳定性, 后训练

一句话总结

通过将 KL 约束奖励最大化的解析解融入梯度权重(零和权重消除配分函数),设计了比 GRPO 更稳定的 LLM 后训练方法 GVPO,在 AIME 上达到 20.72%(GRPO 14.79%),并证明具有唯一全局最优解。

研究背景与动机

领域现状:GRPO 等后训练方法通过增加采样和相对奖励评分取得了出色性能,但存在严重的训练不稳定性——对超参数(clip 阈值、KL 系数)非常敏感。

现有痛点:GRPO 的不稳定源于两点:① 最小化负概率对数可能不稳定;② 离策略训练中重要性采样权重在策略偏离时导致梯度爆炸。

核心矛盾:DPO 有解析解但可能有多个最小值且不保证收敛到真正最优策略;GRPO 有灵活性但训练不稳定。

本文目标:设计既有 DPO 的理论优势(闭式最优解)又克服其缺陷(收敛保证),同时支持灵活离策略训练的方法。

切入角度:关键发现——当组内所有响应的梯度权重之和为零时,配分函数 \(Z(x)\) 在响应间变得不变,从而被消除。

核心 idea:零和权重设计消除配分函数 + 方差/协方差正则化保证稳定性 = 有理论保证的稳定后训练。

方法详解

整体框架

GVPO 的梯度权重 = 实际奖励中心距 - 隐式奖励中心距的差值,满足 \(\sum_i w_i = 0\),自然消除配分函数。

关键设计

  1. 零和权重消除配分函数:

    • 功能:设计满足 \(\sum_i w_i = 0\) 的梯度权重方案
    • 核心思路:\(w_i = (R(x,y_i) - \bar{R}) - \beta(\log\frac{\pi_\theta(y_i|x)}{\pi_{\theta'}(y_i|x)} - \overline{\log\frac{\pi_\theta}{\pi_{\theta'}}})\)
    • 设计动机:直接利用 KL 约束最优策略的解析关系,避免估计不可计算的 \(Z(x)\)
  2. 三重组分分解(RL 视角):

    • 功能:将损失分解为优势最大化 + 方差正则化 + 协方差正则化
    • 核心思路:优势项优先高回报响应;方差项平衡探索/利用;协方差项作为信任区间约束
    • 设计动机:消融显示去掉任一项都导致训练发散,三者缺一不可
  3. 灵活采样分布支持:

    • 功能:对任何满足支撑条件的采样分布都保证最优性(Theorem 3.2)
    • 核心思路:无需 on-policy 采样,支持离策略训练、数据重用、混合数据
    • 设计动机:避免重要性采样权重爆炸,比传统策略梯度更灵活

损失函数 / 训练策略

GVPO 损失等价于 MSE(隐式奖励中心距 vs 实际奖励中心距),保证唯一全局最优解 \(\pi^*(y|x) = \frac{1}{Z(x)}\pi_{\theta'}(y|x)e^{R(x,y)/\beta}\)

实验关键数据

主实验(数学推理)

算法 AIME2024 AMC MATH500 Minerva OlympiadBench
Qwen2.5-Math-7B 14.68 38.55 64.00 27.20 30.66
+ GRPO 14.79 55.42 80.00 41.17 42.07
+ Dr.GRPO 16.56 48.19 81.20 44.48 43.40
+ GVPO 20.72 62.65 83.80 45.95 46.96

消融实验

配置 结果
Full GVPO 收敛,最优性能
w/o 方差正则化 训练完全发散
w/o 协方差正则化 训练完全发散
w/o 两者 初期收敛后约 10% 步骤发散

关键发现

  • GVPO 在所有 5 个基准上达最佳,AIME 提升 +5.93%(绝对)
  • \(\beta \in [0.05, 0.2]\) 鲁棒,波动小(vs GRPO 对超参敏感)
  • 1.5B 模型增加采样数 k 可匹配 7B 模型性能——模型规模可用采样换

亮点与洞察

  • 理论优势明确:唯一全局最优解 > DPO 的多重最小值,收敛保证更强
  • 方差分解的优雅性:三组分自然实现三个目标,无需手调复杂系数
  • 离策略灵活性突破:混合数据、历史数据都可用,大幅降低采样成本

局限与展望

  • 主要在数学推理验证,缺语言理解/安全对齐等多元任务评估
  • 改进的驱动力(正则化 vs 采样灵活性)未完全解耦

相关工作与启发

  • vs GRPO: 更稳定(10 种子低方差),更灵活(无需 on-policy),更优(AIME +5.93%)
  • vs DPO: 更强收敛保证(唯一最优 vs 可能多重最小值),支持灵活采样分布

评分

  • 新颖性: ⭐⭐⭐⭐ 零和权重消除配分函数是巧妙创新,多视角分解增加深度
  • 实验充分度: ⭐⭐⭐⭐ 多数据集验证+消融充分,但评估领域单一
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,三视角解释直观
  • 价值: ⭐⭐⭐⭐ 更稳定的后训练方法对工业界有直接应用价值