跳转至

DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage

会议: ICLR 2026
arXiv: 2603.01106
代码: Siaaaaaa1/DIVA-GRPO
领域: 多模态VLM
关键词: GRPO, 强化学习, 多模态推理, 难度自适应, advantage vanishing, 变体增强

一句话总结

提出 DIVA-GRPO,通过动态评估问题难度、自适应生成不同难度的语义一致变体、并结合难度加权的局部-全局 advantage 估计,解决 GRPO 训练中的 reward sparsity 和 advantage vanishing 问题,在 7B 规模模型上实现 SOTA 多模态推理性能。

研究背景与动机

GRPO 在多模态推理中广泛应用:GRPO 通过组内相对 advantage 估计实现无 critic 模型的长链推理训练,已成为增强 MLLM 推理能力的主流方法。

Advantage vanishing 是核心瓶颈:当问题对当前模型过于简单或过于困难时,组内所有回答全对或全错,导致 advantage 为零,优化信号消失,训练效率骤降。

Reward sparsity 加剧问题:在训练早期或面对困难问题时,只有极少数推理路径获得正奖励,正向反馈稀缺导致学习缓慢。

现有方法各有局限:(a) 样本增强扩展法(如添加 prompt、生成变体)未控制难度分布,可能加剧 advantage vanishing;(b) 选择性样本利用法丢弃部分数据,减少多样性;(c) 间接奖励设计法可能引入与最终目标不对齐的偏差。

难度动态变化被忽视:随着训练推进,模型能力增强,原本中等难度的问题变简单,advantage vanishing 持续恶化,但现有方法均未考虑难度的动态演变。

核心洞察:关键在于保证每个问题的组内奖励分布具有足够的方差,从而产生清晰的优化信号——这需要根据问题难度动态调整变体的难度分布。

方法详解

整体框架

DIVA-GRPO 要解决的是标准 GRPO 训练里的一个顽疾:当一道题对当前模型太简单或太困难时,组内回答全对或全错,相对 advantage 归零,优化信号消失(advantage vanishing),而且随着模型变强、原本中等的题逐渐变简单,这个问题会越训越重。它的破解思路是:与其被动接受零 advantage,不如主动构造一组难度可控、语义一致的变体,让每个问题的组内奖励始终保持足够方差。

为此它在标准 GRPO 外面套了一个随训练迭代的闭环:每个 epoch 先用该问题历史 rollout 的正确率给它打一个"相对于当前模型"的动态难度分;据此分三档生成变体——太简单的题加扰动变难、中等的只换表达、太难的塞推理提示变易;再把"原问题 + 变体"汇成扩展空间,做难度加权的局部-全局 advantage 估计去更新策略;更新后的模型在下个 epoch 又会改变各题难度,闭环继续。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    Q["原问题 q + 历史 rollout"] --> D["动态难度评估<br/>由正确率 α 更新难度分 D_q"]
    subgraph VAR["难度自适应变体生成"]
        direction TB
        V1["简单题:扰动文本+图像<br/>变难,逼出负样本"]
        V2["中等题:仅文本改写<br/>增加表达多样性"]
        V3["困难题:塞 think-step 提示<br/>变易,换来正样本"]
    end
    D --> VAR
    VAR --> G["难度加权的<br/>局部-全局 advantage 平衡"]
    G --> U["策略更新(GRPO 梯度)"]
    U -.->|"下个 epoch 模型变强、各题难度改变"| D

关键设计

1. 动态难度评估:让难度跟着模型能力走

advantage vanishing 越训越重,根因在于把难度当成了问题的固有属性——可一道题对刚起步的模型是"难",训到后期就成了"易",组内全部答对、advantage 归零。DIVA-GRPO 为每个问题维护一个动态难度分 \(D_q\)(初始化 \(D_q=5\),范围 1–9),每个 epoch 用该问题历史 rollout 的经验正确率 \(\alpha\) 重新校准:

\[D^{\text{new}} = \text{clip}\big(D^{\text{old}} + \eta \cdot (0.5 - \alpha)\big), \quad \eta=4\]

正确率高于 50% 就调低难度、低于 50% 就调高,把难度分推向正确率约 50% 的水平——这恰好是组内正负样本最均衡、优化信号最强的点。这样难度分始终反映"相对于当前模型"的真实难易,后续的变体策略才不会脱靶。

2. 难度自适应变体生成:把奖励方差"造"出来

有了难度分,就能针对性补足组内缺失的那一类样本,保证既有正确回答也有错误回答。策略按难度分三档:简单题(\(D_q < D_{\text{mid}}\))同时扰动文本和图像(旋转、加噪、模糊等)把题目变难,逼出负样本;中等题(\(D_q \approx D_{\text{mid}}\))只做文本改写,难度不变但增加表达多样性;困难题(\(D_q > D_{\text{mid}}\))则把部分推理步骤当提示(think-step)塞进 prompt 降低难度,换来正样本。所有变体都保持答案不变(语义一致),因此扩展后的组内奖励分布天然具备方差,从源头堵住了 advantage vanishing。实现上文本改写与推理提示由 GPT-o3 离线批量生成,图像扰动则在线施加。

3. 难度加权的局部-全局 advantage 平衡:让难题上的正确答案更值钱

扩展空间里有两种 advantage 视角——只看单个问题组内的"局部"视角,和把该问题所有变体合在一起看的"全局"视角,二者因样本量不同(全局组更大)量级差异很大。DIVA-GRPO 先对两者各做 batch 级 z-score 归一化消除量级差异得到 \(\tilde{A}\),再叠一层难度加权:

\[\hat{A} = \exp\big(k \cdot (D_q^{(i)} - \bar{D}_q) \cdot \text{sgn}(\tilde{A})\big) \cdot \tilde{A}\]

直觉是对高于平均难度的变体放大其正确回答的 advantage、压低错误回答的影响,低于平均难度时反之——于是模型在难题上答对获得的收益更大,优化天然向难处倾斜,实现难度自适应的策略更新。

损失函数 / 训练策略

整体损失沿用标准 GRPO 策略梯度,只是把 advantage 换成上述难度加权、归一化后的 \(\hat{A}\)。额外引入一个即插即用的 Reward-Range-Based Advantage Rescaling (RRB)\(\hat{A}_{\text{range}} = \Delta r_q \cdot \tilde{A}\),其中 \(\Delta r_q = (\max(\mathcal{R}_q) - \min(\mathcal{R}_q)) / R_{\max}\)。它的作用是当组内奖励高度集中时,z-score 归一化会把本可忽略的微小差异错误放大,而 \(\Delta r_q\) 用奖励的实际跨度去压缩这种伪信号,奖励越扁平缩放越狠。训练基座为 Qwen2.5-VL-7B-Instruct,AdamW 优化器,学习率 \(10^{-6}\)

实验关键数据

表1:六个多模态数学推理基准上的主实验结果

模型 MathVista MathVerse MathVision OlympiadBench WeMath MMK12test Avg.
GPT-4o 63.8 50.2 30.4 35.0 68.8 49.9 49.68
Qwen2.5-VL-7B (base) 68.2 47.9 25.4 20.2 62.1 53.6 46.23
Qwen2.5-VL-72B 74.8 57.6 38.1 40.4 72.4 70.5 59.0
R1-ShareVL-7B 73.5 52.8 29.5 21.3 67.9 68.8 52.30
MM-Eureka-7B 71.7 50.3 26.9 20.1 66.1 64.5 49.93
DIVA-GRPO-7B (Ours) 74.2 57.6 32.1 23.1 69.3 70.2 54.58
  • 7B 规模下六个基准均达 SOTA,平均 54.58 分
  • 在 MathVista/MathVerse/WeMath 上已接近 72B 级别模型
  • 相比基座 Qwen2.5-VL-7B 平均提升 +8.35

表2:消融实验结果

方法 MathVista MathVerse MMK12test Avg.
w/o Variant Generation 70.0 53.7 61.1 61.6
w/o Difficulty-Weighting 69.9 55.7 66.5 64.0
w/o RRB-Rescaling 71.5 55.2 64.7 63.8
w/o G-L Balance 70.8 55.4 66.0 64.1
Full DIVA-GRPO 73.2 56.3 68.8 66.1
  • 移除任一组件均导致性能下降,变体生成的影响最大(-4.5 avg)
  • 训练效率方面:达到最优性能所需步数减少 2.55×,端到端加速 1.76×

亮点

  • 问题定义精准:从"如何保证组内奖励方差充足"的角度统一理解 advantage vanishing,提供了比现有三类方法更本质的解决思路
  • 难度自适应闭环:难度评估→变体生成→advantage 加权形成完整闭环,且难度随训练动态演化
  • 理论支撑充分:提供了梯度方差降低加速收敛的定理证明,以及正负样本比约 1:1 时优化信号最强的数学分析
  • 训练效率显著提升:2.55× 步数减少 + 1.76× 端到端加速,实用价值高
  • RRB-Rescaling 通用性强:可独立于 DIVA-GRPO 应用到任何 GRPO 框架

局限与展望

  • 变体的文本推理提示依赖 GPT-o3 离线生成,引入了对闭源模型的依赖和额外成本
  • 在竞赛级数学任务(OlympiadBench 23.1 vs o1 的 68.0)上仍有很大差距,7B 模型容量限制明显
  • 图像扰动方式(旋转、噪声等)相对简单,对需要精细视觉理解的场景可能不够
  • 难度评估基于正确率,对于部分正确或推理过程正确但最终答案错误的情况缺乏区分

与相关工作的对比

  • vs GRPO/DAPO:标准 GRPO 和 DAPO 未考虑难度自适应,在训练后期 advantage 信号衰减;DIVA-GRPO 通过变体生成维持奖励方差
  • vs GSPO:GSPO 引入语义一致变体但未动态调整难度分布;DIVA-GRPO 根据模型当前能力动态匹配变体难度
  • vs Adora/MM-Eureka:这些方法通过样本选择或间接奖励缓解问题,但分别存在数据浪费和优化方向偏差的风险
  • vs R1-ShareVL:同为 7B 规模 SOTA 对手,DIVA-GRPO 在 MathVerse (+4.8) 和 MMK12test (+1.4) 上优势明显

评分

  • 新颖性: ⭐⭐⭐⭐ — 难度自适应变体生成+三级策略+RRB rescaling 组合新颖
  • 实验充分度: ⭐⭐⭐⭐ — 六个基准+详细消融+效率分析+理论证明,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ — 问题阐述清晰,方法动机层层递进
  • 价值: ⭐⭐⭐⭐ — 解决 GRPO 训练的实际痛点,RRB 组件可即插即用