DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage¶
会议: ICLR 2026
arXiv: 2603.01106
代码: Siaaaaaa1/DIVA-GRPO
领域: 多模态VLM
关键词: GRPO, 强化学习, 多模态推理, 难度自适应, advantage vanishing, 变体增强
一句话总结¶
提出 DIVA-GRPO,通过动态评估问题难度、自适应生成不同难度的语义一致变体、并结合难度加权的局部-全局 advantage 估计,解决 GRPO 训练中的 reward sparsity 和 advantage vanishing 问题,在 7B 规模模型上实现 SOTA 多模态推理性能。
研究背景与动机¶
GRPO 在多模态推理中广泛应用:GRPO 通过组内相对 advantage 估计实现无 critic 模型的长链推理训练,已成为增强 MLLM 推理能力的主流方法。
Advantage vanishing 是核心瓶颈:当问题对当前模型过于简单或过于困难时,组内所有回答全对或全错,导致 advantage 为零,优化信号消失,训练效率骤降。
Reward sparsity 加剧问题:在训练早期或面对困难问题时,只有极少数推理路径获得正奖励,正向反馈稀缺导致学习缓慢。
现有方法各有局限:(a) 样本增强扩展法(如添加 prompt、生成变体)未控制难度分布,可能加剧 advantage vanishing;(b) 选择性样本利用法丢弃部分数据,减少多样性;(c) 间接奖励设计法可能引入与最终目标不对齐的偏差。
难度动态变化被忽视:随着训练推进,模型能力增强,原本中等难度的问题变简单,advantage vanishing 持续恶化,但现有方法均未考虑难度的动态演变。
核心洞察:关键在于保证每个问题的组内奖励分布具有足够的方差,从而产生清晰的优化信号——这需要根据问题难度动态调整变体的难度分布。
方法详解¶
整体框架¶
DIVA-GRPO 要解决的是标准 GRPO 训练里的一个顽疾:当一道题对当前模型太简单或太困难时,组内回答全对或全错,相对 advantage 归零,优化信号消失(advantage vanishing),而且随着模型变强、原本中等的题逐渐变简单,这个问题会越训越重。它的破解思路是:与其被动接受零 advantage,不如主动构造一组难度可控、语义一致的变体,让每个问题的组内奖励始终保持足够方差。
为此它在标准 GRPO 外面套了一个随训练迭代的闭环:每个 epoch 先用该问题历史 rollout 的正确率给它打一个"相对于当前模型"的动态难度分;据此分三档生成变体——太简单的题加扰动变难、中等的只换表达、太难的塞推理提示变易;再把"原问题 + 变体"汇成扩展空间,做难度加权的局部-全局 advantage 估计去更新策略;更新后的模型在下个 epoch 又会改变各题难度,闭环继续。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
Q["原问题 q + 历史 rollout"] --> D["动态难度评估<br/>由正确率 α 更新难度分 D_q"]
subgraph VAR["难度自适应变体生成"]
direction TB
V1["简单题:扰动文本+图像<br/>变难,逼出负样本"]
V2["中等题:仅文本改写<br/>增加表达多样性"]
V3["困难题:塞 think-step 提示<br/>变易,换来正样本"]
end
D --> VAR
VAR --> G["难度加权的<br/>局部-全局 advantage 平衡"]
G --> U["策略更新(GRPO 梯度)"]
U -.->|"下个 epoch 模型变强、各题难度改变"| D
关键设计¶
1. 动态难度评估:让难度跟着模型能力走
advantage vanishing 越训越重,根因在于把难度当成了问题的固有属性——可一道题对刚起步的模型是"难",训到后期就成了"易",组内全部答对、advantage 归零。DIVA-GRPO 为每个问题维护一个动态难度分 \(D_q\)(初始化 \(D_q=5\),范围 1–9),每个 epoch 用该问题历史 rollout 的经验正确率 \(\alpha\) 重新校准:
正确率高于 50% 就调低难度、低于 50% 就调高,把难度分推向正确率约 50% 的水平——这恰好是组内正负样本最均衡、优化信号最强的点。这样难度分始终反映"相对于当前模型"的真实难易,后续的变体策略才不会脱靶。
2. 难度自适应变体生成:把奖励方差"造"出来
有了难度分,就能针对性补足组内缺失的那一类样本,保证既有正确回答也有错误回答。策略按难度分三档:简单题(\(D_q < D_{\text{mid}}\))同时扰动文本和图像(旋转、加噪、模糊等)把题目变难,逼出负样本;中等题(\(D_q \approx D_{\text{mid}}\))只做文本改写,难度不变但增加表达多样性;困难题(\(D_q > D_{\text{mid}}\))则把部分推理步骤当提示(think-step)塞进 prompt 降低难度,换来正样本。所有变体都保持答案不变(语义一致),因此扩展后的组内奖励分布天然具备方差,从源头堵住了 advantage vanishing。实现上文本改写与推理提示由 GPT-o3 离线批量生成,图像扰动则在线施加。
3. 难度加权的局部-全局 advantage 平衡:让难题上的正确答案更值钱
扩展空间里有两种 advantage 视角——只看单个问题组内的"局部"视角,和把该问题所有变体合在一起看的"全局"视角,二者因样本量不同(全局组更大)量级差异很大。DIVA-GRPO 先对两者各做 batch 级 z-score 归一化消除量级差异得到 \(\tilde{A}\),再叠一层难度加权:
直觉是对高于平均难度的变体放大其正确回答的 advantage、压低错误回答的影响,低于平均难度时反之——于是模型在难题上答对获得的收益更大,优化天然向难处倾斜,实现难度自适应的策略更新。
损失函数 / 训练策略¶
整体损失沿用标准 GRPO 策略梯度,只是把 advantage 换成上述难度加权、归一化后的 \(\hat{A}\)。额外引入一个即插即用的 Reward-Range-Based Advantage Rescaling (RRB):\(\hat{A}_{\text{range}} = \Delta r_q \cdot \tilde{A}\),其中 \(\Delta r_q = (\max(\mathcal{R}_q) - \min(\mathcal{R}_q)) / R_{\max}\)。它的作用是当组内奖励高度集中时,z-score 归一化会把本可忽略的微小差异错误放大,而 \(\Delta r_q\) 用奖励的实际跨度去压缩这种伪信号,奖励越扁平缩放越狠。训练基座为 Qwen2.5-VL-7B-Instruct,AdamW 优化器,学习率 \(10^{-6}\)。
实验关键数据¶
表1:六个多模态数学推理基准上的主实验结果¶
| 模型 | MathVista | MathVerse | MathVision | OlympiadBench | WeMath | MMK12test | Avg. |
|---|---|---|---|---|---|---|---|
| GPT-4o | 63.8 | 50.2 | 30.4 | 35.0 | 68.8 | 49.9 | 49.68 |
| Qwen2.5-VL-7B (base) | 68.2 | 47.9 | 25.4 | 20.2 | 62.1 | 53.6 | 46.23 |
| Qwen2.5-VL-72B | 74.8 | 57.6 | 38.1 | 40.4 | 72.4 | 70.5 | 59.0 |
| R1-ShareVL-7B | 73.5 | 52.8 | 29.5 | 21.3 | 67.9 | 68.8 | 52.30 |
| MM-Eureka-7B | 71.7 | 50.3 | 26.9 | 20.1 | 66.1 | 64.5 | 49.93 |
| DIVA-GRPO-7B (Ours) | 74.2 | 57.6 | 32.1 | 23.1 | 69.3 | 70.2 | 54.58 |
- 7B 规模下六个基准均达 SOTA,平均 54.58 分
- 在 MathVista/MathVerse/WeMath 上已接近 72B 级别模型
- 相比基座 Qwen2.5-VL-7B 平均提升 +8.35 分
表2:消融实验结果¶
| 方法 | MathVista | MathVerse | MMK12test | Avg. |
|---|---|---|---|---|
| w/o Variant Generation | 70.0 | 53.7 | 61.1 | 61.6 |
| w/o Difficulty-Weighting | 69.9 | 55.7 | 66.5 | 64.0 |
| w/o RRB-Rescaling | 71.5 | 55.2 | 64.7 | 63.8 |
| w/o G-L Balance | 70.8 | 55.4 | 66.0 | 64.1 |
| Full DIVA-GRPO | 73.2 | 56.3 | 68.8 | 66.1 |
- 移除任一组件均导致性能下降,变体生成的影响最大(-4.5 avg)
- 训练效率方面:达到最优性能所需步数减少 2.55×,端到端加速 1.76×
亮点¶
- 问题定义精准:从"如何保证组内奖励方差充足"的角度统一理解 advantage vanishing,提供了比现有三类方法更本质的解决思路
- 难度自适应闭环:难度评估→变体生成→advantage 加权形成完整闭环,且难度随训练动态演化
- 理论支撑充分:提供了梯度方差降低加速收敛的定理证明,以及正负样本比约 1:1 时优化信号最强的数学分析
- 训练效率显著提升:2.55× 步数减少 + 1.76× 端到端加速,实用价值高
- RRB-Rescaling 通用性强:可独立于 DIVA-GRPO 应用到任何 GRPO 框架
局限与展望¶
- 变体的文本推理提示依赖 GPT-o3 离线生成,引入了对闭源模型的依赖和额外成本
- 在竞赛级数学任务(OlympiadBench 23.1 vs o1 的 68.0)上仍有很大差距,7B 模型容量限制明显
- 图像扰动方式(旋转、噪声等)相对简单,对需要精细视觉理解的场景可能不够
- 难度评估基于正确率,对于部分正确或推理过程正确但最终答案错误的情况缺乏区分
与相关工作的对比¶
- vs GRPO/DAPO:标准 GRPO 和 DAPO 未考虑难度自适应,在训练后期 advantage 信号衰减;DIVA-GRPO 通过变体生成维持奖励方差
- vs GSPO:GSPO 引入语义一致变体但未动态调整难度分布;DIVA-GRPO 根据模型当前能力动态匹配变体难度
- vs Adora/MM-Eureka:这些方法通过样本选择或间接奖励缓解问题,但分别存在数据浪费和优化方向偏差的风险
- vs R1-ShareVL:同为 7B 规模 SOTA 对手,DIVA-GRPO 在 MathVerse (+4.8) 和 MMK12test (+1.4) 上优势明显
评分¶
- 新颖性: ⭐⭐⭐⭐ — 难度自适应变体生成+三级策略+RRB rescaling 组合新颖
- 实验充分度: ⭐⭐⭐⭐ — 六个基准+详细消融+效率分析+理论证明,覆盖全面
- 写作质量: ⭐⭐⭐⭐ — 问题阐述清晰,方法动机层层递进
- 价值: ⭐⭐⭐⭐ — 解决 GRPO 训练的实际痛点,RRB 组件可即插即用