NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation¶
会议: NeurIPS 2025
arXiv: 2504.13055
代码: GitHub
领域: 强化学习 / VLM推理
关键词: 视觉推理, 策略探索, 数据增强, GRPO, 噪声退火
一句话总结¶
提出NoisyRollout,一种零额外训练成本的数据增强方法,在GRPO训练VLM时混合来自干净和适度扰动图像的rollout以增强策略探索多样性,仅用2.1K样本在5个域外基准上达到开源RL微调模型SOTA。
研究背景与动机¶
- 通过强化学习扩展测试时计算(推理)是增强模型智能的重要方向,但VLM面临独特挑战:
- 策略探索不足:传统提高温度等方法引入的是表面多样性,无法引导策略发现更鲁棒的行为
- 视觉感知缺陷:VLM经常出现感知错误,进而影响后续推理过程
- 现有VLM-RL工作多直接移植LLM领域的方法,未考虑视觉感知的特殊挑战
- 核心洞察:如果在扰动图像上也能成功推理,说明推理路径更鲁棒;干净/扰动图像上的奖励差异可作为隐式对比信号改善感知
方法详解¶
整体框架¶
对每个训练样本 \((I, \mathbf{q})\),老策略生成两组rollout:\(n_1\) 个来自干净图像、\(n_2\) 个来自扰动图像 \(\tilde{I} = T_{\alpha_t}(I)\)。所有rollout混合计算奖励基线和优势值。关键:策略更新仅以干净图像为条件,扰动图像仅用于收集多样化rollout。噪声退火调度逐渐降低扰动强度。
关键设计¶
-
混合Rollout策略:
- 功能:将干净和扰动图像的推理轨迹混合用于GRPO优化
- 核心思路:\(n_1\) 个clean rollout + \(n_2\) 个noisy rollout共同组成一个group,计算统一的奖励均值和标准差作为归一化基准
- 设计动机:
- 扰动图像上的成功轨迹提供了替代的、更鲁棒的推理路径
- 干净/扰动之间的奖励差异暴露感知脆弱性,起到隐式对比学习的作用
-
噪声退火调度:
- 功能:训练过程中逐渐降低图像扰动强度
- 核心思路:使用sigmoid形退火 \(\alpha_t = \alpha_0 \cdot (1 - \frac{1}{1 + e^{-\lambda(t-\gamma)/t_{max}}})\)
- 设计动机:早期高噪声鼓励探索,后期低噪声减少分布偏移确保稳定收敛
-
策略更新仅条件于干净输入:
- 功能:虽然rollout来自扰动图像,但策略梯度计算使用 \(\frac{\pi_\theta(\mathbf{o}_i | I, \mathbf{q})}{\pi_{\theta_{old}}(\mathbf{o}_i | I, \mathbf{q})}\)
- 设计动机:避免让策略学习依赖噪声的行为,确保推理时在干净输入上表现最优
损失函数 / 训练策略¶
\[\mathcal{J}(\theta) = \mathbb{E}\left[\frac{1}{n_1+n_2}\sum_{i=1}^{n_1+n_2} \min\left(\frac{\pi_\theta(\mathbf{o}_i | I, \mathbf{q})}{\pi_{\theta_{old}}(\mathbf{o}_i | I, \mathbf{q})}\hat{A}_i, \text{clip}(\cdot, 1-\epsilon, 1+\epsilon)\hat{A}_i\right)\right]\]
- 使用规则奖励(正确=1,错误=0),无KL散度约束
- 默认配置:Gaussian噪声,\(n_1=6, n_2=6\)(总rollout数=12不变)
- 冻结视觉编码器,学习率1e-6
实验关键数据¶
主实验(表格)¶
Qwen2.5-VL-7B-Instruct,仅2.1K Geometry3K样本:
| 方法 | MathVerse | MathVision | MathVista | WeMath | HallusionBench |
|---|---|---|---|---|---|
| Qwen2.5-VL-7B (base) | 46.2 | 25.0 | 67.5 | 63.1 | 64.6 |
| + Vanilla GRPO | 50.8 | 27.3 | 70.5 | 67.4 | 69.8 |
| + NoisyRollout | 53.2 | 28.5 | 72.6 | 69.6 | 72.1 |
消融实验¶
- Rollout多样性分析:NoisyRollout在训练早期显著提升rollout余弦距离多样性,效果类似提高温度到1.2
- 温度对比:NoisyRollout(温度1.0)在所有基准上一致超越vanilla GRPO在任何温度(0.8–1.4),说明提供了更有针对性的多样性
- 噪声类型:高斯噪声和旋转均有效,高斯噪声略优
- 比例实验:\(n_1=6, n_2=6\)(50%噪声rollout)是最优比例
- 32B模型:NoisyRollout同样有效(MathVision 41.6 vs GRPO 40.0)
关键发现¶
- 仅2.1K训练样本即可超越使用15K–260K样本的竞品(如OpenVLThinker、R1-VL),数据效率极高
- HallusionBench上的提升(+2.3%)表明NoisyRollout不仅改善推理,还改善了视觉感知
- 噪声退火是稳定训练的关键——固定噪声强度会导致后期不稳定
- 不同数据集(Geometry3K vs MMK12)和模型规模(7B vs 32B)上均有一致提升
亮点与洞察¶
- 设计极其简洁("free lunch"):无额外训练成本、不修改RL目标、不增加总rollout数
- 将视觉扰动作为策略探索工具的思路新颖——利用VLM的视觉感知特性提供有意义的多样性
- 隐式对比学习机制精妙:干净/扰动之间的奖励差异自然约束了感知行为
- 数据效率惊人,2.1K样本在5个域外基准上达SOTA
局限与展望¶
- 扰动类型(高斯噪声、旋转)相对简单,未探索更复杂的增强(如遮挡、风格迁移)
- 裁剪(cropping)等策略不成功的原因未深入分析
- 噪声退火调度的超参数(\(\alpha_0, \lambda, \gamma\))选择较为手动
- 对非视觉推理任务(如纯文本推理)的适用性未讨论
相关工作与启发¶
- 与DeepVideo-R1等同期工作互补:NoisyRollout改进探索策略,DeepVideo-R1改进优化目标
- 混合rollout思想可推广到其他RL调优场景(如代码生成、数学推理)
- 噪声退火与curriculum learning理念一致:从宽探索逐渐过渡到窄利用
评分¶
- ⭐⭐⭐⭐⭐ — 方法简洁高效、效果显著、泛化性强,是VLM-RL领域的实用贡献