NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation¶

会议: NeurIPS 2025
arXiv: 2504.13055
代码: GitHub
领域: 强化学习 / VLM推理
关键词: 视觉推理, 策略探索, 数据增强, GRPO, 噪声退火

一句话总结¶

提出NoisyRollout，一种零额外训练成本的数据增强方法，在GRPO训练VLM时混合来自干净和适度扰动图像的rollout以增强策略探索多样性，仅用2.1K样本在5个域外基准上达到开源RL微调模型SOTA。

研究背景与动机¶

通过强化学习扩展测试时计算（推理）是增强模型智能的重要方向，但VLM面临独特挑战：
- 策略探索不足：传统提高温度等方法引入的是表面多样性，无法引导策略发现更鲁棒的行为
- 视觉感知缺陷：VLM经常出现感知错误，进而影响后续推理过程
现有VLM-RL工作多直接移植LLM领域的方法，未考虑视觉感知的特殊挑战
核心洞察：如果在扰动图像上也能成功推理，说明推理路径更鲁棒；干净/扰动图像上的奖励差异可作为隐式对比信号改善感知

方法详解¶

整体框架¶

对每个训练样本 \((I, \mathbf{q})\)，老策略生成两组rollout：\(n_1\) 个来自干净图像、\(n_2\) 个来自扰动图像 \(\tilde{I} = T_{\alpha_t}(I)\)。所有rollout混合计算奖励基线和优势值。关键：策略更新仅以干净图像为条件，扰动图像仅用于收集多样化rollout。噪声退火调度逐渐降低扰动强度。

关键设计¶

混合Rollout策略:
- 功能：将干净和扰动图像的推理轨迹混合用于GRPO优化
- 核心思路：\(n_1\) 个clean rollout + \(n_2\) 个noisy rollout共同组成一个group，计算统一的奖励均值和标准差作为归一化基准
- 设计动机：
  - 扰动图像上的成功轨迹提供了替代的、更鲁棒的推理路径
  - 干净/扰动之间的奖励差异暴露感知脆弱性，起到隐式对比学习的作用
噪声退火调度:
- 功能：训练过程中逐渐降低图像扰动强度
- 核心思路：使用sigmoid形退火 \(\alpha_t = \alpha_0 \cdot (1 - \frac{1}{1 + e^{-\lambda(t-\gamma)/t_{max}}})\)
- 设计动机：早期高噪声鼓励探索，后期低噪声减少分布偏移确保稳定收敛
策略更新仅条件于干净输入:
- 功能：虽然rollout来自扰动图像，但策略梯度计算使用 \(\frac{\pi_\theta(\mathbf{o}_i | I, \mathbf{q})}{\pi_{\theta_{old}}(\mathbf{o}_i | I, \mathbf{q})}\)
- 设计动机：避免让策略学习依赖噪声的行为，确保推理时在干净输入上表现最优

损失函数 / 训练策略¶

\[\mathcal{J}(\theta) = \mathbb{E}\left[\frac{1}{n_1+n_2}\sum_{i=1}^{n_1+n_2} \min\left(\frac{\pi_\theta(\mathbf{o}_i | I, \mathbf{q})}{\pi_{\theta_{old}}(\mathbf{o}_i | I, \mathbf{q})}\hat{A}_i, \text{clip}(\cdot, 1-\epsilon, 1+\epsilon)\hat{A}_i\right)\right]\]

使用规则奖励（正确=1，错误=0），无KL散度约束
默认配置：Gaussian噪声，\(n_1=6, n_2=6\)（总rollout数=12不变）
冻结视觉编码器，学习率1e-6

实验关键数据¶

主实验（表格）¶

Qwen2.5-VL-7B-Instruct，仅2.1K Geometry3K样本：

方法	MathVerse	MathVision	MathVista	WeMath	HallusionBench
Qwen2.5-VL-7B (base)	46.2	25.0	67.5	63.1	64.6
+ Vanilla GRPO	50.8	27.3	70.5	67.4	69.8
+ NoisyRollout	53.2	28.5	72.6	69.6	72.1

消融实验¶

Rollout多样性分析：NoisyRollout在训练早期显著提升rollout余弦距离多样性，效果类似提高温度到1.2
温度对比：NoisyRollout（温度1.0）在所有基准上一致超越vanilla GRPO在任何温度（0.8–1.4），说明提供了更有针对性的多样性
噪声类型：高斯噪声和旋转均有效，高斯噪声略优
比例实验：\(n_1=6, n_2=6\)（50%噪声rollout）是最优比例
32B模型：NoisyRollout同样有效（MathVision 41.6 vs GRPO 40.0）

关键发现¶

仅2.1K训练样本即可超越使用15K–260K样本的竞品（如OpenVLThinker、R1-VL），数据效率极高
HallusionBench上的提升（+2.3%）表明NoisyRollout不仅改善推理，还改善了视觉感知
噪声退火是稳定训练的关键——固定噪声强度会导致后期不稳定
不同数据集（Geometry3K vs MMK12）和模型规模（7B vs 32B）上均有一致提升

亮点与洞察¶

设计极其简洁（"free lunch"）：无额外训练成本、不修改RL目标、不增加总rollout数
将视觉扰动作为策略探索工具的思路新颖——利用VLM的视觉感知特性提供有意义的多样性
隐式对比学习机制精妙：干净/扰动之间的奖励差异自然约束了感知行为
数据效率惊人，2.1K样本在5个域外基准上达SOTA

局限与展望¶

扰动类型（高斯噪声、旋转）相对简单，未探索更复杂的增强（如遮挡、风格迁移）
裁剪（cropping）等策略不成功的原因未深入分析
噪声退火调度的超参数（\(\alpha_0, \lambda, \gamma\)）选择较为手动
对非视觉推理任务（如纯文本推理）的适用性未讨论

评分¶

⭐⭐⭐⭐⭐ — 方法简洁高效、效果显著、泛化性强，是VLM-RL领域的实用贡献