Understanding the Role of Hallucination in Reinforcement Post-Training of Multimodal Reasoning Models¶

会议: CVPR 2026
arXiv: 2604.03179
代码: 无
领域: LLM推理
关键词: 多模态推理、强化学习后训练、幻觉分析、GRPO、模态腐蚀

一句话总结¶

本文提出 Hallucination-as-Cue 分析框架，通过三种模态特定腐蚀策略（空白图像、随机图像、文本移除）系统研究 RL 后训练对多模态推理模型的真实作用机制，发现即使在 100% 腐蚀视觉输入下 GRPO 训练仍能显著提升推理性能，挑战了"RL 训练能有效利用视觉信息"的主流假设。

研究背景与动机¶

领域现状：受 DeepSeek-R1 等文本推理 LLM 的成功启发，大量工作将 GRPO 等 RL 后训练方法应用到多模态 LLM（如 Qwen2.5-VL）上，在视觉数学推理等任务上取得显著提升。
现有痛点：虽然 RL 后训练能提升 benchmark 分数，但目前没有工作系统研究过"这些提升到底来自真正的视觉理解，还是仅仅强化了文本推理能力"。当前 RL 奖励仅基于最终答案的对错，与模型是否正确使用了视觉信息无关。
核心矛盾：如果 RL 训练主要强化的是文本推理模式而非视觉感知，那么当前方向的投入可能事倍功半——模型只是在学"猜答案"而不是"看图推理"。
本文目标：设计系统的诊断框架，定量回答"RL 后训练是否真正利用了视觉信息"。
切入角度：把幻觉当作"诊断线索"而非需要消除的缺陷，通过故意诱导幻觉来暴露训练的真实机制。
核心 idea：设计三种模态特定腐蚀（空白图像/随机图像/文本移除），分别在训练和推理阶段施加，通过 8 种设定组合全面分析 RL 训练动态。

方法详解¶

整体框架¶

Hallucination-as-Cue 框架包含三个部分：(1) 模态特定腐蚀策略设计 → (2) 幻觉诱导训练（用腐蚀数据做 GRPO 训练）→ (3) 幻觉诱导推理与分析（8 种设定的交叉评估）。框架的目的不是训练更好的模型，而是诊断当前 RL 训练方法的内在机制。

关键设计¶

空白图像替换（Blank Image, BI）
- 功能：完全移除视觉信息，迫使模型纯靠文本推理
- 核心思路：将所有训练/测试图像替换为空白图像。在 GRPO 训练中，模型必须从纯文本条件出发生成推理链，如果碰巧得到正确答案则获得正向奖励
- 设计动机：如果 BI 训练后模型仍能提升，说明 RL 训练可以不依赖视觉信息就增强推理能力
随机图像替换（Random Image, RI）
- 功能：提供错误视觉信息，测试模型是否会被误导
- 核心思路：将每张训练/测试图像替换为数据集中随机另一张图像，构造文图不匹配的训练对
- 设计动机：比 BI 更具挑战性——模型不仅缺乏正确视觉信息，还面临干扰。如果 RI 训练仍有效，说明模型学会了忽略视觉干扰而依赖文本推理
文本信息移除（Textual Removal, TR）
- 功能：移除文本条件，迫使模型依赖视觉输入
- 核心思路：通过规则匹配移除题目中的变量条件和问题描述，仅保留模板化指令和图像输入
- 设计动机：作为对照——如果 RL 确实能利用视觉信息，TR 训练应该表现最好（因为图像中仍包含问题条件和标注），但实验表明 TR 训练并未显著优于 BI/RI

损失函数 / 训练策略¶

使用标准 GRPO 算法，组归一化优势 \(A_i = \frac{R_i - \mu_{group}}{\sigma_{group} + \epsilon}\)，PPO-style clipped surrogate + KL 惩罚。训练 15 个 episode，rollout size 5，温度 0.7，KL 权重 0.01，学习率 \(1 \times 10^{-6}\)。唯一区别在于输入数据是否经过模态腐蚀。

实验关键数据¶

主实验¶

模型	训练方式	MathVision	MathVerse	MathVista	WeMath	AVG
Qwen2.5-VL-3B	Base	18.19	34.82	51.40	54.48	39.72
Qwen2.5-VL-3B	+GRPO	22.73	37.72	58.40	60.11	44.74
Qwen2.5-VL-3B	+GRPO-BI	20.95	35.10	56.40	56.55	42.25
Qwen2.5-VL-3B	+GRPO-RI	20.86	35.76	58.00	55.17	42.45
Qwen2.5-VL-7B	Base	27.70	45.20	67.00	63.68	50.89
Qwen2.5-VL-7B	+GRPO	28.13	47.56	70.00	68.39	53.52
Qwen2.5-VL-7B	+GRPO-BI	28.39	48.86	68.50	66.84	53.15
Qwen2.5-VL-7B	+GRPO-RI	27.27	49.90	71.40	68.33	54.23

消融实验¶

设定	训练数据	MathVision	MathVerse	MathVista	WeMath	AVG
GRPO	Geometry3K	22.73	37.72	58.40	60.11	44.74
GRPO	MMR1-V0	26.18	39.26	65.00	62.47	48.23
GRPO	CLEVR	23.06	35.96	58.20	55.75	43.24
GRPO-BI	Geometry3K	20.95	35.10	56.40	56.55	42.25
GRPO-BI	MMR1-V0	24.28	40.03	61.20	61.61	46.78
GRPO-BI	CLEVR	21.51	35.05	58.20	54.20	42.24

关键发现¶

最震撼的发现：7B 模型在随机图像（GRPO-RI）训练下 AVG 达到 54.23%，超过正常 GRPO 训练的 53.52%。这意味着用完全错误的图片训练反而更好
BI 训练在 MathVision 上的反常：3B 基座模型在 BI 推理下准确率从 18.19% 升到 18.91%（+0.72%），说明视觉信息甚至可能干扰小模型的推理
模型规模效应：大模型从幻觉轨迹中受益更多——7B 的 GRPO-BI/RI 与正常 GRPO 的差距远小于 3B
TR 未优于 BI/RI：即使 TR 保留了图像中的视觉线索，训练效果与完全无视觉的 BI 差距不大，进一步证实当前 RL 训练未有效利用视觉信息
视觉密集型问题受损最大：BI 推理下 Vision Intensive 问题准确率下降 20-26%，但 Text Dominant 问题仅下降 4-7%

亮点与洞察¶

反直觉的核心发现极具冲击力：用错误图片训练比正确图片效果更好，这不仅是一个有趣的实验观察，更是对整个多模态 RL 训练范式的深刻质疑
Hallucination-as-Cue 的诊断思路可广泛复用：把"缺陷"转化为"诊断信号"的思路可以迁移到其他场景，如用噪声音频训练来诊断语音模型的文本依赖程度
8 种评估设定的交叉矩阵设计非常系统：训练×推理×腐蚀的组合覆盖全面，确保结论的可靠性

局限与展望¶

仅研究了 GRPO 算法，PPO、DPO 等其他 RL 方法的行为可能不同
实验限于 Qwen2.5-VL 的 3B 和 7B 规模，更大规模（72B）模型是否仍然依赖文本先验？
训练数据主要是视觉数学推理（Geometry3K、MMR1-V0），结论能否推广到自然图像 VQA、视频推理等场景尚不清楚
文章侧重诊断和分析，未提出具体的改进方案来让 RL 训练真正利用视觉信息
后续可探索模态感知的奖励函数设计（如基于 visual grounding 质量的额外奖励）以弥补当前最终答案奖励的不足

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将幻觉从"需要消除的问题"重新定义为"诊断工具"的视角极具创新性
实验充分度: ⭐⭐⭐⭐⭐ 2个模型规模×3种腐蚀×3个数据集×8种设定×5个benchmark，实验矩阵极为全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，但部分图表信息量过于密集
价值: ⭐⭐⭐⭐⭐ 对多模态RL训练的"皇帝的新衣"式揭示具有重要警示意义，可能深刻影响后续研究方向