Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation¶
会议: ICLR 2026
arXiv: 2602.24041
代码: 暂未公开
领域: 幻觉检测
关键词: MLLM幻觉缓解, 视觉增强, 最优传输, token精简, 无训练推理
一句话总结¶
提出 AIR(Adaptive vIsual Reinforcement)框架,通过原型距离的 token 精简 + 最优传输引导的 patch 选择性增强,在推理时无训练地减少 MLLM 幻觉(LLaVA-1.5-7B CHAIR_S: 22→18.4,POPE 准确率 +5.3%),同时保持多模态通用能力。
研究背景与动机¶
领域现状: MLLM(LLaVA、Qwen-VL 等)在视觉语言推理上取得显著进展,但仍易产生"幻觉"——生成的文本与图像内容不一致,如描述不存在的物体或产生矛盾。幻觉缓解方法主要分为训练时(需额外标注)、后处理(需外部模型)、推理时(如对比解码)三类。
现有痛点: 近期的视觉增强方法(如 MemVR)尝试在解码时将视觉 token 重新注入 FFN 层以强化视觉信号,但存在关键问题——将所有视觉 token 不加区分地注入,导致背景区域的冗余信号干扰模型对关键区域的关注,反而可能引入新的幻觉。
核心矛盾: 视觉 token 数量大(如 LLaVA 的 576 个),其中大量是背景冗余 token;全量注入引入噪声,不注入则视觉信号衰减——需要在"增强视觉信号"和"避免背景干扰"之间取得平衡。
本文目标 设计一种选择性视觉增强机制,只将与当前生成最相关的视觉 patch 注入解码过程,既强化关键视觉线索又避免冗余干扰。
切入角度: 观察到隐状态与不同视觉 token 的相似度差异显著——有效目标区域相似度高、背景区域低——据此设计自适应选择策略。
核心 idea: 用原型距离精简冗余视觉 token,用最优传输量化 patch 与隐状态的对齐程度,仅注入高对齐 patch。
方法详解¶
整体框架¶
AIR 嵌在 Transformer 每一层的 FFN 阶段,做的事情就一件——在解码当前 token 时,把"真正相关"的视觉信息以残差形式补回 FFN 输出。它先用原型距离把数百个视觉 token 精简成少数最有信息量的子集,再用最优传输衡量当前隐状态和各图像 patch 的对齐程度,只把高对齐的 patch 注入增强。整个过程无需训练,可直接挂载到 LLaVA、Qwen-VL、GLM-4V 等任意 MLLM 上。
关键设计¶
1. 原型距离的 token 精简:先把背景冗余 token 筛掉
LLaVA 一张图就有 576 个视觉 token,其中绝大多数编码的是天空、地面这类高度相似的背景,全量参与后续计算既慢又会引入噪声。AIR 先对所有视觉 token 取均值得到一个"原型" \(h_p\),把它当作整图的平均语义中心,再按每个 token 到原型的 L2 距离 \(\|h_i - h_p\|_2\) 排序,只保留距离最大的 Top-\(Q\) 个(\(Q \ll K\))。背景 token 彼此雷同、紧贴原型会被淘汰,而前景目标这类"离群"token 编码了独特信息、离原型远会被保留。这一步既抑制了冗余,又把后续最优传输的计算量从 \(K\) 压到 \(Q\)。
2. 最优传输引导的 patch 选择:只增强和当前生成对齐的区域
精简之后还要回答"该补哪块图像区域"。AIR 把原图裁成 \(M\) 个 patch,将精简后的隐状态和每个 patch 的 embedding 各自建模为离散分布,用 Sinkhorn 算法高效求解二者之间的最优传输距离 \(d_{\text{OT}}(m)\)。OT 距离捕捉的是两个分布间的整体几何匹配,比逐点余弦相似度对"是否真的对齐"更敏感——论文给出形式化证明,OT 的区分灵敏度严格高于余弦距离,这也解释了消融里 OT 选择优于 Cosine(CHAIR_S 18.4 vs 19.8)。设一个阈值 \(\tau\),只挑出 \(d_{\text{OT}}(m) \le \tau\) 的 patch 集合 \(\mathcal{M}\),把它们的 embedding 拼成 \(\tilde{Z}\) 送进增强。这样无关背景 patch 自然被滤掉,避免了 MemVR 那种全量注入带来的干扰。
3. 残差式选择性视觉接地:增强不改变原始行为
选好 patch 后,AIR 把视觉信号以残差项的形式加回 FFN 输出,而不是替换原计算:
其中第一项是原始 FFN,第二项是新增的视觉接地项,\(H'\) 是精简后的隐状态,\(\tilde{Z}\) 是 OT 选中的 patch embeddings。残差形式保证了在没有高对齐 patch 时增强项趋近于零、模型行为不变;只有当确实存在与当前生成强相关的视觉证据时才注入额外接地。整套方法无需训练,唯一需要调的就是精简保留数 \(Q\)、OT 阈值 \(\tau\) 和 patch 数 \(M\) 三个超参数。
实验关键数据¶
主实验 - CHAIR 幻觉评测(MSCOCO, max 64 token)¶
| 方法 | LLaVA-1.5-7B CHAIR_S↓ | CHAIR_I↓ | Qwen-VL CHAIR_S↓ | CHAIR_I↓ | GLM-4V CHAIR_S↓ | CHAIR_I↓ |
|---|---|---|---|---|---|---|
| Vanilla | 22.0 | 6.7 | 20.0 | 6.2 | 13.0 | 5.6 |
| VCD | 24.6 | 7.3 | 19.2 | 5.7 | 14.8 | 6.5 |
| MemVR | 21.6 | 6.4 | 20.0 | 6.1 | 13.0 | 5.6 |
| VAF | 20.4 | 6.5 | 20.6 | 6.6 | 11.6 | 5.3 |
| AIR | 18.4 | 5.7 | 18.6 | 5.9 | 11.6 | 5.3 |
POPE 基准(LLaVA-1.5-7B)¶
| 数据集 | 设置 | Vanilla Acc | MemVR Acc | AIR Acc | AIR F1 |
|---|---|---|---|---|---|
| MSCOCO | Random | 83.7 | 87.6 | 89.0 | 88.2 |
| MSCOCO | Popular | 78.2 | 86.0 | 87.1 | 86.4 |
| MSCOCO | Adversarial | 75.0 | 83.5 | 83.9 | 83.6 |
| A-OKVQA | Random | 83.4 | 89.0 | 89.0 | 88.5 |
消融实验¶
| 组件 | CHAIR_S↓ | POPE Acc↑ |
|---|---|---|
| Vanilla | 22.0 | 83.7 |
| +Token Reduction only | 20.1 | 86.8 |
| +Patch Reinforcement only | 19.5 | 87.2 |
| +Full AIR | 18.4 | 89.0 |
| OT替换为Cosine | 19.8 | 87.5 |
关键发现¶
- AIR 在三个不同架构的 MLLM 上均取得最优或并列最优的幻觉缓解效果
- OT 选择优于余弦相似度选择(CHAIR_S: 18.4 vs 19.8),验证了理论分析
- 在 POPE 对抗设置下表现稳健,说明选择性增强对对抗性提示也有效
- 通用能力(LLaVA-Bench、MME、MMBench)未显著下降,证明方法不是以牺牲通用性换取低幻觉
亮点与洞察¶
- 理论+实践完美结合: OT 的理论优势(区分灵敏度严格高于余弦)有形式化证明,且实验验证了理论
- 无训练即插即用: 不需要任何标注或微调,可直接应用于 LLaVA、Qwen-VL、GLM-4V 等任意 MLLM
- "少即是多": 精简 token + 选择性增强比全量注入效果更好,说明视觉增强的质量比数量重要
- 注意力热图可视化清晰展示了 AIR 将注意力聚焦在语义关键区域
局限与展望¶
- 需要将图像裁剪为 patch 并分别编码,引入额外推理计算;大分辨率图像下开销更大
- OT 阈值 τ 和精简数 Q 需要调优,不同模型/数据可能需要不同配置
- 目前仅在 caption 和 VQA 场景验证,在多轮对话、长文本生成等场景下效果未知
- 原型距离排序假设"离群=有信息",对于特定场景(如均匀纹理图像)可能不成立
相关工作与启发¶
- 与 MemVR(全量视觉 token 注入 FFN)是直接改进关系:AIR 证明选择性注入显著优于全量注入
- 与 VCD(视觉对比解码)互补:VCD 通过加噪对比减少幻觉,AIR 通过增强关键视觉信号
- OT 在 VLM 中的应用为后续工作提供新方向:如可用于 attention 分配、token 合并等
评分¶
- 新颖性: ⭐⭐⭐⭐ OT 引导的选择性视觉增强思路新颖,理论证明加分
- 实验充分度: ⭐⭐⭐⭐ 三个模型、多个幻觉基准、通用能力验证、消融完整
- 写作质量: ⭐⭐⭐⭐ 问题分析深入,动机图示清晰
- 价值: ⭐⭐⭐⭐ MLLM 幻觉缓解的实用无训练方案,即插即用价值高