跳转至

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

会议: ICLR 2026
arXiv: 2602.24041
代码: 暂未公开
领域: 多模态VLM
关键词: MLLM幻觉缓解, 视觉增强, 最优传输, token精简, 无训练推理

一句话总结

提出 AIR(Adaptive vIsual Reinforcement)框架,通过原型距离的 token 精简 + 最优传输引导的 patch 选择性增强,在推理时无训练地减少 MLLM 幻觉(LLaVA-1.5-7B CHAIR_S: 22→18.4,POPE 准确率 +5.3%),同时保持多模态通用能力。

研究背景与动机

领域现状: MLLM(LLaVA、Qwen-VL 等)在视觉语言推理上取得显著进展,但仍易产生"幻觉"——生成的文本与图像内容不一致,如描述不存在的物体或产生矛盾。幻觉缓解方法主要分为训练时(需额外标注)、后处理(需外部模型)、推理时(如对比解码)三类。

现有痛点: 近期的视觉增强方法(如 MemVR)尝试在解码时将视觉 token 重新注入 FFN 层以强化视觉信号,但存在关键问题——将所有视觉 token 不加区分地注入,导致背景区域的冗余信号干扰模型对关键区域的关注,反而可能引入新的幻觉。

核心矛盾: 视觉 token 数量大(如 LLaVA 的 576 个),其中大量是背景冗余 token;全量注入引入噪声,不注入则视觉信号衰减——需要在"增强视觉信号"和"避免背景干扰"之间取得平衡。

本文目标 设计一种选择性视觉增强机制,只将与当前生成最相关的视觉 patch 注入解码过程,既强化关键视觉线索又避免冗余干扰。

切入角度: 观察到隐状态与不同视觉 token 的相似度差异显著——有效目标区域相似度高、背景区域低——据此设计自适应选择策略。

核心 idea: 用原型距离精简冗余视觉 token,用最优传输量化 patch 与隐状态的对齐程度,仅注入高对齐 patch。

方法详解

整体框架

AIR 工作在 Transformer 每层的 FFN 阶段,由两个组件串联构成:(1) Prototype-based Token Reduction 将视觉 token 压缩为紧凑子集;(2) OT-guided Patch Reinforcement 通过最优传输评估 patch 与隐状态的对齐度,选择性注入高对齐 patch。整个流程无需训练,可直接插入任意 MLLM。

关键设计

  1. Prototype-based Token Reduction:

    • 功能: 将 K 个视觉 token 压缩为 Q 个(Q << K),保留最有信息量的 token
    • 核心思路: 计算所有视觉 token 的均值作为原型(prototype) h_p,按各 token 到原型的 L2 距离排序,保留距离最大的 Top-Q 个 token——因为距原型越远的 token 编码了越独特的视觉信息
    • 设计动机: 全量 576 个 token 中大量是相似的背景 token;保留离群 token 可抑制冗余、降低后续 OT 计算开销
  2. OT-guided Patch Reinforcement:

    • 功能: 将图像裁剪为 M 个 patch,用最优传输评估每个 patch 与当前隐状态的对齐程度,仅注入对齐度高(OT 距离低)的 patch
    • 核心思路: 将隐状态和 patch embedding 建模为离散分布,用 Sinkhorn 算法高效求解 OT 距离 d_OT(m);设阈值 τ 选择 d_OT(m) ≤ τ 的 patch 集合 M;将选中 patch 的 embedding 拼接后注入 FFN
    • 设计动机: OT 距离捕捉全局几何结构,比逐点余弦相似度更敏感。论文理论证明 OT 的区分灵敏度严格高于余弦距离
  3. 选择性视觉接地(Selective Visual Grounding):

    • 功能: 最终的 FFN 输出 = 原始 FFN 输出 + 精简隐状态与选中 patch 的交互增强项
    • 核心思路: FFN(H|Z̃) = φ(HW₁)W₂ᵀ + φ(H'Z̃ᵀ)Z̃,其中 H' 是精简后的隐状态,Z̃ 是 OT 选中的 patch embeddings
    • 设计动机: 将增强项作为残差加入,不改变模型原始行为,仅在有高对齐 patch 时提供额外视觉接地

损失函数 / 训练策略

无需训练。超参数:token 精简保留数 Q、OT 阈值 τ、patch 数 M。

实验关键数据

主实验 - CHAIR 幻觉评测(MSCOCO, max 64 token)

方法 LLaVA-1.5-7B CHAIR_S↓ CHAIR_I↓ Qwen-VL CHAIR_S↓ CHAIR_I↓ GLM-4V CHAIR_S↓ CHAIR_I↓
Vanilla 22.0 6.7 20.0 6.2 13.0 5.6
VCD 24.6 7.3 19.2 5.7 14.8 6.5
MemVR 21.6 6.4 20.0 6.1 13.0 5.6
VAF 20.4 6.5 20.6 6.6 11.6 5.3
AIR 18.4 5.7 18.6 5.9 11.6 5.3

POPE 基准(LLaVA-1.5-7B)

数据集 设置 Vanilla Acc MemVR Acc AIR Acc AIR F1
MSCOCO Random 83.7 87.6 89.0 88.2
MSCOCO Popular 78.2 86.0 87.1 86.4
MSCOCO Adversarial 75.0 83.5 83.9 83.6
A-OKVQA Random 83.4 89.0 89.0 88.5

消融实验

组件 CHAIR_S↓ POPE Acc↑
Vanilla 22.0 83.7
+Token Reduction only 20.1 86.8
+Patch Reinforcement only 19.5 87.2
+Full AIR 18.4 89.0
OT替换为Cosine 19.8 87.5

关键发现

  • AIR 在三个不同架构的 MLLM 上均取得最优或并列最优的幻觉缓解效果
  • OT 选择优于余弦相似度选择(CHAIR_S: 18.4 vs 19.8),验证了理论分析
  • 在 POPE 对抗设置下表现稳健,说明选择性增强对对抗性提示也有效
  • 通用能力(LLaVA-Bench、MME、MMBench)未显著下降,证明方法不是以牺牲通用性换取低幻觉

亮点与洞察

  • 理论+实践完美结合: OT 的理论优势(区分灵敏度严格高于余弦)有形式化证明,且实验验证了理论
  • 无训练即插即用: 不需要任何标注或微调,可直接应用于 LLaVA、Qwen-VL、GLM-4V 等任意 MLLM
  • "少即是多": 精简 token + 选择性增强比全量注入效果更好,说明视觉增强的质量比数量重要
  • 注意力热图可视化清晰展示了 AIR 将注意力聚焦在语义关键区域

局限与展望

  • 需要将图像裁剪为 patch 并分别编码,引入额外推理计算;大分辨率图像下开销更大
  • OT 阈值 τ 和精简数 Q 需要调优,不同模型/数据可能需要不同配置
  • 目前仅在 caption 和 VQA 场景验证,在多轮对话、长文本生成等场景下效果未知
  • 原型距离排序假设"离群=有信息",对于特定场景(如均匀纹理图像)可能不成立

相关工作与启发

  • 与 MemVR(全量视觉 token 注入 FFN)是直接改进关系:AIR 证明选择性注入显著优于全量注入
  • 与 VCD(视觉对比解码)互补:VCD 通过加噪对比减少幻觉,AIR 通过增强关键视觉信号
  • OT 在 VLM 中的应用为后续工作提供新方向:如可用于 attention 分配、token 合并等

评分

  • 新颖性: ⭐⭐⭐⭐ OT 引导的选择性视觉增强思路新颖,理论证明加分
  • 实验充分度: ⭐⭐⭐⭐ 三个模型、多个幻觉基准、通用能力验证、消融完整
  • 写作质量: ⭐⭐⭐⭐ 问题分析深入,动机图示清晰
  • 价值: ⭐⭐⭐⭐ MLLM 幻觉缓解的实用无训练方案,即插即用价值高