跳转至

Tell Model Where to Look: Mitigating Hallucinations in MLLMs by Vision-Guided Attention

会议: CVPR2026
arXiv: 2511.20032
代码: github.com/beta-nlp/VGA
领域: 幻觉检测
关键词: 多模态幻觉, 视觉注意力, 视觉语义置信度, 免训练, FlashAttention兼容

一句话总结

提出Vision-Guided Attention (VGA),一种免训练的方法,通过利用视觉token的语义特征构建精确的视觉定位,引导模型注意力聚焦于相关视觉区域,有效缓解MLLM幻觉,且兼容FlashAttention。

研究背景与动机

MLLM虽然在视觉理解上取得显著进展,但经常产生与实际视觉内容矛盾的幻觉输出。现有去幻觉方法主要分为训练方法和免训练方法: - 训练方法:构建数据集或设计损失函数,但模型架构迭代太快导致边际递减 - 免训练方法:更具实用价值,尤其是优化视觉注意力的方向

当前视觉注意力优化方法的核心问题: 1. 过度依赖注意力本身的质量,但视觉注意力的定位能力本质上有限(受attention sink现象影响) 2. 使用外部工具或额外前向传播引入计算开销 3. 依赖attention weight的方法与FlashAttention不兼容

关键发现:模型能准确提取视觉token的语义特征并转化为条件概率(visual logits),但推理阶段未能充分利用这一优势。这意味着MLLM的视觉理解被低估了。

方法详解

整体框架

VGA 的出发点是一个观察:MLLM 其实能从视觉 token 里准确提取物体的语义特征并转成条件概率(visual logits),但推理时没把这份能力用起来,视觉理解被低估了。于是 VGA 走「先定位、再引导」两步,且全程免训练。第一步构建视觉定位:要看的目标明确时(如 VQA)用视觉语义置信度(VSC)从 visual logits 里读出物体在图上的分布,目标不明确时(如图像描述)改用视觉语义显著性(VSS)找出富含视觉信息的 token。第二步引导注意力:把定位图 \(G\) 作为引导信号叠加到注意力输出上,并用注意力头平衡避免破坏本就擅长看图的头;图像描述场景再用动态视觉定位(PVG)让引导焦点随已生成内容移动。关键在于这套注入借助加法结合律改写,每个 token 只需一次前向传播、全程不显式计算 attention weight,因此天然兼容 FlashAttention。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 + 问题/提示<br/>→ 视觉 token → visual logits"]
    A -->|"VQA:有明确目标物体"| B["视觉语义置信度 VSC<br/>从 visual logits 读出物体定位 G_O"]
    A -->|"captioning:无明确目标"| C["视觉语义显著性 VSS<br/>用输出不确定性定位富信息 token"]
    B --> D["定位图 G"]
    C --> D
    F["注意力头平衡<br/>γ 给视觉强的头弱引导"] --> E["视觉引导注意力 VGA<br/>ẑ = z + β·γ·Δz,加法结合律绕开 attention weight"]
    D --> E
    E --> G["逐 token 生成输出"]
    G -->|"captioning 每步"| H["动态视觉定位 PVG<br/>抑制已描述区域 + ‖G‖₀ 衰减"]
    H -->|"更新 G"| D

关键设计

1. 视觉语义置信度(VSC):从 visual logits 里读出物体定位

视觉注意力本身的定位能力受 attention sink 影响、并不可靠,VGA 改从语义置信度入手。对物体 \(O\),视觉 token \(v_i\) 的语义置信度为 \(c_{v_i}(O) = \text{softmax}[\text{logit}_{v_i}(O)]\),用 \(O\) 的第一个 token 化 token \(o_0\) 近似;物体对整图的置信度用最大池化 \(c(O) = \max c_{v_i}(o_0)\),定位图则是 \(G_O = \text{Norm}[\{c_{v_i}(o_0)\}_{i=1}^m]\)。实验验证 VSC 的定位显著强于视觉注意力,在大物体上尤其明显,因为它不受 attention sink 干扰。

2. 视觉语义显著性(VSS):给 captioning 这类无目标任务定位

VSC 需要一个明确的目标物体,可像图像描述这种任务事先并没有特定目标。VSS 改用输出不确定性来衡量视觉 token 的语义显著性:\(c_{v_i} = -\sum_k \log c_{v_i}(w_k) / \log K\)(Top-K token 的熵)。高 VSS 的 token 对应有意义的物体区域,低 VSS 对应语义不显著的背景。

3. 视觉引导注意力(VGA):用加法结合律绕开 attention weight

有了定位,怎么把它注入注意力又不破坏 FlashAttention 兼容?VGA 不去改 attention weight,而是直接在输出上加一个引导信号:\(\hat{z} = z + \beta \cdot \gamma \cdot \Delta z\),其中 \(\Delta z\) 是引导信号、\(\beta\) 是引导强度、\(\gamma\) 是注意力头平衡系数。它利用加法结合律 \(\hat{z} = (\alpha + \beta \cdot G)V = z + \beta \cdot \Delta z\),全程不需要显式算 attention weight,于是天然兼容 FlashAttention。

4. 注意力头平衡(Attention Heads Balancing):别把本来就擅长看图的头搞坏

不同注意力头的视觉功能强弱不一,一刀切地引导会破坏那些原本就擅长视觉的头。VGA 给视觉功能强的头较弱引导、给非视觉头较强引导,用 \(z\)\(\Delta z\) 的余弦相似度近似头的视觉功能差异,再以 \(\gamma = \text{ReLU}(2 - H \cdot \gamma')\) 调节引导强度。

5. 动态视觉定位(PVG):随生成动态挪动引导焦点

captioning 是逐步生成的,已经描述过的区域不该再被反复引导。PVG 让定位随生成动态更新 \(G_{t+1} = (1+\lambda)G_t - \lambda G_w\),抑制已描述区域、引导关注待描述区域;随着生成内容增多,用 \(\|G\|_0\) 当衰减因子让引导强度自动减弱,避免越描越偏。

损失函数 / 训练策略

完全免训练方法,仅在推理时应用。超参数包括引导强度 \(\beta\) 和衰减参数 \(\lambda\)

实验关键数据

主实验

数据集 指标 VGA 之前SOTA 提升
POPE (Acc, 平均) Accuracy SOTA 多个基线 在LLaVA-7B/13B/Next和Qwen2.5-VL上全面领先
POPE (F1, 平均) F1 SOTA PAI/PAICD等 跨模型一致性提升

消融实验

配置 关键指标 说明
仅PSP 提升 验证位置-时间步惩罚效果
VGA在不同MLLM上 一致性提升 方法的通用性强
VSC定位 vs 注意力定位 Dice系数大幅领先 尤其在大物体上优势明显

关键发现

  • VSC的判断准确率虽低于模型本身回答,但展示了正确的偏好性(显著超过50%)
  • VSC与模型回答存在一定偏好差异,证明模型的视觉理解未被充分利用
  • VGA在不新增前向传播的前提下(每个token仅一次),实现了去幻觉SOTA

亮点与洞察

  • 核心洞察极为精彩:MLLM的视觉logits蕴含丰富的语义定位信息,但推理时未被充分利用
  • 方法设计优雅:利用加法结合律绕过attention weight计算,实现FlashAttention兼容
  • Attention Heads Balancing是实用的设计,避免破坏模型原有的视觉功能头
  • PVG为captioning场景提供了动态attention引导的有效范式

局限与展望

  • VSC使用第一个token近似物体语义可能不够精确,尤其对多音节/多token物体
  • 超参数β需要手动设置,不同模型/任务可能需要调整
  • 未与训练方法结合,可能存在互补提升空间
  • PVG的衰减策略较为启发式,可能对长描述不够稳定

相关工作与启发

  • 对比解码方法(VCD, ICD等)通常需要额外前向传播来激活幻觉特征
  • Attention编辑方法(PAI, OPERA等)依赖attention weight,不兼容FlashAttention
  • VGA成功将视觉语义置信度作为一种新型视觉先验引入注意力引导,这一思路可推广到其他需要精确视觉定位的任务

评分

  • 新颖性: ⭐⭐⭐⭐⭐ VSC是全新的概念,FlashAttention兼容的设计非常实用
  • 实验充分度: ⭐⭐⭐⭐ 多模型多基准验证,定量+定性分析
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,从观察到方法推导自然流畅
  • 价值: ⭐⭐⭐⭐⭐ 免训练+FlashAttention兼容,落地价值极高