Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=JAI7afWA9e
论文: OpenReview
代码: 待确认
领域: 多模态VLM可解释性 / 视觉证据利用
关键词: VLM可解释性, 视觉注意力, 视觉证据增强, VQA, 推理时干预

一句话总结¶

这篇论文系统分析 VLM 在 VQA 中“看见证据却答错”的现象，发现深层 attention 往往已经定位到正确视觉证据但生成阶段没有充分使用，并据此提出无需训练的 VEA 推理时视觉证据高亮方法，在 LLaVA、Qwen、Gemma、InternVL 等多类模型和多个证据型 VQA 任务上稳定提升准确率。

研究背景与动机¶

领域现状：VLM 已经能在 VQA、文档理解、场景文字问答等任务上取得很强结果，但这些任务背后的核心能力不是“看过图片”这么简单，而是要把问题中的语言约束和图片里的局部证据对齐起来，再把证据真正用于答案生成。许多 recent VLM failure case 都显示：图片里明明有答案，模型却会拒答、幻觉，或者给出只部分正确的回答。

现有痛点：过去很多解释把这类错误归因于 VLM 对图像 token 的整体关注不足，或者说模型更依赖语言先验。但“图像 attention 少”并不等价于“模型没有看到证据”。如果模型内部某些层其实已经把 attention 聚到正确证据区域，那么错误就不再只是感知失败，而是证据从内部表示传到最终生成时被语言先验、上下文噪声或解码过程压过去了。

核心矛盾：本文抓住的矛盾是视觉感知和答案正确性之间并不总是一致。VLM 的深层可能已经形成局部视觉 grounding，却没有把这个 grounding 转化为可信的答案依据；换句话说，模型内部“看见”的东西没有被最终生成“相信”。这个矛盾比单纯比较 text token 和 image token 的 attention 总量更细，因为它要求回答两个问题：attention 什么时候转向图像，以及转向图像后是否真的服务于答案。

本文目标：作者把问题拆成四个诊断问题：第一，模型跨层如何在文本和图像之间切换注意力；第二，不同层到底看向哪些图像区域；第三，模型答错时是否仍然会看向正确视觉证据；第四，如果确实存在“看见但不相信”，能否把内部证据信号显式化，帮助模型更好利用图像。

切入角度：论文选择 layer-wise attention 作为切入点，因为 Transformer VLM 在生成第一个答案 token 时会同时访问问题 token 和图像 token，这给了一个观察模型内部证据分配的窗口。作者没有只看最后输出，而是把 attention 按层拆开，再用 VisualCoT 的人工证据框把视觉 token 分成 evidence / non-evidence，从而能量化某层 attention 是否真的对准了答案所需区域。

核心 idea：如果深层 attention 已经能可靠标出视觉证据，那么可以把这些区域在输入图像上高亮出来，让模型第二次推理时更难忽略自己已经“看见”的证据。

方法详解¶

整体框架¶

本文的方法可以分成两个紧密相连的部分：先用 attention probing 证明 VLM 中存在“深层视觉证据定位但答案仍错误”的断裂，再把这种深层证据定位变成 Visual Evidence Augmentation (VEA)。VEA 不训练模型，也不改权重，而是在推理时先用模型内部 attention 生成证据 mask，然后把原图中高证据区域保留、低证据区域压暗，最后让 VLM 基于增强后的图像回答问题。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 + 问题"] --> B["层级注意力诊断"]
    B --> C["视觉证据层筛选"]
    C --> D["推理时证据归因"]
    D --> E["去噪与平滑"]
    E --> F["视觉证据高亮"]
    F --> G["增强图像 + 提示词"]
    G --> H["VLM 重新回答"]

诊断部分回答“模型有没有看见”：作者计算每层对文本 token、图像 token、证据图像 token 的 attention，并和人工标注证据区域对齐。干预部分回答“能不能让模型相信”：作者选择视觉 grounding 能力最强的层，聚合这些层的图像 attention，经过 sink token 去噪和 Gaussian smoothing 后得到可视化 mask，再把 mask 叠回原图作为新的输入。

关键设计¶

1. 层级注意力诊断：把“是否看图”拆成跨层转移和局部证据定位

论文首先定义 Relative Attention per Token (RAPT)，用某一输入区段的平均每 token attention 与全输入平均值之比来观察 text token 和 image token 的相对关注程度。RAPT 的意义是避免被 token 数量直接误导：图像 token 很多，整体 attention mass 可能不小，但每个图像 token 分到的注意力仍可能低于文本 token。作者在 LLaVA-1.5-7B 等模型上看到一个稳定趋势：浅层强烈偏向问题文本，深层逐渐提高对图像 token 的关注，说明模型并不是从头到尾并行处理两种模态，而更像先读问题、再转向图像。

更关键的是，作者没有停在“深层更看图”这个粗结论，而是把图像 attention 映射回 patch 空间，看它是否落在人工证据框内。浅层通常是弱而散的全局扫描，中后层则出现稀疏、集中的局部 attention，并且这些热点常与 ground-truth evidence 对齐。这个观察把 VLM error 的讨论从“模型看不看图”推进到“模型在哪一层、以什么粒度看到了什么”。

2. Seeing but Not Believing：用正确/错误样本对照证明证据感知不等于答案正确

本文最有价值的发现是：即使模型最终答错，深层 attention 也常常仍然更关注正确证据区域。作者在 VisualCoT 上把样本按答案正确与否分组，再比较 evidence token 与 non-evidence token 的 attention。结果显示，错误回答中的深层 attention 依然偏向 evidence，只是强度通常弱于正确回答。这说明错误并不总是来自“没看到”，也可能来自“看到后没有把证据压过语言先验”。

这个发现解释了几类典型错误：模型可能已经看到了题目需要的文字区域，却因为过强语言先验产生幻觉；也可能看到了图中存在证据，却在生成时拒绝回答；还可能定位到局部证据但答案只用了一部分信息。论文把这种现象命名为 “seeing but not believing”，强调 VLM 的瓶颈不仅是视觉编码器是否捕获信息，还包括解码阶段是否愿意把视觉证据当作最终答案的依据。

3. 视觉证据层筛选：用小诊断集找出最适合做 grounding 的层

VEA 的第一步不是随便拿最后一层 attention，而是为每个模型做一次轻量 profiling。给定 VisualCoT 中带 evidence bounding boxes 的小诊断集，作者把图像划成 \(m\) 个 patch，并得到二值证据标签 \(y_I \in \{0,1\}^m\)。对第 \(\ell\) 层，取对应图像 patch 的 attention 向量 \(\bar{a}^{(\ell)}_I\)，用 \(\mathrm{AUROC}(y_I, \bar{a}^{(\ell)}_I)\) 衡量这一层把证据排在非证据前面的能力。最后选择平均 AUROC 最高的 top 10% 层作为视觉证据层 \(L_{VG}\)。

这个设计针对的是不同模型 grounding 层位置不一致的问题。固定用最后一层很容易混入解码偏置或 attention sink，而固定用后半层又会错过某些模型里更早出现的证据层。论文报告的 profiling 结果也支持这一点：例如 LLaVA-1.5-7B 选中层为 14、15、17、19，Qwen2.5-VL-7B 选中 18、22、24，Gemma3-27B 的选中层更分散。也就是说，VEA 把“哪层最像视觉证据定位器”变成一个可量化选择，而不是手工假设。

4. 推理时视觉证据增强：把内部 attention 变成输入级证据高亮

在真正推理时，VEA 只需要做一次单 token forward 来抽取生成首个答案 token 时的 attention，而不必先生成完整答案。对每个 patch \(p_i\)，它聚合视觉证据层中的归一化 attention：

\[ e_i = \frac{1}{|L_{VG}|}\sum_{\ell \in L_{VG}} \bar{a}^{(\ell)}_i, \quad i=1,\ldots,m. \]

得到 patch 级证据分数后，作者先做邻域去噪，处理 attention sink 造成的孤立高值点。如果某个 patch 分数比 3×3 邻域内所有邻居都高出一个数量级以上，即 \(e_{i,j} > \lambda \cdot \max_{(p,q)\in N(i,j)} e_{p,q}\) 且实验中 \(\lambda=10\)，就把它替换为邻域平均值。这样做背后的直觉很具体：真正证据通常是空间连续的一小片区域，而 sink token 往往是孤零零的异常热点。

随后 VEA 对去噪后的 mask 做 Gaussian smoothing，避免 token 级 mask 直接叠到像素上时形成马赛克伪影。最后用平滑 mask \(\tilde{e}\) 调制原图像素：

\[ \hat{I}_{i,j,c}=\bigl(\alpha+(1-\alpha)\tilde{e}_{i,j}\bigr)I_{i,j,c}. \]

高证据区域因 \(\tilde{e}_{i,j}\) 大而接近原图，低证据区域被压暗到由 \(\alpha\) 控制的背景强度。作者默认 \(\alpha=0.5\)、smooth strength \(\sigma=0.5\)，并在提示词中要求模型尤其关注高亮区域。这个方法的重点不是创造新信息，而是把模型内部已经浮现的证据以视觉输入的形式返还给模型，降低解码阶段忽略证据的概率。

一个完整示例¶

可以把一个 TextVQA 问题想成“图片中收据右上角的 invoice number 是多少”。第一次前向时，VLM 读入整张图片和问题，浅层主要处理 “invoice number” 这样的文本约束，中后层开始把 attention 聚到图像中包含编号的局部文字区域。但如果语言先验或上下文噪声更强，模型可能仍然输出一个常见编号格式，甚至说图片里没有相关信息。

VEA 的处理是先从视觉证据层抽出这个局部区域的 patch attention，把孤立异常点去掉，再把编号附近的连续区域平滑高亮。增强后的图片保留原始编号区域，其他无关文字、边框和背景被适度压暗。第二次回答时，模型看到的不是全图均匀竞争，而是“问题相关区域”更显眼的图像；如果原本错误来自证据未被充分使用，这种输入级强调就能把答案拉回到真实视觉内容上。

损失函数 / 训练策略¶

VEA 是纯推理时方法，没有额外训练损失，也不更新 VLM 参数。唯一需要预先完成的是每个模型一次性的视觉证据层 profiling：用约 100 个 TextVQA 诊断样本计算各层 attention 与人工证据标签的 AUROC，选择 top 10% 层作为 \(L_{VG}\)。正式推理阶段只包含单 token attention 抽取、mask 后处理、图像高亮和二次 VQA 生成。

实验中的关键超参包括 attention sink 去噪阈值 \(\lambda=10\)、高亮强度 \(\alpha=0.5\)、平滑强度 \(\sigma=0.5\)。作者的参数分析显示，过强高亮会丢掉太多全局上下文，不做 smoothing 又会让图像产生不自然局部伪影，因此中等强度的压暗和自适应平滑更稳。

实验关键数据¶

主实验¶

论文在 VisualCoT 的四个证据型 VQA 数据集上评估：InfoVQA、DocVQA、SROIE 和 TextVQA。这些任务都要求模型从图像中的局部文字或证据区域抽取答案，因此很适合检验“看见证据但没有用好”的问题。模型覆盖四个系列八个规模：LLaVA-NeXT 7B/13B、Qwen2.5-VL 7B/32B、Gemma3 4B/27B、InternVL3.5 8B/14B。指标包括 QA 的 Exact Match、Token F1，以及证据归因的 AUROC、NDCG@all。

方法	Exact Match 平均排名	Token F1 平均排名	相对 Base 的平均提升	结论
BASE	5.38	5.53	0	原始模型仍有明显证据利用不足
INST	5.47	5.28	EM 常接近 0，F1 小幅变化	只靠提示“关注视觉证据”不稳定
CGR	3.09	3.44	多数模型提升	先描述再回答有用，但依赖中间文本质量
VAR	3.44	3.22	多数模型提升	最后一层 attention 有帮助，但噪声较大
AGLA	2.50	2.31	稳定强 baseline	GradCAM + ensemble 竞争力强
VEA	1.12	1.22	EM 平均 +5.67，最高 +11.1；F1 平均 +6.83，最高 +17.3	最稳定的推理时视觉证据增强

从具体模型看，VEA 对小模型的提升特别明显。LLaVA-NeXT-7B 的平均 EM 从 38.5 提到 49.6，Token F1 从 33.3 提到 50.6；Gemma3-4B 的 EM 从 56.6 到 61.2，Token F1 从 50.5 到 57.8。大模型也有一致收益，例如 InternVL3.5-8B 的 EM 从 79.3 到 83.2，Token F1 从 79.6 到 85.8。这个趋势支持作者的解释：VEA 尤其能补偿较弱 VLM 的视觉证据利用能力，但不是只对小模型有效。

模型 / 任务示例	Base	VEA	提升	指标
LLaVA-NeXT-7B / TextVQA	48.44	75.32	+26.88	EM
LLaVA-NeXT-7B / TextVQA	27.78	69.36	+41.58	Token F1
Qwen2.5-VL-7B / TextVQA	85.94	90.33	+4.39	EM
Qwen2.5-VL-7B / SROIE	92.53	94.38	+1.85	Token F1
Gemma3-4B / DocVQA	54.34	63.24	+8.90	Token F1
InternVL3.5-14B / DocVQA	88.28	90.24	+1.96	EM

消融实验¶

作者还评估了 VEA 证据归因的质量。相较固定层范围和其他 attribution 方法，VEA 在六个代表模型上取得最高 AUROC 和 NDCG 平均排名。表中的数字越高表示 attention 分数越能把人工证据 patch 排在非证据 patch 前面。

证据归因方法	LLaVA-7B AUROC / NDCG	Qwen-7B AUROC / NDCG	Gemma-4B AUROC / NDCG	平均排名	说明
L0%-100%	75.9 / 47.2	68.5 / 41.7	59.5 / 35.5	4.33 / 4.42	所有层平均会稀释证据层
L0%-50%	68.2 / 43.2	59.4 / 34.2	56.5 / 34.3	5.67 / 5.67	早层多是文本解析或粗扫描
L50%-100%	78.0 / 54.5	79.5 / 58.1	65.9 / 43.7	2.88 / 2.83	后半层更接近视觉 grounding
VAR	70.8 / 45.1	75.2 / 54.1	51.2 / 33.3	4.92 / 4.88	最后一层 attention 不够稳
AGLA	80.2 / 57.2	77.7 / 55.4	68.3 / 44.5	2.21 / 2.21	强 GradCAM baseline
VEA	83.6 / 63.5	85.2 / 68.6	80.0 / 59.9	1.00 / 1.00	profiling + 后处理最稳

组件消融显示，VEA 不是单靠一个 trick 起作用。完整 VEA 的 EM / Token F1 为 73.4 / 68.1；去掉 denoising 后降到 70.9 / 64.9；去掉 profiling 后为 71.0 / 65.3；去掉 smoothing 后为 68.3 / 62.8。最大下降来自不做 smoothing，说明高亮图像的自然性和空间连续性对 VLM 理解很重要。

配置	Exact Match	Token F1	相对完整 VEA 的变化	解释
VEA	73.4	68.1	0	完整流程
w/o Denoise	70.9	64.9	-2.52 / -3.12	sink token 噪声会误导高亮
w/o Profiling	71.0	65.3	-2.42 / -2.78	固定层不如模型自适应选层
w/o Smoothing	68.3	62.8	-5.12 / -5.27	马赛克式 mask 破坏图像可读性

关键发现¶

深层 attention 的证据定位能力确实存在，而且不是只在正确样本里存在；错误样本中的 evidence attention 仍高于 non-evidence attention，只是信号较弱。
显式提示模型关注视觉证据不够，INST 的提升最不稳定，说明“使用视觉证据”不是简单 prompt 就能解决的问题。
VEA 的优势来自两件事的组合：选对 evidence-grounding 层，以及把 attention map 变成空间连续、图像自然的高亮输入。
鲁棒性实验显示，在 TextVQA 上加入 Gaussian noise、低分辨率和随机 mask 后，VEA 仍能明显提升 LLaVA-NeXT-7B；在 60% noise 和 30% random masking 下分别有 +16.4 和 +25.8 EM 的提升。
附录里的多轮 VisDial 和多图 BLINK 实验也有收益，例如 VisDial 上 Qwen2.5-VL-7B 的 F1 从 27.5 到 47.8，BLINK 上从 61.4 到 68.9，说明证据高亮不只适用于单图单轮 VQA。
对 AI2D 和 MMStar 这类更偏全局上下文或科学推理的 benchmark，VEA 仍有小幅提升；保留原图和高亮图的 VEA* 版本通常更强，说明高亮不一定破坏全局理解，但在全局任务中保留原图更保险。

亮点与洞察¶

论文最好的地方是把“VLM 看不懂图”这个泛化说法拆细了。它显示模型可能已经把 attention 聚到正确证据，却在生成时没有采纳，这让 failure analysis 从感知问题扩展到证据利用问题。
RAPT + evidence AUROC 的组合很清楚：前者看模态级 attention 转移，后者看 patch 级证据定位。这样既能解释浅层到深层的处理顺序，又能避免只看注意力总量得出过粗结论。
VEA 的干预非常克制。它不训练新模块，不要求外部 detector，也不让模型生成长链式解释，而是把模型自己的内部证据信号可视化后返还给输入，这种“自举式 grounding”思路可以迁移到 crop、zoom、局部超分、文档区域重读等 agentic multimodal pipeline。
注意力并非永远可靠，但作者没有回避这一点。附录专门看 AUROC < 0.5 的低对齐样本，发现比例大约在 1.42% 到 7.34% 之间，且很多所谓失败来自人工标注不完整；这让结论比单纯展示漂亮 heatmap 更可信。
这篇工作也提醒评测者：答案正确率和 grounding 质量应该同时看。一个模型可能答对但证据不稳，也可能看对证据但答错；只看 final answer 会错过很多内部机制差异。

局限与展望¶

VEA 需要访问 Transformer 中间 attention，因此很难直接用于只提供 API 的闭源 VLM。如果模型不暴露 attention map，就需要替代信号，例如 gradient-based saliency、外部 probe，或者用开源 delegate model 生成高亮图。
论文主要在 evidence-based VQA 和文档/场景文字问答上验证，这些任务的正确证据通常是局部区域。对开放式图像描述、复杂空间关系、需要全局布局理解的任务，高亮局部证据可能不总是最合适，虽然 AI2D / MMStar 结果说明中等强度高亮不太会伤害全局理解。
attention 作为解释信号仍有争议。本文用人工 evidence label 和 AUROC 缓解了这个问题，但 attention 与因果贡献并不完全等价；后续可以结合 activation patching、causal tracing 或对比干预来验证被高亮区域是否真是答案生成的因果依据。
VEA 的 profiling 需要一个带证据标注的小诊断集。作者说约 100 个样本足够稳定，但换到医学、遥感、机器人等领域时，证据标注成本和跨域迁移仍需要评估。
多轮 self-validation 的收益很小，VEA-cascade 平均轮数接近 1，说明当前 VLM 即使看到高亮证据，也不太会主动推翻第一次答案。未来更值得探索的是把 VEA 和显式不确定性估计、局部重读、工具调用结合，而不是只让模型“反思一下”。

评分¶

新颖性: ⭐⭐⭐⭐☆ 从“答错是否因为没看到”切入，并用 seeing but not believing 概念连接 attention 解释和推理时干预，问题定义很有辨识度。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖四个 VLM 家族、八个模型、四个主数据集，并补充证据归因、鲁棒性、参数、消融、多轮、多图和全局上下文分析。
写作质量: ⭐⭐⭐⭐☆ 论文主线清楚，RQ 组织有利于阅读；少量地方把 attention 解释为感知能力时仍需记住 attention 不等于因果机制。
价值: ⭐⭐⭐⭐⭐ 对 VLM 可解释性、视觉 grounding 评测和训练-free 推理增强都有直接价值，尤其适合启发更主动的多模态 agent 证据收集流程。