跳转至

Seeing without Looking: Do Vision-Language Benchmarks Really Test Vision?

会议: CVPR 2026
arXiv: 2605.22903
代码: 无
领域: 多模态VLM
关键词: 视觉幻觉评测, 视觉接地, POPE, 诊断性分析, 视觉token

一句话总结

作者通过对图像做多粒度(全局退化 / 实体遮挡 / 实体替换)+ 改任务形式 + 表征几何的系统干预,发现现有 VLM 评测基准(POPE/A-OKVQA/MME/AMBER)的 top-1 准确率在视觉证据被大幅削弱后几乎不掉,揭示出"基准高分 ≠ 细粒度视觉接地"这一系统性测量缺口。

研究背景与动机

领域现状:VLM 在 POPE、MME、AMBER 等一大批"考察视觉理解 / 幻觉"的基准上分数越刷越高,社区默认这些分数反映了模型对视觉证据的真实依赖,并把它当作数据筛选、幻觉缓解、推理加速(如丢弃视觉 token)等各类方法的主要验证信号。

现有痛点:作者发现一个反直觉现象——在 POPE 上随机丢掉很大一部分图像 token,模型准确率几乎不掉。对 Qwen3-VL-4B、LLaVA-1.5-7B,即使丢弃比例 \(\sigma=0.75\),准确率也只下降约 3%;Qwen3-VL-32B、Gemma3-12B 甚至在 \(\sigma=0.25\) 时略高于原始基线。如果基准成功真的依赖鲁棒的视觉接地,证据被削弱时性能本应同步下降。

核心矛盾:这个"丢 token 不掉分"现象本质是模糊的,可能源于三种互相缠绕的原因:(i) 视觉表征本身冗余;(ii) 这类基准只需粗粒度视觉信息就能解;(iii) 语言侧的强先验让模型在视觉被削弱时也能维持正确答案。无论哪种,都指向同一个测量问题:top-1 准确率可能不是衡量细粒度视觉接地的有效指标

本文目标:不提新基准、不提新模型,而是系统刻画"当视觉证据被逐级削弱 / 局部移除 / 语义篡改时,基准性能到底怎么变、变化反映了哪种视觉依赖",从而判断现有评测在多大程度上高估了真实视觉接地。

核心 idea:用一套多层级诊断干预(视觉级 + 文本级 + 表征级)去"压力测试"基准分数——只改输入视觉证据、保持问题不变,看输出是否随之合理改变;不改变才说明分数没在真正"看图"。

方法详解

整体框架

这是一篇诊断性分析论文,没有训练任何新模型,整套"方法"是一个围绕"基准准确率是否真正测视觉"展开的多层级干预协议。作者在 7 个开源 VLM(LLaVA-1.5-7B、Qwen3-VL-4B/8B/32B、Gemma-3-12B、InternVL3-8B、Molmo-7B-D-0924)和 4 个基准(POPE 为主,A-OKVQA、MME 验证跨任务普适性,AMBER 提供开放生成视角)上,沿"由粗到细、由行为到内部"的链条逐级施加干预:先从触发观察(随机丢视觉 token)引出问题,再做全局视觉退化确认"完全无图才掉到随机水平、轻度退化几乎不掉",进一步做实体级干预精确移除/替换问题相关目标,再用改任务形式排除答案格式先验的混淆,最后用视觉 token 表征几何分析从编码器内部给行为现象一个表征层解释。每一级都配一个对应的诊断指标(准确率 / Yes Rate / 决策边际 Δ / Unknown Rate / MRR / 块间余弦相似度与有效秩),核心论点是:即便 top-1 不变,模型对正确答案的内部支持可能已被显著削弱。

关键设计

1. 触发观察:随机丢弃视觉 token 揭示"不掉分"之谜

这是全文的起点。在 POPE 上定义丢弃比例 \(\sigma\in[0,1]\),随机采样视觉 token 子集 \(S\subset V\) 使 \(|S|/|V|=\sigma\),把剩余 token 丢掉后再喂给语言解码器(\(\mathrm{Dec}(V)\to\mathrm{Dec}(S)\))。结果出人意料:Qwen3-VL-4B、LLaVA-1.5-7B 的准确率随 \(\sigma\) 近似线性、但极缓慢地下降,\(\sigma=0.75\) 时仅掉约 3%;Qwen3-VL-32B、Gemma3-12B 甚至非单调,\(\sigma=0.25\) 时略升。作者自己点出一个 caveat:这里的视觉 token 取在视觉编码器之后,双向注意力可能已把信息跨 patch 混合,删一部分 token 未必真删掉对应视觉内容——这正是后续要直接干预原始图像的动机。

2. 全局视觉退化:确认基准对整体视觉证据"钝感"

为绕开"编码后混合"的 caveat,这一级直接在输入图像上施加三种全局退化:no-image(整图移除)、black(按比例 \(r\in[0,1]\) 用黑块遮挡)、blur(把原图 \(I\) 与随机噪声 \(\epsilon\) 混合)。blur 的强度由 \(\alpha\) 控制:

\[\tilde{I}=(1-\alpha)\,I+\alpha\,\epsilon\]

逻辑很干净:若性能真依赖细粒度视觉证据,准确率应随退化严重程度成比例下降。结果(Table 5)显示,所有模型在 no-image 下都掉到接近随机水平(约 0.5),确认它们并非完全无视图像;但在 black/blur 下,准确率下降幅度与视觉损坏程度严重不成比例,多数模型仍远高于随机水平,且这一规律在 POPE/A-OKVQA/MME 三个基准上一致成立。结论:基准准确率对严重视觉退化是钝感的,准确率与真实视觉依赖之间存在测量缺口。

3. 实体级干预 + 决策边际:把"是否依赖问题相关证据"测到点子上

全局干预无法判断模型是否依赖"问题真正问到的那块视觉证据",于是只保留 POPE 中 Ground-Truth 为 Yes 的样本(图中确实有被问实体),用 GPT-5 抽取问题中的目标实体、Grounding DINO 定位、SAM2 出分割掩码,构造三种由细到粗的干预:BlackMask(只遮分割出的实体像素,精确移除)、BlackBox(遮整个检测框,连同周边局部上下文一起移除)、EntitySwap(用 Gemini-3 把目标实体换成无关物体、问题不变)。评测指标为 Yes Rate(肯定实体存在的比例,此处越低越好)。

关键发现:BlackMask/BlackBox 都让 Yes Rate 下降,确认模型确实依赖问题相关局部证据;但 BlackBox 掉得比 BlackMask 多,说明对正确预测的支持不只来自目标实体本身、还分布在周边轮廓/上下文上;即便 BlackMask 把实体完全抹掉,多数模型在 POPE 上仍维持很高 Yes Rate——光靠周边场景上下文就足以维持"正确"。更强的反事实是 EntitySwap:实体被换掉后正确答案应是 No、理想 Yes Rate 为 0,但所有模型都远高于 0(0.27~0.63),说明实体变了模型却没充分更新预测。为超越二值预测,作者再看决策边际 \(\Delta=\log p(\texttt{yes})-\log p(\texttt{no})\),发现各级干预都让 \(\Delta\) 分布左移、变分散,但即使实体被移除,分布仍明显偏正、远不塌到 no-image 水平——即 top-1 没变,但模型对正确答案的内部支持已被削弱。

4. 改任务形式:排除"答案格式先验"这个混淆项

前面的干预都保留了原始闭式题型(yes/no、多选),模型可能在不真看图的情况下利用答案格式先验。这一级从两个方向改题型:其一,在全局退化设置下给 yes/no 加一个显式的 unknown 选项作为"视觉证据不足时的退路",用 Unknown Rate 衡量模型能否表达不确定性;其二,把"某物体是否存在"重写成开放式生成任务(问图里有哪些物体),用目标实体在生成分布里的排名及其 MRR(Mean Reciprocal Rank,越高越好)衡量它被编码得是否突出。结果:加了 unknown 选项后多数模型在严重退化甚至无图时仍很少选 unknown、继续给出确定的二值判断(少数如 Gemma-12B/Qwen3-32B 在强噪声下弃权率才升高),说明输出稳定性并非 yes/no 答案空间强加的;开放式生成下目标实体排名很低、MRR 也低,给出一个表征层解释——模型本就没强烈依赖实体特定信息。此外在 AMBER 原生开放生成上只施加粗粒度干预,也观察到同样趋势(幻觉略升、覆盖略降,但变化有限,只有 no-image 才剧烈恶化),证明该现象不是 yes/no 格式的伪影。

5. 视觉 token 表征几何:从编码器内部解释"为何浅依赖"

最后从表征层给行为现象一个可能的机制解释:考察视觉编码器是否随层数加深逐渐丢掉细粒度接地所需的空间可分性。对每个编码器层 \(\ell\),在视觉 token \(U^{(\ell)}\) 上施加规则的 \(4\times4\) 空间划分,算三个互补指标:(a) 块内/块间余弦相似度——若块间相似度随深度上升,不同空间区域的 token 变得方向上不可区分;(b) k-means 空间紧致度\(k=16\) 对应 16 块),看聚类与真实空间块的对齐程度;(c) 有效秩,刻画表征维度多样性:

\[\text{erank}(U^{(\ell)})=\exp\!\Bigl(-\sum_{j}\bar{\sigma}_{j}\log\bar{\sigma}_{j}\Bigr)\]

其中 \(\bar{\sigma}_{j}=\sigma_{j}/\sum_{k}\sigma_{k}\)\(U^{(\ell)}\) 归一化后的奇异值,有效秩下降意味着表征塌缩到更低维子空间。结果三个指标一致:浅层块内相似度 > 块间相似度(空间结构清晰),随深度加深块间相似度稳步上升并逼近块内(到第 23 层热力图几乎均匀,空间区分基本消失);空间方差在第 7 层附近最小、之后上升;有效秩在前 12 层维持较高、之后急剧下降。即深层视觉 token 发生"空间同质化",这为"模型预测对细粒度局部证据的丢失不敏感"提供了一个表征层面的解释。

实验关键数据

主实验

实体级遮挡(Table 1,报 Yes Rate,越低越好;Original 为基线)——BlackBox 普遍掉得比 BlackMask 多,但即便 Mask 抹掉实体多数模型 POPE Yes Rate 仍高:

模型 POPE Orig POPE Mask POPE Box MME Orig MME Mask MME Box
Qwen3-VL-32B 0.96 0.90 0.74 0.83 0.59 0.28
InternVL3-8B 0.97 0.80 0.57 0.83 0.64 0.40
Qwen3-VL-8B 0.99 0.94 0.84 0.85 0.65 0.41
Gemma3-12B 0.96 0.83 0.59 0.79 0.59 0.45
Qwen3-VL-4B 0.93 0.75 0.44 0.80 0.60 0.35
LLaVA-1.5-7B 0.97 0.87 0.71 0.74 0.48 0.20
Molmo-7B-D 0.94 0.67 0.46 0.82 0.54 0.27

EntitySwap(Table 2,把被问实体换成无关物体,理想 Yes Rate=0,越低越好)——全部远高于 0:

模型 Yes Rate ↓
LLaVA-1.5-7B 0.63
Gemma-3-12B 0.50
InternVL3-8B 0.37
Qwen3-VL-32B 0.35
Qwen3-VL-8B 0.34
Qwen3-VL-4B 0.27

全局退化与开放排名

全局退化准确率(Table 5 节选,POPE)——no-image 掉到约 0.5(随机),但 black/blur 下降远不成比例:

模型 Normal No Image Black p=0.75 Blur p=0.75
Qwen3-VL-32B 0.96 0.50 0.81 0.60
InternVL3-8B 0.98 0.50 0.80 0.71
Gemma-3-12B 0.94 0.57 0.80 0.54
LLaVA-1.5-7B 0.94 0.50 0.76 0.72

开放式重写下目标实体的检索/排名(Table 4,117 样本,EntitySwap vs 基线):

条件 MRR ↑ 平均排名 ↓ 中位排名 ↓ 平均概率 ↑
Original 0.0322 391.9 85 0.000690
EntitySwap 0.0101 943.0 458 0.000142
相对变化 −68.6% +140.6% +438.8% −79.4%

关键发现

  • 最强信号是"内部已变、top-1 没变":实体级干预把决策边际 \(\Delta\) 分布整体左移、把目标实体的 MRR 砍掉 68.6%、概率降 79.4%,但很多样本的 top-1 答案仍不变——准确率掩盖了内部支持的削弱。
  • 周边上下文可替代目标证据:BlackMask 完全抹掉实体后多数模型 POPE Yes Rate 仍很高,BlackBox(连周边一起遮)才掉得明显,说明"正确"支持分布在场景上下文而非实体本身。
  • 模型几乎不会表达不确定性:给了显式 unknown 退路,多数模型在无图/强退化下仍很少弃权,输出稳定性不是答案格式逼出来的。
  • 表征层解释:深层视觉 token 空间可分性退化(块间相似度逼近块内、有效秩在 12 层后骤降),为"对细粒度局部证据不敏感"提供机制旁证。
  • 跨任务一致:POPE/A-OKVQA/MME/AMBER 都出现同一趋势,排除了单一基准或单一题型伪影的可能。

消融实验要点

本文本身就是一组"消融式诊断",核心对照可视为不同干预强度/层级的逐级剥离:

干预层级 指标 现象 说明
随机丢 token σ=0.75 Acc 仅掉约 3%(4B/小模型) 触发问题:编码后表征冗余
no-image Acc 掉到约 0.5 确认模型并非完全无视图像
black/blur p=0.75 Acc 下降远不成比例 基准对严重全局退化钝感
BlackMask → BlackBox Yes Rate Box 掉得更多 支持分布到周边上下文
EntitySwap Yes Rate 仍 0.27~0.63(理想 0) 实体变了预测不更新
加 unknown 选项 Unknown Rate 多数仍接近 0 输出稳定非格式所致
开放式重写 MRR −68.6% 实体本就未被强编码

关键对照结论:全局/格式干预 → 准确率钝感;实体级 + 概率级干预 → 揭示出"内部支持被削弱但 top-1 不变"的真问题;表征级 → 给出可能机制。三条线索互相印证。

亮点与洞察

  • "只改视觉、不改问题"的反事实设计很干净:EntitySwap 把"正确答案翻转成 No"做成硬约束(理想 Yes Rate=0),任何高于 0 都是模型没真看图的直接证据,比单看准确率有说服力得多。
  • 超越 top-1 的决策边际 \(\Delta\) 很关键:用 \(\log p(\texttt{yes})-\log p(\texttt{no})\) 把"答案没变但信心已塌"这一隐藏退化显式化,提醒社区准确率会系统性掩盖问题——这是可直接迁移到任何二值/多选评测的诊断工具。
  • 行为现象 + 表征几何双线印证:不止报"掉不掉分",还用块间余弦相似度 + 有效秩给出编码器深层"空间同质化"的机制解释,让结论从"现象"升级为"有机制支撑的论断"。
  • 可迁移的思路:这套"多粒度视觉干预 + 概率级指标 + 表征几何"的诊断框架可直接用于评估视觉 token 剪枝、幻觉缓解等方法是否真的保留/改善了视觉接地,而非只是利用了粗线索。

局限性

  • 作者承认:本文只做诊断、不提解决方案;未来计划构造一个"纯靠视觉证据才能答对"的基准,并改进模型对视觉证据的利用能力。
  • 干预工具引入额外噪声:实体抽取/定位/替换依赖 GPT-5、Grounding DINO、SAM2、Gemini-3,这些组件本身的误差(错定位、不自然替换)可能影响 Yes Rate 的精确解读。
  • 样本规模偏小:开放式排名分析仅 117 样本,EntitySwap 也受限于 GT=Yes 子集,统计强度有限。
  • 结论的"病因"仍未完全分离:粗线索冗余 / 语言先验 / 评测约束三种成因互相缠绕,本文揭示了缺口但未彻底定量拆分各自贡献。
  • 主要在物体存在性(POPE 类)任务上验证,对更复杂的视觉推理/空间关系任务是否同样"浅依赖"还需进一步检验。

相关工作与启发

  • vs POPE / AMBER / HallusionBench / THRONE(幻觉基准):它们提出新基准来度量幻觉;本文不提新基准,而是反问"为什么这些基准在视觉证据被大幅削弱时分数仍稳定",把矛头指向基准本身的测量有效性。
  • vs VLind-Bench / "Does object grounding reduce hallucination"(语言先验研究):同样关心"高分是否真靠视觉",但本文不提新的先验指标、也不把幻觉只当输出现象,而是系统地在视觉证据上做削弱/篡改,并用决策边际、MRR、表征几何刻画依赖到底有多浅。
  • vs Eyes Wide Shut? / Do You See Me(细粒度感知缺陷研究):与本文核心主张高度一致——聚合准确率会高估细粒度视觉接地;本文补上了"多层级干预协议 + 概率级/表征级证据",把这一主张做成了可复用的诊断方法。

评分

  • 新颖性: ⭐⭐⭐⭐ 不提新模型/新基准,但"多粒度干预 + 概率级 + 表征几何"组合诊断的视角新颖、问题点中要害。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 7 模型 4 基准、五级干预互相印证;但部分分析样本量偏小、病因未彻底拆分。
  • 写作质量: ⭐⭐⭐⭐ 逻辑链(触发→全局→实体→格式→表征)清晰,指标定义到位;个别表述有笔误。
  • 价值: ⭐⭐⭐⭐⭐ 直指 VLM 评测的系统性测量缺口,对幻觉缓解/token 剪枝等"用准确率验证"的方法是重要警示。