Position: The Systemic Lack of Agency in Visual Reasoning¶

会议: ICML 2026
arXiv: 2606.14795
代码: 项目主页
领域: 多模态VLM / 视觉推理 / 立场文
关键词: 视觉能动性, 隐式推理, 立场文, V-IRD 基准, 注意力隧道

一句话总结¶

这是一篇立场文（position paper），主张当前 VLM 存在一种系统性的"视觉能动性（visual agency）缺失"——它们能在被明确指向时看清细节，却不会主动去搜寻问题没点名、但解题必需的隐式视觉线索；作者用形式化框架、四象限分类法和专门构造的 V-IRD 基准证明：即便最强的闭源模型，其失败也主要卡在"没去找证据"而非"算不出来"。

研究背景与动机¶

领域现状：认知科学早就把"感知"理解为一种由目标驱动、主动获取信息的过程，而非被动接受刺激。当前 VLM（InternVL、Qwen-VL、GPT-5.2、Gemini-3 等）在语义识别和显式指令跟随上已非常强，几乎所有主流基准（PhysBench、MMMU、V* 等）也都在这个"被明确告知看哪里"的设定下评测。

现有痛点：作者指出现有评测体系存在一个系统性盲区——它们只测"视觉容量（visual capacity，被引导时能看到什么）"，却几乎不测"视觉能动性（visual agency，是否会自主去找证据）"。具体表现在三处：① 显式 VQA 把视觉规划过程外包给了用户，用户充当"注意力管理者"明确指向目标；② 幻觉研究主要盯"捏造不存在物体"的 commission 错误，忽略了"该看的没看"的 omission 错误；③ 物理推理基准多是闭集格式，必要变量已经给好。

核心矛盾：真实世界的视觉推理绝大多数是隐式的——解题依赖的关键几何/物理线索（如估算非标准瓶子尺寸时需要的背景参照物：身份证、硬币）通常不在用户的 prompt 里。核心难点不在于"认得出这个物体"，而在于"自主检索出没被提及的、支撑性的视觉细节来构建有效的物理论证"。当 prompt 只聚焦目标物体而不指向背景信息时，模型不会主动去发现关键隐藏信息，而是当一个被动的观察者把视觉上下文当作无关背景丢掉。

本文目标：把这个 gap 形式化为"视觉容量"与"视觉能动性"的区分，并通过一系列诊断实验证明这个缺陷确实存在、且是当前 VLM 的系统性短板。

核心 idea：当语言不再充当"注意力的拐杖"，模型暴露出的不是知识不足，而是主动发起视觉搜索的能动性缺失——作者把它命名为 Visual Implicit Reasoning Deficit（视觉隐式推理缺陷），并主张靠单纯堆规模或加提示词都治不好它，需要从训练目标/架构层面下手。

方法详解¶

注：这是立场文，不存在"提出新模型"的方法，这里的"方法"指作者论证立场所用的概念框架 + 诊断管线 + 评测设计。

整体框架¶

作者的论证分三层推进：先用数学把"显式推理 / 隐式推理 / 缺陷态"三种过程区分清楚；再用一个二维四象限分类法定位出被所有现有基准漏掉的"缺失象限 Q4"；最后构造 V-IRD 基准并跑一套"先验证知识、再考能动性"的过滤式诊断管线，把"失败到底是因为不知道还是因为不去找"彻底拆开。诊断管线本身是多阶段串行的，画成框架图如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：图像 I + 欠指定问题 Q"] --> B["前置知识探针<br/>验证视觉识别 + 参数化知识"]
    B -->|知识达标 排除'不知道'| C["视觉能动性·形式化<br/>区分 容量 vs 能动性"]
    C --> D["V-IRD 基准 + Target-Exclusive 提示<br/>强制信息缺口"]
    D --> E["Threshold Accuracy 评测<br/>严格相对误差阈值"]
    E --> F["失败三阶段分解<br/>发现 / 关联 / 计算"]
    F --> G["结论：90%+ 失败属能动性缺陷"]

关键设计¶

1. 视觉能动性 vs 视觉容量的形式化：把"缺陷"精确定义到搜索阶段的断裂

作者用 \(M(I,Q)\to A\) 表示 VLM 把图像 \(I\) 和问题 \(Q\) 映射到答案 \(A\)。显式推理里，\(Q\) 已经把必要证据 \(E\) 的指针写进文本（如"红线连到电池上了吗？"直接把注意力引向红线和电池），任务退化为验证问题 \(A\leftarrow M(I,Q_{\text{explicit}})\)，模型是被动执行用户给好的搜索计划。隐式推理则是欠指定的（如"这枚徽章直径多少？"），必要证据 \(E\) 没被提及，需要两阶段：先 Plan 阶段借世界知识 \(K\) 把 \(Q\) 转成搜索意图，再自主 Search：\(E\leftarrow \textit{Search}(I,\textit{Plan}(Q,K))\)，最后 \(A\leftarrow M(E,Q)\)。缺陷（Deficit）被精确定义为式 \(E\leftarrow\textit{Search}(\cdot)\) 这一步的崩塌——当 \(E\) 没被点名时，模型根本不去发起 \(\textit{Plan}(Q,K)\)，推理退化成只盯着被点名目标的受限审视 \(A\leftarrow M(I|_{Q_{\text{target}}},Q)\)。作者把这种"能精确处理被提及物体的像素、却把含关键证据的周围上下文当无关背景"的现象命名为注意力隧道（attention tunneling）。这个形式化的价值在于：它把"模型表现差"这个模糊观察，锚定到了一个可定位、可测量的具体环节。

2. 二维四象限分类法：定位出所有基准都漏掉的"缺失象限"Q4

作者沿两个轴切分视觉-语言任务空间：横轴 Information Availability（信息可得性：显式 vs 隐式输入），纵轴 Cognitive Demand（认知需求：识别 vs 推理）。由此得到四象限：Q1 显式识别（目标已点名、只需识别，现有模型容量很高）；Q2 显式推理（数学类基准，文本给好推理路径，模型表现好）；Q3 隐式感知（被动质检如物体幻觉，但不需主动找证据）；Q4 自主信息检索（Autonomous Information Retrieval）——视觉证据决定答案、却完全没在 prompt 里出现。作者主张 Q4 就是被所有现有基准系统性漏掉的"缺失象限"：成功要求模型自主推断出"哪些没被点名的特征需要被检索"，把高层目标翻译成底层视觉搜索操作。这个分类法解释了一个悖论——模型在被明确询问时能完美描述某个视觉缺陷，却在做整体安全判断时自信地忽略同一个缺陷，仅仅因为它从没自主发起对证据的搜索。

3. V-IRD 基准 + Target-Exclusive Prompting + Threshold Accuracy：把"能动性"做成可测量的考题

为了把 Q4 单独测出来，作者构造了 V-IRD（Visual Implicit Reasoning Diagnosing Benchmark），覆盖四大领域、十个细粒度任务：Spatial Geometry（空间几何，占比最大 41%，含长度/距离/体积/面积的精密度量）、Contextual Inference（上下文推断 29%，含环境/标注推断）、Physical Properties（物理属性 21%，温度/重量）、Physical Logic（物理逻辑 9%，电学/运动学）。核心机制是 Target-Exclusive Prompting（目标排他提示）：prompt 只允许提到语义目标主体（如"这个瓶子多高？"），严格禁止任何对背景参照物（硬币、环境标记、相对位置）的文字提及，从而把评测变成纯粹的"自主视觉发现"考试。评测指标方面，离散任务用标准准确率 \(\text{ACC}=\mathbb{I}(\hat c=c)\)；连续估算任务用 Threshold Accuracy \(\text{ACC}_\delta=\mathbb{I}\!\left(\tfrac{|y-\hat y|}{y}\le\delta\right)\)，只有相对误差落在阈值 \(\delta\in\{0.05,0.10,0.20,0.30\}\) 内才算对。这种严格的二值判分刻意惩罚"含糊猜测"，把高精度的视觉测量和粗略估计区分开。

4. 失败三阶段分解：把"能动性缺陷"与"能力缺陷"在错误层面彻底拆开

光证明"表现差"不够，作者还要证明"差在能动性、不是差在算力"。于是对一批高信息密度样本，让 top 模型生成显式 CoT 链，再按认知链断裂的位置把失败归为三个顺序阶段：Stage I 主动发现失败（Discovery）——详细描述了杂乱场景却压根没承认所需隐式信息的存在；Stage II 估值与选择失败（Association）——注意到了有效证据却没和目标建立逻辑联系，把关键线索当成无关噪声；Stage III 逻辑计算失败（Logic）——成功桥接了锚点和目标，却在物理建模或数值计算上栽了。其中 Stage I+II 归为 Agency Deficit（能动性缺陷），Stage III 归为 Capacity Deficit（能力缺陷）。这套分解是整篇立场最锋利的证据：如果失败主要落在 Stage I/II，就说明瓶颈是"不去找"而非"算不对"。

实验关键数据¶

前置知识验证（排除"不知道"这个混淆变量）¶

作者先做一个"单元测试"，确认模型确实具备解题所需的原子知识——否则后续失败可能只是知识缺失。结果显示视觉识别已饱和（>99.5%），参数化知识随规模上升但整体充足：

模型规模	视觉识别 %	参数化知识 %
Lightweight (<7B)	99.74	74.81
Medium (7–30B)	100.00	87.01
Large (30–80B)	99.55	90.91
闭源模型	100.00	96.00

结论：解 V-IRD 所需的原子知识已经编码在模型里，后续的隐式推理失败因此被锁定为能动性缺陷，而非根本性的能力缺失。

V-IRD 主结果（Target-Exclusive 设定下的平均准确率，\(\text{ACC}_{5\%}/\text{ACC}_{10\%}\)）¶

空间几何上出现"灾难性崩塌"——多数模型即使在宽松阈值 \(\delta=10\%\) 下也难有意义的准确率，而人类参照远高于所有模型：

模型	平均 (\(5\%\), \(10\%\))	备注
InternVL3.5-1B	(22.93, 28.08)	轻量开源
Qwen3-VL-8B	(39.45, 44.01)	中等开源
Qwen3-VL-235B	(46.44, 51.50)	超大开源
GPT-5.2	(47.45, 51.82)	闭源
Claude-Sonnet-4.5	(49.96, 56.15)	闭源
Gemini-3-Pro	(58.36, 64.18)	最强模型
Human	(66.21, 69.81)	人类参照

关键发现：闭源模型整体强于开源，但即便最强的 Gemini-3-Pro 也明显落后于人类；在没有文字指向参照物时，模型频繁"找不到"参照物，转而基于训练分布幻觉，而非做有依据的视觉测量。

失败阶段量化分解¶

模型	准确率 %	Stage I 发现 %	Stage II 关联 %	Stage III 逻辑 %
InternVL3-2B	0.00	90.00	10.00	0.00
InternVL3.5-38B	0.00	70.00	20.00	10.00
InternVL3-78B	30.00	57.14	14.29	28.57
Gemini-3-Pro	50.00	60.00	20.00	20.00
平均	16.67	75.82	14.42	9.76

核心结论：平均 75.82% 的失败属 Stage I（压根没察觉隐式线索），加上 Stage II 的 14.42%，能动性缺陷（Stage I+II）占全部失败的 90%+，而逻辑计算失败仅 9.76%。小模型 Stage III 为 0% 不是因为算得准，而是它们极少能熬过发现阶段去尝试计算。即便最强的 Gemini-3-Pro，能动性缺陷仍占 80%。

显式信息注入诊断（Level 0→3）¶

作者再设计四级协议，逐步把视觉规划"外包"给 prompt：Level 0 原始欠指定 → Level 1 物体感知 → Level 2 属性感知 → Level 3 oracle 真值（退化为纯计算）。结果呈规模依赖：中等模型随注入提升明显（外部引导缓解了其能动性缺陷）；大模型停滞甚至下降（注入的显式物理信息与其强参数先验冲突）；小模型基本不变（基线能力受限，整合不了复杂视觉线索）。

亮点与洞察¶

把"模型表现差"锚定到一个可定位的具体环节：通过 \(E\leftarrow\textit{Search}(I,\textit{Plan}(Q,K))\) 的形式化，作者把模糊的"推理弱"精确到"搜索发起步骤的崩塌"，这是立场文里少见的"可证伪化"操作——它让一个观点变成了可被实验检验的假设。
过滤式诊断管线的设计极其干净：先用前置知识探针把"不知道"这个混淆变量排除掉，再用 Target-Exclusive 强制信息缺口，最后用失败阶段分解定位断点。三步环环相扣，几乎堵死了"其实是知识不足/提示不当"的反驳路径，这套"先排除、再归因"的范式可迁移到任何"能力 vs 能动性"的诊断任务。
"缺失象限"是一个可复用的认知地图：用信息可得性 × 认知需求两轴定位评测盲区的思路，可以直接搬到其他模态（如音频、具身）去找"被所有基准漏掉的那一格"。
最让人"啊哈"的反直觉点：失败几乎全卡在"没去找证据"（90%+）而非"算不出来"（<10%），且这个比例在最强模型上依然成立——这把"靠 scaling 自然解决"的乐观预期直接证伪。

局限与展望¶

作者承认：scaling 和 prompting 能改善"被引导时"的表现，但无法赋予自主视觉推理能力；解决"在隐式设定下不主动发起推理"的问题需要根植于模型架构的方案，而非简单堆规模或加引导——但论文只提出诊断，没给出具体的架构/训练方案。
基准规模偏小：失败阶段分解只在 10 个精心挑选的高信息密度样本上做 CoT 分析，样本量小，结论的统计稳健性需谨慎看待。
作为立场文的固有局限：核心是"提出问题 + 提供证据"，没有提出能缓解缺陷的训练目标，"如何注入视觉能动性"留作开放问题。
改进思路：可探索把"主动搜索"显式化为强化学习奖励（论文也提到 DeepEyes/AdaptVision 这类主动放大机制，但作者认为它们缺的恰是"该往哪找"的内在意图），或在预训练中加入"必须自主检索未提及证据"的目标任务。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"视觉能动性缺失"形式化并做成可测量的诊断框架，视角独到且填补了评测盲区
实验充分度: ⭐⭐⭐⭐ 覆盖从 1B 到 235B 及主流闭源模型 + 人类参照，诊断管线设计严谨，但失败分解样本量偏小
写作质量: ⭐⭐⭐⭐⭐ 论证层层递进、形式化与实验互相支撑，作为立场文逻辑非常清晰
价值: ⭐⭐⭐⭐⭐ 给 VLM 推理研究指出了一个被系统性忽略的方向，V-IRD 基准与"能力 vs 能动性"诊断范式有持久价值