Latent Implicit Visual Reasoning¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM / 视觉推理
关键词: 隐式视觉推理, latent token, 视觉瓶颈, LMM, 无监督中间表示

一句话总结¶

LIVR 给大型多模态模型（LMM）加上一组可学习的 latent token，并用一种「视觉瓶颈」注意力掩码强迫答案只能通过这些 token 看图，从而在无需任何中间步骤监督的情况下，让模型自己学出对任务有用的视觉抽象，在 9 个视觉密集任务上稳定超过直接微调（SFT），并在多任务与跨数据集泛化上达到 SOTA。

研究背景与动机¶

领域现状：现代 LMM 大多是 LLaVA 式架构——图像被视觉编码器编码、经投影器塞进语言模型，然后模型只输出文本。也就是说，视觉信息在输入开头被「一次性」投进语言空间，之后所有推理都发生在文本 token 上。

现有痛点：这条范式让模型带着严重的语言偏置。对于「数数、拼图、判断哪张图最相似、找视觉对应点」这类以视觉为核心的任务，纯文本表示根本无法承载所需的空间结构化抽象——人类靠心象（mental imagery）就能完成的事，强行用语言描述会变得既困难又含糊。

核心矛盾：为了让模型更「视觉化」，已有工作走的是显式监督中间步骤的路子（让模型预测 bounding box、image crop、深度图、helper image 等）。但这引入了三重困境：(1) 需要大量任务专属标注，成本高；(2) 它把「什么才算有用的视觉中间表示」这件事预设死了，而人类直觉的中间步骤未必是模型最该学的；(3) 很多任务（如艺术风格、相对反照率、视觉相似度）压根说不清该提供什么中间目标，导致这类方法泛化很差、难以规模化到多样任务。

本文目标：设计一个任务无关、无需中间监督的机制，让 LMM 自己「发现并使用」对当前任务最有用的视觉抽象。

切入角度：作者借鉴 latent reasoning（Coconut、pause token）的洞察——隐空间比离散文本提供了更灵活的内部表示，把内部计算和外部 token 解耦后，模型能纯粹为优化任务而精炼内部状态，而不被「能否用语言说出来」所束缚。区别在于：以往的隐式视觉推理（Mirage、LVR）仍然用显式中间目标去训练 latent，而本文要做的是完全不给中间监督。

核心 idea：给模型加一组 latent token 作为额外的「视觉计算空间」，再用注意力掩码做视觉瓶颈——让答案只能透过这些 latent 看图，逼着它们去承载视觉信息，端到端只用任务损失训练，从而隐式学出任务自适应的视觉抽象。

方法详解¶

整体框架¶

LIVR（Latent Implicit Visual Reasoning）建立在标准 LMM（视觉编码器 + 投影器 + 语言解码器）之上，输入是图像 \(I\) 加文本提示 \(Q\)，输出是文本答案。它只改两件事：(1) 在提示后追加 \(K\) 个新引入的 latent token，把提示从 \(Q\) 变成 \(Q' = Q + L\)；(2) 用一个两阶段训练配上视觉瓶颈注意力掩码，强迫视觉信息流经这些 latent token。训练时视觉编码器与投影器全程冻结，语言主干用 LoRA 微调，额外只解冻 \(K\) 个 latent token 对应的 embedding 行。整条 pipeline 不需要任何 helper image、bounding box 或中间步骤标注，只用「问题—答案」对。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：图像 I + 提示 Q"] --> B["Latent Token<br/>追加 K 个新词表 token<br/>Q′ = Q + L"]
    B --> C["Stage 1：视觉瓶颈掩码<br/>答案/提示禁看图，<br/>只能透过 latent 看"]
    C -->|latent 已装入视觉信息| D["Stage 2：标准掩码<br/>答案同时看原图 token<br/>与增强后的 latent"]
    D --> E["输出：文本答案"]

关键设计¶

1. Latent Token：给模型一块离散文本之外的「视觉计算草稿纸」

痛点是 LMM 把视觉信息一次性投进语言空间后，只能在文本 token 上推理，表达力被离散词汇限死。LIVR 在原词表 \(V\) 之外新增 \(K\) 个特殊 token \(L=\{l_1,\dots,l_K\}\)，词表扩成 \(V\cup L\)，并在训练时把它们拼到输入后面。关键之处在于：模型不需要学会「生成」这些 latent token——它们是被直接追加到序列里的，模型只需学会如何使用它们来表示重要视觉信息。这些 token 随机初始化，但它们在 embedding 表里对应的行在训练中保持可更新（unfrozen），于是能自由地适配成承载视觉抽象的载体。相比复用预训练文本 token，新引入的 latent「没有历史包袱」，更容易被塑造成抽象视觉表示（这一点在消融里得到验证）。

2. 视觉瓶颈注意力掩码：逼着视觉信息「只能从 latent 流过」

光加 token 不够——如果答案 token 仍能直接看图，模型完全可以忽略这些 latent。LIVR 的核心机制是改注意力掩码做瓶颈（bottleneck）：让答案 token 只能 attend 到提示 token \(Q\) 和 latent token \(L\)，不能 attend 到视觉输入 \(I\)；为了杜绝视觉信息从提示侧泄漏，还进一步禁止提示 token \(Q\) attend 到图像 \(I\)。这样一来，模型想答对题，唯一的「看图通道」就是这组 latent，它们被迫成为视觉信息的瓶颈。作者认为这带来两个好处：其一，latent 被强制装入视觉信息，提供了比预训练文本 token 更具表达力的「额外视觉计算」；其二，模型必须聚焦这些视觉 latent 才能作答，从而削弱语言偏置。注意力可视化显示，这些 latent 会自发聚焦到与正确答案相关的图像区域（如语义对应的目标点、要数的物体），说明它们确实在无监督下学到了有意义的视觉结构。

3. 两阶段训练：先把视觉灌进 latent，再放开联合使用

如果一上来就用标准掩码，latent 缺乏「必须装视觉信息」的压力，会被学成可以忽略的摆设。LIVR 用 2:3 比例的两阶段调度解决这点。Stage 1（瓶颈期）施加上面的瓶颈掩码，用标准 NLL 目标、且只在答案 token 上算损失：

\[\mathcal{L} = -\frac{1}{|x|}\sum_{i=1}^{|x|}\log P(x_i \mid x_{<i})\]

由于答案唯一的看图通道是 latent，这个目标会直接把 latent 优化成「装着对解题最有用的视觉信息」。Stage 2（联合期）恢复标准掩码——答案 token 可以同时看原始图像 token 和此刻已被「灌满视觉信息」的 latent，损失不变仍只在答案上算。这一阶段教模型学会联合利用原图与增强后的 latent 作答。消融显示，瓶颈和 latent 缺一不可：只加 latent 不做瓶颈（latents-only）等于没加，去掉就掉点；epoch 配比 (4,6) 最优，纯 Stage 2（0,10）退化成普通 SFT。

损失函数 / 训练策略¶

两阶段都用只在答案 token 上计算的 NLL 损失（公式同上）。单任务实验每任务 1k 样本，LIVR 跑 4 epoch Stage 1 + 6 epoch Stage 2、\(K=16\)；多任务（6 任务共 6k 样本）保持 2:3 比例跑 2+3 epoch。语言主干用 LoRA（作用于注意力与 MLP 块），视觉编码器和投影器冻结，额外只解冻 \(K\) 个 latent token 的 embedding 行；单任务按验证集最高准确率选 checkpoint，多任务用最终 checkpoint。

实验关键数据¶

主实验¶

在 BLINK 改编的 9 个视觉密集任务（计数、拼图、定位、视觉对应、艺术风格、语义对应、功能对应、相对反照率、视觉相似度）上做单任务微调，主对比对象是 Direct SFT（同样的任务数据、无中间监督，干净对照）。

主干模型	设置	9 任务平均准确率	Δ vs SFT
Qwen2.5-VL-3B	Direct SFT	61.61	—
Qwen2.5-VL-3B	LIVR (Ours)	67.85	+6.24
Qwen3-VL-4B	Direct SFT	74.12	—
Qwen3-VL-4B	LIVR (Ours)	77.55	+3.43
LLaVA-OneVision-1.5-4B	Direct SFT	63.70	—
LLaVA-OneVision-1.5-4B	LIVR (Ours)	69.30	+5.60

提升在「难以指定显式中间表示」的任务上尤其明显：Qwen2.5-VL 上拼图 +12.00、功能对应 +13.02；LLaVA-OneVision 上功能对应狂涨 +27.40。多任务（Qwen3-VL-4B，6 任务联合）平均也从 SFT 的 69.60 提到 72.37（+2.77），且因任务无关而能直接套用、无需为每个任务换监督。

跨方法对比同样有力：在 VSP 任务上丢掉 helper image、只设 \(K=4\)，Qwen2.5-VL-3B 上 LIVR 达 66.00，远超 Mirage 的 46.00（+20）；空间推理 benchmark 上 LIVR-3B 在 SAT Val 拿到 85.6（ViGoRL 仅 62.9）、BLINK-3 拿 59.5（最高），且不用 text-CoT、显式 grounding 或 RL。

消融实验¶

在 Qwen3-VL-4B-Instruct、Localization / Sem. Corr. / Func. Corr. 三任务上拆解（Table 5）：

配置	Local.	Sem. Corr.	Func. Corr.	说明
Direct SFT	79.51	61.15	58.90	基线
Ours (LIVR)	83.61	64.75	67.81	完整模型
Latents only (no mask)	79.51	61.15	58.22	加 latent 但不做瓶颈 → 等于没加
Mask only (no latents)	80.33	61.16	59.59	只瓶颈不加 latent → 文本 token 难重塑
Input image twice (no mask)	78.69	61.16	58.22	单纯加视觉算力无效
Prompt tuning	71.31	49.64	36.30	轻量适配基线，远不及

超参敏感性：Stage 配比 (S1,S2) 在 (4,6) 时最佳，(0,10) 退化为 SFT、(8,2) 也明显变差；latent 数 \(K\) 在 16 时最优，4/8/32 都略逊；掩码策略上「答案+提示都禁看图」优于只禁答案看图。

关键发现¶

latent 是否真被用 + 是否真装视觉信息：测量答案对 latent 的平均注意力，LIVR 为 0.076、latents-only 仅 0.028；评估时去掉 latent，LIVR 从 83.61 掉到 76.23（依赖它），latents-only 79.51→79.51（学会忽略）。在测试时强加瓶颈掩码，LIVR 仍达 70.49，而 latents-only 跌到接近随机的 43.44——证明 LIVR 的 latent 既被使用、又真携带了任务相关视觉信息。
瓶颈 > 单纯加算力：把图像 token 复制两份当「额外视觉计算」对照，几乎无提升，说明 LIVR 的收益来自瓶颈逼出的视觉抽象，而非单纯多了算力。
为何不复用文本 token：mask-only 变体逊于 LIVR，因为预训练文本 token 已带语义、难被重塑成抽象视觉表示，而全新 latent 可自由适配。

亮点与洞察¶

「瓶颈逼学」范式很巧：不去设计「latent 该长什么样」，而是通过切断答案的直接看图通道，把「学出有用视觉抽象」变成模型为了答对题不得不做的事——监督信号完全来自最终任务损失，省掉了所有中间标注。
任务无关是真正的杀手锏：因为不绑定任何任务专属视觉目标（深度图/框/helper image），同一套方法能无缝迁到多任务联合微调，而显式监督方法每个任务都要换监督、很难扩展。
注意力可视化提供了可解释证据：latent-to-image 注意力自发落在正确答案区域（数对的物体、对应点、要定位的目标），把「隐式学到视觉结构」这件抽象事做实。
可迁移思路：「新增可学 token + 用注意力掩码制造信息瓶颈、只用末端损失端到端训练」这套机制，可推广到任何想让模型学出某种内部中间表示、却又说不清该监督什么的场景（如音频、3D、跨模态对齐）。

局限与展望¶

超参（\(K\)、阶段 epoch 配比）虽固定跨任务但靠 3 个任务的消融调出，作者也坦言任务专属调参可能进一步涨点——意味着默认配置未必每任务最优。
latent 的可解释性仍是事后归因：注意力图里依然存在 attention sink，「latent 到底编码了什么」更多是观察而非可控/可验证的机制。
评测集中在 BLINK 系感知任务与若干空间推理 benchmark，对更长链条、需多步组合推理的视觉任务（而非单步感知抽象）效果如何未充分检验。
仍是「先瓶颈再放开」的固定两阶段调度；是否能做成单阶段或自适应切换、瓶颈强度是否该动态退火，留有探索空间。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用注意力瓶颈把「无监督学视觉抽象」做成端到端任务损失驱动，思路干净且少见
实验充分度: ⭐⭐⭐⭐⭐ 3 个主干 × 9 任务 + 多任务 + 4 套跨方法对比 + 详尽消融，latent「是否被用/是否装信息」的对照实验尤为扎实
写作质量: ⭐⭐⭐⭐ 动机与机制叙述清晰，注意力可视化有说服力；部分实现细节推到 Appendix
价值: ⭐⭐⭐⭐⭐ 任务无关、免中间标注、可直接插到现有 LMM 微调，实用性强