Imagination Helps Visual Reasoning, But Not Yet in Latent Space¶

会议: ICML2026
arXiv: 2602.22766
代码: 已开源（论文标注 open-sourced）
领域: 多模态VLM推理 / 视觉推理
关键词: 潜在视觉推理, 因果中介分析, 视觉想象, 文本空间推理, MLLM

一句话总结¶

本文用因果中介分析把「潜在视觉推理（用 MLLM 隐状态当 latent token 来做视觉想象）」拆成 \(X\to Z\to Y\) 的因果链，实证发现 latent token 既不随输入变化（输入-潜在断连）也几乎不影响答案（潜在-答案断连），从而质疑其必要性，并提出把视觉想象显式写成文本的简单替代法 CapImagine，在视觉感知基准上反超复杂的潜在空间方法。

研究背景与动机¶

领域现状：MLLM 视觉推理近来火热，复杂任务要求模型「主动感知」图像。一类做法是带工具推理（zoom-in、画线等），但工具集僵硬、和人类原生想象差距大；另一类是潜在视觉推理（LVR / Mirage / Monet），不把隐状态解码成文本，而是直接拿最后一层 transformer 隐状态当「latent token」在高维潜空间里「想象」，并用视觉特征或教师隐表示来监督这些 latent token，经验上在多个视觉任务上表现不错。

现有痛点：尽管效果看着好，潜在视觉推理「为什么有效」始终是黑箱——没人验证过 MLLM 究竟有没有在 latent 空间里真的做了审慎推理，还是只是借助了别的捷径。

核心矛盾：如果 latent token 既不编码输入相关的视觉信息、也不真正驱动最终答案，那么它对推理的因果贡献就是虚的，整个范式的「必要性」就站不住脚。

本文目标：(i) 用因果工具系统检验 latent token 在 \(X\to Z\to Y\) 链条中的真实作用；(ii) 如果 latent 不灵，找一个更忠实、更可解释、因果上更有效的替代。

切入角度：把潜在推理建模成因果中介过程——输入 \(X\) 是 treatment，latent token \(Z\) 是中介，答案 \(Y\) 是 outcome，分别做 \(P(Z\mid do(X))\) 和 \(P(Y\mid do(Z))\) 的干预，看中介到底通不通。

核心 idea：先用因果中介分析证明「latent 想象目前是假的」，再用「把视觉想象显式写成文本」这一极简数据改造（CapImagine）证明「想象在文本空间反而是真的、更强的」。

方法详解¶

整体框架¶

全文是「先诊断、再开方」的两段式。诊断段把潜在推理抽象成因果链 \(X\to Z\to Y\)，对输入端和潜在端各做一类系统扰动，分别检验 \(X\to Z\) 与 \(Z\to Y\) 两条因果是否成立；结论是两条都断（加上一个探针分析证明 latent 本身编码的视觉语义也极少）。开方段顺势提出 CapImagine：不再依赖 latent 变量，而是把训练数据里那些「中间想象图像」带来的语义变化，全部改写成文本 caption，逼模型用一条显式的文本推理链「想象」视觉变换。输入是图像集 \(\{I_i\}\) 加问题 \(q\)，潜在推理形式化为在每步自适应地在「输出普通文本 token」与「输出 latent token」之间切换：

\[y_i=\mathbb{I}(i\in\mathcal{I}_L)\cdot\phi(h_i)+\mathbb{I}(i\notin\mathcal{I}_L)\cdot E(\text{Decode}(h_i)),\]

其中 \(h_i\) 是隐状态、\(\mathcal{I}_L\) 是 latent token 下标集、\(\phi\) 是可选投影层。CapImagine 则把整条链都留在文本空间。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["潜在视觉推理<br/>X → Z → Y 建模"] --> B["X→Z 诊断<br/>实例间/实例内相似度"]
    A --> C["Z→Y 诊断<br/>干预 do(Z) + 探针"]
    B --> D["两个断连结论<br/>latent 似占位符"]
    C --> D
    D --> E["CapImagine 文本想象<br/>把中间图像改写成 caption"]
    E --> F["数据过滤<br/>17k 高质量样本"]
    F --> G["CoT-SFT 训练 → 视觉推理"]

关键设计¶

1. 因果中介分析框架：把「latent 到底有没有用」变成可干预的因果问题

针对「潜在推理是黑箱、有效性来源不明」的痛点，本文不停留在比指标，而是把过程显式建成因果链 \(X\to Z\to Y\)，再用 do-演算分别检验两条边。这一框架的价值在于：它能把「模型答对了」与「latent 真的参与了推理」区分开——后者要求中介 \(Z\) 既随 treatment \(X\) 变化、又对 outcome \(Y\) 有因果效应，两者缺一就说明 latent 只是「搭便车」。分析对象覆盖三个代表性方法（通用蒸馏的 Monet、用图像特征监督的 LVR、任务特化的 Mirage），并和文本/图像 token、MLLM 内部表示作对照。

2. 两个断连的实证诊断：输入-潜在断连 + 潜在-答案断连

第一条 \(X\to Z\) 用扰动输入看 latent 变不变。实例间分析发现：不同实例、不同任务在同一位置的 latent token 余弦相似度奇高，说明它们几乎不编码图像/问题信息，连任务级粗粒度区分都抓不住；实例内分析发现随着推理推进 latent token 逐步退化、收敛成高度相似的簇（LVR 第二步就塌、Monet 撑到第五步），而文本推理的隐状态相似度则一直很低、状态转移清晰。第二条 \(Z\to Y\) 用干预 \(do(Z)\) 看答案变不变：对 Monet 把所有位置/实例的 latent 强制设成同一张量，对 Mirage 还试了注入高斯噪声、整体替换成噪声、置零等。结果是在 V、HR-Bench、MME-RealWorld-Lite 上这些剧烈改动只带来微小波动——V 整体甚至涨 0.5%，HR-Bench-4K 和 MME-RealWorld-Lite 仅分别掉 1.0% 和 0.7%。再加一个探针分析：只拿 latent token 当唯一输入去回答围绕同一图像区域新构造的 30 道选择题，准确率连「纯文本瞎猜」都不如，而给原图时 Monet 和 Qwen3-VL-32B 都能到 76.67%。三条发现合起来：latent token 高度同质（发现1）、对答案贡献甚微（发现2）、编码语义极少（发现3），其行为更像 soft prompt 或占位符，而非视觉想象的主动载体。

3. CapImagine 文本空间想象 + 数据过滤：用显式 caption 替代 latent，并保证数据干净

既然 latent 不灵，CapImagine 把视觉想象搬回文本。它基于 Monet-SFT-125K 做两类图像改写：对 Visual-CoT / Zebra-CoT 这类「放大关键区域」的子集，把原问题连同高亮区域喂给 Qwen3-VL-4B，让它生成聚焦该区域语义的简洁 caption；对 Refocus / CogCoM 这类「标注/画线」的子集，则把原图和操作后图一起给模型，让它描述视觉差异、显式说出操作揭示的关键信息（如标注的数值、高亮的文字实体）。这样语言就完整承载了辅助图像的语义，彻底绕开 latent 表示。为避免改写文本生硬插入破坏逻辑连贯，再用 MLLM 全局润色整条推理链。关键的是数据过滤：占 Monet-SFT-125K 高达 94.88% 的 Visual-CoT 数据质量低，存在「最终答案与新生成的视觉观察冲突」「问题过于模糊或本质不可答」两类问题，本文用 MLLM 对每条样本的推理正确性与问题歧义度做质量评估、剔除明显有缺陷者，过滤后保留 17k 高质量样本；为排除数据量差异的影响，还专门做了消融对齐 Monet 的比较。

损失函数 / 训练策略¶

没有新损失：模型基于 Qwen2.5-VL-7B，用 Monet 代码库在重构数据上做标准 CoT-SFT，8×A800-80G、batch size 1、梯度累积 16，并按训练中表现挑最佳 checkpoint 以缓解训练不稳。核心「方法」是数据形态的改造（latent 监督 → 文本想象）而非新模块或新目标。

实验关键数据¶

主实验¶

在 V*、HR-Bench-4K/8K、MME-RealWorld-Lite、BLINK 等以高分辨率细粒度感知为主的基准上，与潜在想象法（LVR、Monet）、工具法（PixelReasoner、DeepEyes）及专有模型对比（节选 Overall 分数）：

方法	类别	V*	HR-Bench-8K	MME-RW-Lite	BLINK-MV
Qwen2.5VL-7B	基座	76.4	63.8	45.8	42.9
LVR	潜在想象	81.7	63.0	50.6	46.6
Monet	潜在想象	83.3	68.0	46.9	47.4
DeepEyes	工具	90.0	72.6	53.2	-
CapImagine	文本想象	85.9	70.7	54.8	49.6

CapImagine 在 V* 上比 Monet 高约 2.6%、HR-Bench-8K 高约 2.7%、MME-RealWorld-Lite 上从 46.9 提到 54.8（论文称约 4.9% 量级提升 ⚠️ 以原文为准），并在抽象推理（Jigsaw、多视图）上比 LVR/Monet 高 10 余分，TableVQA 上较 Monet 提升约 6.1%；仅略逊于靠 RL 做 zoom-in 的 DeepEyes。

消融实验¶

针对 CapImagine 的两步数据改造做消融（V*/HR-Bench-8K Overall）：

配置	V*	HR-Bench-8K	说明
CapImagine（完整）	85.9	70.7	改写 + 过滤
w/o Rewriting	82.7	69.8	去掉文本改写，掉到接近 Monet
w/o Filtering	82.7	69.3	不做质量过滤，提升受低质数据拖累

两项各去其一都明显掉点，说明「把视觉变换显式写成文本」和「滤掉冲突/不可答样本」缺一不可。

关键发现¶

对 latent token 施加最强干预（统一成同一张量、换成高斯噪声、置零）大多只造成 ≤1% 波动，是「潜在-答案断连」最直接的证据；只有 Mirage stage-2 置零时因引发重复输出才大幅下降。
探针分析里 latent-only 输入解题还不如纯文本瞎猜，而有原图时同模型可达 76.67%，说明 latent 几乎没存住可用的视觉证据。
CapImagine 用同源数据（Monet-SFT-125K，过滤到 17k）就反超 Monet，且在需要全局结构重建的 Jigsaw/多视图上优势最大，说明显式文本想象比 latent 想象更能保住可操作的视觉语义。

亮点与洞察¶

把因果中介分析引入「潜在推理有没有用」的检验，是方法论上的亮点：用 \(do(X)\)、\(do(Z)\) 两类干预把「答对」与「中介真参与」干净分离，比单纯刷点更有说服力。
「latent token 像 soft prompt / 占位符」这一判断有三条互证的证据（同质性、干预不敏感、探针失败），结论扎实，对整个 LVR 方向是有价值的冷水。
CapImagine 的可迁移点在于「把本应发生在隐空间的视觉变换显式 verbalize 成文本」——任何带中间图像/工具操作的多模态推理数据，都能用这种「图像差异→caption→润色→过滤」的流水线改造成纯文本 CoT。

局限与展望¶

诊断结论是「目前的」latent 方法不灵，而非「latent 想象原理上不可行」（标题已点明 not yet）；作者也强调全潜力尚未被挖掘，方法本身未给出「如何把 latent 做对」的路径。
因果分析样本规模有限（如 100 条实例、30 道探针题），且集中在 Monet/LVR/Mirage 三个代表方法上，结论对未来更强的 latent 监督是否成立仍待验证。
CapImagine 仍略逊于靠 RL 做真实图像 zoom-in 的 DeepEyes，说明「直接重放图像」带来的互补收益尚未被文本想象完全替代；且依赖 Qwen3-VL-4B 做改写与 MLLM 做过滤，质量受改写器能力上限约束。

评分¶

新颖性: ⭐⭐⭐⭐ 用因果中介分析系统证伪潜在视觉推理的有效性，角度新、结论有冲击力。
实验充分度: ⭐⭐⭐⭐ 诊断（实例间/内 + 干预 + 探针）与方法（多基准 + 消融）都较完整，惟分析样本规模偏小。
写作质量: ⭐⭐⭐⭐ 「先诊断后开方」结构清晰，因果链与发现一一对应。
价值: ⭐⭐⭐⭐ 给 LVR 方向泼了有依据的冷水，并给出可复现的文本想象替代，对社区有方向性意义。