Vision-aligned Latent Reasoning for Multi-modal Large Language Model¶

会议: ICML 2026
arXiv: 2602.04476
代码: 项目页有（论文末尾提供）
领域: 多模态VLM / 视觉推理 / 测试时扩展
关键词: 潜空间推理, 视觉对齐, REPA, MLLM, Test-time scaling

一句话总结¶

本文提出 VaLR：在 MLLM 的 CoT 推理每一步之前插入若干"潜在 token"，并用 DINOv3/SigLIP/π³ 等视觉编码器的 patch 特征对这些 token 做表征对齐（REPA），从而在长链推理中持续把视觉信息"喂回"模型，把 Qwen2.5-VL 在 VSI-Bench 上的准确率从 33.0% 拉到 52.9%，并首次让 MLLM 表现出"推理越长越准"的 test-time scaling 行为。

研究背景与动机¶

领域现状：现有 MLLM（Qwen2.5-VL、LLaVA 系列）普遍把视觉特征当作"初始上下文"——一次性塞进序列头部，然后让 LLM backbone 用纯文本 CoT 推理。这种做法在短上下文 VQA 上效果不错，但在需要长链推理的任务（多视角空间推理、数学几何）上会失灵。

现有痛点：作者在 Figure 2 的"推理长度分析"中给出最直接的证据：Ocean-R1 在 MMVP 上随着生成长度从 100 token 增长到 300 token，准确率从 62.7% 跌到 56.5%；其它 latent reasoning 方法（Monet、CoVT、LVR）也都在长链上崩塌。换句话说，文本 LLM 享有的 "test-time scaling law"（更长思考→更高准确率）在多模态域里反过来变成了"长链=幻觉更多"。

核心矛盾：根因是视觉信号的渐进衰减——自回归生成每多一个文本 token，注意力对头部视觉 token 的权重就被稀释一次，到生成几百个 reasoning token 后，模型已经几乎"忘了"图片长什么样。早期把图像 token 当固定 prefix 注入的方案（CoVT、Monet）无法解决这个问题，因为视觉信息始终只在序列开头。

本文目标：设计一种机制，能在 CoT 的每一步推理之前都重新"激活"模型对图像的感知，而且这种激活既不依赖测试时调用外部视觉编码器（避免推理开销），又能保留长链推理的能力。

切入角度：受 LLM 域 latent reasoning（Coconut）和 REPA（用外部视觉特征监督 diffusion 中间层）两条线启发，作者假设：让 MLLM 的中间隐状态在训练时与冻结视觉编码器的 patch 特征对齐，模型就能学到"自己生成视觉锚点"的能力，测试时无需外部编码器也能持续保持视觉 grounding。

核心 idea：在每个文本 reasoning 步骤前插入 K 个特殊 latent token 作为"视觉 checkpoint"，训练时用 DINOv3 等编码器的 patch 特征通过余弦相似度监督这些 latent token 对应的隐状态，让 latent token 自主承担"刷新视觉记忆"的角色。

方法详解¶

整体框架¶

VaLR 在标准 MLLM（Qwen2.5-VL-7B）上做两阶段 SFT。推理时序列形如 \(v, q \to (\ell_{[1:K]}^{(1)}, r^{(1)}, \ell_{[1:K]}^{(2)}, r^{(2)}, \cdots) \to a\)，即视觉特征 + 问题 → (K 个 latent token + 第 i 步文本 reasoning) × N 步 → 最终答案。latent token 段用 <latent> / </latent> 控制边界。在 latent 模式下，模型把上一步的隐状态 \(h_t\) 直接当作下一步的输入 embedding（绕过 LM-Head 和 token embedding 表）；在 language 模式下回归标准的 token embedding 输入。每段 latent 固定走 \(K=16\) 步后强制切回 language 模式。

关键设计¶

Latent token 与隐状态自回归:
- 功能：在每个文本 reasoning step 前预留 K 个"思考槽"，让模型在不输出可见 token 的情况下做内部刻画。
- 核心思路：训练数据预处理时把 CoT 数据 \(v,q \to (r^{(i)})_{i=1}^N \to a\) 改写成 \(v,q \to (\ell_{[1:K]}^{(i)}, r^{(i)})_{i=1}^N \to a\)。前向时遇到 <latent> 后，下一步输入嵌入 \(E_{t+1} = [E_t; h_t]\) 而非 \([E_t; e(x_{t+1})]\)，即把上一步的最后隐状态 \(h_t\) 直接当作下一步 token 嵌入，从而让模型在 latent 空间里"自由发挥"K 步，再切回语言模式用 LM-Head 解码后续文本。
- 设计动机：纯语言 CoT 强制把所有中间状态"压扁"成离散 token，信息瓶颈太窄；用连续隐状态直传可以保留更丰富的视觉细节，相当于给模型一段"草稿纸"专门用于视觉锚定。
REPA 表征对齐到外部视觉编码器:
- 功能：监督 latent token 的中间层特征逼近 DINOv3 / SigLIPv2 / π³ 等视觉编码器的 patch 级表征，强迫模型学会"内化"视觉 grounding 能力。
- 核心思路：对第 i 步 reasoning，从 MLLM 中间层（默认第 12 层，约总层数的中间位置）抽出 K 个 latent token 的特征 \(\mathbf{F}_{\text{MLLM}}^{(i)} = [f_1^{(i)}, \cdots, f_K^{(i)}]\)，先 upsample 到与视觉编码器 patch 数 P 对齐，再用 MLP \(\psi\) 投影到编码器维度，与 \(\mathbf{F}_\phi^{(i)} = \phi(I^{(i)})\) 做 patch-wise 余弦相似度对齐：\(\mathcal{L}_{\text{REPA}} = -\frac{1}{NP}\sum_{i,p}\text{sim}(\hat{\mathbf{F}}_{\text{MLLM}}^{(i)}[p,:], \mathbf{F}_\phi^{(i)}[p,:])\)。关键是：外部编码器只在训练时用，推理时完全丢弃——latent token 自己已经"学会"产生视觉对齐的特征。
- 设计动机：Ablation Table 3 显示，去掉 VA（视觉对齐）后准确率从 41.5% 跌回 34.0%，等同 vanilla SFT 水平；用 Qwen 自己的 vision encoder 做对齐能到 39.6%，但用 DINOv3 这种自监督编码器能再涨 1.9%，说明对齐目标本身（而非外部信息泄漏）才是关键。
多编码器互补对齐（VaLR-M）:
- 功能：同时与多个语义/几何编码器对齐，让 latent token 携带异质视觉知识。
- 核心思路：定义 \(\mathcal{L}_{\text{REPA}}^{\text{multi}} = \frac{1}{M}\sum_m \mathcal{L}_{\text{REPA}}^{(m)}\)，对每个编码器 \(\phi_m\) 单独配一个 projection head \(\psi_m\)。论文用 DINOv3（细粒度 appearance）+ SigLIPv2（语义）+ π³（3D 几何）三种 ViT-L 编码器。Table 4 的控制实验显示：加 π³ 对 VSI-Bench（3D 多视角）贡献最大（+10p+），加 DINOv3/SigLIPv2 对 BLINK/MMVP 等感知任务贡献最大，三者全开拿到全榜最优 52.9%。
- 设计动机：作者观察到不同编码器擅长不同视觉子空间，单一对齐无法同时覆盖。多编码器策略把"专家分工"显式注入 latent 空间，相当于让 MLLM 在内部蒸馏出一个 mini 多视图视觉 backbone。

损失函数 / 训练策略¶

两阶段 curriculum：Stage 1 用 450K CoT VQA 数据（Zebra-CoT / CogCoM / Visual-CoT / OneThinker-SFT 等混合）做标准 SFT 建立基础文本 CoT 能力，loss 为 \(\mathcal{L}_{\text{CE}}\)；Stage 2 在同一批数据上加入 latent token 与 REPA，总损失 \(\mathcal{L} = \mathcal{L}_{\text{CE}} + \lambda \mathcal{L}_{\text{REPA}}\)，其中 \(\lambda = 0.5\)，\(K = 16\)。两阶段都冻结 native vision encoder，只训 decoder（Stage 2 还训 projection MLP），4 卡 A100、Zero-2、AdamW、lr 1e-5 / 2e-6。

实验关键数据¶

主实验¶

VSI-Bench（多视角 3D 空间推理）8 个子任务 + 5 个感知 benchmark 上对比 GPT-4o / Claude-4 / Qwen2.5-VL 基座 / 三种 latent reasoning baseline。

模型	VSI-Bench Avg	BLINK	MMVP	V*	CVBench
GPT-4o	34.0	63.0	68.7	42.9	79.2
Qwen2.5-VL-7B（base）	33.0	55.7	56.0	76.4	74.5
+ vanilla SFT	33.7	56.6	58.7	78.0	77.0
+ Monet（latent baseline）	14.0	49.1	50.0	83.3	71.1
+ CoVT	18.6	56.0	58.7	78.0	80.0
+ VaLR-S（DINOv3）	41.5	63.1	60.3	86.4	83.1
+ VaLR-M（DINOv3+SigLIP+π³）	52.9	64.7	60.3	86.9	87.6

VaLR-M 在 VSI-Bench 上把 base 模型 +19.9 个百分点，超 GPT-4o 18.9 个点。注意现有 latent reasoning 方法（Monet、CoVT、LVR）在多视角 3D 任务上全部崩盘到 14-19%，反衬"无视觉再注入"的潜空间推理是死路。

消融实验¶

配置	VSI-Bench	BLINK	MMVP	V*
Qwen2.5-VL-7B	33.0	55.7	56.0	76.4
+ vanilla SFT	33.7	56.6	58.7	78.0
+ VaLR w/o VA（去掉对齐）	34.0	57.1	56.7	75.9
+ VaLR w/ QE（用 Qwen 自己编码器）	39.6	58.9	60.0	81.7
+ VaLR（DINOv3）	41.5	63.1	60.3	86.4

对齐层位置（Front/Middle/Last 即 4/12/27 层）实验显示中间层（第 12 层）最优，与 REPA 原论文及多项关于"视觉信息集中在 MLLM 中层"的研究一致。

关键发现¶

REPA 是命门：去掉对齐时 VaLR 退化为 vanilla SFT，加上对齐才是 +8p+ 的真正来源；这说明 latent token 本身只是"载体"，关键在于把视觉信号显式塞进中间层。
Test-time scaling 显现：Figure 2 中 VaLR 是唯一一个"推理越长越准"的方法，其它方法都在某个长度后崩塌；这把 LLM 域的 scaling law 首次迁移到了多模态。
多编码器协同有"专家化"：π³ 专门拉高 3D 多视角任务，DINOv3/SigLIP 专门拉高感知任务，组合后无干扰、纯叠加，说明 latent 空间足够大可以容纳多源知识。
数据 scaling >20× 更快收敛：Figure 3 显示 VaLR 用 50K 数据已达到 vanilla SFT 用 450K 才能到的 V* 水平。

亮点与洞察¶

把"latent reasoning"和"REPA"两条独立线索揉到一起，落点不是"更花哨的架构"而是"补回 MLLM 长链推理的真正瓶颈——视觉信号衰减"，这种问题诊断+对症下药的路径感很强。
推理时不需要外部编码器这点工程价值很高：部署时一个 Qwen2.5-VL-7B 即可，视觉对齐能力已经被蒸馏进了 MLLM 的中间层。这和很多"训练时贵推理时贵"的多编码器方法形成对比。
用 latent token 当"视觉刷新槽"这个抽象可以迁移到很多场景：例如长上下文文档 RAG（每隔几步用 latent token 重激活检索特征）、视频长描述（每隔 N 帧用 latent token 拉回视觉特征）。
π³ 这种几何专门编码器加入能在 3D 任务上拉 +10p+，说明潜空间对齐天然适配"非语言可描述"的视觉模态。这给"如何把 3D / 触觉 / 音频塞进 LLM"提供了一条不靠 captioning 的新路。

局限与展望¶

作者承认 latent token 数量 K=16 是固定的，未做自适应；不同推理步骤对视觉信息的"饥饿程度"显然不同，理应有学习的预算分配。
训练数据全是合成 CoT（Zebra-CoT 等），其在"非推理型 VQA"（如视觉描述、风格判断）上的影响未充分评估，可能存在过拟合到 reasoning 数据分布的风险。
多编码器对齐意味着训练时多消耗几个 ViT-L 的前向；4×A100 的预算虽然能跑，但放大到 32B / 72B base 模型成本就显著。
π³ 这类几何编码器需要多视角输入，对单图 VQA 不适用；多模态 latent 对齐还远没探完所有视觉表征家族。
Test-time scaling 的曲线虽然在 MMVP 上一直增长，但实际推理预算 vs 收益的"边际曲线"作者没系统刻画，工业落地时的"什么时候应该停"还是个开放问题。

评分¶

新颖性: ⭐⭐⭐⭐ — latent reasoning 与 REPA 两条已有线索的精彩组合，但单独看任何一项都非原创。
实验充分度: ⭐⭐⭐⭐⭐ — 6 个主 benchmark、多编码器/层位置/数据规模/推理长度全面消融，且首次刻画 multimodal test-time scaling 曲线。
写作质量: ⭐⭐⭐⭐ — 动机讲得极清楚，Figure 2 一图杀死所有 baseline；但 REPA 那段公式可以再精简。
价值: ⭐⭐⭐⭐⭐ — VSI-Bench +19.9p 是真实有用的收益，且推理时不增加外部模型，几乎可以"白送"地嫁接到现有 MLLM 训练流程。