Token Warping Helps MLLMs Look from Nearby Viewpoints¶

会议: CVPR 2026
arXiv: 2604.02870
代码: https://token-warping-mllm.github.io/ (项目页)
领域: 多模态VLM
关键词: 视角变换, token warping, 空间推理, 心理意象, MLLM

一句话总结¶

提出对 MLLM 的 ViT image token 做空间 warping（而非传统的像素级 warping）来模拟视角变换，发现 backward token warping 在保持语义一致性同时对深度估计噪声鲁棒，在自建的 ViewBench 上大幅超越像素级 warping、专用空间推理 MLLM 和生成式 warping 方法。

研究背景与动机¶

领域现状：多模态大语言模型在视觉推理上表现出色，但面对视角变化时相当脆弱。即使深度估计已接近完美，将预测深度整合到 MLLM 中也无法带来真正的 3D 理解。专门为空间推理微调的 MLLM（如 SpatialReasoner）在视角变换任务上改善有限。

现有痛点：传统做法是用像素级 warping 将源图像变换到目标视角，但像素级操作对深度图中的微小误差极度敏感——即使小的深度不准确，warping 后也会出现明显的几何扭曲和语义退化（如书本变形、物体模糊）。生成式新视角合成方法（如 GenWarp）虽能合成完整图像，但可能幻觉出不存在的物体或丢失已有物体。

核心矛盾：视角变换需要对场景进行某种内部表征变换，但变换的粒度选择存在根本性矛盾——物体级表征太粗、丢失空间细节；像素级表征太细、对噪声过于敏感。需要一个中间粒度的表征。

本文目标 (1) 找到一种对深度误差鲁棒的视角变换表征方式；(2) 探索最佳的 warping 策略（前向/后向、最近/自适应）；(3) 构建评估 MLLM 视角推理能力的标准基准。

切入角度：受认知科学中"心理意象"理论启发——Shepard、Minsky、Pylyshyn、Hinton 等人提出心理图像依赖于"部件级结构描述"而非整体表征。ViT 中的 image token 恰好处于像素和物体之间的中间粒度，天然是"部件级"表征单元。

核心 idea：将视角变换操作从像素级提升到 token 级，利用 image token 作为视角变换的鲁棒语义单元，实现 MLLM 的近视角推理。

方法详解¶

整体框架¶

这篇论文要解决的是：给 MLLM 一张源视角图、它的深度图、以及源/目标两个相机位姿，让模型回答"换到目标视角再看，场景会是什么样"。传统做法是在像素层面把源图 warp 到目标视角，但深度图一有小误差，像素就被扯得几何扭曲、语义退化。本文的关键转折是把 warping 这个操作整体上移一个层级——不动像素，而是动 ViT 切出来的 image token。流程是：先验证 token 这个粒度对位置扰动天然鲁棒，再用一套从目标视角反向投影的几何变换把源图 token 重排到目标视角的规则网格上，最后把重排后的 token 直接喂给 MLLM。整套操作发生在推理时，不需要任何训练。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：源视角图 + 深度图<br/>源/目标相机位姿"] --> B["ViT 编码源图<br/>→ image token 网格"]
    P["Token 位置鲁棒性验证<br/>token 对取点扰动不敏感<br/>→ 选 token 作 warping 粒度"] -. 支撑 .-> C
    B --> C["Backward Token Warping<br/>目标视角铺密集规则网格，反向取 token"]
    C --> D["反向投影 f(T→S) + proxy mesh ray casting<br/>每个目标格点映回源图坐标"]
    D -->|最近 token / 重裁 patch 重编码| E["Nearest vs Adaptive Fetching<br/>取源 token 填入目标网格"]
    E --> F["密集规则的目标视角 token 网格"]
    F --> G["MLLM 推理<br/>回答近视角空间问题"]

关键设计¶

1. Token 对位置扰动的鲁棒性验证：先证明 token 是合适的 warping 粒度

视角变换需要选一个表征粒度来搬运信息，物体级太粗会丢空间细节，像素级太细又对深度噪声过敏，本文主张 ViT 的 image token 恰好卡在中间。但这只是直觉，得先验证。作者设计了一个"获取位置噪声敏感性测试"：对每个 token 网格中心的坐标施加高斯位移扰动（幅度从 0 一路加到 20 像素，接近一个 patch 的边长），再用这些被扰动的位置去取 patch、送进 ViT。结果是 Qwen2.5-VL 在 CV-Bench-2D 上的准确率几乎不动；而同样幅度的扰动若加在像素级表征上，性能会明显掉下来。这个对照实验是后面所有设计的地基——既然 token 对"取在哪儿"不敏感，那么 warping 时因深度误差带来的位置偏移就不会严重伤害 MLLM 的理解，token warping 的鲁棒性有了来源。

2. Backward Token Warping：从目标视角反向取 token，保证网格密集规则

确定了用 token 粒度后，关键问题是 warping 的方向。一个自然的想法是前向 warping——把源图的每个 token 按几何关系投到目标平面上，但这样落点稀疏又不规则，会留下大量空洞，而 MLLM 是在规则密集的 token 网格上训练的，这种不规则分布属于严重的分布外输入，性能会暴跌。本文改用后向 warping：先在目标视角上铺一张密集规则网格，对每个目标网格点用反向投影函数 \(f_{T \to S}\) 映射回源图像平面，去源图里找对应的 token。

\[p_S = f_{T \to S}(p_T)\]

具体实现是从源图深度图建一张轻量的 3D 代理网格（proxy mesh），再从目标视角的每个网格位置向源图做 ray casting，求出命中的源坐标。因为网格是从目标视角一侧铺出来的，每个格点都一定能取到一个 token，输出天然是密集且规则的——正好对上 MLLM 期待的输入格式，这也是后向比前向好那么多的根本原因。

3. Nearest vs Adaptive Fetching：两种取 token 的方式，简单那种就够用

反向投影给出的源坐标通常落在已有 token 网格的格点之间，于是还要决定怎么把它变成一个真正的 token。Nearest fetching 直接挑欧氏距离最近的那个现成 token，省掉一切额外计算；Adaptive fetching 则以映射坐标为中心重新裁一块 patch、重新编码成新 token，理论上更贴合但要多跑一遍编码。实验里两者性能几乎贴在一起，nearest 又快又不输。这其实是第 1 点结论的又一次印证：既然 token 对几个像素的偏移不敏感，那么"精确对齐到亚 patch 级"就不是必需的，能用最便宜的 nearest 就别折腾 adaptive。

损失函数 / 训练策略¶

本方法不涉及任何训练，纯推理时操作——只在 MLLM 读图前对 image token 做一次 warping 变换，额外开销仅来自 proxy mesh 的 ray casting，计算成本极小。

实验关键数据¶

主实验¶

实验在自建的 ViewBench 上进行，基于 ScanNet 真实室内场景，评估三类任务：Text（文本标记的空间关系）、Shape（几何形状的空间关系）、Object（目标视角物体描述）。

方法	ViewBench-Text (5-15%)	ViewBench-Shape (5-15%)	ViewBench-Object (5-15%)
SpatialReasoner	46.73	33.72	-
VLM-3R	63.82	49.22	-
GenWarp	69.35	53.10	4.32
Pixel Backward	71.86	62.40	4.53
Token Backward-Nearest	74.87	67.44	4.80
Token Backward-Adaptive	77.89	67.44	4.97
Oracle (GT Target View)	100.00	100.00	6.64

消融实验¶

配置	ViewBench-Text (5-15%)	ViewBench-Shape (5-15%)	说明
Token Forward	60.30	55.04	前向 warping 导致不规则 token
Token Backward-Nearest	74.87	67.44	后向+最近，性能优异
Token Backward-Adaptive	77.89	67.44	后向+自适应，计算更贵但提升有限
Pixel Forward	70.85	56.20	像素级前向
Pixel Backward	71.86	62.40	像素级后向

关键发现¶

后向 > 前向是最关键的设计选择：后向 token warping 在 Text 5-15% 场景比前向提升 14.57%，因为 MLLM 需要密集规则的 token 网格
Token 级 > 像素级：后向 token warping 比后向像素 warping 在 Text 上高 6%，Shape 上高 5%，因为 token 对深度噪声更鲁棒
Nearest fetching 与 Adaptive fetching 性能接近，说明 token 表征的鲁棒性使得精确对齐并非必要
使用预测深度 vs GT 深度差距很小，进一步验证方法对深度误差的鲁棒性
所有专用空间推理 MLLM（SpatialReasoner、VLM-3R、ViLaSR）均不如 token warping，说明空间微调不能替代显式视角变换

亮点与洞察¶

认知科学与工程设计的巧妙结合：从心理意象理论中抽取"部件级表征"思想，对应到 ViT patch token，实现了从认知理论到工程方法的优雅映射。这个类比不仅有解释力，还直接指导了方法设计。
零训练的推理时增强：整个方法不需要任何额外训练，仅在推理时对 token 做一次 warping，就能显著提升视角推理能力。这种"免费午餐"式的方法具有极高的实用价值。
规则密集 token 网格的重要性：发现 MLLM 对 token 的空间分布模式非常敏感——稀疏不规则的 token（前向 warping 产生）是严重的分布外输入。这个洞察可迁移到其他需要操控 token 布局的任务。

局限与展望¶

仅处理近视角变换（两视角有重叠），大角度视角变化时 warping 失效（出现大量遮挡和空洞区域）
依赖深度图（GT 或预测），虽然对深度噪声鲁棒但仍需深度输入，限制了应用场景
ViewBench 基于室内场景（ScanNet），对户外场景、动态场景的泛化性未验证
仅在 Qwen2.5-VL 上实验，不同架构的 MLLM 对 token perturbation 的鲁棒性可能不同
未探索与空间推理微调方法的组合——token warping + SpatialReasoner 微调是否能进一步提升？

评分¶

新颖性: ⭐⭐⭐⭐ 从认知科学出发的 token warping 思路很有创意，但技术实现相对简单
实验充分度: ⭐⭐⭐⭐ ViewBench 设计合理，消融全面，但仅限室内场景和单一 MLLM
写作质量: ⭐⭐⭐⭐⭐ 论述清晰，从理论到实验的逻辑链完整，图表直观
价值: ⭐⭐⭐⭐ 无训练推理时增强有强实用价值，但应用场景受限于近视角变换