ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation¶

会议: CVPR 2026
arXiv: 2605.05126
代码: https://github.com/JiuTian-VL/ConsisVLA-4D (有)
领域: 3D视觉 / 具身智能 / VLA
关键词: 视觉-语言-动作模型, 时空一致性, 3D感知, 4D推理, 机器人操作

一句话总结¶

ConsisVLA-4D 用三个模块（CV-Aligner、CO-Fuser、CS-Thinker）把多视角 2D 观测压缩成约 1/8 的 token，同时在感知阶段保证「跨视角语义一致」和「跨物体几何一致」、在推理阶段把这种一致性延伸到「跨场景时空一致」，在 LIBERO 和真机上比 OpenVLA 分别提升 21.6% / 41.5% 成功率并加速 2.3× / 2.4×。

研究背景与动机¶

领域现状：当前 VLA（Vision-Language-Action）模型（RT-2、Octo、OpenVLA、\(\pi\) 系列）主流做法是把 2D 视觉观测直接映射到动作，在很多 benchmark 上已取得不错效果。

现有痛点：这类模型在空间感知和时间推理两个维度都不够。一方面，要拿到 3D 空间理解，要么靠额外传感器（点云、深度图，如 PointVLA、GeoVLA、3D-VLA）带来巨大算力开销、限制平台通用性；要么靠纯 2D→3D 投影（SpatialVLA、Evo-0、GeoAware-VLA）但有投影偏差、几何不一致、遮挡误差。另一方面，做未来推理的世界模型类方法（WorldVLA、World4Omni、V-JEPA 2）大多只预测未来帧图像，而不是真正理解动态的 3D 空间。

核心矛盾：现有方法要么「为了 3D 精度付出算力代价」，要么「为了效率牺牲 3D/4D 一致性」。更深层的问题是——它们缺乏对当前空间状态的完整理解，也缺乏对场景如何随动作演变的知识，因此无法在「当前观测」与「预测的未来场景」之间建立一致的关联，导致视觉推理失真、动作不稳定。

本文目标：分解成两个子问题——(1) 如何在不引入过量算力的前提下从 2D 观测高效生成 3D 表征？(2) 如何通过 4D 视觉推理强化时空一致性来优化动作预测？

切入角度：作者从人类操作行为出发：人通过双目/移动在不同视角下保持一致的空间感知（物体位置与关系），并基于这种稳定感知预测未来空间状态，从而在整个任务执行中维持时间稳定性。VLA 模型应该继承这套「稳定空间感知 → 稳定未来推理」的机制。

核心 idea：把范式从「3D 感知」扩展到「4D 推理」，用三类一致性串起来——跨视角语义一致（CV-Aligner）→ 跨物体几何一致（CO-Fuser）→ 跨场景时空一致（CS-Thinker），且只用约 1/8 的视觉输入。

方法详解¶

整体框架¶

ConsisVLA-4D 是一个统一框架，分两个阶段。高效 3D 感知阶段：把 Main/Left/Right 三路（单臂为双路）多视角观测分别送进三个冻结编码器——SigLIP 出语义 token \(\mathbf{z}^{\text{sem}}\)、DINOv2 出几何 token \(\mathbf{z}^{\text{geo}}\)、VGGT 出含深度/点图先验的 3D token \(\mathbf{z}^{\text{3D}}\)；CV-Aligner 负责语义侧的「选物体 + 注入 3D」，CO-Fuser 负责几何侧的「跨视角聚合」。高效 4D 推理阶段：CS-Thinker 接住前两个模块输出的物体语义 token 和几何聚合 token，在一个共享上下文窗口里同时预测「未来动态物体」「未来全局深度」「动作 chunk」，把空间一致性延伸到时间维度。关键在于：动态/深度的预测只在训练时作为监督存在，推理时模型靠已学到的隐式知识直接出动作，这部分预训练知识在推理序列里占比不到 10%。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视角观测<br/>Main / Left / Right"] --> B["SigLIP / DINOv2 / VGGT<br/>三路冻结编码器"]
    B --> C["CV-Aligner<br/>选物体 + 注入3D<br/>跨视角语义一致"]
    B --> D["CO-Fuser<br/>跨视角几何聚合<br/>跨物体几何一致"]
    C --> E["CS-Thinker（SC-Attn）<br/>跨场景时空一致"]
    D --> E
    E -->|训练时监督| F["预测未来动态物体<br/>+ 未来全局深度"]
    E -->|并行解码| G["动作 chunk 输出"]

关键设计¶

1. CV-Aligner：用指令做 Top-K 筛选 + 单帧融合，保证跨视角语义一致

痛点是 SigLIP 出的每帧 256 个 token 里大量是和指令无关的背景冗余，且同一物体在不同视角下身份没对齐。CV-Aligner 分三步解决：先在 SigLIP 每层用 FiLM 调制 \(\tilde{\mathbf{z}}_{i,l}^{\text{sem}}=(\mathbf{1}+\gamma(\mathbf{t}))\odot\text{Self-Attn}(\mathbf{z}_{i,l}^{\text{sem}})+\beta(\mathbf{t})\)，把指令 \(\mathbf{t}\) 的尺度/偏移注入视觉 token 以强化指令-观测对齐；再用余弦相似度 \(s_{i,j}=\text{sim}(\mathbf{z}_i^{\text{sem},j},\mathbf{W_t}\cdot\mathbf{t})\) 给每个视觉 token 打分，只保留 Top-\(K\)（默认 \(K=32\)，即原始 256→32，恰好 1/8）最相关的物体 token；最后用 Single-Fusion——以物体 token \(\mathbf{z}_i^{\text{obj}}\) 为 query、VGGT 的 3D token \(\mathbf{z}_i^{\text{3D}}\) 为 key/value，过 4 层 cross-attention Transformer，把 VGGT 点跟踪（point tracking）能力带来的 3D 线索注入物体表征，得到 \(\mathbf{z}_i^{\text{obj-3D}}\)。之所以有效：它把「裁冗余」和「对齐物体身份」合二为一，每视角只剩 32 个 token 却同时带语义和 3D 身份，跨视角看同一物体能对上号

2. CO-Fuser：块级因果注意力把多视角几何关系压进聚合 token，保证跨物体几何一致

痛点是单视角深度估计有尺度歧义，物体之间的空间关系在一个视角里说不清。CO-Fuser 不去显式建点云，而是利用 VGGT 与 DINOv2 同源（VGGT 的 3D 预训练就建立在 DINOv2 上）的结构相似性，在两条编码流之间做逐块密集融合。每个 block 先做 Group-Fusion：\(\mathbf{z}_l^{\text{geo-3D}}=(1-\alpha_l)\odot\mathbf{z}_l^{\text{geo}}+\alpha_l\odot\mathbf{z}_l^{\text{3D}}\)，权重 \(\alpha_l\) 随层深余弦衰减（\(\alpha_0=\psi=0.2\) 到 \(\alpha_{\mathcal{L}'}=\psi\cdot\delta=0.01\)，\(\mathcal{L}'=24\)）——浅层强约束让模型先吸收 VGGT 几何先验，深层平滑退出先验、转向自学几何特征，导数在中间层最大正好对应特征抽象最密集的阶段。然后初始化 64 个可学习 Aggregation Token 与 \(\mathbf{z}_l^{\text{geo-3D}}\) 拼接，经 块级因果自注意力 BC-Attn（geo-3D 与 agg-3D 之间用因果注意力、各自内部用双向注意力）逐块把多视角信息汇进聚合 token，最终只取最后一层 \(\mathbf{z}_{\mathcal{L}'}^{\text{agg-3D}}\)。这套隐式建模把几何关系压到原始 token 的 1/12–1/8，且不和语义 token 冗余

3. CS-Thinker（SC-Attn）：训练时学隐式知识、推理时免显式生成，把一致性延伸到时空域

痛点是动作展开时场景持续变化，单场景的空间一致性不够，需要扩展到跨场景的时空一致性，且不能为此在推理时付出生成未来图像的代价。CS-Thinker 用 Spatiotemporal Consistency Attention (SC-Attn) 在同一上下文窗口里同时干三件事：(a) 用三组动态 token（\(3\times4=12\) 个）从 CV-Aligner 的物体 token 解码出「动作发生后某固定视角的动态物体」，监督来自 CoTracker，损失 \(\mathcal{L}_{\text{dyn-4D}}=\|(\hat{\mathbf{z}}_{i^*}^{\text{dyn-4D}}\odot\mathbf{m})-(\mathbf{z}_{i^*}^{\text{dyn-4D}}\odot\mathbf{m})\|_2^2\)（用 mask 只盯物体位置）；(b) 用一组深度 token（\(1\times4\) 个）从 CO-Fuser 的几何聚合 token 解码出三视角「未来全局深度」，监督来自 Depth-Anything，损失 \(\mathcal{L}_{\text{dep-4D}}=\sum_i\|\hat{\mathbf{z}}_i^{\text{dep-4D}}-\mathbf{z}_i^{\text{dep-4D}}\|_2^2\)；(c) 把动作 token \(\mathbf{0}^A\) 拼到序列末尾并行解码出动作。关键巧思在于：动态物体和全局深度的预测只在训练时作为「中间视觉推理」存在，推理时不再显式生成，模型直接调用已内化的隐式语义/几何知识出动作——这部分预学知识占推理序列不到 10%，所以又准又快

损失函数 / 训练策略¶

总损失 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{action}}+\mathcal{L}_{\text{dyn-4D}}+\mathcal{L}_{\text{dep-4D}}\)，动作用 L1 损失。骨干为 OpenVLA（7B），用 LoRA（rank 32、\(\alpha=64\)）微调，三个编码器 SigLIP/DINOv2/VGGT 冻结。单臂任务 action chunk \(K=8\)、batch 64、lr \(5\times10^{-4}\)、训 80K 步；双臂任务 \(K=25\)、batch 32、50K 步后 lr 衰减到 \(5\times10^{-5}\)。

实验关键数据¶

主实验¶

LIBERO 四个 suite 成功率（%），ConsisVLA-4D 在四项全部领先：

方法	Spatial	Object	Goal	Long	Avg.
OpenVLA [CoRL'24]	84.7	88.4	79.2	83.7	76.5
OpenVLA-OFT [RSS'25]	97.6	98.4	97.9	94.5	97.1
\(\pi_{0.5}\) [arXiv'25]	98.8	98.2	98.0	92.4	96.9
SpatialVLA [RSS'25]	88.2	89.9	78.6	55.5	78.1
ConsisVLA-4D	98.8	99.8	98.0	95.6	98.1

相对 OpenVLA 平均成功率从 76.5 → 98.1，即约 +21.6%。ManiSkill2 上 PickCube/StackCube/PushCube 平均 94.3%，超过 CogACT(92.5%)、GeoVLA(90.0%)、OpenVLA-OFT†(88.7%)。

效率（Table 3，与同为 7B 的 OpenVLA / OpenVLA-OFT 同设置对比）：

场景	方法	Latency↓	T-put↑	FLOPs↓	Cost↓
仿真·单臂	OpenVLA-OFT†	0.137 s	58.4 Hz	8.45 T	12.3 h
仿真·单臂	ConsisVLA-4D	0.110 s	72.7 Hz	4.59 T	8.6 h
真机·双臂	OpenVLA†	0.552 s	1.8 Hz	16.30 T	12.8 h
真机·双臂	ConsisVLA-4D	0.231 s	108.2 Hz	9.68 T	10.1 h

相对 OpenVLA，真机延迟 0.552→0.231 s（约 2.4× 加速），仿真延迟 0.254→0.110 s（约 2.3×）；FLOPs 在仿真单臂几乎砍半（8.45T→4.59T）。

消融实验¶

配置	仿真 Latency↓	T-put↑	FLOPs↓	说明
ConsisVLA-4D (full)	0.110 s	72.7 Hz	4.59 T	完整模型
w/o E3D（去掉高效 3D 感知）	0.204 s	39.2 Hz	16.83 T	延迟近翻倍、FLOPs 暴涨 3.7×

\(\alpha_l\) 衰减方式消融（Table 8，验证余弦衰减的设计）：

\(\alpha_l\) 设计	LIBERO SR↑	Real-World SR↑
余弦衰减（本文）	98.1	78.3
线性衰减（斜率 1.0）	94.4 (−3.7)	73.3 (−5.0)
线性衰减（斜率 0.1）	95.9 (−2.2)	75.0 (−3.3)

关键发现¶

效率主要来自 E3D（高效 3D 感知）：去掉它后延迟从 0.110 s 翻到 0.204 s、FLOPs 从 4.59T 涨到 16.83T，说明「先选 Top-K 物体 token + 隐式几何聚合」是把 3D/4D 能力做到比纯 2D 的 OpenVLA-OFT 还快的根本原因。
余弦衰减不是可有可无的调参：换成线性衰减 LIBERO 掉 2.2–3.7、真机掉 3.3–5.0，验证「浅层强约束吸收先验、中间层快速过渡、深层平滑退出」的导数形状确实带来稳定优化。
长程任务收益最大：LIBERO-Long 上 OpenVLA 83.7 → ConsisVLA-4D 95.6，长时序场景正是时空一致性最吃紧、本文设计最对症的地方。

亮点与洞察¶

「训练时显式监督、推理时隐式调用」的解耦很巧：CS-Thinker 把动态物体/全局深度的预测当成训练期的中间监督信号，推理时直接丢掉这些生成步骤，既拿到了 4D 推理能力又不付推理算力——这是它能比纯 2D 模型还快的关键，思路可迁移到任何「想要世界模型能力但不想付推理代价」的任务。
用 VGGT 和 DINOv2 同源做密集融合：CO-Fuser 不另起炉灶建 3D，而是看准 VGGT 的 3D 预训练本身就建立在 DINOv2 上、两者结构对齐，于是逐 block 融合两条编码流——这种「借力已有几何先验而非外接传感器」的做法是效率的来源。
Top-K=32 把效率和一致性绑在一起：选物体既裁掉冗余（256→32）又顺手对齐了跨视角物体身份，一个机制服务两个目标，比「先全保留再对齐」省得多。

局限与展望¶

缓存正文未给出 CV-Aligner / CO-Fuser / CS-Thinker 三模块逐个去除的成功率消融（只有 w/o E3D 整体效率消融和 \(\alpha_l\) 消融），各模块对最终成功率的独立贡献无法从现有数据精确拆分。⚠️ 以原文完整版/补充材料为准。
强依赖三个大型预训练编码器（SigLIP + DINOv2 + VGGT）和 OpenVLA 7B 骨干，虽然推理被压到 1/8 token，但显存/部署门槛仍不低；在更小骨干上能否保住一致性收益未验证。
VGGT 的 3D 先验质量决定上限：若场景与 VGGT 预训练分布差异大（如强反光、透明、极端光照），注入的 3D 线索可能不准，论文未充分压力测试。
时空一致性的监督依赖 CoTracker（动态）和 Depth-Anything（深度）作为伪标签，这两个外部模型的误差会传导进训练，属于隐性假设。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 VLA 从 3D 感知系统性扩展到 4D 推理，三类一致性 + 训练/推理解耦的隐式知识设计有原创性
实验充分度: ⭐⭐⭐⭐ LIBERO/ManiSkill2/RoboTwin + 两套真机平台 + 效率全维度对比，但缺三模块独立成功率消融
写作质量: ⭐⭐⭐⭐ 「人类时空一致性」的动机贯穿全文、符号体系完整，但记号密集、初读门槛偏高
价值: ⭐⭐⭐⭐⭐ 在不加传感器前提下同时提升成功率和速度（真机 +41.5%、2.4× 加速），对资源受限的真机部署很实用