Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model¶
会议: ICLR2026
OpenReview: https://openreview.net/forum?id=euMVC1DO4k
论文: https://spatial-forcing.github.io/
代码: 无公开仓库
领域: 机器人 / VLA / 空间表征对齐
关键词: VLA, 空间感知, 机器人操作, 表征对齐, 3D基础模型
一句话总结¶
Spatial Forcing 用预训练 3D 基础模型 VGGT 的几何 latent 来监督 VLA 的中间视觉 token,使机器人策略在推理时不额外输入深度图或点云,也能学到更强的空间理解,并在 LIBERO、RoboTwin 和真实机器人任务上提升成功率、收敛速度和数据效率。
研究背景与动机¶
领域现状:近年的 vision-language-action(VLA)模型通常从 VLM 继承图像和语言理解能力,再通过 action tokenization、action expert 或 flow matching head 输出机器人动作。这样的路线能把大规模 2D 视觉语言预训练迁移到机器人控制,但它的视觉骨干大多只在 2D 图像上训练,看到的是语义丰富但几何不够可靠的图像表征。
现有痛点:机器人操作恰恰依赖 3D 世界里的相对位置、高度、遮挡和接触关系。已有 3D VLA 往往把深度图、点云或估计出的 3D cue 显式塞进输入端,但真实机器人里的深度传感器会受噪声、反光、遮挡和标定影响,不同平台的传感器配置也不统一;更麻烦的是,大量已有机器人数据集本身没有深度信息,显式 3D 输入会限制可扩展性。
核心矛盾:VLA 的动作 token 是条件在前面的视觉 token 和语言 token 上生成的,所以真正影响动作精度的不是模型最终能否“看懂一句话”,而是中间视觉 token 是否已经携带足够可靠的空间结构。显式加 3D 传感器可以补几何信息,却牺牲了硬件通用性;只靠 2D 预训练又无法保证视觉 token 里有可用于控制的 3D cue。
本文目标:作者希望找到一种更通用的训练范式:训练时借助外部 3D 先验把 VLA 的视觉表征往空间结构上拉,推理时仍然只用常规多视角 RGB 图像和语言指令,不增加深度输入、点云分支或额外推理开销。
切入角度:论文先做了一个 lightweight depth probing:冻结普通 VLA,只训练一个 DPT head 从 VLA 视觉 embedding 预测深度。结果显示未对齐的视觉 embedding 很难恢复出有意义的空间结构,而经过空间监督后的 embedding 能生成更接近真实深度的结果。这说明 VLA 中间层确实是一个可以被“塑形”的位置。
核心 idea:Spatial Forcing 的核心是“训练时用 VGGT 的 3D 几何表征对齐 VLA 中间视觉 token,推理时丢掉 3D teacher,只保留被迫学会空间感知的 VLA”。
方法详解¶
整体框架¶
Spatial Forcing(SF)不是给 VLA 新增一个显式 3D 输入分支,而是在训练期间把 VLA 的中间视觉 token 当作可监督的场景表示。给定机器人多视角图像和语言指令,VLA 正常生成动作;与此同时,同一组图像被送入预训练 3D 基础模型 VGGT,VGGT 产生的 pixel-level spatial representation 作为 teacher signal,监督 VLA 某一层的视觉 token 对齐到更几何化的表征空间。推理阶段只运行 VLA 本身,VGGT 和对齐损失都不参与,因此没有额外传感器依赖和推理开销。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["多视角 RGB<br/>+ 语言指令"] --> B["VLA 正常前向<br/>生成动作 token"]
A --> C["VGGT 提取<br/>3D 空间表征"]
B --> D["中间视觉 token<br/>层级选择"]
C --> E["空间表征<br/>+ 位置编码"]
D --> F["Spatial Forcing<br/>余弦对齐"]
E --> F
F --> G["动作损失 + 对齐损失<br/>联合训练"]
G --> H["推理只保留 VLA<br/>无额外 3D 输入"]
从 VLA 的形式看,模型先把多视角图像编码成视觉 token \({x_i^V}_{i=1}^N\),把语言指令编码成语言 token \({x_j^L}_{j=1}^M\),再自回归地产生动作 token:\(x_t^A \sim p_\theta(x_t^A \mid \{x_i^V\}_{i=1}^N, \{x_j^L\}_{j=1}^M, x_{<t}^A)\)。这条公式决定了为什么作者监督的是中间视觉 token,而不是只在输出动作上加约束:动作专家能否预测正确的轨迹,很大程度取决于它从前面的视觉 token 里读到的空间结构是否可靠。
关键设计¶
1. 用 VGGT latent 做隐式 3D teacher:绕开深度传感器依赖
SF 选择 VGGT(Visual Geometry Grounded Transformer)作为外部空间表征来源。VGGT 可以从一组 2D 图像直接预测相机参数、点图、深度图和点轨迹等 3D 属性;本文并不把这些显式 3D 输出喂给 VLA,而是使用 VGGT transformer backbone 的 latent representation 作为监督信号。这样做的好处是,VLA 不需要在输入端接收深度图或点云,也不需要依赖某个单独深度估计器的输出质量,但训练信号仍然来自一个已经学到多视角几何结构的模型。
这里的“隐式”很关键:SF 不要求机器人部署时也带着 VGGT 运行。VGGT 只在训练时提供表征方向,迫使 VLA 的视觉 token 逐渐包含深度、相对位置和视角一致性等信息;一旦训练完成,VLA 本身就承担空间理解。相比显式 3D VLA,这更适合传感器配置差异很大的机器人数据,也能利用那些只有 RGB 图像的大规模 demonstration 数据。
2. 对齐中间视觉 token:把空间信息放到动作生成真正会读取的位置
作者不是对最终 hidden state 或动作输出做几何约束,而是选取 VLA 某个 causal attention layer 之后的视觉 token \(x_i^V\),先经过 batch normalization \(\Gamma\) 和两层 MLP 做维度适配,再与 VGGT 对应位置的空间表征做 cosine alignment。核心损失可以写成 \(L_{align}=-\frac{1}{N}\sum_{i=1}^{N}S(MLP(\Gamma(x_i^V)), f_i^{3D}(I)+E)\),其中 \(f_i^{3D}(I)\) 是 VGGT 在对应像素位置的空间 representation,\(E\) 是额外的位置编码。
这一步解决的是 VLA 里一个容易被忽略的问题:视觉 token 在自回归生成中不仅是“输入”,也是动作 token 逐步查询的中间场景记忆。如果这些 token 本身缺少 3D 结构,动作 expert 再强也只能在贫弱的空间表示上拟合;把监督加在 token 层,就等于在动作生成前把场景表征校准到几何更合理的状态。
3. 位置编码与层级选择:既保留 token 顺序,也避免过深层丢掉视觉性
论文发现,在 VGGT target representation 上加入 positional embedding 对长时序任务尤其有帮助。原因在于 VLA 的视觉 token 会在 causal attention 里以特定顺序参与动作生成,相同的几何特征如果失去位置顺序,就很难表达“左侧碗”“右侧蔬菜”“高处方块”这类操作约束。位置编码 \(E\) 让 teacher signal 不只是一个抽象 3D feature,还保留了 token 在图像和自回归序列中的相对位置。
对齐层也不是越深越好。作者在 32 层 VLM backbone 中比较了第 1、8、16、24、32 层,发现相对深但非最深的第 24 层效果最好。直觉上,太浅的层还没有形成足够全局的任务相关表示,约束它可能在后续层被冲淡;太深的层又已经更接近语言-动作融合后的 modality-agnostic space,视觉专属性下降,不适合直接对齐 3D teacher。第 24 层处在两者之间,既能影响后续动作生成,又仍保留足够视觉结构。
4. 联合动作训练与无开销推理:让空间监督服务于控制目标
SF 最终的目标函数是 \(L_{SF}=L_{action}+\alpha L_{align}\)。其中 \(L_{action}\) 仍然是原 VLA 的动作学习损失,例如 \(L1\)、\(L2\)、cross-entropy 或 flow matching 相关损失;\(L_{align}\) 只是给视觉表征提供空间方向。附录的权重实验显示,\(\alpha\) 太小约束不足,太大会扰乱 VLA 原有视觉模态和动作预测,默认 \(\alpha=0.5\) 在对应设置下取得最好结果。
这个设计的价值在部署端尤其明显。训练时 SF 像一个空间老师,推理时老师退场,模型的输入输出接口与原始 VLA 完全一致。对于真实机器人系统来说,这意味着不需要额外标定深度传感器,不需要引入点云处理链路,也不会因为 3D 分支增加推理延迟;收益来自训练期间被重塑过的视觉 token。
一个完整示例¶
假设机器人收到指令“拿起 ramekin 上的黑色碗并放置到目标位置”,输入包括主视角和腕部相机的 RGB 图像。普通 2D VLA 可能能识别“黑色碗”和“ramekin”,但它的中间视觉 token 未必能稳定表达碗在 ramekin 上方、夹爪与碗的相对深度、以及抓取路径中的高度变化。
使用 SF 训练时,这组多视角图像会同时进入 VGGT。VGGT 的 latent 会编码多视角一致的几何结构,例如桌面、碗、容器和夹爪之间的空间关系;VLA 在第 24 层附近的视觉 token 则被 MLP 映射后与这些 latent 做余弦对齐。动作损失继续要求模型输出正确的抓取和放置轨迹,对齐损失则迫使模型在生成动作前就把“哪个物体在上面、哪里有可抓取边缘、夹爪应该从哪个空间方向接近”这类信息写入视觉 token。等到推理时,VGGT 不再出现,但 VLA 的视觉 token 已经更接近空间化表征,因此面对光照变化、目标替换或高度变化时更不容易只依赖颜色和背景捷径。
损失函数 / 训练策略¶
训练目标由动作预测损失和表征对齐损失组成。对 OpenVLA-OFT 的 LIBERO 实验,作者基于 OpenVLA-OFT 训练 150k iterations,并在 8 张 H100 上进行主要 SOTA 对比;组件分析受算力限制使用单张 H100。对 RoboTwin,作者基于 \(\pi_0\) 并使用 LoRA 在单张 H100 上训练 30k iterations。不同 base model 的动作头可以不同,SF 不依赖具体 action expert,只需要能取到中间视觉 token。
对齐 target 默认使用 VGGT latent,并添加 positional embedding。主实验中作者固定对齐相对深层的视觉 token;附录还给出一个 adaptive layer selection 策略,用类似 soft gating 的方式对多层视觉 token 加权混合,再计算对齐损失。这个自适应版本在 LIBERO 平均成功率上进一步从固定第 24 层的 96.9% 提升到 98.1%,说明“对齐哪一层”本身也是一个值得优化的空间。
实验关键数据¶
主实验¶
LIBERO 是本文最清楚展示方法定位的主实验:SF 不额外使用深度图或点云,却超过了强 2D VLA baseline,也接近甚至超过一些显式 3D VLA。尤其是在 Long 任务上,空间表征质量会影响长时序执行的每一步误差积累,因此平均 98.5% 的结果说明这种中间表征监督不是只改善短程定位。
| 方法类别 | 方法 | Spatial SR | Object SR | Goal SR | Long SR | Average SR |
|---|---|---|---|---|---|---|
| 2D VLA | \(\pi_0\) | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 |
| 2D VLA | UniVLA | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 |
| 2D VLA | OpenVLA-OFT | 97.6 | 98.4 | 97.9 | 94.5 | 97.1 |
| 显式 3D VLA | GeoVLA | 98.4 | 99.0 | 96.6 | 96.6 | 97.7 |
| 显式 3D VLA | 3D-CAVLA | 98.2 | 99.8 | 98.2 | 96.1 | 98.1 |
| 隐式 3D VLA | Spatial Forcing | 99.4 | 99.6 | 98.8 | 96.0 | 98.5 |
RoboTwin 实验使用 \(\pi_0\) 作为 base model,在 easy 和 hard 两类双臂操作任务上评估。论文图中给出的结论是 SF 在平均成功率上最高,并在 hard setting 中提升更明显;这类 hard setting 包含场景杂乱、背景纹理、光照变化和桌面高度变化,更能检验模型是否真正捕捉目标相对空间关系,而不是记住环境捷径。
| 基准 | Base model | 评估设置 | 主要结论 |
|---|---|---|---|
| LIBERO | OpenVLA-OFT | 四个任务 suite,每任务 500 trials | SF 平均 98.5%,超过 OpenVLA-OFT 97.1% 和显式 3D baseline 3D-CAVLA 98.1% |
| RoboTwin 2.0 | \(\pi_0\) | easy 每任务 100 trials,hard 每任务 300 trials | SF 获得最高平均成功率,hard tasks 上增益更明显 |
| 真实机器人 | AgileX 双臂平台 | 单臂每任务 40 trials,双臂任务 20 trials | SF 在光照、目标、高度和双臂平衡变化下均优于无 SF baseline |
消融实验¶
组件分析显示,SF 的收益既来自“对齐中间表征”这个范式,也来自 VGGT target 中的 3D 几何质量。把 target 换成 SigLIP 或 DINOv2 也能比 baseline 更好,说明表征监督本身有效;VGGT + positional embedding 最强,说明机器人控制真正缺的是与空间结构相关的视觉 token。
| 配置 | Spatial SR | Object SR | Goal SR | Long SR | Average SR | 说明 |
|---|---|---|---|---|---|---|
| Baseline,无对齐 | 96.8 | 94.8 | 92.8 | 86.2 | 92.7 | 单张 H100 组件分析的基线 |
| SigLIP target | 95.2 | 94.8 | 94.0 | 91.8 | 94.0 | 2D 图文对齐表征也能带来一定监督 |
| DINOv2 target | 93.4 | 95.2 | 93.8 | 93.8 | 94.1 | 细粒度 2D grounding 有帮助,但不如 3D teacher |
| VGGT w/o PE | 97.8 | 100.0 | 96.6 | 84.4 | 94.7 | 空间 latent 有效,但长程任务受位置顺序影响 |
| VGGT + PE | 97.2 | 99.2 | 96.8 | 94.2 | 96.9 | 最强 target 设置,Long 任务明显改善 |
对齐层的实验进一步说明,SF 不是简单“哪层都拉向 VGGT”即可。第 24 层平均 96.9% 最好,第 32 层虽然 Spatial 和 Object 很高,但 Long 只有 84.8%;这支持作者关于深层视觉专属性逐渐减弱的解释。
| 对齐层 | Spatial SR | Object SR | Goal SR | Long SR | Average SR |
|---|---|---|---|---|---|
| 第 1 层 | 96.8 | 99.4 | 99.0 | 83.0 | 94.6 |
| 第 8 层 | 96.2 | 98.4 | 95.6 | 92.4 | 95.7 |
| 第 16 层 | 97.4 | 98.8 | 95.8 | 83.2 | 93.8 |
| 第 24 层 | 97.2 | 99.2 | 96.8 | 94.2 | 96.9 |
| 第 32 层 | 98.8 | 99.4 | 96.2 | 84.8 | 94.8 |
| Adaptive | 98.6 | 99.4 | 98.8 | 95.4 | 98.1 |
训练效率和数据效率是本文比较实用的结果。SF 在相同成功率下最高实现 3.8× 更快收敛;在相同数据量下也更强,并能用 5% 数据达到 75.8% 平均成功率。对真实机器人尤其重要,因为真实 demonstration 成本远高于仿真数据。
| 实验维度 | 设置 | Average SR | 说明 |
|---|---|---|---|
| 训练 2k iterations | VGGT + PE | 72.7 | 早期训练已经可用 |
| 训练 5k iterations | VGGT + PE | 87.5 | 相比普通训练收敛更快 |
| 训练 20k iterations | VGGT + PE | 93.7 | 接近高性能区间 |
| 训练 50k iterations | VGGT + PE | 96.5 | 接近 150k 的最终结果 |
| 训练 150k iterations | VGGT + PE | 96.9 | 组件分析固定设置 |
| 1% 数据 | VGGT + PE | 42.3 | 极低数据下仍可学习部分空间 cue |
| 5% 数据 | VGGT + PE | 75.8 | 论文报告约 5.9× 数据效率收益 |
| 100% 数据 | VGGT + PE | 96.9 | 完整数据设置 |
关键发现¶
- VGGT target 明显优于 SigLIP 和 DINOv2 target,说明 VLA 操作缺的不是普通视觉语义,而是能服务于控制的几何结构。
- positional embedding 对 Long 任务特别关键:VGGT w/o PE 的 Long SR 只有 84.4%,加入 PE 后到 94.2%,说明 token 顺序和空间位置不能被当成可有可无的细节。
- 对齐第 24 层比第 32 层更稳,说明最深层可能已经过度融合语言和动作信息,直接施加 3D 视觉监督反而不合适。
- 真实机器人结果显示,SF 在 stack glass cups、grasp right-side vegetable、place green block 和 lift pot 中都提升成功率;其中 place green block 达到 85.0%,反映出对高度变化的空间估计能力。
- 论文的 probing 和 t-SNE 分析都支持一个解释:SF 让 VLA feature 的相对结构更接近 3D teacher,但没有把 VLA feature 完全塌缩成 VGGT feature,仍保留了自身模态身份。
亮点与洞察¶
- 最巧妙的地方是把 3D 信息从“输入模态”改成“训练监督”。这让方法避开了深度传感器质量、硬件异构和数据集缺深度三重问题,同时又没有放弃 3D 基础模型已经学到的几何先验。
- SF 选中的是动作生成会直接依赖的中间视觉 token,而不是只在外部加一个辅助任务。这个位置很自然:如果视觉 token 已经空间化,后续 action expert 就能用更好的场景记忆预测动作。
- depth probing 是一个很有解释力的诊断工具。它不直接证明机器人动作一定更好,但能揭示普通 VLA embedding 里缺少可恢复的空间结构,为为什么要做表征对齐提供了直观证据。
- 对齐目标不必是显式深度图。VGGT latent 这种更高维的几何表征可能比单一 depth map 更适合作为 teacher,因为它同时吸收了多视角一致性、点图和相机几何等信息。
- 这个思路可以迁移到其他 embodied AI 任务:例如导航、移动操作、3D 场景问答都可以尝试用 3D foundation model 的 latent 监督中间视觉 token,而不是在推理时强行引入额外传感器。
局限与展望¶
- SF 依赖 VGGT 这样的 3D foundation model 作为 teacher;如果 VGGT 在机器人视角、透明物体、强反光或动态遮挡场景中产生偏差,对齐信号也可能把偏差传给 VLA。
- 论文主要展示了 LIBERO、RoboTwin 和若干真实机器人任务,虽然覆盖仿真和真实平台,但真实任务数量、场景复杂度和长期连续部署仍然有限,还不能说明所有机器人形态都能直接受益。
- 对齐层和权重 \(\alpha\) 对结果很敏感。固定第 24 层和 \(\alpha=0.5\) 在本文设置下有效,但换成其他 VLA backbone、动作头或相机配置时,可能需要重新搜索或使用 adaptive layer selection。
- SF 训练时需要额外跑 VGGT 生成 teacher representation,这会增加训练成本和工程复杂度。虽然推理无开销,但大规模机器人数据训练时仍需要考虑 teacher 预计算、存储和吞吐。
- 一个有价值的后续方向是把 SF 与显式 3D 输入结合:当深度传感器可靠时使用显式几何,当深度缺失或噪声大时使用隐式对齐,形成更鲁棒的 hybrid VLA。
相关工作与启发¶
- vs SpatialVLA: SpatialVLA 通过 depth-derived Ego3D position encoding 和 adaptive action grids 显式注入空间信息;SF 不在推理输入中加入深度,而是在训练时对齐中间视觉 token,因此部署接口更轻,也更适合只有 RGB 的数据。
- vs GeoVLA / 3D-CAVLA: GeoVLA 和 3D-CAVLA 都利用点云、深度或 3D context 来增强动作预测,优势是几何输入直接;SF 的优势是不用额外传感器也能逼近甚至超过这些方法,劣势是几何能力来自 teacher 监督,无法在推理时显式纠正 teacher 未覆盖的空间误差。
- vs ReconVLA / reconstruction supervision: 重建式监督要求模型复原图像或关注区域,可能保留大量与控制无关的纹理细节;SF 用 alignment-based supervision 直接对齐几何表征,更强调空间结构而不是像素复原。
- vs REPA / representation alignment for generation: REPA 证明对齐中间 hidden states 能让生成模型更易训练;SF 把类似思想迁移到 VLA,并把 target 从通用视觉 encoder 换成 3D foundation model,从而让表征对齐服务于机器人空间控制。
- vs depth estimator 辅助方法: 深度估计方法通常先从 RGB 估出 depth,再把 depth 作为显式观察或辅助输入;SF 不依赖估计深度图的像素精度,而是使用更抽象的 VGGT latent 作为训练约束,减少了推理阶段的误差传播链条。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把 3D foundation model latent 用作 VLA 中间 token 的隐式空间监督,思路简洁但切入位置很准。
- 实验充分度: ⭐⭐⭐⭐☆ 仿真、组件、效率、真实机器人和附录扩展都比较完整,但真实任务规模仍可继续扩大。
- 写作质量: ⭐⭐⭐⭐☆ 论文逻辑清楚,depth probing 和消融解释有说服力;部分 RoboTwin 数字主要在图中呈现,表格化程度略不足。
- 价值: ⭐⭐⭐⭐⭐ 对 VLA/机器人领域很实用,因为它在不增加推理传感器依赖的前提下补强空间能力,适合大规模 RGB demonstration 数据。