From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors¶

会议: ICLR 2026
arXiv: 2510.17439
代码: 有
领域: 机器人
关键词: VLA模型, 3D空间理解, 空间基础模型, 模态可迁移性, 机器人操控

一句话总结¶

提出 FALCON（From Spatial to Action），通过将空间基础模型的丰富 3D 空间 token 注入到 Action Head 而非 VLM 主干中，实现了 VLA 模型的强 3D 空间感知，同时保持仅 RGB 到 RGB-D 的灵活模态切换，在仿真和真实世界任务中均达到 SOTA。

研究背景与动机¶

现有 VLA 模型大多构建于 2D 编码器之上，但需要在 3D 物理世界中执行操控任务，这造成了关键的空间推理鸿沟。具体有三个层面的问题：

空间表示不足：2D VLM 缺乏显式 3D 感知，难以泛化到涉及几何、深度和空间关系推理的场景

模态可迁移性差：现有 3D 增强方法要么依赖特定传感器（点云/深度图），传感器不可用时直接失效；要么注入弱 3D 线索（如伪深度估计），信号不足以捕获鲁棒的 3D 先验

对齐困难：将空间 embedding 与文本 token 拼接会破坏原有的视觉-语言对齐，3D 数据稀缺使得重新对齐困难，导致零样本泛化退化

方法详解¶

整体框架¶

FALCON 把 VLA 拆成「大脑皮层 + 小脑」两条通路：2D VLM（Kosmos-2，~1.6B）负责读懂图像和语言指令，吐出语义 action token \(\hat{\mathbf{t}}_{\text{act}}\)；空间侧由 Embodied Spatial Model（ESM，基于空间基础模型 VGGT，~1.0B）从 RGB 中抽出富含几何的 3D 空间 token \(\mathbf{T}_{\text{spl}}\)，期间可选地把深度图 / 相机位姿当作随机注入的额外条件。两路表示不在 VLM 输入端拼接，而是汇到 Spatial-Enhanced Action Head 做逐元素加法融合，再生成机器人动作，全模型约 2.9B 参数。这种「空间信息绕开 VLM、只在动作头注入」的拓扑，是后续所有设计的出发点。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IMG["RGB 图像 + 语言指令"]
    IMG --> VLM["2D VLM (Kosmos-2)<br/>语义理解"]
    IMG --> DINO["DINO 编码<br/>视觉 token"]
    VLM --> TACT["语义 action token"]
    DINO --> ESM["Embodied Spatial Model<br/>VGGT 几何先验提取"]
    COND["可选 3D 条件 + 随机注入<br/>深度图 / 相机位姿伯努利开关"] -.-> ESM
    ESM --> TSPL["空间 token (3D 几何)"]
    TACT --> HEAD["逐元素加法融合<br/>(Spatial-Enhanced Action Head)"]
    TSPL --> HEAD
    HEAD --> ACT["7D 机器人动作"]

关键设计¶

1. Embodied Spatial Model：用空间基础模型当几何先验提取器

VLA 的 3D 短板根源在于 2D 编码器看不到深度和几何关系。FALCON 不自己从头学 3D，而是直接借用预训练好的 VGGT：输入图像先经 DINO 编码成视觉 token \(\mathbf{T}_{\text{vis}}\)，与一个可学习相机 token \(\mathbf{t}_{\text{cam}}\) 拼接后送进空间编码器（交叉注意力 + 自注意力堆叠），输出空间 token \(\mathbf{T}_{\text{spl}} \in \mathbb{R}^{M \times D_s}\)。由于 VGGT 本身是为多视图重建（深度、点云、位姿）训练的，它的 token 天然携带稠密几何信息，比伪深度估计这类弱线索强得多，也免去了 3D 数据稀缺下从零对齐的麻烦。

2. 可选 3D 条件 + 随机注入：一个模型吃下任意传感器组合

真实部署里深度图和相机位姿时有时无，为每种配置单独训一个模型代价太高。FALCON 把这两路做成可插拔条件：相机位姿 \(P \in \mathbb{R}^7\) 经 MLP 编码为 GT camera token \(\mathbf{t}_{\text{gt-cam}}\)，替换掉那个可学习 camera token；深度图 \(D_t\) 归一化后与有效性掩码拼接，过一个 14×14 卷积得到 \(\mathbf{T}_{\text{dpt}}\)，逐元素加到图像 token 上。关键在于训练时这两路是否注入由两个伯努利开关 \(b_d, b_p \sim \text{Bernoulli}(p)\) 随机决定：

\[(\mathbf{T}_{\text{spl}}, \hat{\mathbf{t}}_{\text{cam}}) = \mathcal{E}_{\text{spl}}(\mathbf{T}_{\text{vis}} + b_d \mathbf{T}_{\text{dpt}}, b_p \mathbf{t}_{\text{gt-cam}} + (1-b_p)\mathbf{t}_{\text{cam}})\]

这样同一组权重在「纯 RGB」「RGB-D」「带位姿」之间都见过训练信号，测试时缺哪路都不会崩，有哪路就能顺势增强，模态可以灵活切换。

3. 在 Action Head 用逐元素加法融合：保护 VLM，零额外参数

把空间 embedding 直接拼进 VLM 输入会冲掉预训练好的视觉-语言对齐，零样本泛化随之退化——这是现有 3D 增强方法的通病。FALCON 干脆让空间信息绕过 VLM，只在动作头汇合：空间 token 先经 max-pooling 压成单一向量 \(\mathbf{t}_{\text{spl}}\)，再过一个轻量 MLP 适配器投影进 VLM 特征空间 \(\widetilde{\mathbf{t}}_{\text{spl}} = \mathcal{D}(\mathbf{t}_{\text{spl}})\)，然后与语义 action token 直接相加 \(\mathbf{f}_{\text{fused}} = \hat{\mathbf{t}}_{\text{act}} + \widetilde{\mathbf{t}}_{\text{spl}}\)，送入动作预测器（MLP 或 LSTM）输出 7D 动作序列。逐元素加法不引入新参数，消融里却胜过交叉注意力和 FiLM-Gated，原因正是它最不破坏 VLM 既有表示，把语义和几何当作可叠加的互补信号。

损失函数 / 训练策略¶

动作监督把 7 维拆开处理：前 6 维连续位姿用 MSE，第 7 维离散夹爪开合用 BCE，在动作块长度 \(C\) 上累加：

\[\mathcal{L} = \sum_{i=t}^{t+C-1} \text{MSE}(\hat{a}_{i,\text{pose}}, a_{i,\text{pose}}) + \lambda \cdot \text{BCE}(\hat{a}_{i,\text{gripper}}, a_{i,\text{gripper}})\]

ESM 一侧沿用 VGGT 的深度 / 点云图 / 位姿多任务空间重建监督，保住几何先验不退化。后训练分两阶段以避免一上来就扰动预训练权重：Stage 1 冻结所有预训练组件、只训轻量适配器，让空间 token 先和 VLA 特征空间粗对齐；Stage 2 再解冻 VLM 与适配器联合微调（其余仍冻结），让 VLM 隐式吸收空间线索。整个训练在 32 块 A100 上完成。

实验关键数据¶

主实验¶

CALVIN 长序列操控（ABCD→D）：

方法	1任务	2任务	3任务	4任务	5任务	平均长度↑
RT-1	84.4	61.7	43.8	32.3	22.7	2.45
RoboVLM	96.7	93.0	89.9	86.5	82.6	4.49
FALCON	97.2	93.3	90.3	88.0	84.0	4.53

CALVIN 零样本迁移（ABC→D）：

方法	平均长度↑
3D Diffuser Actor (用GT点云)	3.35
RoboVLM	4.25
FALCON (仅RGB)	4.40

SimplerEnv WidowX 机器人：

方法	Put Spoon	Put Carrot	Stack Block	Put Eggplant	平均
SpatialVLA	16.7%	25.0%	29.2%	100%	42.7%
FALCON	62.5%	41.7%	20.8%	100%	56.3%

SimplerEnv Google 机器人：

方法	Pick Coke	Move Near	Open/Close	Drawer Apple	平均
RT-2-X (55B)	78.7%	77.9%	25.0%	3.7%	46.3%
SpatialVLA	86.0%	77.9%	57.4%	0.0%	55.3%
FALCON (2.9B)	90.7%	79.2%	39.8%	41.7%	62.9%

消融实验¶

空间 token 注入位置：

注入方式	ABCD→D Avg.Len	ABC→D Avg.Len
注入VLM (FALCON_VLM-tokens)	4.00	3.79
注入Action Head (FALCON)	4.08	3.91

融合策略比较（CALVIN ABC→D）：

策略	Avg.Len↑
Cross-Attention	3.68
FiLM-Gated	3.76
Element-wise Addition	3.91

模态输入消融（CALVIN ABC→D）：

配置	Avg.Len↑
Kosmos-VLA (仅RGB, 无ESM)	3.48
Kosmos-VLA (RGB-D, 点云编码器)	3.98
FALCON (仅RGB)	3.91
FALCON (RGB-D)	3.97
FALCON (训练用RGB-D, 测试去掉D)	3.95

关键发现¶

Action Head 注入 >> VLM 注入：将空间 token 注入 VLM 会破坏预训练语义表示，导致泛化退化（3.91 → 3.79）；注入 Action Head 则保持 VLM 完整性
最简单的融合最优：逐元素加法优于交叉注意力和 FiLM-Gated，0 额外参数且效果最好
仅 RGB 超越显式 3D 输入：FALCON 仅用 RGB 即超越了使用 GT 点云的 3D Diffuser Actor（4.40 vs 3.35）
模态灵活切换：训练时加入深度/位姿，测试时移除仍保持高性能（3.97 → 3.95），反之亦然
真实世界空间理解显著领先：在需要不同物体大小/高度感知的任务中，FALCON 成功率远超基线
少样本适应能力强：在 Few-shot 设置中比第二名高出 27%

亮点与洞察¶

大脑分工类比精准：VLM 负责高级语义（大脑皮层），Action Head 负责精细运动控制并整合空间信息（小脑），这个设计直觉简单但效果显著
随机条件策略优雅：通过 Bernoulli 随机开关在训练时随机注入/不注入深度和位姿，单一模型实现多模态灵活切换，避免了为每种传感器配置训练不同模型
空间基础模型的新应用：首次将 DUSt3R/VGGT 系列的空间重建 token 用作 VLA 的几何先验，打通了重建与控制
仅 RGB 超越 GT 点云：说明空间基础模型学到的隐式 3D 表示比显式点云更适合作为策略网络的输入

局限与展望¶

静态相机假设：ESM 处理第三视角静态相机图像，对于移动基座机器人自身视角变化的场景适用性有待验证
桌面操控为主：实验聚焦于桌面操控任务，导航和全身运动控制场景未涉及
ESM 的 1B 参数开销：总 2.9B 参数中 ESM 占 1B，对边缘部署的实时性影响需评估
空间基础模型的替换性：当前基于 VGGT，未来更好的空间基础模型能否即插即用替换有待验证
Open X-Embodiment 预训练数据缺乏 3D 标注：随机条件策略虽然缓解了这个问题，但有对齐 3D 标注的数据集可能进一步提升性能

评分¶

新颖性: ⭐⭐⭐⭐ — Action Head 注入 + ESM 随机条件策略的组合设计具有原创性
实验充分度: ⭐⭐⭐⭐⭐ — 三仿真基准 + 11 个真实任务 + 完善的消融研究，覆盖极为全面
写作质量: ⭐⭐⭐⭐ — 动机清晰、三个limitation对应三个设计贡献的结构清晰
价值: ⭐⭐⭐⭐⭐ — 实用性极强，仅 RGB 即可部署，有传感器时进一步增强