A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation¶

会议: ICCV 2025
arXiv: N/A (CVF OpenAccess)
代码: https://a-embodied.github.io/A0/
领域: 图像生成
关键词: 机器人操控, 空间可供性, 层次化模型, 扩散模型, 跨平台泛化

一句话总结¶

提出 A0，一个层次化可供性感知扩散模型，通过预测以物体为中心的接触点和后接触轨迹（Embodiment-Agnostic Affordance Representation），将操控任务分解为高层空间理解和低层动作执行，在 100 万接触点数据上预训练后可跨 Franka/Kinova/Realman/Dobot 四种平台泛化。

研究背景与动机¶

为什么现有方法在空间可供性上不足？ 机器人操控的核心挑战在于理解物体的"哪里"（where）可以交互和"如何"（how）交互——即空间可供性。现有方法分两大类：

模块化方法（MOKA、ReKep）：利用大视觉模型进行空间理解，但缺乏对物体空间和物理属性的深度理解，特别是无法捕捉物体的可操作性

端到端 VLA 方法（π0、RDT）：直接生成动作序列，但不充分理解空间位置，导致在复杂任务（如擦白板、堆叠物体）上表现不佳

为什么以物体为中心？ 现有可供性方法通常出两类表示：热力图（Heatmap）或密集点流（flow），计算开销大且与具体机器人形态耦合。以物体为中心的接触点 + 轨迹表示天然是形态无关的，只需预测物体上的关键点，不依赖特定机器人的运动学。

为什么需要层次化？ 直接从视觉到动作的端到端映射过于困难。将任务分解为"理解在哪里怎么操作"和"实际执行操作"两个层次，每层的学习目标更简单、更可迁移。

方法详解¶

整体框架¶

A0 将机器人操控任务分解为两个层次：

高层空间可供性理解：预测物体的接触点和后接触轨迹（A0 模型的核心）
低层动作执行：将 2D 预测投影到 3D 空间，估计抓取姿态，执行运动

关键设计¶

Embodiment-Agnostic Affordance Representation¶

统一表示定义为：$R = R_R \cup R_H \cup R_C = \{(I, L, C, T) | C = (c^{2D}_0), T = (t^{2D}_0, t^{2D}_1, t^{2D}_2, \cdots)\}$

$I$：以物体为中心的 RGB 图像
$L$：自然语言操控指令
$C$：接触点（2D 坐标）
$T$：后接触轨迹（2D 关键路径点序列）

为什么要统一不同数据源？ 可供性知识分布在多种数据中：真实机器人数据 $R_R$（精确但稀少）、手-物交互数据 $R_H$（丰富的交互知识）、自定义/仿真数据 $R_C$（可控但有 sim-to-real gap）。统一表示将它们融合为相同格式。

数据集组成： - PixMo-One-Point：100 万单接触点标注（互联网图像） - HOI4D-22k：22,000 条人-物交互轨迹 - DROID-3k：3,056 条真实机器人操控轨迹 - ManiSkill-5k：4,965 条仿真轨迹

A0 模型结构¶

基于 Diffusion Transformer（DiT）架构，包含 N=28 层，1B 参数量：

输入：扩散时间步 $k$ + 噪声路径点 $x^k_{t:t+T}$ 条件：观测图像 $I_{t-1:t}$（当前帧 + 前一帧）+ 语言指令 $\ell$

路径点定义为可供性表示：$x_{t:t+T}$，其中 $x_t = (u, v) \in [0,1]^2$，$T=5$ 为 chunk size。

Position Offset Attention（POA）：为什么需要运动信息？物体在帧间的运动对于理解操控进展至关重要。POA 将相邻帧的视觉 token 相减得到运动 token $I^i_m = I^i_t - I^i_{t-1}$，再与当前帧拼接：$o_t = \text{concat}([I^i_t, I^i_m], \text{dim}=1)$。

Spatial Information Aggregation Layer（SIAL）：最后一层非线性 MLP 解码器，将潜空间映射回物理坐标空间。为什么需要额外的投影层？ DiT 的输出在潜空间中，直接解码可能无法精确映射到像素坐标，SIAL 提供了从潜空间到物理空间的精确坐标变换。

编码器： - 视觉编码器：预训练 SigLiP（400M） - 语言编码器：预训练 Qwen2.5-7B - 图像和文本 token 通过交替注入的 cross-attention 机制条件化扩散过程

动作执行模块¶

2D-to-3D 投影：$X_i = D(x_i) K^{-1} \tilde{x}_i$，利用深度图和相机内参矩阵
抓取姿态估计：查询 GraspNet 生成候选，选择最近接触点的候选：$G^* = \arg\min_{G \in \mathcal{G}} \|G - X_t\|$
路径点选择执行：利用 VLM 选择高度类别，在 SE(3) 空间生成平滑轨迹

损失函数 / 训练策略¶

预训练阶段（80K 步，5天，4×A100）：仅使用单帧图像和第一个路径点（接触点），MSE 损失： $$L_p(\theta) = \frac{1}{n}\sum_{i=1}^n ((x^0_t)_i - (f_\theta(k, x^k_t, I_t, \ell))_i)^2$$

监督微调阶段（30K 步，50小时）：扩展到 T 个路径点，加入运动信息，添加前向扩散噪声后预测原始路径点： $$L_s(\theta) = \frac{1}{n}\sum_{i=1}^n ((x^0_{t:t+T})_i - (f_\theta(k, x^k_{t:t+T}, I_{t-1:t}, \ell))_i)^2$$

推理时使用快速 ODE 求解器，仅需 $K_D = 5$ 步去噪（vs 训练时 $K_F = 1000$ 步）。

实验关键数据¶

主实验¶

多平台真实世界性能对比（Table 2，每任务 20 次试验）：

机器人	方法	Place Object	Open Drawer	Press Button	Wipe Board	平均成功率
Kinova	MOKA	70	50	30	30	45.00
Kinova	ReKep	75	55	5	0	33.75
Kinova	A0-1B	60	65	40	50	53.75
Franka	Magma	25	10	30	0	16.25
Franka	Molmo	60	40	55	20	43.75
Franka	A0-1B	60	75	70	45	62.50

vs VLA 方法（Table 3，Kinova 平台）：

方法	Place Object	Open Drawer	Press Button	Wipe Board	平均	步数
RDT-1B	20	0	25	0	11.25	25-50
π0	40	20	10	10	20.00	25-50
π0 + FAST	35	10	30	0	18.75	25-50
A0-1B	60	65	40	50	53.75	4-5

在 Wipe Board 任务上，A0 的成功率比 π0 高出 40 个百分点，执行步数仅需 4-5 步（vs 25-50 步）。

消融实验¶

网络结构消融（Table 1，预训练后的 MAE↓）：

配置	HOI4D-22k	Maniskill-5k	DROID-3k
A0-1B	47.5	5.5	17.5
w/o POA	47.9	6.3 (+0.8)	18.5
w/o SIAL	61.1 (+13.6)	10.2 (+4.7)	19.6

SIAL 的影响最为显著：移除后 HOI4D 上 MAE 增加 13.6 像素，说明从潜空间到坐标空间的精确映射是不可或缺的。

预训练效果（Figure 4）：

迁移范式	数据集	无预训练 MAE	有预训练 MAE	减少
Real-to-Sim	Maniskill-5k	50.4	43.9	-13%
Sim-to-Real	HOI4D-22k	172.2	35.1	-80%
Sim-to-Real	DROID-3k	125.2	29.1	-77%

预训练在 Sim-to-Real 场景中的效果尤其显著，MAE 降低 77-80%。

关键发现¶

层次化 > 端到端：A0 的平均成功率比 π0 高 33.75%
单次推理 vs 多步推理：A0 仅需 4-5 个关键路径点，VLA 需要 25-50 步
轨迹任务优势突出：Wipe Board 等需要精确轨迹跟随的任务上优势最大
预训练是关键：100 万接触点定位预训练显著提升下游性能

亮点与洞察¶

以物体为中心的极简可供性表示：仅预测接触点 + 后续轨迹点，大幅降低复杂度
形态无关性的实际验证：在 4 种不同机器人上验证，这是很有说服力的
预训练 → 微调范式在机器人中的成功应用：100 万互联网接触点数据为定位能力打基础
效率优势：单次推理 4-5 步 vs 25-50 步，对实际部署非常重要
数据融合策略：将互联网数据、HOI 数据和机器人数据统一到同一表示空间

局限与展望¶

Place Object 任务在 Kinova 上不如 MOKA 和 ReKep，可能因为后两者使用了 SAM/GPT-4 等见过更多真实物体的大模型
长时序规划依赖外部 VLM 进行任务分解，非端到端
不支持方向敏感的精细操控（需要额外的 VLM 提示）
仅验证了 4 种简单的家务任务，未涉及更复杂的装配或工具使用场景
深度图质量对 2D-to-3D 投影有很大影响，但文中未讨论鲁棒性

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐