Learning to Grasp Anything By Playing with Random Toys¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=NZDaMcpXZm
代码: https://lego-grasp.github.io/
领域: 机器人 / 抓取操作 / 泛化
关键词: 物体中心表征, 形状基元, 零样本抓取, 检测池化, 行为克隆
一句话总结¶
LEGO 用「球、立方体、圆柱、环」四种形状基元随机拼成的 3D 打印「玩具」来训练抓取策略,靠一个把视觉注意力锁死在目标物体上的检测池化(DetPool)机制学到物体中心表征,从而在真实 YCB 物体上零样本拿到 67% 抓取成功率,反超数据量和参数量都大上几个数量级的 VLA 大模型。
研究背景与动机¶
- 领域现状:机器人操作策略近年在灵巧操作、sim-to-real、长程规划上进展显著,主流泛化路线是「大规模预训练」——OpenVLA-OFT、π0-FAST 这类 VLA 靠海量域内轨迹 + 互联网多模态数据堆出来。
- 现有痛点:尽管堆了海量数据,策略仍难以泛化到训练中没见过的新物体,这直接限制了真实世界落地;而堆数据本身代价高昂、采集困难。
- 核心矛盾:人类(尤其是儿童)只玩少量简单玩具就能掌握可迁移的抓取技能,机器人却要海量真实物体才勉强泛化——泛化能力到底来自数据规模,还是来自一种更本质的表征结构?
- 本文目标:在最苛刻的零样本设定下——只在分布外(OOD)的随机玩具上训练、在常见真实物体上测试——验证机器人能否像孩子一样「玩玩具学会抓万物」。
- 核心 idea:【训练数据】 受塞尚「万物皆可分解为球/圆柱/锥」启发,用四种基元随机拼装成「塞尚玩具」作为唯一训练集;【关键机制】 发现泛化的真正钥匙不是数据而是物体中心视觉表征,并用 DetPool 把视觉编码器的注意力约束在目标物体补丁上,抹掉背景与干扰。
方法详解¶
整体框架¶
LEGO(LEarning to Grasp from tOys)= 一套 OOD 玩具数据集 + 一个物体中心策略网络。视觉编码器(MVP 预训练 ViT)配合 DetPool 抽出只含目标物体的视觉特征,与本体感觉拼接后送入 ViT-B 大小的 Transformer 策略,按行为克隆预测未来 K 步动作。训练数据完全来自随机拼装的塞尚玩具,测试时直接零样本迁移到真实物体。
flowchart LR
A[四种基元<br/>球/立方体/圆柱/环] -->|随机拼装 1-5 个| B[塞尚玩具<br/>250 个 3D 打印]
B -->|遥操作采集| C[抓取演示轨迹]
C --> D[视觉编码器 ViT/MVP<br/>+ DetPool]
D -->|物体中心特征| E[Transformer 策略 ViT-B]
F[本体感觉 s_t] --> E
E -->|BC / L1 损失| G[预测未来 K 步动作]
G -.零样本.-> H[真实 YCB 物体 67%]
关键设计¶
1. 塞尚玩具:用四基元随机拼出「结构对、外观远」的 OOD 训练集。 论文要的训练物体既要保留真实物体的组合结构(这样学到的抓取知识能迁移),又要在外观上足够 OOD(这样才能真正考验泛化)。做法是选定球、立方体、圆柱、环四种基元,每个玩具随机取 1–5 个基元、允许重复、各自随机尺寸与 3D 旋转,第一个放原点、后续基元质心随机落在前一个基元内部以保证重叠成连贯整体,最后随机上四种颜色之一。由此生成 250 个玩具(2/3/4/5 基元各 27/35/38/47 个,外加单基元若干),全部既在仿真里建模又 3D 打印出来用遥操作采集真实抓取轨迹。这套「随机即多样」的生成法绕开了对真实物体数据的依赖。
2. 检测池化 DetPool:在 ViT 内部就把注意力锁死在物体上,得到物体中心表征。 这是全文反复强调的泛化钥匙。先用 SAM 2(真实)或真值掩码(仿真)拿到目标物体的分割掩码,再把掩码写进 ViT 的注意力掩码,使得物体补丁 token 与非物体补丁 token 之间不发生注意力——物体 token 因此只聚合物体自身特征,彻底屏蔽背景与干扰物;但位置编码仍保留,模型依旧知道物体在场景中的位置。编码器输出后只对物体补丁 token 做均值池化,得到最终视觉嵌入。这与「不约束注意力、只在输出端池化」的 attention/mean/CLS pooling 形成本质区别:后者的特征里仍混入背景,导致训练(玩具)与测试(真实物体)之间因外观差异巨大而无法迁移。
3. Transformer 策略与行为克隆目标:把视觉特征与本体感觉融合后直接回归动作序列。 策略以过去 \(C=16\) 步的视觉嵌入 \(e^{1:N}_t\) 和本体感觉 \(s_t\) 沿通道维拼成单 token、经 MLP 投影,再由 ViT-B 大小的 Transformer 骨干从末位 token 预测未来 \(K=16\) 步的动作 \(a_{t:t+K-1}\)。状态/动作均用绝对关节角(而非相对增量)参数化,Franka 为 8 维、H1-2 为 40 维。训练就是标准行为克隆的 \(\ell_1\) 损失:
消融显示策略骨干放到 86M(ViT-B)时性价比最佳,再大(307M)几乎不再提升却拖慢推理。
实验关键数据¶
主实验表格¶
仿真零样本抓取(YCB,成功率 %,随演示数变化):
| 方法 | 250 | 500 | 1000 | 1500 | 2000 | 2500 |
|---|---|---|---|---|---|---|
| OpenVLA-OFT (7B) | 30.10 | 36.35 | 22.31 | 15.38 | 14.71 | 12.79 |
| π0-FAST (3B) | 8.85 | 7.60 | 7.69 | 8.56 | 4.23 | 4.13 |
| Ours - Attn Pooling | 34.71 | 40.10 | 44.23 | 48.27 | 49.81 | 51.63 |
| Ours - CLS Pooling | 24.71 | 20.29 | 36.92 | 41.44 | 42.40 | 49.81 |
| Ours - Mean Pooling | 32.98 | 30.38 | 36.15 | 39.90 | 40.29 | 40.58 |
| Ours - DetPool | 56.63 | 68.17 | 71.15 | 74.62 | 76.83 | 80.00 |
真实 Franka(YCB 64 物体,1500 演示):
| 方法 | 预训练 | 参数量 | 成功率 % |
|---|---|---|---|
| OpenVLA-OFT | OXE | 7B | 9.47 |
| π0-FAST(零样本) | π+75K DROID | 3B | 61.82 |
| π0-FAST(微调) | π+75K DROID | 3B | 76.56 |
| ShapeGrasp | GPT-4o | - | 26.56 |
| Ours | 无 | 86M | 66.67 |
真实 H1-2 灵巧手(13 日常物体,500 演示):LEGO 平均 50.77%,远超 π0-FAST(26.15%)和 OpenVLA-OFT(18.46%)。
消融实验表格¶
基元重要性(移除某基元后 YCB 成功率 %):
| 移除基元 | 100 | 200 | 500 | 1000 |
|---|---|---|---|---|
| Cuboid | 37.88 | 56.35 | 65.38 | 72.12 |
| Sphere | 44.13 | 47.31 | 61.83 | 63.08 |
| Ring | 44.23 | 67.50 | 68.56 | 72.60 |
| Cylinder | 45.29 | 57.60 | 69.52 | 72.31 |
球(Sphere)最关键——移除后掉点最多;环和圆柱影响最小。
关键发现¶
- DetPool 是泛化命门:相比其余 pooling 基线,DetPool 在仿真里提升 22–48%,且随数据稳定扩展,而 attention/CLS/mean pooling 早早饱和。
- VLA 大模型反而崩:π0-FAST 在小数据上过度饥渴且受 real-to-sim 域差困扰;OpenVLA-OFT 在 250–500 演示有初步效果但随数据增加迅速过拟合、性能倒退。
- 演示数 > 玩具多样性:增加独特玩具数有收益但快速边际递减;演示数量影响更大——一旦演示足够,15 个玩具就够实现稳健零样本迁移,与认知科学结论一致。
- 小模型更优:策略骨干 86M(ViT-B)已饱和,307M 无额外收益。
- 简单玩具贡献更大:双基元玩具对性能贡献最大,五基元玩具仍有用但影响较小(因评测集多为 2–3 部件物体)。
亮点与洞察¶
- 把「数据 scaling」叙事换成「表征结构」叙事:论文最有冲击力的一点是用 86M 小模型 + 1500 条玩具演示,零样本反超 3B/7B 的 VLA,强烈说明泛化的瓶颈可能不在数据量,而在视觉表征是否物体中心。
- DetPool 简洁而本质:不改架构、不加损失,仅用一张掩码改写注意力 + 物体补丁均值池化,就把背景/干扰从表征里剥离,是「训练-测试外观鸿沟」问题的优雅解法。
- 认知科学的工程化落地:「玩玩具学抓万物」从隐喻变成可复现的数据生成流程(塞尚玩具),且实验反过来印证了「演示量比物体多样性更重要」等认知科学发现。
- 跨本体鲁棒:从 Franka 夹爪到 H1-2 灵巧手都能迁移,说明物体中心表征的泛化性不局限于单一末端执行器。
局限与展望¶
- 强依赖分割质量:DetPool 建立在 SAM 2 给出的物体掩码上,真实场景里分割失败、遮挡、透明/反光物体会直接污染物体中心表征。
- 只解决「抓取」单一技能:任务局限于 grasping,是否能推广到放置、插装、工具使用等需要接触动力学与精细操作的长程任务尚未验证。
- 基元词汇表有限:四种基元 + 随机拼装虽好用,但对极端形状(薄片、柔体、铰接物体)的覆盖力存疑;球被证明最关键也暗示词汇表选择对结果敏感。
- 绝对关节角 + 固定网格评测:评测在预定义网格上做,真实开放场景的位姿多样性、动态干扰下的鲁棒性还需进一步检验。
相关工作与启发¶
- VLA 大模型路线(OpenVLA-OFT、π0-FAST):代表「大规模预训练求泛化」的主流,本文作为对照组直接挑战其数据/参数效率。
- 训练-free 几何分解(ShapeGrasp):用 LLM 把物体几何分解再选可抓部位,与本文「形状基元」思路在精神上呼应,但本文是从基元生成训练数据而非推理时分解。
- 形状基元抽象(Marr & Nishihara、Tulsiani 等):把复杂物体表示为简单几何体的经典视觉认知思想,是塞尚玩具的理论根基。
- 启发:「用 OOD 合成数据 + 物体中心表征替代海量真实数据」是一条很值得迁移到其他操作技能、甚至导航/移动操作的范式;DetPool 这种「掩码改写注意力」的轻量手段也可直接嫁接到别的视觉策略上。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 「玩具学抓万物 + 物体中心表征是泛化钥匙」的视角清新且反直觉,DetPool 简洁有效,数据生成范式有启发性。
- 实验充分度: ⭐⭐⭐⭐ 仿真 + 两套真实机器人(夹爪/灵巧手)、与 3B/7B VLA 对比、pooling/基元/玩具复杂度/模型尺寸/scaling 多维消融,覆盖扎实;略欠对分割失败鲁棒性与更多技能的验证。
- 写作质量: ⭐⭐⭐⭐⭐ 故事线清晰(认知科学动机→数据→机制→验证),图表与消融组织得当,论点-证据对应紧密。
- 价值: ⭐⭐⭐⭐⭐ 对「泛化是否一定靠堆数据」给出有力反例,对低成本可泛化机器人操作有现实指导意义,代码/数据/checkpoint 全开放。