Learning to Grasp Anything By Playing with Random Toys¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=NZDaMcpXZm
代码: https://lego-grasp.github.io/
领域: 机器人 / 抓取操作 / 泛化
关键词: 物体中心表征, 形状基元, 零样本抓取, 检测池化, 行为克隆

一句话总结¶

LEGO 用「球、立方体、圆柱、环」四种形状基元随机拼成的 3D 打印「玩具」来训练抓取策略，靠一个把视觉注意力锁死在目标物体上的检测池化（DetPool）机制学到物体中心表征，从而在真实 YCB 物体上零样本拿到 67% 抓取成功率，反超数据量和参数量都大上几个数量级的 VLA 大模型。

研究背景与动机¶

领域现状：机器人操作策略近年在灵巧操作、sim-to-real、长程规划上进展显著，主流泛化路线是「大规模预训练」——OpenVLA-OFT、π0-FAST 这类 VLA 靠海量域内轨迹 + 互联网多模态数据堆出来。
现有痛点：尽管堆了海量数据，策略仍难以泛化到训练中没见过的新物体，这直接限制了真实世界落地；而堆数据本身代价高昂、采集困难。
核心矛盾：人类（尤其是儿童）只玩少量简单玩具就能掌握可迁移的抓取技能，机器人却要海量真实物体才勉强泛化——泛化能力到底来自数据规模，还是来自一种更本质的表征结构？
本文目标：在最苛刻的零样本设定下——只在分布外（OOD）的随机玩具上训练、在常见真实物体上测试——验证机器人能否像孩子一样「玩玩具学会抓万物」。
核心 idea：【训练数据】 受塞尚「万物皆可分解为球/圆柱/锥」启发，用四种基元随机拼装成「塞尚玩具」作为唯一训练集；【关键机制】 发现泛化的真正钥匙不是数据而是物体中心视觉表征，并用 DetPool 把视觉编码器的注意力约束在目标物体补丁上，抹掉背景与干扰。

方法详解¶

整体框架¶

LEGO（LEarning to Grasp from tOys）= 一套 OOD 玩具数据集 + 一个物体中心策略网络。视觉编码器（MVP 预训练 ViT）配合 DetPool 抽出只含目标物体的视觉特征，与本体感觉拼接后送入 ViT-B 大小的 Transformer 策略，按行为克隆预测未来 K 步动作。训练数据完全来自随机拼装的塞尚玩具，测试时直接零样本迁移到真实物体。

flowchart LR
    A[四种基元<br/>球/立方体/圆柱/环] -->|随机拼装 1-5 个| B[塞尚玩具<br/>250 个 3D 打印]
    B -->|遥操作采集| C[抓取演示轨迹]
    C --> D[视觉编码器 ViT/MVP<br/>+ DetPool]
    D -->|物体中心特征| E[Transformer 策略 ViT-B]
    F[本体感觉 s_t] --> E
    E -->|BC / L1 损失| G[预测未来 K 步动作]
    G -.零样本.-> H[真实 YCB 物体 67%]

关键设计¶

1. 塞尚玩具：用四基元随机拼出「结构对、外观远」的 OOD 训练集。 论文要的训练物体既要保留真实物体的组合结构（这样学到的抓取知识能迁移），又要在外观上足够 OOD（这样才能真正考验泛化）。做法是选定球、立方体、圆柱、环四种基元，每个玩具随机取 1–5 个基元、允许重复、各自随机尺寸与 3D 旋转，第一个放原点、后续基元质心随机落在前一个基元内部以保证重叠成连贯整体，最后随机上四种颜色之一。由此生成 250 个玩具（2/3/4/5 基元各 27/35/38/47 个，外加单基元若干），全部既在仿真里建模又 3D 打印出来用遥操作采集真实抓取轨迹。这套「随机即多样」的生成法绕开了对真实物体数据的依赖。

2. 检测池化 DetPool：在 ViT 内部就把注意力锁死在物体上，得到物体中心表征。 这是全文反复强调的泛化钥匙。先用 SAM 2（真实）或真值掩码（仿真）拿到目标物体的分割掩码，再把掩码写进 ViT 的注意力掩码，使得物体补丁 token 与非物体补丁 token 之间不发生注意力——物体 token 因此只聚合物体自身特征，彻底屏蔽背景与干扰物；但位置编码仍保留，模型依旧知道物体在场景中的位置。编码器输出后只对物体补丁 token 做均值池化，得到最终视觉嵌入。这与「不约束注意力、只在输出端池化」的 attention/mean/CLS pooling 形成本质区别：后者的特征里仍混入背景，导致训练（玩具）与测试（真实物体）之间因外观差异巨大而无法迁移。

3. Transformer 策略与行为克隆目标：把视觉特征与本体感觉融合后直接回归动作序列。 策略以过去 \(C=16\) 步的视觉嵌入 \(e^{1:N}_t\) 和本体感觉 \(s_t\) 沿通道维拼成单 token、经 MLP 投影，再由 ViT-B 大小的 Transformer 骨干从末位 token 预测未来 \(K=16\) 步的动作 \(a_{t:t+K-1}\)。状态/动作均用绝对关节角（而非相对增量）参数化，Franka 为 8 维、H1-2 为 40 维。训练就是标准行为克隆的 \(\ell_1\) 损失：

\[\mathcal{L} = \frac{1}{K d_a}\,\lVert \hat{a}_{t:t+K-1} - a_{t:t+K-1} \rVert_1\]

消融显示策略骨干放到 86M（ViT-B）时性价比最佳，再大（307M）几乎不再提升却拖慢推理。

实验关键数据¶

主实验表格¶

仿真零样本抓取（YCB，成功率 %，随演示数变化）：

方法	250	500	1000	1500	2000	2500
OpenVLA-OFT (7B)	30.10	36.35	22.31	15.38	14.71	12.79
π0-FAST (3B)	8.85	7.60	7.69	8.56	4.23	4.13
Ours - Attn Pooling	34.71	40.10	44.23	48.27	49.81	51.63
Ours - CLS Pooling	24.71	20.29	36.92	41.44	42.40	49.81
Ours - Mean Pooling	32.98	30.38	36.15	39.90	40.29	40.58
Ours - DetPool	56.63	68.17	71.15	74.62	76.83	80.00

真实 Franka（YCB 64 物体，1500 演示）：

方法	预训练	参数量	成功率 %
OpenVLA-OFT	OXE	7B	9.47
π0-FAST（零样本）	π+75K DROID	3B	61.82
π0-FAST（微调）	π+75K DROID	3B	76.56
ShapeGrasp	GPT-4o	-	26.56
Ours	无	86M	66.67

真实 H1-2 灵巧手（13 日常物体，500 演示）：LEGO 平均 50.77%，远超 π0-FAST（26.15%）和 OpenVLA-OFT（18.46%）。

消融实验表格¶

基元重要性（移除某基元后 YCB 成功率 %）：

移除基元	100	200	500	1000
Cuboid	37.88	56.35	65.38	72.12
Sphere	44.13	47.31	61.83	63.08
Ring	44.23	67.50	68.56	72.60
Cylinder	45.29	57.60	69.52	72.31

球（Sphere）最关键——移除后掉点最多；环和圆柱影响最小。

关键发现¶

DetPool 是泛化命门：相比其余 pooling 基线，DetPool 在仿真里提升 22–48%，且随数据稳定扩展，而 attention/CLS/mean pooling 早早饱和。
VLA 大模型反而崩：π0-FAST 在小数据上过度饥渴且受 real-to-sim 域差困扰；OpenVLA-OFT 在 250–500 演示有初步效果但随数据增加迅速过拟合、性能倒退。
演示数 > 玩具多样性：增加独特玩具数有收益但快速边际递减；演示数量影响更大——一旦演示足够，15 个玩具就够实现稳健零样本迁移，与认知科学结论一致。
小模型更优：策略骨干 86M（ViT-B）已饱和，307M 无额外收益。
简单玩具贡献更大：双基元玩具对性能贡献最大，五基元玩具仍有用但影响较小（因评测集多为 2–3 部件物体）。

亮点与洞察¶

把「数据 scaling」叙事换成「表征结构」叙事：论文最有冲击力的一点是用 86M 小模型 + 1500 条玩具演示，零样本反超 3B/7B 的 VLA，强烈说明泛化的瓶颈可能不在数据量，而在视觉表征是否物体中心。
DetPool 简洁而本质：不改架构、不加损失，仅用一张掩码改写注意力 + 物体补丁均值池化，就把背景/干扰从表征里剥离，是「训练-测试外观鸿沟」问题的优雅解法。
认知科学的工程化落地：「玩玩具学抓万物」从隐喻变成可复现的数据生成流程（塞尚玩具），且实验反过来印证了「演示量比物体多样性更重要」等认知科学发现。
跨本体鲁棒：从 Franka 夹爪到 H1-2 灵巧手都能迁移，说明物体中心表征的泛化性不局限于单一末端执行器。

局限与展望¶

强依赖分割质量：DetPool 建立在 SAM 2 给出的物体掩码上，真实场景里分割失败、遮挡、透明/反光物体会直接污染物体中心表征。
只解决「抓取」单一技能：任务局限于 grasping，是否能推广到放置、插装、工具使用等需要接触动力学与精细操作的长程任务尚未验证。
基元词汇表有限：四种基元 + 随机拼装虽好用，但对极端形状（薄片、柔体、铰接物体）的覆盖力存疑；球被证明最关键也暗示词汇表选择对结果敏感。
绝对关节角 + 固定网格评测：评测在预定义网格上做，真实开放场景的位姿多样性、动态干扰下的鲁棒性还需进一步检验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「玩具学抓万物 + 物体中心表征是泛化钥匙」的视角清新且反直觉，DetPool 简洁有效，数据生成范式有启发性。
实验充分度: ⭐⭐⭐⭐ 仿真 + 两套真实机器人（夹爪/灵巧手）、与 3B/7B VLA 对比、pooling/基元/玩具复杂度/模型尺寸/scaling 多维消融，覆盖扎实；略欠对分割失败鲁棒性与更多技能的验证。
写作质量: ⭐⭐⭐⭐⭐ 故事线清晰（认知科学动机→数据→机制→验证），图表与消融组织得当，论点-证据对应紧密。
价值: ⭐⭐⭐⭐⭐ 对「泛化是否一定靠堆数据」给出有力反例，对低成本可泛化机器人操作有现实指导意义，代码/数据/checkpoint 全开放。