RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots¶
会议: ICLR 2026
arXiv: 2603.04356
代码: https://robocasa.ai (项目主页,含开源代码和模型)
领域: 机器人学 / 仿真基准 / 通用机器人
关键词: 仿真平台, 家庭移动操作, 多任务学习, 基础模型训练, 终身学习
一句话总结¶
RoboCasa365 构建了一个包含 365 个日常厨房任务、2500 个多样化厨房场景和超过 2000 小时机器人交互数据的大规模仿真基准,系统评估了多任务学习、基础模型训练和终身学习三大范式下通用机器人策略的性能表现,发现预训练数据的任务多样性是提升下游泛化能力的关键因素。
研究背景与动机¶
领域现状:近年来机器人学习快速发展,π₀、π₀.₅、GR00T N1.5 等大规模机器人基础模型相继出现,展示了在新物体、新环境和新任务上的泛化能力。
现有痛点:训练通用机器人需要海量数据,但现有真实世界数据集在多样性和任务覆盖上仍然有限;真实世界评估耗资巨大、噪声明显,难以进行可复现的系统性比较。
核心矛盾:现有仿真框架(如 RLBench、LIBERO、robosuite 等)任务数量少、环境多样性低、缺乏大规模配套数据集,无法支撑对通用机器人策略的系统研究。大多数围绕简单桌面操作或单房间场景,无法回答"任务多样性、环境变化、数据规模如何影响泛化"这一核心问题。
本文目标:(a) 构建一个足够大规模、足够多样化的仿真基准;(b) 提供系统性的评估协议,覆盖多任务学习、基础模型预训练+微调、终身学习三种范式;(c) 通过大量实验分析影响通用机器人性能的关键因素。
切入角度:在已有 RoboCasa 平台基础上大幅扩展——从 100 个场景扩展到 2500 个,从数十个任务扩展到 365 个,从 100K 演示扩展到 500K+ 演示,打造"家庭厨房"领域的 ImageNet 级别基准。
核心 idea:通过极大规模的任务-场景-数据三维扩展,构建首个同时满足"大规模任务、大规模场景、大规模数据、系统性基准"四个条件的机器人仿真框架。
方法详解¶
整体框架¶
RoboCasa365 的 pipeline 由四个核心组件构成:资产库(Assets)→ 场景(Scenes)→ 任务(Tasks)→ 数据集(Datasets)。资产库提供 3D 物体和可交互设备;场景将资产组合成多样化的厨房环境;任务定义了机器人需要完成的目标行为;数据集通过人工遥操作和 MimicGen 合成两种方式生成大规模演示轨迹。最终,三个基准测试协议(多任务学习、基础模型训练、终身学习)利用这些数据进行系统性评估。
仿真基于 robosuite + MuJoCo 物理引擎,以 20Hz 频率运行。机器人使用 Franka Panda 机械臂 + Omron 移动底座,动作空间为 12 维(7 维末端执行器 + 5 维移动底座)。
关键设计¶
-
大规模资产扩展:
- 功能:将可交互设备从 RoboCasa 的 4 类 20 个扩展到 12 类 456 个,新增烤面包机、搅拌机、电水壶等;3D 物体新增 57 个类别
- 核心思路:每类设备包含 20-50 个不同实例,确保外观多样性足以支撑泛化研究;所有设备均为关节化 MJCF 模型,支持开关门、按钮、旋钮等交互
- 设计动机:充足的实例多样性是研究 generalization to novel instances 的前提;之前 RoboCasa 的冰箱、烤箱、洗碗机甚至不可关节化操作
-
2500 个多样化厨房场景:
- 功能:构建"预训练场景"和"目标场景"两个不重叠的场景集合
- 核心思路:从 Zillow 房产平台采集 50 个美国真实厨房的户型图,构建 50 种 layout;独立设计 50 种 style(材质/设备/纹理选择),layout × style = 2500 个预训练场景。另有 10 个目标场景用于微调和评估
- 设计动机:layout 和 style 解耦的设计使得场景组合数量呈乘法增长;预训练和目标场景的 style 不重叠,可以严格测试环境泛化能力。真实房源来自湾区、奥斯汀、丹佛、波士顿、亚特兰大五个地区,确保地理多样性
-
365 个日常任务体系:
- 功能:定义 65 个原子任务(单技能)+ 300 个组合任务(多技能序列),覆盖 60 种日常活动(如烧水、烤面包、冲咖啡、洗碗、储存剩菜等)
- 核心思路:基础技能体系包含 8 种:抓放、开关门、开关抽屉、转杠杆、转旋钮、按按钮、插入、导航。组合任务通过 LLM 生成任务蓝图(活动→任务名+描述+涉及物体+技能序列),然后人工编码实现。任务长度从 1 个子任务到 15+ 个子任务不等
- 设计动机:原子任务测试单步操作能力,组合任务测试长程推理和规划能力;220 个任务需要移动操作(mobile manipulation),145 个不需要,覆盖了两种重要设定
-
大规模数据集构建:
- 功能:通过人工遥操作 + MimicGen 合成生成超过 2000 小时的数据
- 核心思路:预训练数据 — 300 个任务各 100 条人工演示(30K 条,404 小时)+ 60 个原子任务各 10K 条 MimicGen 合成数据(600K 条,1615 小时);目标数据 — 50 个代表性任务各 500 条人工演示(25K 条,208 小时)
- 设计动机:MimicGen 以 100× 倍率扩展原子任务数据,但后续实验证明合成数据质量参差不齐,反而可能降低下游性能——这一发现本身就很有价值
-
三级目标任务划分:
- 功能:将 50 个目标任务分为 Atomic(18 个)、Composite-Seen(16 个,预训练中见过)、Composite-Unseen(16 个,预训练中未见)
- 核心思路:三个分组分别测试基本操作能力、已见组合任务的迁移能力、以及零样本泛化到全新组合任务的能力
- 设计动机:这种分层设计使得不同能力维度的评估可以解耦分析
训练策略¶
所有实验统一使用语言条件化的视觉策略。对比了四种 SOTA 方法:
- Diffusion Policy:基于扩散模型的视觉运动策略
- π₀:视觉-语言-动作流匹配模型
- π₀.₅:π₀ 的增强版本,开放世界泛化
- GR00T N1.5:NVIDIA 的开源人形机器人基础模型
所有 VLA 模型均使用公开发布的预训练检查点作为基础进行微调。基础模型训练实验中,先在全部预训练数据上训练,再分别在三组目标数据上微调,比较 10%/30%/100% 不同数据量的效果。
实验关键数据¶
多任务学习结果¶
| 任务分组 | Diffusion Policy | π₀ | π₀.₅ | GR00T N1.5 |
|---|---|---|---|---|
| Atomic | 15.7% | 36.3% | 39.6% | 43.0% |
| Composite-Seen | 0.2% | 5.2% | 7.1% | 9.6% |
| Composite-Unseen | 1.25% | 0.7% | 1.2% | 4.4% |
| 平均 | 6.1% | 15.0% | 16.9% | 20.0% |
GR00T N1.5 在所有分组上均表现最佳,Diffusion Policy 最差,说明高容量 VLA 模型在大规模多任务数据上的拟合能力更强。所有方法在 Composite-Unseen 上表现极差,通用性仍是开放挑战。
基础模型训练结果¶
| 任务类型 | 仅预训练 | 仅目标10% | 仅目标30% | 仅目标100% | 预训练+目标10% | 预训练+目标30% | 预训练+目标100% |
|---|---|---|---|---|---|---|---|
| Atomic | 41.9% | 38.7% | 50.6% | 60.6% | 56.9% | 59.1% | 68.5% |
| Composite-Seen | 0.0% | 11.0% | 22.7% | 35.0% | 25.4% | 34.6% | 40.6% |
| Composite-Unseen | 0.2% | 11.2% | 27.5% | 33.3% | 22.7% | 30.8% | 42.1% |
| 平均 | 15.1% | 21.0% | 34.3% | 43.7% | 35.9% | 42.2% | 51.1% |
预训练带来约 3× 数据效率提升:预训练+10% 目标数据的性能(35.9%)接近仅用 30% 目标数据的性能(34.3%)。在 Composite-Unseen 上,预训练+100% 目标数据达到 42.1%,远超仅用目标数据的 33.3%,说明预训练对未见任务的泛化增益尤为显著。
预训练数据组成分析¶
| 预训练数据 | Avg (10% target) | Avg (100% target) |
|---|---|---|
| 无预训练 | 21.0% | 43.7% |
| Human50 (50 任务) | 34.7% | 50.0% |
| Human300 (300 任务) | 40.0% | 52.5% |
| Human300 + MG60 (合成) | 35.9% | 51.1% |
关键发现:(1) 仅使用人工数据(Human300)的效果优于加入 MimicGen 合成数据(Human300+MG60),因为合成数据质量参差不齐;(2) 任务多样性从 50→300 带来显著提升,尤其在低数据量(10%)条件下;(3) 对 Composite-Unseen 任务的提升最为明显(+8.5% at 10%),说明任务多样性对新任务泛化至关重要。
终身学习结果¶
| 训练阶段 | Atomic | 2-3阶段任务 | 4-5阶段任务 | 6+阶段任务 |
|---|---|---|---|---|
| Phase 1 | 41.5% | - | - | - |
| Phase 2 | 13.9% | 24.5% | - | - |
| Phase 3 | 13.9% | 4.8% | 11.3% | - |
| Phase 4 | 10.6% | 1.7% | 2.7% | 4.3% |
终身学习面临严重的灾难性遗忘:Atomic 任务成功率从 Phase 1 的 41.5% 降到 Phase 4 的 10.6%;长程任务本身也更难学习(对角线成功率递减:41.5% → 24.5% → 11.3% → 4.3%)。
真实世界迁移¶
| 方法 | 关电水壶盖 | 取烤箱物品 | 柜台→橱柜 | 放碗架 | 平均 |
|---|---|---|---|---|---|
| 仅真实 | 70% | 70% | 52% | 55% | 61.8% |
| 仿真+真实 | 70% | 100% | 84% | 65% | 79.8% |
使用仿真数据联合训练后平均成功率从 61.8% 提升至 79.8%(+18.1%),验证了仿真基准对真实世界的实用价值。
亮点与洞察¶
- 数据质量 > 数据数量的实证:MimicGen 合成数据将原子任务数据量扩大了 100×,但加入后下游性能反而下降。这在 Robot Foundation Model 的数据策略上发出警示——盲目扩大合成数据规模可能适得其反,筛选和质量控制是关键。
- 任务多样性的非线性收益:50→300 任务的预训练数据扩展在低数据 regime 下带来了近 2× 的提升,且对未见任务的增益超过对已见任务的增益,揭示了"任务多样性是泛化的燃料"这一关键洞见。
- layout × style 解耦的场景生成:通过将厨房空间布局和视觉风格解耦,50×50 组合生成 2500 个场景,巧妙地在有限建模成本下实现了指数级场景多样性。这一设计思路可以迁移到其他需要大规模环境变化的领域(如自动驾驶场景生成)。
- LLM 辅助的任务系统设计:用 LLM 生成活动列表→任务蓝图→人工编码的管线,平衡了任务多样性和质量控制,比纯人工设计或纯自动化都更实用。
局限与展望¶
- 仅限厨房场景:所有 2500 个场景都是厨房,结论能否迁移到卧室、客厅、办公室等其他家庭/商业环境尚不确定。
- Sim-to-Real Gap:虽然验证了仿真+真实联合训练的有效性,但只在 4 个简单任务上做了真实世界对比,且使用了特定的相机视角对齐方法,可推广性有限。
- MimicGen 数据质量问题:论文发现合成数据降低了性能但未深入分析原因,也未尝试数据筛选/加权策略。开发更有效利用大规模混合质量数据集的方法是重要的未来方向。
- 终身学习基准设计较简单:四阶段顺序学习的设置是最基本的终身学习场景,未考虑主动数据回放、弹性权重固化等经典 CL 方法的集成。
- 物理保真度:MuJoCo 在流体、软体、布料等方面的建模能力有限,这限制了可以模拟的任务类型(如做菜、倒水等涉及流体的任务)。
- 单一机器人形态:仅使用 Franka Panda + 移动底座,未测试双臂或人形机器人,限制了对多形态泛化的研究。
相关工作与启发¶
- vs RoboCasa (RSS 2024):RoboCasa365 是 RoboCasa 的大幅扩展版(100→2500 场景,~100→365 任务,100K→500K+ 演示),增加了 MimicGen 合成数据和三种基准评估协议。本文的主要贡献在规模和系统性实验上。
- vs LIBERO (NeurIPS 2023):LIBERO 仅有 130 个任务且环境多样性有限,专注于终身学习;RoboCasa365 任务数量是其 2.8 倍,且覆盖多任务、预训练、终身学习三种范式。
- vs BEHAVIOR-1K (CoRL 2023):BEHAVIOR-1K 提供了 1000 个活动的多样性,但缺乏配套的大规模数据集;RoboCasa365 虽然活动数量少(60 个活动),但每个任务都配有数百条高质量演示。
- vs ManiSkill 系列:ManiSkill 侧重通用物体操作和 GPU 并行仿真,支持更丰富的物理交互;RoboCasa365 侧重房间级场景的日常任务,二者定位互补。
评分¶
- 新颖性: ⭐⭐⭐ — 核心技术贡献是工程性的规模扩展,方法论新颖性有限
- 实验充分度: ⭐⭐⭐⭐⭐ — 四种 SOTA 方法对比 + 三种训练范式 + 数据组成消融 + 真实世界验证,实验体系非常完整
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,实验讨论深入,图表丰富
- 价值: ⭐⭐⭐⭐ — 作为机器人通用策略的标准化评估基准,对社区有很高的基础设施价值;数据组成分析的发现对数据策略制定有直接指导意义