跳转至

RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots

会议: ICLR 2026
arXiv: 2603.04356
代码: https://robocasa.ai (项目主页,含开源代码和模型)
领域: 机器人学 / 仿真基准 / 通用机器人
关键词: 仿真平台, 家庭移动操作, 多任务学习, 基础模型训练, 终身学习

一句话总结

RoboCasa365 构建了一个包含 365 个日常厨房任务、2500 个多样化厨房场景和超过 2000 小时机器人交互数据的大规模仿真基准,系统评估了多任务学习、基础模型训练和终身学习三大范式下通用机器人策略的性能表现,发现预训练数据的任务多样性是提升下游泛化能力的关键因素。

研究背景与动机

领域现状:近年来机器人学习快速发展,π₀、π₀.₅、GR00T N1.5 等大规模机器人基础模型相继出现,展示了在新物体、新环境和新任务上的泛化能力。

现有痛点:训练通用机器人需要海量数据,但现有真实世界数据集在多样性和任务覆盖上仍然有限;真实世界评估耗资巨大、噪声明显,难以进行可复现的系统性比较。

核心矛盾:现有仿真框架(如 RLBench、LIBERO、robosuite 等)任务数量少、环境多样性低、缺乏大规模配套数据集,无法支撑对通用机器人策略的系统研究。大多数围绕简单桌面操作或单房间场景,无法回答"任务多样性、环境变化、数据规模如何影响泛化"这一核心问题。

本文目标:(a) 构建一个足够大规模、足够多样化的仿真基准;(b) 提供系统性的评估协议,覆盖多任务学习、基础模型预训练+微调、终身学习三种范式;(c) 通过大量实验分析影响通用机器人性能的关键因素。

切入角度:在已有 RoboCasa 平台基础上大幅扩展——从 100 个场景扩展到 2500 个,从数十个任务扩展到 365 个,从 100K 演示扩展到 500K+ 演示,打造"家庭厨房"领域的 ImageNet 级别基准。

核心 idea:通过极大规模的任务-场景-数据三维扩展,构建首个同时满足"大规模任务、大规模场景、大规模数据、系统性基准"四个条件的机器人仿真框架。

方法详解

整体框架

RoboCasa365 的 pipeline 由四个核心组件构成:资产库(Assets)→ 场景(Scenes)→ 任务(Tasks)→ 数据集(Datasets)。资产库提供 3D 物体和可交互设备;场景将资产组合成多样化的厨房环境;任务定义了机器人需要完成的目标行为;数据集通过人工遥操作和 MimicGen 合成两种方式生成大规模演示轨迹。最终,三个基准测试协议(多任务学习、基础模型训练、终身学习)利用这些数据进行系统性评估。

仿真基于 robosuite + MuJoCo 物理引擎,以 20Hz 频率运行。机器人使用 Franka Panda 机械臂 + Omron 移动底座,动作空间为 12 维(7 维末端执行器 + 5 维移动底座)。

关键设计

  1. 大规模资产扩展

    • 功能:将可交互设备从 RoboCasa 的 4 类 20 个扩展到 12 类 456 个,新增烤面包机、搅拌机、电水壶等;3D 物体新增 57 个类别
    • 核心思路:每类设备包含 20-50 个不同实例,确保外观多样性足以支撑泛化研究;所有设备均为关节化 MJCF 模型,支持开关门、按钮、旋钮等交互
    • 设计动机:充足的实例多样性是研究 generalization to novel instances 的前提;之前 RoboCasa 的冰箱、烤箱、洗碗机甚至不可关节化操作
  2. 2500 个多样化厨房场景

    • 功能:构建"预训练场景"和"目标场景"两个不重叠的场景集合
    • 核心思路:从 Zillow 房产平台采集 50 个美国真实厨房的户型图,构建 50 种 layout;独立设计 50 种 style(材质/设备/纹理选择),layout × style = 2500 个预训练场景。另有 10 个目标场景用于微调和评估
    • 设计动机:layout 和 style 解耦的设计使得场景组合数量呈乘法增长;预训练和目标场景的 style 不重叠,可以严格测试环境泛化能力。真实房源来自湾区、奥斯汀、丹佛、波士顿、亚特兰大五个地区,确保地理多样性
  3. 365 个日常任务体系

    • 功能:定义 65 个原子任务(单技能)+ 300 个组合任务(多技能序列),覆盖 60 种日常活动(如烧水、烤面包、冲咖啡、洗碗、储存剩菜等)
    • 核心思路:基础技能体系包含 8 种:抓放、开关门、开关抽屉、转杠杆、转旋钮、按按钮、插入、导航。组合任务通过 LLM 生成任务蓝图(活动→任务名+描述+涉及物体+技能序列),然后人工编码实现。任务长度从 1 个子任务到 15+ 个子任务不等
    • 设计动机:原子任务测试单步操作能力,组合任务测试长程推理和规划能力;220 个任务需要移动操作(mobile manipulation),145 个不需要,覆盖了两种重要设定
  4. 大规模数据集构建

    • 功能:通过人工遥操作 + MimicGen 合成生成超过 2000 小时的数据
    • 核心思路:预训练数据 — 300 个任务各 100 条人工演示(30K 条,404 小时)+ 60 个原子任务各 10K 条 MimicGen 合成数据(600K 条,1615 小时);目标数据 — 50 个代表性任务各 500 条人工演示(25K 条,208 小时)
    • 设计动机:MimicGen 以 100× 倍率扩展原子任务数据,但后续实验证明合成数据质量参差不齐,反而可能降低下游性能——这一发现本身就很有价值
  5. 三级目标任务划分

    • 功能:将 50 个目标任务分为 Atomic(18 个)、Composite-Seen(16 个,预训练中见过)、Composite-Unseen(16 个,预训练中未见)
    • 核心思路:三个分组分别测试基本操作能力、已见组合任务的迁移能力、以及零样本泛化到全新组合任务的能力
    • 设计动机:这种分层设计使得不同能力维度的评估可以解耦分析

训练策略

所有实验统一使用语言条件化的视觉策略。对比了四种 SOTA 方法:

  • Diffusion Policy:基于扩散模型的视觉运动策略
  • π₀:视觉-语言-动作流匹配模型
  • π₀.₅:π₀ 的增强版本,开放世界泛化
  • GR00T N1.5:NVIDIA 的开源人形机器人基础模型

所有 VLA 模型均使用公开发布的预训练检查点作为基础进行微调。基础模型训练实验中,先在全部预训练数据上训练,再分别在三组目标数据上微调,比较 10%/30%/100% 不同数据量的效果。

实验关键数据

多任务学习结果

任务分组 Diffusion Policy π₀ π₀.₅ GR00T N1.5
Atomic 15.7% 36.3% 39.6% 43.0%
Composite-Seen 0.2% 5.2% 7.1% 9.6%
Composite-Unseen 1.25% 0.7% 1.2% 4.4%
平均 6.1% 15.0% 16.9% 20.0%

GR00T N1.5 在所有分组上均表现最佳,Diffusion Policy 最差,说明高容量 VLA 模型在大规模多任务数据上的拟合能力更强。所有方法在 Composite-Unseen 上表现极差,通用性仍是开放挑战。

基础模型训练结果

任务类型 仅预训练 仅目标10% 仅目标30% 仅目标100% 预训练+目标10% 预训练+目标30% 预训练+目标100%
Atomic 41.9% 38.7% 50.6% 60.6% 56.9% 59.1% 68.5%
Composite-Seen 0.0% 11.0% 22.7% 35.0% 25.4% 34.6% 40.6%
Composite-Unseen 0.2% 11.2% 27.5% 33.3% 22.7% 30.8% 42.1%
平均 15.1% 21.0% 34.3% 43.7% 35.9% 42.2% 51.1%

预训练带来约 3× 数据效率提升:预训练+10% 目标数据的性能(35.9%)接近仅用 30% 目标数据的性能(34.3%)。在 Composite-Unseen 上,预训练+100% 目标数据达到 42.1%,远超仅用目标数据的 33.3%,说明预训练对未见任务的泛化增益尤为显著。

预训练数据组成分析

预训练数据 Avg (10% target) Avg (100% target)
无预训练 21.0% 43.7%
Human50 (50 任务) 34.7% 50.0%
Human300 (300 任务) 40.0% 52.5%
Human300 + MG60 (合成) 35.9% 51.1%

关键发现:(1) 仅使用人工数据(Human300)的效果优于加入 MimicGen 合成数据(Human300+MG60),因为合成数据质量参差不齐;(2) 任务多样性从 50→300 带来显著提升,尤其在低数据量(10%)条件下;(3) 对 Composite-Unseen 任务的提升最为明显(+8.5% at 10%),说明任务多样性对新任务泛化至关重要。

终身学习结果

训练阶段 Atomic 2-3阶段任务 4-5阶段任务 6+阶段任务
Phase 1 41.5% - - -
Phase 2 13.9% 24.5% - -
Phase 3 13.9% 4.8% 11.3% -
Phase 4 10.6% 1.7% 2.7% 4.3%

终身学习面临严重的灾难性遗忘:Atomic 任务成功率从 Phase 1 的 41.5% 降到 Phase 4 的 10.6%;长程任务本身也更难学习(对角线成功率递减:41.5% → 24.5% → 11.3% → 4.3%)。

真实世界迁移

方法 关电水壶盖 取烤箱物品 柜台→橱柜 放碗架 平均
仅真实 70% 70% 52% 55% 61.8%
仿真+真实 70% 100% 84% 65% 79.8%

使用仿真数据联合训练后平均成功率从 61.8% 提升至 79.8%(+18.1%),验证了仿真基准对真实世界的实用价值。

亮点与洞察

  • 数据质量 > 数据数量的实证:MimicGen 合成数据将原子任务数据量扩大了 100×,但加入后下游性能反而下降。这在 Robot Foundation Model 的数据策略上发出警示——盲目扩大合成数据规模可能适得其反,筛选和质量控制是关键。
  • 任务多样性的非线性收益:50→300 任务的预训练数据扩展在低数据 regime 下带来了近 2× 的提升,且对未见任务的增益超过对已见任务的增益,揭示了"任务多样性是泛化的燃料"这一关键洞见。
  • layout × style 解耦的场景生成:通过将厨房空间布局和视觉风格解耦,50×50 组合生成 2500 个场景,巧妙地在有限建模成本下实现了指数级场景多样性。这一设计思路可以迁移到其他需要大规模环境变化的领域(如自动驾驶场景生成)。
  • LLM 辅助的任务系统设计:用 LLM 生成活动列表→任务蓝图→人工编码的管线,平衡了任务多样性和质量控制,比纯人工设计或纯自动化都更实用。

局限与展望

  • 仅限厨房场景:所有 2500 个场景都是厨房,结论能否迁移到卧室、客厅、办公室等其他家庭/商业环境尚不确定。
  • Sim-to-Real Gap:虽然验证了仿真+真实联合训练的有效性,但只在 4 个简单任务上做了真实世界对比,且使用了特定的相机视角对齐方法,可推广性有限。
  • MimicGen 数据质量问题:论文发现合成数据降低了性能但未深入分析原因,也未尝试数据筛选/加权策略。开发更有效利用大规模混合质量数据集的方法是重要的未来方向。
  • 终身学习基准设计较简单:四阶段顺序学习的设置是最基本的终身学习场景,未考虑主动数据回放、弹性权重固化等经典 CL 方法的集成。
  • 物理保真度:MuJoCo 在流体、软体、布料等方面的建模能力有限,这限制了可以模拟的任务类型(如做菜、倒水等涉及流体的任务)。
  • 单一机器人形态:仅使用 Franka Panda + 移动底座,未测试双臂或人形机器人,限制了对多形态泛化的研究。

相关工作与启发

  • vs RoboCasa (RSS 2024):RoboCasa365 是 RoboCasa 的大幅扩展版(100→2500 场景,~100→365 任务,100K→500K+ 演示),增加了 MimicGen 合成数据和三种基准评估协议。本文的主要贡献在规模和系统性实验上。
  • vs LIBERO (NeurIPS 2023):LIBERO 仅有 130 个任务且环境多样性有限,专注于终身学习;RoboCasa365 任务数量是其 2.8 倍,且覆盖多任务、预训练、终身学习三种范式。
  • vs BEHAVIOR-1K (CoRL 2023):BEHAVIOR-1K 提供了 1000 个活动的多样性,但缺乏配套的大规模数据集;RoboCasa365 虽然活动数量少(60 个活动),但每个任务都配有数百条高质量演示。
  • vs ManiSkill 系列:ManiSkill 侧重通用物体操作和 GPU 并行仿真,支持更丰富的物理交互;RoboCasa365 侧重房间级场景的日常任务,二者定位互补。

评分

  • 新颖性: ⭐⭐⭐ — 核心技术贡献是工程性的规模扩展,方法论新颖性有限
  • 实验充分度: ⭐⭐⭐⭐⭐ — 四种 SOTA 方法对比 + 三种训练范式 + 数据组成消融 + 真实世界验证,实验体系非常完整
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,实验讨论深入,图表丰富
  • 价值: ⭐⭐⭐⭐ — 作为机器人通用策略的标准化评估基准,对社区有很高的基础设施价值;数据组成分析的发现对数据策略制定有直接指导意义