RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots¶

会议: ICLR 2026
arXiv: 2603.04356
代码: https://robocasa.ai (项目主页，含开源代码和模型)
领域: 机器人学 / 仿真基准 / 通用机器人
关键词: 仿真平台, 家庭移动操作, 多任务学习, 基础模型训练, 终身学习

一句话总结¶

RoboCasa365 构建了一个包含 365 个日常厨房任务、2500 个多样化厨房场景和超过 2000 小时机器人交互数据的大规模仿真基准，系统评估了多任务学习、基础模型训练和终身学习三大范式下通用机器人策略的性能表现，发现预训练数据的任务多样性是提升下游泛化能力的关键因素。

研究背景与动机¶

领域现状：近年来机器人学习快速发展，π₀、π₀.₅、GR00T N1.5 等大规模机器人基础模型相继出现，展示了在新物体、新环境和新任务上的泛化能力。

现有痛点：训练通用机器人需要海量数据，但现有真实世界数据集在多样性和任务覆盖上仍然有限；真实世界评估耗资巨大、噪声明显，难以进行可复现的系统性比较。

核心矛盾：现有仿真框架（如 RLBench、LIBERO、robosuite 等）任务数量少、环境多样性低、缺乏大规模配套数据集，无法支撑对通用机器人策略的系统研究。大多数围绕简单桌面操作或单房间场景，无法回答"任务多样性、环境变化、数据规模如何影响泛化"这一核心问题。

本文目标：(a) 构建一个足够大规模、足够多样化的仿真基准；(b) 提供系统性的评估协议，覆盖多任务学习、基础模型预训练+微调、终身学习三种范式；(c) 通过大量实验分析影响通用机器人性能的关键因素。

切入角度：在已有 RoboCasa 平台基础上大幅扩展——从 100 个场景扩展到 2500 个，从数十个任务扩展到 365 个，从 100K 演示扩展到 500K+ 演示，打造"家庭厨房"领域的 ImageNet 级别基准。

核心 idea：通过极大规模的任务-场景-数据三维扩展，构建首个同时满足"大规模任务、大规模场景、大规模数据、系统性基准"四个条件的机器人仿真框架。

方法详解¶

整体框架¶

RoboCasa365 的 pipeline 由四个核心组件构成：资产库（Assets）→ 场景（Scenes）→ 任务（Tasks）→ 数据集（Datasets）。资产库提供 3D 物体和可交互设备；场景将资产组合成多样化的厨房环境；任务定义了机器人需要完成的目标行为；数据集通过人工遥操作和 MimicGen 合成两种方式生成大规模演示轨迹。最终，三个基准测试协议（多任务学习、基础模型训练、终身学习）利用这些数据进行系统性评估。

仿真基于 robosuite + MuJoCo 物理引擎，以 20Hz 频率运行。机器人使用 Franka Panda 机械臂 + Omron 移动底座，动作空间为 12 维（7 维末端执行器 + 5 维移动底座）。

关键设计¶

大规模资产扩展：
- 功能：将可交互设备从 RoboCasa 的 4 类 20 个扩展到 12 类 456 个，新增烤面包机、搅拌机、电水壶等；3D 物体新增 57 个类别
- 核心思路：每类设备包含 20-50 个不同实例，确保外观多样性足以支撑泛化研究；所有设备均为关节化 MJCF 模型，支持开关门、按钮、旋钮等交互
- 设计动机：充足的实例多样性是研究 generalization to novel instances 的前提；之前 RoboCasa 的冰箱、烤箱、洗碗机甚至不可关节化操作
2500 个多样化厨房场景：
- 功能：构建"预训练场景"和"目标场景"两个不重叠的场景集合
- 核心思路：从 Zillow 房产平台采集 50 个美国真实厨房的户型图，构建 50 种 layout；独立设计 50 种 style（材质/设备/纹理选择），layout × style = 2500 个预训练场景。另有 10 个目标场景用于微调和评估
- 设计动机：layout 和 style 解耦的设计使得场景组合数量呈乘法增长；预训练和目标场景的 style 不重叠，可以严格测试环境泛化能力。真实房源来自湾区、奥斯汀、丹佛、波士顿、亚特兰大五个地区，确保地理多样性
365 个日常任务体系：
- 功能：定义 65 个原子任务（单技能）+ 300 个组合任务（多技能序列），覆盖 60 种日常活动（如烧水、烤面包、冲咖啡、洗碗、储存剩菜等）
- 核心思路：基础技能体系包含 8 种：抓放、开关门、开关抽屉、转杠杆、转旋钮、按按钮、插入、导航。组合任务通过 LLM 生成任务蓝图（活动→任务名+描述+涉及物体+技能序列），然后人工编码实现。任务长度从 1 个子任务到 15+ 个子任务不等
- 设计动机：原子任务测试单步操作能力，组合任务测试长程推理和规划能力；220 个任务需要移动操作（mobile manipulation），145 个不需要，覆盖了两种重要设定
大规模数据集构建：
- 功能：通过人工遥操作 + MimicGen 合成生成超过 2000 小时的数据
- 核心思路：预训练数据 — 300 个任务各 100 条人工演示（30K 条，404 小时）+ 60 个原子任务各 10K 条 MimicGen 合成数据（600K 条，1615 小时）；目标数据 — 50 个代表性任务各 500 条人工演示（25K 条，208 小时）
- 设计动机：MimicGen 以 100× 倍率扩展原子任务数据，但后续实验证明合成数据质量参差不齐，反而可能降低下游性能——这一发现本身就很有价值
三级目标任务划分：
- 功能：将 50 个目标任务分为 Atomic（18 个）、Composite-Seen（16 个，预训练中见过）、Composite-Unseen（16 个，预训练中未见）
- 核心思路：三个分组分别测试基本操作能力、已见组合任务的迁移能力、以及零样本泛化到全新组合任务的能力
- 设计动机：这种分层设计使得不同能力维度的评估可以解耦分析

训练策略¶

所有实验统一使用语言条件化的视觉策略。对比了四种 SOTA 方法：

Diffusion Policy：基于扩散模型的视觉运动策略
π₀：视觉-语言-动作流匹配模型
π₀.₅：π₀ 的增强版本，开放世界泛化
GR00T N1.5：NVIDIA 的开源人形机器人基础模型

所有 VLA 模型均使用公开发布的预训练检查点作为基础进行微调。基础模型训练实验中，先在全部预训练数据上训练，再分别在三组目标数据上微调，比较 10%/30%/100% 不同数据量的效果。

实验关键数据¶

多任务学习结果¶

任务分组	Diffusion Policy	π₀	π₀.₅	GR00T N1.5
Atomic	15.7%	36.3%	39.6%	43.0%
Composite-Seen	0.2%	5.2%	7.1%	9.6%
Composite-Unseen	1.25%	0.7%	1.2%	4.4%
平均	6.1%	15.0%	16.9%	20.0%

GR00T N1.5 在所有分组上均表现最佳，Diffusion Policy 最差，说明高容量 VLA 模型在大规模多任务数据上的拟合能力更强。所有方法在 Composite-Unseen 上表现极差，通用性仍是开放挑战。

基础模型训练结果¶

任务类型	仅预训练	仅目标10%	仅目标30%	仅目标100%	预训练+目标10%	预训练+目标30%	预训练+目标100%
Atomic	41.9%	38.7%	50.6%	60.6%	56.9%	59.1%	68.5%
Composite-Seen	0.0%	11.0%	22.7%	35.0%	25.4%	34.6%	40.6%
Composite-Unseen	0.2%	11.2%	27.5%	33.3%	22.7%	30.8%	42.1%
平均	15.1%	21.0%	34.3%	43.7%	35.9%	42.2%	51.1%

预训练带来约 3× 数据效率提升：预训练+10% 目标数据的性能（35.9%）接近仅用 30% 目标数据的性能（34.3%）。在 Composite-Unseen 上，预训练+100% 目标数据达到 42.1%，远超仅用目标数据的 33.3%，说明预训练对未见任务的泛化增益尤为显著。

预训练数据组成分析¶

预训练数据	Avg (10% target)	Avg (100% target)
无预训练	21.0%	43.7%
Human50 (50 任务)	34.7%	50.0%
Human300 (300 任务)	40.0%	52.5%
Human300 + MG60 (合成)	35.9%	51.1%

关键发现：(1) 仅使用人工数据（Human300）的效果优于加入 MimicGen 合成数据（Human300+MG60），因为合成数据质量参差不齐；(2) 任务多样性从 50→300 带来显著提升，尤其在低数据量（10%）条件下；(3) 对 Composite-Unseen 任务的提升最为明显（+8.5% at 10%），说明任务多样性对新任务泛化至关重要。

终身学习结果¶

训练阶段	Atomic	2-3阶段任务	4-5阶段任务	6+阶段任务
Phase 1	41.5%	-	-	-
Phase 2	13.9%	24.5%	-	-
Phase 3	13.9%	4.8%	11.3%	-
Phase 4	10.6%	1.7%	2.7%	4.3%

终身学习面临严重的灾难性遗忘：Atomic 任务成功率从 Phase 1 的 41.5% 降到 Phase 4 的 10.6%；长程任务本身也更难学习（对角线成功率递减：41.5% → 24.5% → 11.3% → 4.3%）。

真实世界迁移¶

方法	关电水壶盖	取烤箱物品	柜台→橱柜	放碗架	平均
仅真实	70%	70%	52%	55%	61.8%
仿真+真实	70%	100%	84%	65%	79.8%

使用仿真数据联合训练后平均成功率从 61.8% 提升至 79.8%（+18.1%），验证了仿真基准对真实世界的实用价值。

亮点与洞察¶

数据质量 > 数据数量的实证：MimicGen 合成数据将原子任务数据量扩大了 100×，但加入后下游性能反而下降。这在 Robot Foundation Model 的数据策略上发出警示——盲目扩大合成数据规模可能适得其反，筛选和质量控制是关键。
任务多样性的非线性收益：50→300 任务的预训练数据扩展在低数据 regime 下带来了近 2× 的提升，且对未见任务的增益超过对已见任务的增益，揭示了"任务多样性是泛化的燃料"这一关键洞见。
layout × style 解耦的场景生成：通过将厨房空间布局和视觉风格解耦，50×50 组合生成 2500 个场景，巧妙地在有限建模成本下实现了指数级场景多样性。这一设计思路可以迁移到其他需要大规模环境变化的领域（如自动驾驶场景生成）。
LLM 辅助的任务系统设计：用 LLM 生成活动列表→任务蓝图→人工编码的管线，平衡了任务多样性和质量控制，比纯人工设计或纯自动化都更实用。

局限与展望¶

仅限厨房场景：所有 2500 个场景都是厨房，结论能否迁移到卧室、客厅、办公室等其他家庭/商业环境尚不确定。
Sim-to-Real Gap：虽然验证了仿真+真实联合训练的有效性，但只在 4 个简单任务上做了真实世界对比，且使用了特定的相机视角对齐方法，可推广性有限。
MimicGen 数据质量问题：论文发现合成数据降低了性能但未深入分析原因，也未尝试数据筛选/加权策略。开发更有效利用大规模混合质量数据集的方法是重要的未来方向。
终身学习基准设计较简单：四阶段顺序学习的设置是最基本的终身学习场景，未考虑主动数据回放、弹性权重固化等经典 CL 方法的集成。
物理保真度：MuJoCo 在流体、软体、布料等方面的建模能力有限，这限制了可以模拟的任务类型（如做菜、倒水等涉及流体的任务）。
单一机器人形态：仅使用 Franka Panda + 移动底座，未测试双臂或人形机器人，限制了对多形态泛化的研究。

评分¶

新颖性: ⭐⭐⭐ — 核心技术贡献是工程性的规模扩展，方法论新颖性有限
实验充分度: ⭐⭐⭐⭐⭐ — 四种 SOTA 方法对比 + 三种训练范式 + 数据组成消融 + 真实世界验证，实验体系非常完整
写作质量: ⭐⭐⭐⭐ — 结构清晰，实验讨论深入，图表丰富
价值: ⭐⭐⭐⭐ — 作为机器人通用策略的标准化评估基准，对社区有很高的基础设施价值；数据组成分析的发现对数据策略制定有直接指导意义