InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy¶

会议: CVPR 2026
论文: CVF Open Access
代码: 作者声明将开源数据集与生成管线（论文未给出具体仓库地址，⚠️ 以原文为准）
领域: 机器人 / 具身智能
关键词: VLA 预训练、合成数据、仿真到真实、机器人操作、数据缩放

一句话总结¶

InternData-A1 用一条全解耦、自主运行的仿真合成管线造出 63 万条、7433 小时的高保真机器人操作数据，首次证明「纯合成数据」单独预训练的 VLA 模型能在 49 个仿真 + 9 个真机任务上追平用闭源真机数据 π-dataset 训练的官方 π0。

研究背景与动机¶

领域现状：近两年 VLA（Vision-Language-Action）模型的强泛化能力，主要靠大规模真机数据撑起来——π-series 用闭源的 π-dataset 展示了真机预训练的威力。

现有痛点：真机数据采集极其昂贵。遥操作需要熟练操作员、专用硬件和大量人力，绝大多数研究组根本造不起这种规模、这种多样性的真机数据集，社区因此连「VLA 预训练到底需要什么样的数据」这个基础问题都无法系统研究。仿真本该是补充路线，但已有仿真数据集（MimicGen、RoboCasa、RoboTwin 等）技能集窄（主要是 pick-and-place）、几乎只涉及刚体、仍需大量人工操作，而且很少有人验证它们对大规模 VLA 预训练真的有用。

核心矛盾：一边是「真机数据贵到不可规模化」，一边是「合成数据虽便宜却从没在规模上证明能匹配最强真机数据」。问题的根子在于：现有仿真管线在物体类型、场景、技能、物理真实度这几个维度同时受限，无法逼近真机数据的预训练效力。

本文目标：拆成两个子问题——(1) 造一条能在「具身体、场景、技能、物理真实度」四个维度同时规模化的高保真合成管线；(2) 用它产出的纯合成数据，验证能否在下游真机任务上追平最强真机数据。

切入角度：作者押注「解耦 + 组合」——把资产规格、技能策略、任务组合、渲染这四件事彻底拆开，让任务可以像搭积木一样自由拼装。只要这四块各自做扎实，组合空间就能指数级扩张，而人工成本几乎不增。

核心 idea：用一条「资产/技能/任务/渲染全解耦」的自主仿真管线，以可忽略的人力把单一技能扩展成 70 个任务、227 个场景、4 种具身体的 63 万条轨迹，再用它纯合成预训练去追平闭源真机数据。

方法详解¶

整体框架¶

InternData-A1 的核心不是一个模型，而是一条数据合成管线 + 用它预训练出来的 π0 策略。管线把「造一条机器人操作轨迹」拆成四个串行阶段：先从资产库里检索具身体/场景/物体搭出环境（环境构建），再从原子技能库里挑技能、按配置文件拼成完整任务（技能组合），接着对相机视角、光照、布局、接触点做自主域随机化（域随机化），最后用 CuRobo 规划稠密关节动作、先纯物理仿真验证、只对成功轨迹开渲染并存成 LeRobot 格式（生成与存储）。整条管线的关键在于「解耦」：每个技能被设计成「状态→waypoint」的自动映射，换物体、换空间范围、换场景甚至换具身体都不需要额外人工，人工只剩下调一下空间范围。工程优化后，8 张 RTX 4090 一天能产 209.7 小时机器人数据，每条 episode 成本低于 0.003 美元。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["资产库<br/>具身体 / 场景 / 物体 / 技能"] --> B["全解耦组合式管线<br/>asset·skill·task·render 分离"]
    B --> C["原子技能 + waypoint 抽象<br/>状态→末端 6D 位姿序列"]
    C --> D["自主域随机化<br/>相机 / 光照 / 布局 / 接触点"]
    D --> E["规划-渲染解耦生成<br/>CuRobo 先物理验证·仅渲染成功轨迹"]
    E --> F["LeRobot 格式数据集<br/>→ π0 纯合成预训练"]

关键设计¶

1. 全解耦组合式管线：把「造任务」拆成可独立扩张的四块

这针对的是「已有仿真数据集技能窄、物体单一、还要大量人工」这个痛点。作者把资产规格、技能策略、任务组合、渲染彻底拆开：每个任务由「从资产库检索具身体+场景+物体」+「组合脚本化技能策略」生成，技能策略以机器人与物体状态为条件计算并插值出轨迹。因为四块互不耦合，组合空间是它们的笛卡尔积——同一套技能配上不同物体/场景/具身体就是新任务，于是从「近乎所有人类基本技能」（折叠、倾倒、旋转、堆叠……）出发组合出 70 个任务、其中还有 18 个至少含三段顺序技能的长程任务（12.5 万条轨迹）。和「靠换被操作物体来充任务数」的旧做法（picking 几百个物体仍只算一个任务）不同，这里每个任务都指定了独特的上下文、原子技能组合和动作空间约束，多样性是「真任务级」的。

2. 原子技能 + waypoint 统一抽象：让换物体/具身体零额外成本

如果技能和底层运动执行耦合，每换一个物体或机器人都要重写策略，管线就规模不起来。作者把每个技能做成模块化脚本策略，输入是物体状态（位姿、关节态）、机器人状态（底座与末端位姿）和用户约束，输出统一是一串 waypoint（目标末端 6D 位姿）。waypoint 作为统一表示，干净地把「高层技能逻辑」和「低层运动执行」解耦——例如 Pick 技能过滤抓取候选、算出 pre-grasp/grasp/post-grasp 三个位姿，关节体的 Push 技能用接触标注算 pre-contact/contact/post-contact。因为每个技能都是「状态→waypoint」的自动映射，换物体、空间范围、场景乃至具身体都不产生额外成本，唯一人工就是调空间范围；用户只需指定左右臂并把技能顺序/并行编排，长程双臂任务就能自动展开。

3. 自主域随机化：在视觉与轨迹两个维度同时注入多样性

纯合成数据若视觉单一、轨迹刻板，预训练学到的先验难以迁移。作者在两个维度做随机化：视觉上，主相机与腕部相机视角在 ±5° 旋转、±5 cm 平移内扰动，并构建 174 张环境贴图、各自随机化色温与光强模拟自然光照，目标物体可被同类物体替换、桌面与背景布局也随机；轨迹上，物体位置朝向在任务专属空间范围内采样，接触区域也加随机——例如自主抓取位姿管线产生上百万候选，过滤后从 top-40 高置信候选里随机选一个，关节体/可变形体则把接触区扩成邻域再随机采点。这种「自主」随机化让同一任务展开出大量视觉与动作各异的 episode，是 hard 设定下鲁棒性的来源。

4. 规划-渲染解耦生成：把算力只花在成功轨迹上

渲染比物理仿真慢得多，如果对每次尝试都渲染，失败的规划会白白烧掉大量算力，长程/灵巧任务尤其严重。作者用 CuRobo 在 waypoint 之间插值出稠密关节空间动作，每次试验先关闭渲染只跑物理仿真去跟随动作；只有当一条轨迹被成功规划后，才重放并打开渲染引擎。这种「先验证后渲染」的解耦把算力集中到有效轨迹上，是管线能在 8 卡上日产 209.7 小时数据的工程关键。最终每条 episode 记录物体元数据、语言指令、多视角 RGB 与相机参数、机器人本体感与动作标签，统一转成 LeRobot 格式供 VLA 预训练。

损失函数 / 训练策略¶

本文不提出新损失，沿用 π0 架构：视觉语言模型 Paligemma + 基于 flow-matching 的 action expert。预训练时用 Paligemma 权重初始化、action expert 从零开始，仅在 InternData-A1 上预训练，再与「在闭源 π-dataset 上训练的官方 π0」在下游任务上对比，以此隔离出预训练数据质量的影响。

实验关键数据¶

主实验¶

仿真评测用 RoboTwin 2.0 的 49 个双臂任务，分 Easy（干净）/ Hard（杂乱）两档，每任务 100 试验跨两个 checkpoint，共 19,600 次 rollout。

设定	π0 (Scratch)	官方 π0 (π-dataset)	π0 (InternData-A1)	相对官方 π0
49 任务 Avg. Easy	23.5%	55.0%	60.0%	+5.0%
49 任务 Avg. Hard	2.5%	20.0%	26.5%	+6.5%

纯合成预训练不仅追平、还略超用闭源真机数据训练的官方 π0；相比未预训练的 Paligemma，Easy 提升 36.5%、Hard 提升 24.0%。真机上跨 Genie-1 / ARX Lift-2 / ARX AC One 三种具身体、5 个常规 + 4 个灵巧任务（每任务 30 试验），常规任务平均超 π-dataset 6.2%，4 个长程灵巧任务（折衣、分拣零件、拧瓶盖、拉拉链，用两边都没见过的 ARX AC One）也达到与 π-dataset 相当的水平。

与开源数据集对比¶

各数据集分别预训练 π0 共 500k 迭代，在 49 仿真任务 + 2 真机任务上评测：

数据集	类型	49 Sim Easy	49 Sim Hard	Sort Rubbish	Pass Bottle
OXE	真机	32.5%	11.0%	40.0%	36.7%
Agibot World	真机	52.5%	12.0%	53.3%	56.7%
RoboCasa	仿真	50.0%	11.0%	23.3%	13.3%
InternData-A1	仿真	60.0%	26.5%	90.0%	60.0%

RoboCasa 在仿真上只落后 10%，但真机上崩塌——InternData-A1 真机平均比它高 57.7%，作者归因于高保真渲染 + 数据量。

关键发现¶

Hard 设定提升更明显（+6.5% vs Easy +5.0%）：下游微调只用干净非随机数据时，InternData-A1 域随机化带来的视觉/空间鲁棒性依然保留，说明多样性是在预训练阶段「内化」进策略的。
仿真到真实的数据效率惊人：从同一 π0(InternData-A1) checkpoint 出发，Sort Rubbish、Wipe Stain 这类基础技能任务只需 200 条仿真 episode 就能匹配 200 条真机 episode；Flip Package、Instructional Pick 这类需动态物体操作 + 语言 grounding 的复杂任务约需 1,600 条仿真。整体「仿真:真机」等效比收窄到 8:1 以内，部分接近 1:1。另有 6 个含重复抓放/关节/双臂协调的任务，仅 500 条仿真 episode 就能超 50% 成功率。

亮点与洞察¶

「纯合成能否匹配最强真机数据」第一次被正面回答：以往合成数据只当真机数据的补充，本文用追平官方 π0 的结果证明，只要在具身体/场景/技能/物理真实度四维同时拉满，合成数据本身就够。这对买不起真机数据的研究组是直接的解放。
waypoint 抽象是规模化的真正杠杆：把技能写成「状态→waypoint」的自动映射，换物体/具身体零成本——这条工程抽象，比任何单个仿真技巧都更决定管线能不能扩张，值得迁移到其他数据合成场景。
规划-渲染解耦是「便宜」的来源：先纯物理仿真筛掉失败规划、只渲染成功轨迹，把每 episode 成本压到 0.003 美元以下。这个「贵的操作放最后、只对赢家执行」的思路在任何「生成-验证」型数据流水线里都通用。

局限与展望¶

作者坦承部分复杂任务（动态物体、语言 grounding）仍需约 1,600 条仿真才追平 200 条真机，说明并非所有任务都「仿真即真机」，等效比随任务难度变化大。
评测的仿真到真实迁移建立在「良好对齐的 sim-to-real 设定」上，对相机/光照/接触显著偏离真实的场景，迁移效果未充分检验（⚠️ 论文主要报告对齐良好的任务）。
与官方 π0 的对比受限于 π-dataset 闭源，无法做完全同条件的数据级消融——「数据质量 vs 数据量 vs 架构」的贡献拆分还不彻底。
改进方向：把域随机化从手工范围升级为「可学习/自适应」的分布，可能进一步缩小仿真到真实差距并减少剩余人工。

评分¶

新颖性: ⭐⭐⭐⭐ 不是新模型，而是「全解耦自主合成管线 + 纯合成追平真机」的系统性证据，工程与论证都扎实。
实验充分度: ⭐⭐⭐⭐⭐ 49 仿真 + 9 真机 + 多开源数据集对比 + sim-to-real 数据效率分析，覆盖很全。
写作质量: ⭐⭐⭐⭐ 管线四阶段讲得清晰，但部分实验数字散落在图注里、表格组织偏密。
价值: ⭐⭐⭐⭐⭐ 开源数据 + 管线，对买不起真机数据的社区是实打实的基础设施。