ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=SqPLEZ66BO
代码: https://huggingface.co/datasets/x-humanoid-robomind/ArtVIP
领域: 机器人 / 具身智能
关键词: 关节物体资产, 数字孪生, 机器人学习, 物理仿真, sim-to-real

一句话总结¶

ArtVIP 构建了一套 992 个高质量数字孪生关节物体和配套室内场景，通过统一建模规范、关节物理调参、资产内嵌交互行为与像素级 affordance 标注，让机器人学习算法能在更接近真实世界的仿真环境中训练、评测和迁移。

研究背景与动机¶

领域现状：机器人学习越来越依赖仿真环境来获得低成本、可重复、可扩展的数据。无论是 imitation learning 里的轨迹采集，还是 reinforcement learning 里的大规模探索，仿真都能避免硬件损耗和安全风险，也能把实验条件标准化。随着具身智能从简单抓取走向开柜门、拉抽屉、按按钮、推合烤箱门这类精细交互，仿真资产本身开始成为模型能力上限的一部分。

现有痛点：现有开放关节物体数据集的问题不是单纯数量不够，而是质量很难直接支撑机器人学习。PartNet-Mobility 数量较大，但很多模型外观粗糙、材质缺失、关节动力学不精确；BEHAVIOR-1K 视觉质量更好一些，却绑定 OmniGibson，资产被加密，物理参数也没有细调。对机器人来说，一个柜门看起来像不像真实柜门只是第一层问题，更关键的是它的碰撞体、关节阻尼、磁吸闭合、按钮触发等行为是否与真实物体一致。

核心矛盾：关节物体资产同时要满足视觉真实、物理可信、交互可复用和仿真友好，这四件事经常互相拉扯。高面数和高分辨率纹理能提升视觉真实，但会拖慢仿真；复杂碰撞网格能让接触更准确，却会增加计算开销；把交互逻辑写在任务代码里很灵活，但会让同一个资产在不同场景中难以复用。本文的判断是：当前瓶颈更偏向资产质量，而不是继续堆更多低保真模型。

本文目标：ArtVIP 试图给机器人学习社区提供一批可以直接用于 Isaac Sim 的高质量关节物体资产。具体目标包括：制作视觉上接近真实物体的数字孪生模型，调好碰撞体和关节动力学参数，把常见交互行为模块化地绑定到资产内部，补充像素级 affordance 标注和可直接运行的室内场景，并用真实机器人任务验证这些资产是否真的能降低 sim-to-real gap。

切入角度：作者没有选择用生成式方法批量合成资产，而是让专业 3D 建模师按照统一标准手工制作数字孪生模型。这个选择牺牲了规模扩张速度，但换来了可控的几何、材质、层级结构和物理参数。对于机器人学习而言，手工可控的物理与交互属性往往比“看起来有很多模型”更重要。

核心 idea：用统一生产规范打造视觉真实、物理可调、交互行为内嵌的关节物体数字资产，从资产层面把机器人学习所需的可见性、可碰撞性、可操作性和可迁移性绑定在一起。

方法详解¶

整体框架¶

ArtVIP 本质上是一条面向机器人学习的高质量仿真资产生产线。输入是真实世界中的家具、家电、工具等可交互物体，输出是 USD 格式的关节物体资产、可编辑室内场景、像素级 affordance 标注，以及在 imitation learning 和 reinforcement learning 中可直接调用的仿真环境。整套流程先解决“物体像不像”，再解决“动起来像不像”，最后解决“机器人能不能自然地用它”。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实关节物体<br/>与室内场景"] --> B["统一数字孪生<br/>资产规范"]
    B --> C["关节物理保真<br/>调参"]
    C --> D["资产内嵌<br/>模块化交互"]
    D --> E["面向机器人学习的<br/>场景与标注闭环"]
    E --> F["IL / RL 训练<br/>与 sim-to-real 评测"]

数据集最终包含 9 个大类、37 个子类、992 个关节物体，覆盖家具、厨具、家电、洁具、清洁工具、文具、储物箱、机械设备等日常交互对象。除了单物体资产，作者还提供 6 个 sim-ready 室内场景，例如厨房、儿童房、餐厅和客厅；这些场景中的固定家具和小物体也支持物理交互，用户还可以把 ArtVIP 的 992 个物体自由放入场景。

关键设计¶

1. 统一数字孪生资产规范：先把“看起来真实”和“可用于仿真”放进同一套层级结构

ArtVIP 的建模不是从网上抓一堆 OBJ 再修补，而是从真实物体出发做数字孪生。作者采用 assembly、module、mesh 三层结构：assembly 表示完整功能物体，module 表示可作为刚体运动的部件，mesh 则承载几何细节、材质、纹理、碰撞形状和质量等静态属性。建模时先把物体底部几何中心设为基坐标系，再根据 affordance、功能和关节位置切分出不同 Xform 类型模块，最后把 mesh 自底向上装配回 module 和 assembly。

这个层级结构的价值在于，它把视觉建模和机器人交互需要的刚体层级对齐起来。比如一个微波炉如果只是漂亮的整体网格，机器人很难在仿真里按按钮、拉门或观察门轴运动；而如果把门、按钮、灯、架子等交互部件拆成语义清楚的模块，后续关节、碰撞、标注和交互行为都能挂在正确的位置上。作者还要求高分辨率纹理、PBR 材质、UV 对齐和法线优化，从而减少低多边形表面、材质失真和贴图拉伸带来的视觉域差。

2. 关节物理保真调参：不只给物体装关节，还要让关节的力学响应接近真实物体

关节物体的 sim-to-real gap 很多时候来自“运动不像”。普通仿真里常见的关节驱动方程可以写成 \(\tau = K(q) \cdot (q - q_{target}(q)) + D \cdot (\dot{q} - \dot{q}_{target}(q))\)，其中 \(q\) 和 \(\dot{q}\) 是关节位置与速度，\(K\) 是刚度，\(D\) 是阻尼。ArtVIP 的关键改动是承认真实关节的刚度、目标位置、摩擦和阻尼并不总是常数，而会随着关节位置甚至速度变化。

例如抽屉接近闭合时阻尼会变大，冰箱门进入磁吸范围后会自动吸合，门闭门器在某个角度之后会突然加速关门，垃圾桶按钮释放后盖子会弹开。作者为这些情况设计了位置相关的 \(K(q)\) 和 \(q_{target}(q)\)，也把静摩擦、最大静摩擦和动摩擦区分开。这样做的意义不是让公式更复杂，而是让机器人在仿真里遇到的接触反馈、开合轨迹和临界触发点更接近真实硬件，进而减少策略迁移时的动作偏差。

3. 资产内嵌模块化交互：把可复用行为绑定在 USD 资产里，而不是散落在任务脚本里

ArtVIP 最有工程味的创新是把交互行为直接嵌入资产。论文抽象出五类常见行为原语：latching / magnetic closure、damping、cross-asset effects、within-asset effects、hover / hold position。它们覆盖 394 个资产和 900 多个关节，能够表达冰箱门磁吸闭合、抽屉缓冲滑动、开关控制另一个物体、微波炉按钮弹门并点亮内部灯、烤箱门停在任意角度等效果。

这种设计把“物体是什么”和“物体如何被使用”放在同一个资产包里。研究者导入 USD 文件后，不需要在每个任务里重新写一遍按钮触发、门锁释放、阻尼变化或跨物体联动逻辑，就能获得和真实物体一致的 affordance。对机器人学习来说，这会显著降低构建任务环境的工程成本，也避免不同实验者为同一类物体写出互不兼容的交互逻辑。

4. 面向机器人学习的场景与标注闭环：资产质量最终用下游训练和真实迁移来检验

ArtVIP 不只发布单个物体模型，还补了像素级 affordance 标注、室内场景和机器人学习实验。像素级标注覆盖 handle、button、door、drawer、knob、pedal、wheel、rack 等功能部件，让视觉模型能够学习“哪里可交互”；室内场景把这些可交互物体放回真实生活语境，让机器人能在厨房、客厅等复合环境中执行任务。

更重要的是，作者没有停留在视觉对比，而是用 imitation learning 和 reinforcement learning 验证资产是否可用。IL 实验比较 real-only、sim-only 和 real-sim-mixed 数据；RL 实验则在仿真中训练视觉运动策略，再部署到真实世界。这样的闭环把资产质量从“建模师觉得好看”推到“策略训练是否受益”和“仿真成绩是否预测真实成绩”这两个更贴近机器人学习的问题上。

一个完整示例¶

以微波炉资产为例，传统数据集可能只提供一个有门轴的模型，门能旋转但按钮只是装饰，门的释放、内灯和真实开合轨迹需要任务开发者额外实现。ArtVIP 的处理方式会先把微波炉拆成机身、门、按钮、内部灯、架子等模块，给门和按钮配置关节，给可接触部件配置碰撞体和质量，并用 PBR 材质还原金属、玻璃和塑料表面。

当机器人在仿真里按下按钮时，按钮状态会触发 within-asset effect：门锁释放，门按调好的关节动力学弹开，同时内部灯打开。作者还用真实微波炉上的光学运动捕捉轨迹和仿真中的虚拟 marker 轨迹做对比，检查按钮触发后的门运动是否接近真实物体。这样一来，同一个微波炉资产既可以用于视觉感知数据生成，也可以用于按按钮、开门、放置物体等交互任务。

损失函数 / 训练策略¶

ArtVIP 本身不是一个训练新网络的数据驱动方法，因此没有统一的主损失函数。论文中的训练目标主要出现在下游 RL 应用里：作者扩展 EAGLE，在 CloseTrashcan 任务上采用两阶段训练。第一阶段用 PPO 训练能访问特权低维状态的 teacher policy，状态包括机器人 proprioception、垃圾桶盖关节值、垃圾桶与夹爪的 3D 相对位置等；第二阶段把 teacher 蒸馏成只看腕部相机图像和机器人状态的 visuomotor student。

EAGLE 的注意力 mask 学习目标写作 \(L_{att} = L_{rec} + L_{ae} + \beta L_{ctl} + \lambda L_{sps}\)，其中重建、自动编码、控制预测和稀疏项共同约束视觉注意区域。student policy 的蒸馏损失为 \(\hat{L}(\pi_\theta) = \mathbb{E}_{(o,s)\sim D}[\|\pi_\theta(o_{aug}) - \pi_e(s)\|_2^2]\)。CloseTrashcan 的奖励也被拆成接近盖子、方向对齐、关盖进度和平滑动作四项：\(r_t = \lambda_1 r_{dst} + \lambda_2 r_{dir} + \lambda_3 r_{cls} + \lambda_4 r_{smth}\)，权重分别为 \(0.5, 0.125, 10, -0.01\)。

实验关键数据¶

主实验¶

论文的主实验围绕两个问题展开：资产是否比已有数据集更真实，以及这些资产是否能帮助机器人策略从仿真迁移到真实世界。视觉方面，作者比较了 ArtVIP、BEHAVIOR-1K 和 PartNet-Mobility 的渲染质量、三角面数量、VGGT 重建效果和 CLIP 特征分布；物理方面，用光学运动捕捉记录真实抽屉、微波炉门、烤箱门的轨迹，再与仿真轨迹比较。下表选取机器人学习中最直接的 IL 结果。

任务	方法	Real-Only	Sim-Only	Real+Sim 最好结果	主要结论
PullDrawer	ACT	64%	39%	81%	纯仿真已能零样本迁移，混合数据明显提升
OpenCabinet	ACT	34%	12%	46%	开柜任务难，仿真数据单独不足，但能补强真实数据
SlideShelf	DP	44%	18%	59%	横向滑动受接触和视角影响大，混合训练收益清楚
CloseOven	DP	66%	28%	78%	弧形上推闭合动作在 real-sim mixed 下提升稳定

在与 PartNet-Mobility 的微波炉门拉开任务对比中，作者用 5 个 ArtVIP 微波炉和 5 个 PartNet-Mobility 微波炉分别采集仿真轨迹，并在一个未见过的真实微波炉上测试。ArtVIP 在 SO 和 RSM 设置下都优于 PartNet-Mobility，说明高质量几何、材质和关节配置不只是视觉上更好看，也确实能让策略学到更可迁移的动作。

方法	数据设置	ArtVIP 成功率	PartNet-Mobility 成功率	差距
ACT	Sim-Only	41%	32%	+9 个百分点
ACT	Real+Sim	79%	68%	+11 个百分点
DP	Sim-Only	45%	35%	+10 个百分点
DP	Real+Sim	83%	70%	+13 个百分点

消融实验¶

严格说，ArtVIP 不是提出一个可逐项 ablate 的神经网络，而是一个资产系统；论文的“消融”更接近组件分析和对照实验。最有信息量的对照是资产能力维度、不同数据集质量、以及 RL baseline 的差异。

配置 / 对照	关键指标	说明
ArtVIP vs BEHAVIOR-1K vs PartNet-Mobility	992 关节资产、2156 个 prismatic joints、1809 个 revolute joints；视觉和物理保真均标为 high	ArtVIP 数量少于 PartNet-Mobility，但强调高质量数字孪生和可直接交互
ArtVIP 模块化交互	394 个资产、900+ 关节带行为原语	覆盖磁吸闭合、阻尼、跨资产触发、资产内触发、任意角度保持等行为
EAGLE vs Vision-based PPO	500k 迭代时 0.98 vs 0.24 成功率	在 CloseTrashcan 上，高保真资产配合更合适的视觉 RL 框架才能形成可靠策略
仿真与真实 RL 成绩相关性	Pearson \(r = 0.9886\)	训练 checkpoint 的仿真成功率与真实成功率高度线性相关，说明仿真评测具有预测性

补充的性能分析也显示，ArtVIP 采用高三角面数并不意味着不可用。作者在 i7-13700、Nvidia 4090、64 GB 机器上测试，单物体场景约 90 FPS，在包含 65 个驱动关节的厨房场景中也能维持约 60 FPS 以上。这说明它选择的是“更高质量但仍能实时仿真”的折中，而不是无约束地堆网格细节。

关键发现¶

ArtVIP 的 sim-only 数据已经能在真实世界取得非零成功率，例如 ACT 在 PullDrawer 上达到 39%，DP 在 CloseOven 上达到 28%；这说明资产的视觉和物理质量足以支撑一定程度的零样本迁移。
real-only 仍然通常强于 sim-only，尤其 OpenCabinet 等精细接触任务差距明显，说明 ArtVIP 降低了 sim-to-real gap，但没有消除真实世界中的传感、摩擦、抓取误差和策略鲁棒性问题。
real-sim mixed 是最稳定的收益来源：在四个 IL 任务中，加入 10 到 100 条仿真轨迹一般会逐步提升成功率，表明 ArtVIP 更适合作为真实数据的补充，而不是完全替代真实数据。
与 PartNet-Mobility 的微波炉对比很关键，因为任务、算法和真实测试对象一致，差别主要来自资产质量；ArtVIP 的提升支持论文“质量比数量更重要”的核心判断。
RL 实验里的 Pearson \(r = 0.9886\) 是一个很强的信号：如果仿真 checkpoint 排名能预测真实 checkpoint 排名，仿真环境就不仅能训练，还能用于模型选择和迭代评估。

亮点与洞察¶

ArtVIP 把“数据集论文”写成了“仿真资产工程系统”：它不是只发布模型文件，而是同时给出建模层级、物理调参、交互原语、标注、场景和下游验证，这让数据集更接近机器人学习基础设施。
最巧妙的是把交互语义嵌入资产本身。很多仿真任务的隐性成本不在建模，而在反复写按钮、门锁、阻尼、联动等行为脚本；ArtVIP 把这些行为资产化之后，复用价值会明显更高。
论文对“视觉真实”和“物理真实”的评价比较克制。它没有只放漂亮 render 图，而是用了 CLIP feature t-SNE、VGGT 重建、光学 motion capture 轨迹和真实机器人成功率，从多个角度证明资产确实更接近真实世界。
这篇工作对生成式 3D / articulated reconstruction 方向也有启发：当前生成模型如果只追求形状可看，而不输出可靠碰撞体、关节轴、关节限制、材质和可复用行为，就很难成为机器人学习里的 sim-ready asset。
对实际做机器人学习的人来说，ArtVIP 的价值可能不只是 992 个物体，而是一套可复制的资产生产标准。未来即使用自动化生成方法扩展规模，也可以用这套标准作为质量验收清单。

局限与展望¶

最大局限是人力成本。论文附录给出很多类别的建模和物理调参时间，例如复杂橱柜、冰箱、洗衣机等都需要数小时级制作，扩展到更大物体分布会很慢。
数据集主要为 Isaac Sim 和 USD 生态优化，虽然作者提到可转换到 URDF 或 MJCF，但转换后能保留多少 PBR 材质、模块化交互和复杂关节行为还需要额外验证。
物体覆盖集中在室内日常场景，对工业、户外、医疗、实验室等专门环境的支持还有限；如果机器人任务分布差异很大，仍需要重新建模和调参。
论文展示了多种评测，但对于每类行为原语的独立贡献还没有严格拆开。例如磁吸闭合、阻尼、跨资产触发分别对策略迁移贡献多少，目前只能从整体结果推断。
未来值得把 ArtVIP 和自动化资产生成结合起来：用手工高质量资产训练或评估生成模型，再让生成模型输出满足 USD 层级、碰撞体、关节轴、材质和行为原语要求的 sim-ready 资产。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把数字孪生、物理调参和模块化交互系统性整合到开放关节物体资产中，思路不是全新算法，但工程组织很有价值。
实验充分度: ⭐⭐⭐⭐⭐ 视觉、物理、IL、跨数据集对比和 RL 都有覆盖，尤其真实机器人实验让数据集价值更可信。
写作质量: ⭐⭐⭐⭐☆ 论文结构清楚，附录细节充分；不足是部分评测更像系统展示，组件级贡献拆解还可以更细。
价值: ⭐⭐⭐⭐⭐ 对需要高保真 articulated object simulation 的机器人学习研究很实用，也给后续自动化资产生成提供了质量标尺。