跳转至

Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset

会议: CVPR 2025
arXiv: 2504.08541
代码: https://www.projectaria.com/datasets/dtc/
领域: 3D视觉
关键词: 数字孪生, 3D物体数据集, 逆向渲染, PBR材质, 自中心视角

一句话总结

提出 DTC 数据集,包含 2000 个毫米级几何精度和光真实 PBR 材质的 3D 物体数字孪生模型,配合 DSLR 和自中心 AR 眼镜的多视角评估数据,建立了首个面向数字孪生创建任务的综合真实世界评测基准。

研究背景与动机

3D 物体数字孪生是物理物体的高保真虚拟表示,在 AR/VR、空间 AI 和机器人等领域有广泛应用。尽管 NeRF 和 3DGS 等神经重建方法大幅提升了新视角合成质量,但现有数据集面临以下问题:

  • 规模与质量不可兼得:Objaverse 规模大但 PBR 材质质量参差不齐;Stanford-ORB 质量较好但仅 14 个物体
  • 缺乏面向数字孪生标准的评测:现有数据集无法全面评估几何、外观和重光照
  • 缺少自中心设备采集数据:没有数据集支持评估自中心设备(如 AR 眼镜)的 3D 重建质量

方法详解

整体框架

DTC 数据集包含三个核心组成部分:(1) 2000 个扫描 3D 物体模型;(2) 50 个物体在两种光照条件下的 DSLR 评估数据(共 100 组图像序列);(3) 100 个物体的自中心 Aria 眼镜评估数据(共 200 组录制)。

关键设计

  1. 工业级 3D 物体扫描与 PBR 材质生成:

    • 功能:生成毫米级几何精度和 4K PBR 材质的 3D 数字孪生模型
    • 核心思路:使用 Covision Media 工业扫描仪,配备 8 个结构光(用于几何)、29 个聚光灯和 29 个相机(用于材质),每物体约 20 分钟扫描 + 4 小时后处理;对光泽/反光物体由技术美术师人工精修材质
    • 设计动机:自动化流程 + 人工精修确保数字孪生级别的质量标准
  2. DSLR 自动化评估数据采集:

    • 功能:提供精确相机位姿、物体位姿和环境光照的评估基准
    • 核心思路:设计自动旋转 DSLR 相机臂,围绕物体 360° 旋转,每 9° 拍摄,共 120 张图像;用 ChArUco 板标定位姿,可微分渲染器精修相机和物体位姿;Chrome ball 捕获环境光照图
    • 设计动机:自动化采集减少人为误差,可微分渲染精修确保位姿精度
  3. 自中心 AR 眼镜评估数据与 3D 对齐:

    • 功能:首次提供自中心设备的 3D 物体重建评测数据
    • 核心思路:使用 Project Aria 眼镜采集主动(完整 360°)和被动(随意观察)两种模式的录制;通过神经重建生成参考 mesh,再用可微分渲染对齐 3D 模型位姿
    • 设计动机:推动 3D 重建研究与下一代自中心计算平台(如 AR 眼镜)的融合

损失函数 / 训练策略

本文是数据集工作,不涉及模型训练。基准评测中使用的指标包括: - 几何评估:Depth SI-MSE、Normal 误差、Shape Chamfer 距离 - 重光照评估:在未见光照下的 PSNR-H/L、SSIM、LPIPS - 新视角合成:PSNR-H/L、SSIM、LPIPS

实验关键数据

主实验

方法 Depth↓ Normal↓ Shape↓ Relight PSNR-H↑ NVS PSNR-H↑ SSIM↑
NVDiffRec 0.02 0.07 1.64 26.99 28.95 0.967
InvRender 0.22 0.03 0.75 29.52 31.64 0.970
NVDiffRecMC 0.02 0.06 1.34 27.78 31.27 0.972
PhySG 0.31 0.16 11.31 27.28 28.54 0.964

消融实验

训练数据来源 Pushing@2cm Pushing@5cm Grasping
DTC (本文) 36.3% 47.0% 42.7%
Objaverse-XL 25.3% 40.3% 38.6%

关键发现

  • InvRender 在重光照和新视角合成上表现最优,但不同方法在不同指标上各有优劣
  • 自中心录制的 NVS 评测中,2D-GS 的 Normal 误差(0.2112)显著优于 3D-GS(0.3301)
  • DTC 训练的机器人策略在所有任务阈值下均优于 Objaverse-XL,尤其在精细推操作上优势更大

亮点与洞察

  • 首个大规模数字孪生级质量 + 真实世界多视角录制的综合数据集,填补了该领域的关键空白
  • 自中心评估数据是全新的贡献,为 AR/MR 场景下的 3D 重建研究提供了基础
  • 机器人实验巧妙展示了高质量数字孪生在 sim-to-real 迁移中的价值:模型质量直接影响策略的泛化能力

局限与展望

  • 扫描硬件对物体尺寸有限制,无法处理可形变、高反光或透明物体
  • 后处理流程耗时长(4 小时/物体),且可能需要人工材质精修,阻碍自动化扩展
  • 当前 2000 个物体覆盖 40 个 LVIS 类别,多样性仍有提升空间

相关工作与启发

  • Stanford-ORB:此前最大的逆向渲染基准(14 物体),DTC 在规模和质量上全面超越
  • Objaverse:规模大但 PBR 质量参差,DTC 提供对齐真实世界录制的高质量替代
  • Aria Digital Twin:场景级数字孪生,但物体级几何和 PBR 质量不足;DTC 专注物体级数字孪生

评分

  • 新颖性: ⭐⭐⭐⭐ 大规模高质量数字孪生数据集+自中心评估的组合填补空白
  • 实验充分度: ⭐⭐⭐⭐⭐ 逆向渲染/NVS/自中心/机器人四个方向的评测非常完整
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据采集流程描述详细
  • 价值: ⭐⭐⭐⭐⭐ 对 3D 重建和逆向渲染研究社区有很高的基础设施价值

Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset

会议: CVPR 2025
arXiv: 2504.08541
代码: https://www.projectaria.com/datasets/dtc/
领域: 3D视觉
关键词: 数字孪生、3D数据集、逆渲染、PBR材质、自中心重建

一句话总结

Meta Reality Labs 提出 DTC 数据集,包含 2000 个毫米级几何精度和逼真 PBR 材质的3D物体数字孪生模型,配合 DSLR 和自中心 AR 眼镜拍摄的评估数据,为3D重建和逆渲染提供首个全面的真实世界基准。

研究背景与动机

  • 数字孪生(Digital Twin)要求虚拟3D物体在形状和外观上与真实物体难以区分,这对AR/VR、机器人等应用至关重要
  • 尽管 NeRF 和 3DGS 等方法大幅提升了新视角合成质量,但缺乏大规模、数字孪生级别的真实数据集来定量评估和比较不同重建方法
  • 现有数据集要么规模大但质量参差(如 Objaverse),要么质量高但规模太小(如 Stanford-ORB 仅14个物体)
  • 为推进3D重建在下一代自中心计算平台(如 AR 眼镜)上的应用,需要自中心捕获的评估数据,而此前没有这样的数据集

方法详解

整体框架

DTC 数据集包含三部分:(1) 2000个扫描级3D物体模型;(2) 50个物体在两种光照下的 DSLR 评估数据(100组序列);(3) 100个物体的自中心 Aria 眼镜评估数据(200组录像)。

关键设计

  1. 工业级3D物体扫描:

    • 功能:创建毫米级几何精度和逼真 PBR 材质的3D模型
    • 核心思路:使用 Covision Media 工业扫描仪,半球形穹顶内配备8个结构光用于几何扫描、29个聚光灯和29个相机用于材质采集,每个物体约20分钟扫描,4小时后处理生成4K PBR贴图
    • 设计动机:结构光保证毫米级精度,专业技术艺术家修正光泽/反光物体的材质以确保数字孪生质量
  2. DSLR 评估数据采集系统:

    • 功能:提供高质量多视角 HDR/LDR 图像及精确标注
    • 核心思路:设计自动化 DSLR 相机旋转台,3台相机绕物体360°旋转、每9°拍摄一张(共120张),使用 ChArUco 标定板获取精确相机位姿,通过可微渲染优化环境光照和物体位姿
    • 设计动机:精确的 ground truth(位姿、光照、3D模型)是公平评估逆渲染方法的前提
  3. 自中心评估数据与对齐流程:

    • 功能:首次为自中心设备上的3D物体重建提供评估基准
    • 核心思路:使用 Project Aria 眼镜录像,通过神经网格重建 → 参考 mask 生成 → 可微渲染对齐的流程将3D物体与自中心视频精确对齐,提供主动(360°)和被动(随意观察)两种录像轨迹
    • 设计动机:推动3D重建技术与 AR 眼镜等自中心设备的结合,使每个人都能轻松创建数字孪生

损失函数 / 训练策略

本文为数据集论文,不涉及训练损失函数。基准评估采用标准指标:几何(深度 SI-MSE、法线误差、Chamfer 距离)、重光照(PSNR、SSIM、LPIPS)和新视角合成(PSNR、SSIM、LPIPS)。

实验关键数据

主实验

方法 深度↓ 法线↓ 形状↓ 重光照PSNR-H↑ NVS PSNR-H↑
InvRender 0.22 0.03 0.75 29.52 31.64
NVDiffRecMC 0.02 0.06 1.34 27.78 31.27
NVDiffRec 0.02 0.07 1.64 26.99 28.95
PhySG 0.31 0.16 11.31 27.28 28.54
Neural-PIL 5.71 0.25 25.02 N/A 28.42
NeRD 4.55 0.45 108.20 26.10 26.80

消融实验

配置 推送@2cm 推送@5cm 抓取 说明
DTC训练 36.3% 47.0% 42.7% 数字孪生质量物体
Objaverse-XL训练 25.3% 40.3% 38.6% 质量参差物体

关键发现

  • 当前最佳逆渲染方法在数字孪生标准下仍有显著差距,尤其在光泽材质物体上
  • InvRender 在重光照和 NVS 上综合表现最优,但几何精度不及 NVDiffRec/NVDiffRecMC
  • 自中心数据上 3DGS 和 2DGS 的 PSNR 约28.8,表明自中心重建仍有很大提升空间
  • 使用 DTC 高质量物体训练的机器人策略在推送和抓取任务上均优于 Objaverse-XL 训练的策略

亮点与洞察

  • 规模与质量兼顾:2000个物体同时拥有毫米级几何和逼真 PBR 材质,远超此前数据集
  • 首个自中心3D重建基准:为 AR 眼镜等设备的重建评估开辟新方向
  • 下游应用验证:通过机器人推送/抓取实验证明高质量数字孪生对 sim-to-real 的价值
  • 完整评估框架:同时覆盖几何、材质、重光照和新视角合成

局限与展望

  • 当前扫描硬件限制了物体尺寸范围,且无法处理可变形、高光反射或透明物体
  • 后处理流程耗时(每个物体约4小时),人工修正仍不可避免
  • 数据集仅覆盖40个 LVIS 类别,类别多样性有待扩展
  • 自中心数据的物体对齐在对称几何物体上可能失败

相关工作与启发

  • 与 Stanford-ORB(14个物体)相比,DTC 提供更多物体和更高质量
  • 与 Objaverse(818K物体)相比,DTC 每个物体都有高质量 PBR 材质和真实世界录像对齐
  • 为可微渲染方法(如 NVDiffRec、InvRender)提供了更可靠的评估平台
  • 启发:高质量数字孪生数据可能是弥合 sim-to-real gap 的关键

评分

  • 新颖性: ⭐⭐⭐⭐ 理念清晰但主要是工程系统而非算法创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖逆渲染、NVS、自中心重建、机器人等多个任务
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、数据详实、对比全面
  • 价值: ⭐⭐⭐⭐⭐ 填补大规模高质量3D数字孪生数据集的空白,对社区有重大推动作用