Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset¶
会议: CVPR 2025
arXiv: 2504.08541
代码: https://www.projectaria.com/datasets/dtc/
领域: 3D视觉
关键词: 数字孪生, 3D物体数据集, 逆向渲染, PBR材质, 自中心视角
一句话总结¶
提出 DTC 数据集,包含 2000 个毫米级几何精度和光真实 PBR 材质的 3D 物体数字孪生模型,配合 DSLR 和自中心 AR 眼镜的多视角评估数据,建立了首个面向数字孪生创建任务的综合真实世界评测基准。
研究背景与动机¶
3D 物体数字孪生是物理物体的高保真虚拟表示,在 AR/VR、空间 AI 和机器人等领域有广泛应用。尽管 NeRF 和 3DGS 等神经重建方法大幅提升了新视角合成质量,但现有数据集面临以下问题:
- 规模与质量不可兼得:Objaverse 规模大但 PBR 材质质量参差不齐;Stanford-ORB 质量较好但仅 14 个物体
- 缺乏面向数字孪生标准的评测:现有数据集无法全面评估几何、外观和重光照
- 缺少自中心设备采集数据:没有数据集支持评估自中心设备(如 AR 眼镜)的 3D 重建质量
方法详解¶
整体框架¶
DTC 数据集包含三个核心组成部分:(1) 2000 个扫描 3D 物体模型;(2) 50 个物体在两种光照条件下的 DSLR 评估数据(共 100 组图像序列);(3) 100 个物体的自中心 Aria 眼镜评估数据(共 200 组录制)。
关键设计¶
-
工业级 3D 物体扫描与 PBR 材质生成:
- 功能:生成毫米级几何精度和 4K PBR 材质的 3D 数字孪生模型
- 核心思路:使用 Covision Media 工业扫描仪,配备 8 个结构光(用于几何)、29 个聚光灯和 29 个相机(用于材质),每物体约 20 分钟扫描 + 4 小时后处理;对光泽/反光物体由技术美术师人工精修材质
- 设计动机:自动化流程 + 人工精修确保数字孪生级别的质量标准
-
DSLR 自动化评估数据采集:
- 功能:提供精确相机位姿、物体位姿和环境光照的评估基准
- 核心思路:设计自动旋转 DSLR 相机臂,围绕物体 360° 旋转,每 9° 拍摄,共 120 张图像;用 ChArUco 板标定位姿,可微分渲染器精修相机和物体位姿;Chrome ball 捕获环境光照图
- 设计动机:自动化采集减少人为误差,可微分渲染精修确保位姿精度
-
自中心 AR 眼镜评估数据与 3D 对齐:
- 功能:首次提供自中心设备的 3D 物体重建评测数据
- 核心思路:使用 Project Aria 眼镜采集主动(完整 360°)和被动(随意观察)两种模式的录制;通过神经重建生成参考 mesh,再用可微分渲染对齐 3D 模型位姿
- 设计动机:推动 3D 重建研究与下一代自中心计算平台(如 AR 眼镜)的融合
损失函数 / 训练策略¶
本文是数据集工作,不涉及模型训练。基准评测中使用的指标包括: - 几何评估:Depth SI-MSE、Normal 误差、Shape Chamfer 距离 - 重光照评估:在未见光照下的 PSNR-H/L、SSIM、LPIPS - 新视角合成:PSNR-H/L、SSIM、LPIPS
实验关键数据¶
主实验¶
| 方法 | Depth↓ | Normal↓ | Shape↓ | Relight PSNR-H↑ | NVS PSNR-H↑ | SSIM↑ |
|---|---|---|---|---|---|---|
| NVDiffRec | 0.02 | 0.07 | 1.64 | 26.99 | 28.95 | 0.967 |
| InvRender | 0.22 | 0.03 | 0.75 | 29.52 | 31.64 | 0.970 |
| NVDiffRecMC | 0.02 | 0.06 | 1.34 | 27.78 | 31.27 | 0.972 |
| PhySG | 0.31 | 0.16 | 11.31 | 27.28 | 28.54 | 0.964 |
消融实验¶
| 训练数据来源 | Pushing@2cm | Pushing@5cm | Grasping |
|---|---|---|---|
| DTC (本文) | 36.3% | 47.0% | 42.7% |
| Objaverse-XL | 25.3% | 40.3% | 38.6% |
关键发现¶
- InvRender 在重光照和新视角合成上表现最优,但不同方法在不同指标上各有优劣
- 自中心录制的 NVS 评测中,2D-GS 的 Normal 误差(0.2112)显著优于 3D-GS(0.3301)
- DTC 训练的机器人策略在所有任务阈值下均优于 Objaverse-XL,尤其在精细推操作上优势更大
亮点与洞察¶
- 首个大规模数字孪生级质量 + 真实世界多视角录制的综合数据集,填补了该领域的关键空白
- 自中心评估数据是全新的贡献,为 AR/MR 场景下的 3D 重建研究提供了基础
- 机器人实验巧妙展示了高质量数字孪生在 sim-to-real 迁移中的价值:模型质量直接影响策略的泛化能力
局限与展望¶
- 扫描硬件对物体尺寸有限制,无法处理可形变、高反光或透明物体
- 后处理流程耗时长(4 小时/物体),且可能需要人工材质精修,阻碍自动化扩展
- 当前 2000 个物体覆盖 40 个 LVIS 类别,多样性仍有提升空间
相关工作与启发¶
- Stanford-ORB:此前最大的逆向渲染基准(14 物体),DTC 在规模和质量上全面超越
- Objaverse:规模大但 PBR 质量参差,DTC 提供对齐真实世界录制的高质量替代
- Aria Digital Twin:场景级数字孪生,但物体级几何和 PBR 质量不足;DTC 专注物体级数字孪生
评分¶
- 新颖性: ⭐⭐⭐⭐ 大规模高质量数字孪生数据集+自中心评估的组合填补空白
- 实验充分度: ⭐⭐⭐⭐⭐ 逆向渲染/NVS/自中心/机器人四个方向的评测非常完整
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据采集流程描述详细
- 价值: ⭐⭐⭐⭐⭐ 对 3D 重建和逆向渲染研究社区有很高的基础设施价值
Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset¶
会议: CVPR 2025
arXiv: 2504.08541
代码: https://www.projectaria.com/datasets/dtc/
领域: 3D视觉
关键词: 数字孪生、3D数据集、逆渲染、PBR材质、自中心重建
一句话总结¶
Meta Reality Labs 提出 DTC 数据集,包含 2000 个毫米级几何精度和逼真 PBR 材质的3D物体数字孪生模型,配合 DSLR 和自中心 AR 眼镜拍摄的评估数据,为3D重建和逆渲染提供首个全面的真实世界基准。
研究背景与动机¶
- 数字孪生(Digital Twin)要求虚拟3D物体在形状和外观上与真实物体难以区分,这对AR/VR、机器人等应用至关重要
- 尽管 NeRF 和 3DGS 等方法大幅提升了新视角合成质量,但缺乏大规模、数字孪生级别的真实数据集来定量评估和比较不同重建方法
- 现有数据集要么规模大但质量参差(如 Objaverse),要么质量高但规模太小(如 Stanford-ORB 仅14个物体)
- 为推进3D重建在下一代自中心计算平台(如 AR 眼镜)上的应用,需要自中心捕获的评估数据,而此前没有这样的数据集
方法详解¶
整体框架¶
DTC 数据集包含三部分:(1) 2000个扫描级3D物体模型;(2) 50个物体在两种光照下的 DSLR 评估数据(100组序列);(3) 100个物体的自中心 Aria 眼镜评估数据(200组录像)。
关键设计¶
-
工业级3D物体扫描:
- 功能:创建毫米级几何精度和逼真 PBR 材质的3D模型
- 核心思路:使用 Covision Media 工业扫描仪,半球形穹顶内配备8个结构光用于几何扫描、29个聚光灯和29个相机用于材质采集,每个物体约20分钟扫描,4小时后处理生成4K PBR贴图
- 设计动机:结构光保证毫米级精度,专业技术艺术家修正光泽/反光物体的材质以确保数字孪生质量
-
DSLR 评估数据采集系统:
- 功能:提供高质量多视角 HDR/LDR 图像及精确标注
- 核心思路:设计自动化 DSLR 相机旋转台,3台相机绕物体360°旋转、每9°拍摄一张(共120张),使用 ChArUco 标定板获取精确相机位姿,通过可微渲染优化环境光照和物体位姿
- 设计动机:精确的 ground truth(位姿、光照、3D模型)是公平评估逆渲染方法的前提
-
自中心评估数据与对齐流程:
- 功能:首次为自中心设备上的3D物体重建提供评估基准
- 核心思路:使用 Project Aria 眼镜录像,通过神经网格重建 → 参考 mask 生成 → 可微渲染对齐的流程将3D物体与自中心视频精确对齐,提供主动(360°)和被动(随意观察)两种录像轨迹
- 设计动机:推动3D重建技术与 AR 眼镜等自中心设备的结合,使每个人都能轻松创建数字孪生
损失函数 / 训练策略¶
本文为数据集论文,不涉及训练损失函数。基准评估采用标准指标:几何(深度 SI-MSE、法线误差、Chamfer 距离)、重光照(PSNR、SSIM、LPIPS)和新视角合成(PSNR、SSIM、LPIPS)。
实验关键数据¶
主实验¶
| 方法 | 深度↓ | 法线↓ | 形状↓ | 重光照PSNR-H↑ | NVS PSNR-H↑ |
|---|---|---|---|---|---|
| InvRender | 0.22 | 0.03 | 0.75 | 29.52 | 31.64 |
| NVDiffRecMC | 0.02 | 0.06 | 1.34 | 27.78 | 31.27 |
| NVDiffRec | 0.02 | 0.07 | 1.64 | 26.99 | 28.95 |
| PhySG | 0.31 | 0.16 | 11.31 | 27.28 | 28.54 |
| Neural-PIL | 5.71 | 0.25 | 25.02 | N/A | 28.42 |
| NeRD | 4.55 | 0.45 | 108.20 | 26.10 | 26.80 |
消融实验¶
| 配置 | 推送@2cm | 推送@5cm | 抓取 | 说明 |
|---|---|---|---|---|
| DTC训练 | 36.3% | 47.0% | 42.7% | 数字孪生质量物体 |
| Objaverse-XL训练 | 25.3% | 40.3% | 38.6% | 质量参差物体 |
关键发现¶
- 当前最佳逆渲染方法在数字孪生标准下仍有显著差距,尤其在光泽材质物体上
- InvRender 在重光照和 NVS 上综合表现最优,但几何精度不及 NVDiffRec/NVDiffRecMC
- 自中心数据上 3DGS 和 2DGS 的 PSNR 约28.8,表明自中心重建仍有很大提升空间
- 使用 DTC 高质量物体训练的机器人策略在推送和抓取任务上均优于 Objaverse-XL 训练的策略
亮点与洞察¶
- 规模与质量兼顾:2000个物体同时拥有毫米级几何和逼真 PBR 材质,远超此前数据集
- 首个自中心3D重建基准:为 AR 眼镜等设备的重建评估开辟新方向
- 下游应用验证:通过机器人推送/抓取实验证明高质量数字孪生对 sim-to-real 的价值
- 完整评估框架:同时覆盖几何、材质、重光照和新视角合成
局限与展望¶
- 当前扫描硬件限制了物体尺寸范围,且无法处理可变形、高光反射或透明物体
- 后处理流程耗时(每个物体约4小时),人工修正仍不可避免
- 数据集仅覆盖40个 LVIS 类别,类别多样性有待扩展
- 自中心数据的物体对齐在对称几何物体上可能失败
相关工作与启发¶
- 与 Stanford-ORB(14个物体)相比,DTC 提供更多物体和更高质量
- 与 Objaverse(818K物体)相比,DTC 每个物体都有高质量 PBR 材质和真实世界录像对齐
- 为可微渲染方法(如 NVDiffRec、InvRender)提供了更可靠的评估平台
- 启发:高质量数字孪生数据可能是弥合 sim-to-real gap 的关键
评分¶
- 新颖性: ⭐⭐⭐⭐ 理念清晰但主要是工程系统而非算法创新
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖逆渲染、NVS、自中心重建、机器人等多个任务
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、数据详实、对比全面
- 价值: ⭐⭐⭐⭐⭐ 填补大规模高质量3D数字孪生数据集的空白,对社区有重大推动作用