跳转至

MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

会议: CVPR 2025
arXiv: 2412.14166
代码: https://hwjiang1510.github.io/MegaSynth/ (项目页+代码)
领域: 3D视觉
关键词: 合成数据, 大规模重建模型, 程序化生成, 非语义数据, 3D高斯

一句话总结

MegaSynth 提出通过消除语义信息依赖来实现可扩展的 3D 场景数据合成,生成了包含 70 万个场景的数据集(比真实数据集 DL3DV 大 50 倍),用于训练大规模重建模型(LRM),在多个基准上带来 1.2-1.8dB PSNR 的显著提升。

研究背景与动机

领域现状:大规模重建模型(LRM)借鉴 NLP 和 2D 视觉中的 scaling law 思想,试图通过大模型和大数据学习通用 3D 重建先验。在物体级重建上已取得显著进展(如训练在 Objaverse 800K 实例上),但场景级重建仍然困难。

现有痛点:场景级数据集面临两大瓶颈。(1) 规模严重不足——最大的干净场景数据集 DL3DV 仅包含约 1 万个场景,而物体级 Objaverse 有 80 万实例。人工采集场景数据费时费力难以扩展。(2) 数据质量参差不齐——现有数据集普遍存在场景多样性不足、相机运动幅度小、内容噪声多、标注不准确等问题。

核心矛盾:场景级 3D 重建需要大规模、多样化、高质量的训练数据,但真实场景数据的采集成本与质量要求之间存在根本性矛盾。

本文目标 能否通过合成数据绕过真实数据采集的瓶颈,大规模提升场景级 3D 重建的训练数据量和质量?

切入角度:作者的关键洞察是——多视图 3D 重建本质上是一个低层次(low-level)的几何任务,不需要语义信息。传统方法(COLMAP、MVS、NeRF)和新兴前馈模型都展现出非语义性。因此,合成数据不需要语义正确性(物体交互合理性、场景组合逻辑等),只需要基本的空间结构和几何基元,从而绕过了语义建模的复杂性实现可扩展生成。

核心 idea:用非语义的几何基元程序化生成 70 万场景训练数据,证明 3D 重建不需要语义先验,合成与真实数据的互补可以大幅提升重建质量。

方法详解

整体框架

MegaSynth 的数据生成流程分为三步:(1) 生成场景平面图——确定场景大小和物体包围盒位置;(2) 实例化物体几何——用形状基元(立方体、球体、圆柱、锥体)组合构建物体,赋随机纹理;(3) 随机化光照。然后采样相机位姿进行渲染,得到 RGB 图像和深度图。数据用于联合训练或预训练 LRM(GS-LRM、Long-LRM),配合小规模真实数据实现最佳性能。

关键设计

  1. 非语义场景程序化生成:

    • 功能:大规模、快速地生成几何丰富的 3D 训练场景,无需语义建模
    • 核心思路:场景建模为立方体房间,内部用 3D 包围盒填充不同类型的物体。大物体倾向放在地面附近,小物体位置更灵活。物体几何由基元(cube、sphere、cylinder、cone)组合而成,应用随机高度场增强产生凹凸细节。额外增加细结构(基元线框)模拟细粒度几何和轴对齐几何(细棒、平面)模拟曼哈顿假设下的真实场景分布。纹理随机分配颜色贴图、法线贴图、材质和粗糙度贴图,提高镜面和玻璃材质的采样概率
    • 设计动机:消除语义的核心优势在于可扩展性——不需要建模"桌子上该放什么""椅子朝哪个方向"等复杂规则。3 天即可生成 70 万场景,而语义正确的场景生成方法受限于复杂的程序化规则或生成模型的推理速度
  2. 复杂度控制与真实数据分布对齐:

    • 功能:确保合成数据既有足够复杂度支撑训练,又与真实世界分布松散对齐以促进泛化
    • 核心思路:三种光照组合增加复杂度——环境光(默认统一照明)+ 太阳光(通过场景墙上的随机窗户投射,产生阴影)+ 发光物体和灯泡(模拟室内点光源,可设高亮度模拟暗环境)。相机采样策略:区分场景内部和外部空间,外部相机朝向场景中心确保良好覆盖,内部相机方向更随机增加多样性。约束相机基线——不让外部相机基线过大,选择采样更多小基线场景对齐真实相机分布。FoV 随机化模拟不同镜头
    • 设计动机:消融实验(表2)显示,不进行复杂度控制时训练在 70K 迭代就会崩溃,而有复杂度控制的模型可以稳定训练。相机分布与真实数据的对齐对泛化至关重要
  3. 混合数据训练与几何监督:

    • 功能:发挥合成数据与真实数据各自优势进行互补训练
    • 核心思路:支持两种训练策略——预训练后微调(先在 MegaSynth 预训练再在 DL3DV 微调)和联合训练(混合两个数据集同时训练)。损失函数包含两部分:(1) 渲染损失 \(\mathcal{L}_{img} = \text{MSE}(I, \hat{I}) + \lambda \cdot \text{Perceptual}(I, \hat{I})\) 同时用于合成和真实数据;(2) 几何损失 \(\mathcal{L}_{loc} = M \cdot \text{Smooth-L1}(\mathbf{c}, \mathbf{G}_{loc})\) 监督预测的 3D Gaussian 中心位置,仅用于有准确深度的合成数据,用 mask M 排除深度过大的像素
    • 设计动机:合成数据提供规模和准确元数据(深度、精确相机),真实数据提供传感器噪声、光照伪影等现实特性。几何损失对场景级重建尤为重要——场景深度范围大,仅靠光度线索难以推断准确几何

损失函数 / 训练策略

最终损失:\(\mathcal{L}^S = \mathcal{L}_{img}^S + \gamma \cdot \mathcal{L}_{loc}^S\)。基于 GS-LRM 和 Long-LRM 框架,默认使用 32 个输入视图。预训练+微调方案效果最佳。MegaSynth 含 70 万场景,DL3DV 含约 1 万场景。

实验关键数据

主实验

分辨率 128, 32 输入视图:

模型 训练数据 DL3DV PSNR↑ Hypersim PSNR↑ MipNeRF360 PSNR↑
3DGS (逐场景优化) - 24.27 20.67 16.46
GS-LRM DL3DV 24.60 23.89 19.93
GS-LRM (ours) DL3DV+MegaSynth 25.75 25.46 21.19
Long-LRM DL3DV 24.18 23.41 19.68
Long-LRM (ours) DL3DV+MegaSynth 25.44 25.01 20.86

室内/室外对比 (GS-LRM, 128 分辨率):

测试集 仅 DL3DV DL3DV + MegaSynth 提升
DL3DV 室内 25.41 26.75 +1.34dB
DL3DV 室外 23.09 23.89 +0.80dB

消融实验

配置 训练失败迭代 Hypersim PSNR (仅合成) Hypersim PSNR (微调后)
(0) 无控制+无几何损失 70K 17.18 18.44
(1) +几何损失 45K 18.71 21.87
(2) +复杂度控制 无失败 20.72 25.12
(3) +规模扩大 (100K→700K) 无失败 21.07 25.46

关键发现

  • 加入 MegaSynth 后在所有测试集上均有显著提升:in-domain DL3DV +1.15dB, out-of-domain Hypersim +1.57dB, MipNeRF360 +1.26dB
  • 复杂度控制是训练稳定性的关键——没有控制时 70K 步就会训练崩溃,有控制后可以稳定训练
  • 几何损失本身就能将训练失败迭代从 70K 推迟到 45K,并带来 3.4dB 的微调后提升
  • 数据规模从 100K 扩大到 700K 进一步带来 0.34dB 提升,证实了 scaling 的有效性
  • 仅在 MegaSynth 上训练的模型(PSNR=21.07)与仅在 DL3DV 上训练的模型性能接近,验证了 3D 重建的非语义本质
  • 室内场景比室外场景获益更大(+1.34dB vs +0.80dB),因为 MegaSynth 的房间结构更接近室内场景

亮点与洞察

  • "3D 重建不需要语义"这一洞察:这是论文最核心的贡献——验证了多视图重建是低层次几何任务,用随机几何基元就能训练出有竞争力的模型。这个发现挑战了"合成数据必须逼真"的常见假设
  • 合成与真实数据的互补性:合成数据提供规模+准确元数据(特别是几何监督),真实数据提供领域适配。两者结合优于任何单一来源,且无需追求合成数据的视觉逼真度
  • 可迁移到其他任务:论文还展示了 MegaSynth 可以提升单目深度估计模型的性能,说明非语义合成数据的价值不局限于多视图重建

局限与展望

  • 非语义生成方法可能在需要语义理解的重建场景(如场景补全、遮挡推理)中帮助有限
  • 当前光照模型仍然简化,缺乏全局光照(GI)、焦散等高级光照效果
  • 70 万场景虽然规模大但几何基元种类有限(cube、sphere、cylinder、cone),可能存在几何多样性天花板
  • 相机采样策略的超参数仍需手动调整,更系统的分布优化方法值得探索

相关工作与启发

  • vs LRM-Zero: LRM-Zero 也使用基元合成数据,但仅限于物体级别。MegaSynth 首次将非语义合成扩展到更复杂的场景级别,需要控制光照、物体组合和相机分布
  • vs DL3DV: DL3DV 是最大的真实场景数据集(~10K 场景),MegaSynth 在规模上超越 50 倍,且两者联合训练效果最佳
  • vs 语义场景生成方法: ProcTHOR、Infinigen 等追求语义正确性但生成速度慢且多样性受限。MegaSynth 放弃语义换取了极大的可扩展性

评分

  • 新颖性: ⭐⭐⭐⭐ "3D 重建不需要语义"的核心洞察有很强的启发性,非语义合成思路新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 全面的消融分析、多数据集验证、室内/室外分拆评估、跨任务迁移实验
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,实验充分,但数据生成管线的一些细节需查看附录
  • 价值: ⭐⭐⭐⭐⭐ 为 3D 重建社区提供了一种低成本高收益的数据扩展路径,影响深远