跳转至

LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

会议: ECCV 2024
arXiv: 2403.12019
代码: 项目页面
领域: 3D视觉
关键词: 3D生成, 潜在扩散模型, 神经场, 三平面表示, VAE

一句话总结

提出LN3Diff++框架,通过3D感知的VAE将多视角图像压缩到紧凑的3D潜在空间,在该空间上训练扩散模型(U-Net或DiT),实现高质量、快速、通用的条件3D生成,包括文本到3D和图像到3D。

研究背景与动机

领域现状: 2D扩散模型已经超越GAN,但统一的3D扩散管线尚未建立。现有方法分为2D提升(SDS/Zero-123)和前馈3D扩散两大路线。

现有痛点: - 可扩展性差: 现有方法使用共享低容量MLP解码器进行逐实例优化,需要50+视角,计算成本随数据集线性增长 - 效率低: 高维3D潜在空间(如256×256×96)导致扩散训练困难;auto-decoding产生不干净的潜在空间 - 泛化性弱: 多集中在单类别无条件生成,忽视了跨类别的条件3D生成

核心矛盾: 需要同时实现紧凑潜在空间(高效扩散)、高质量3D重建(保留细节)、通用条件生成(跨类别泛化)

本文目标: 设计一个3D表示无关的管线,支持快速、高质量、通用的条件3D生成

切入角度: 借鉴2D LDM的成功经验,构建3D感知的VAE将图像压缩到结构化的三平面潜在空间

核心 idea: 在KL正则化的紧凑三平面潜在空间上训练扩散模型,解耦3D压缩与生成两阶段

方法详解

整体框架

两阶段训练管线: - 阶段一(3D潜在压缩): 卷积编码器 \(\mathcal{E}_\phi\) 将输入图像编码为KL正则化的三平面潜在 \(z \in \mathbb{R}^{h \times w \times 3 \times c}\),Transformer解码器 \(\mathcal{D}_T\) 将潜在解码为高容量三平面,卷积上采样器 \(\mathcal{D}_U\) 输出高分辨率三平面用于体渲染监督 - 阶段二(潜在扩散学习): 在紧凑潜在空间上训练条件扩散模型(U-Net或DiT架构),支持文本/图像条件

关键设计

  1. 3D感知的Transformer解码器: 为促进3D空间信息流动,设计两种注意力机制:

    • Self-Plane Attention: 对每个平面内部做自注意力,\(z \in \mathbb{R}^{l \times 3 \times c}\) 中每个平面独立进行特征聚合,复杂度低
    • Cross-Plane Attention: 将三个平面展开为长序列 \(l \times 3 \times c \to 3l \times c\) 做全局注意力,所有token互相关注
    • 两种注意力交替排列,使用DiT block和AdaLN层注入潜在条件,比Rodin更高效且支持并行计算
  2. 紧凑三平面潜在空间: 编码器下采样因子 \(f=8\),输出 \(z \in \mathbb{R}^{h \times w \times 3 \times c}\)(三平面形式),与传统tri-plane类似但处于紧凑潜在空间。通过KL正则化 \(\mathcal{L}_{\text{KL}}\) 确保潜在空间结构化,适合扩散训练。仅需V=2个视角(ShapeNet)即可训练,远少于SSDNeRF所需的50视角。

  3. Flow Matching扩散框架: 从DDPM+U-Net升级为FM+DiT,训练目标:

\[\mathcal{L}_{\text{FM}} = -\frac{1}{2}\mathbb{E}_{\mathcal{E}_\phi(I), \epsilon \sim \mathcal{N}(0,I), t}\left[w_t^{\text{FM}} \lambda_t' \|\epsilon - \epsilon_\theta(z_t, t, c)\|_2^2\right]\]

其中 \(z_t = (1-t)x_0 + t\epsilon\) 定义直线路径,网络预测速度 \(v_\Theta\)

  1. 多模态条件注入:

    • 文本条件:CLIP文本编码器输出77×768 token通过cross attention注入
    • 图像条件:CLIP图像编码器+DINOv2 patch features。DINO特征通过prepend到self-attention(类似SD-3),提供低层细节提升重建保真度
    • Classifier-free guidance:15%概率随机drop条件,采样时混合条件/无条件分数

损失函数 / 训练策略

VAE阶段总损失:

\[\mathcal{L}(\phi, \psi) = \mathcal{L}_{\text{render}} + \lambda_{\text{geo}}\mathcal{L}_{\text{geo}} + \lambda_{\text{kl}}\mathcal{L}_{\text{KL}} + \lambda_{\text{GAN}}\mathcal{L}_{\text{GAN}}\]
  • \(\mathcal{L}_{\text{render}}\): L1 + 感知损失,同时监督输入视角和随机采样的新视角
  • \(\mathcal{L}_{\text{GAN}}\): 使用DINOv2 vision-aided GAN,含输入视角判别器和新视角判别器
  • Flexicubes微调: \(\mathcal{L}_{\text{flex}} = \lambda_{\text{normal}}\mathcal{L}_{\text{normal}} + \lambda_{\text{reg}}\mathcal{L}_{\text{reg}}\),仅微调解码器,从NeRF切换到SDF以支持高质量mesh提取

训练配置: BFloat16 + FlashAttention,DiT-L (24层, 16头, 1024维),总计800K迭代,8×A100训练约7天。

实验关键数据

主实验 - ShapeNet无条件生成

类别 方法 FID↓ KID(%)↓ COV(%)↑ MMD(‰)↓
Car EG3D 33.33 1.4 35.32 3.95
Car SSDNeRF(V=3) 47.72 2.8 37.84 3.46
Car LN3Diff++ 17.6 0.49 43.12 2.32
Plane EG3D 14.47 0.54 18.12 4.50
Plane LN3Diff++ 8.84 0.36 43.40 2.71
Chair EG3D 26.09 1.1 19.17 10.31
Chair LN3Diff++ 16.9 0.47 47.1 5.28

图像条件3D生成 (Objaverse)

方法 CLIP-I↑ FID↓ KID(%)↓ COV(%)↑ MMD(‰)↓
OpenLRM 86.37 38.41 1.87 39.33 29.08
LGM (V=4) 87.99 19.93 0.55 50.83 22.06
LN3Diff++ 88.29 23.01 0.75 55.17 19.94

消融实验 - VAE架构设计

设计 PSNR@100K
2D Conv基线 17.46
+ ViT Block 18.92
ViT → DiT Block 20.61
+ Plucker嵌入 21.29
+ Cross-Plane Attention 21.70
+ Self-Plane Attention 21.95

关键发现

  • LN3Diff++仅用V=2视角就在ShapeNet全部三个类别上超越所有基线(FID/KID/MMD)
  • GAN方法严重受模式坍塌影响(如Plane类别EG3D/GET3D只生成白色民航机)
  • 扩散采样速度5.7s/实例(V100),是RenderDiffusion(15.8s)的近3倍
  • 新视角判别器对单目数据集(FFHQ)至关重要,缺少则无法生成合理新视角
  • DINO特征显著提升图像条件生成的保真度,仅用CLIP会导致不忠实生成

亮点与洞察

  • 3D表示无关: 管线设计与具体3D表示(NeRF/3DGS/SDF)解耦,新渲染技术可直接插入
  • 摊销化编码: 预训练编码器可在线编码新数据,无需逐实例优化,解决了现有方法的可扩展性瓶颈
  • 统一框架: 同一框架支持无条件/文本条件/图像条件生成,在ShapeNet/FFHQ/Objaverse三个数据集上都有竞争力
  • FM+DiT升级: 从DDPM+U-Net升级到Flow Matching+DiT带来质量和效率双重提升,与视频生成研究趋势一致

局限与展望

  • 体渲染仍然内存密集,Flexicube微调版本视觉质量低于NeRF版本
  • 三平面潜在空间可能不是最优选择,点云或稀疏体素可能更好
  • 单目数据集训练的背景区域出现不自然伪影(新视角判别器的对抗性捷径)
  • 几何和纹理联合分布建模可能产生次优结果,解耦框架可能更好
  • 仅在Objaverse艺术家创作数据上训练,加入真实世界数据可提升泛化性

相关工作与启发

  • EG3D [CVPR 2022]: 三平面表示的先驱→本文在潜在空间层面延续了这一表示
  • SSDNeRF [NeurIPS 2023]: 联合重建与扩散训练→需要50视角且复杂调度
  • RenderDiffusion [CVPR 2023]: 无潜在3D扩散→每步体渲染严重拖慢采样
  • SD-3 [2024]: Flow Matching + DiT + prepend conditioning→本文3D扩散部分的核心参考

评分

  • 新颖性: ⭐⭐⭐⭐ 首次证明3D感知VAE潜在空间可高效支持3D扩散学习
  • 实验充分度: ⭐⭐⭐⭐⭐ 涵盖ShapeNet/FFHQ/Objaverse三大数据集,消融充分
  • 写作质量: ⭐⭐⭐⭐ 方法论清晰,但journal版内容较多,部分冗余
  • 价值: ⭐⭐⭐⭐ 为原生3D扩散模型提供了一个可扩展的范式,影响力较大