LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation¶
会议: ECCV 2024
arXiv: 2403.12019
代码: 项目页面
领域: 3D视觉
关键词: 3D生成, 潜在扩散模型, 神经场, 三平面表示, VAE
一句话总结¶
提出LN3Diff++框架,通过3D感知的VAE将多视角图像压缩到紧凑的3D潜在空间,在该空间上训练扩散模型(U-Net或DiT),实现高质量、快速、通用的条件3D生成,包括文本到3D和图像到3D。
研究背景与动机¶
领域现状: 2D扩散模型已经超越GAN,但统一的3D扩散管线尚未建立。现有方法分为2D提升(SDS/Zero-123)和前馈3D扩散两大路线。
现有痛点: - 可扩展性差: 现有方法使用共享低容量MLP解码器进行逐实例优化,需要50+视角,计算成本随数据集线性增长 - 效率低: 高维3D潜在空间(如256×256×96)导致扩散训练困难;auto-decoding产生不干净的潜在空间 - 泛化性弱: 多集中在单类别无条件生成,忽视了跨类别的条件3D生成
核心矛盾: 需要同时实现紧凑潜在空间(高效扩散)、高质量3D重建(保留细节)、通用条件生成(跨类别泛化)
本文目标: 设计一个3D表示无关的管线,支持快速、高质量、通用的条件3D生成
切入角度: 借鉴2D LDM的成功经验,构建3D感知的VAE将图像压缩到结构化的三平面潜在空间
核心 idea: 在KL正则化的紧凑三平面潜在空间上训练扩散模型,解耦3D压缩与生成两阶段
方法详解¶
整体框架¶
两阶段训练管线: - 阶段一(3D潜在压缩): 卷积编码器 \(\mathcal{E}_\phi\) 将输入图像编码为KL正则化的三平面潜在 \(z \in \mathbb{R}^{h \times w \times 3 \times c}\),Transformer解码器 \(\mathcal{D}_T\) 将潜在解码为高容量三平面,卷积上采样器 \(\mathcal{D}_U\) 输出高分辨率三平面用于体渲染监督 - 阶段二(潜在扩散学习): 在紧凑潜在空间上训练条件扩散模型(U-Net或DiT架构),支持文本/图像条件
关键设计¶
-
3D感知的Transformer解码器: 为促进3D空间信息流动,设计两种注意力机制:
- Self-Plane Attention: 对每个平面内部做自注意力,\(z \in \mathbb{R}^{l \times 3 \times c}\) 中每个平面独立进行特征聚合,复杂度低
- Cross-Plane Attention: 将三个平面展开为长序列 \(l \times 3 \times c \to 3l \times c\) 做全局注意力,所有token互相关注
- 两种注意力交替排列,使用DiT block和AdaLN层注入潜在条件,比Rodin更高效且支持并行计算
-
紧凑三平面潜在空间: 编码器下采样因子 \(f=8\),输出 \(z \in \mathbb{R}^{h \times w \times 3 \times c}\)(三平面形式),与传统tri-plane类似但处于紧凑潜在空间。通过KL正则化 \(\mathcal{L}_{\text{KL}}\) 确保潜在空间结构化,适合扩散训练。仅需V=2个视角(ShapeNet)即可训练,远少于SSDNeRF所需的50视角。
-
Flow Matching扩散框架: 从DDPM+U-Net升级为FM+DiT,训练目标:
其中 \(z_t = (1-t)x_0 + t\epsilon\) 定义直线路径,网络预测速度 \(v_\Theta\)。
-
多模态条件注入:
- 文本条件:CLIP文本编码器输出77×768 token通过cross attention注入
- 图像条件:CLIP图像编码器+DINOv2 patch features。DINO特征通过prepend到self-attention(类似SD-3),提供低层细节提升重建保真度
- Classifier-free guidance:15%概率随机drop条件,采样时混合条件/无条件分数
损失函数 / 训练策略¶
VAE阶段总损失:
- \(\mathcal{L}_{\text{render}}\): L1 + 感知损失,同时监督输入视角和随机采样的新视角
- \(\mathcal{L}_{\text{GAN}}\): 使用DINOv2 vision-aided GAN,含输入视角判别器和新视角判别器
- Flexicubes微调: \(\mathcal{L}_{\text{flex}} = \lambda_{\text{normal}}\mathcal{L}_{\text{normal}} + \lambda_{\text{reg}}\mathcal{L}_{\text{reg}}\),仅微调解码器,从NeRF切换到SDF以支持高质量mesh提取
训练配置: BFloat16 + FlashAttention,DiT-L (24层, 16头, 1024维),总计800K迭代,8×A100训练约7天。
实验关键数据¶
主实验 - ShapeNet无条件生成¶
| 类别 | 方法 | FID↓ | KID(%)↓ | COV(%)↑ | MMD(‰)↓ |
|---|---|---|---|---|---|
| Car | EG3D | 33.33 | 1.4 | 35.32 | 3.95 |
| Car | SSDNeRF(V=3) | 47.72 | 2.8 | 37.84 | 3.46 |
| Car | LN3Diff++ | 17.6 | 0.49 | 43.12 | 2.32 |
| Plane | EG3D | 14.47 | 0.54 | 18.12 | 4.50 |
| Plane | LN3Diff++ | 8.84 | 0.36 | 43.40 | 2.71 |
| Chair | EG3D | 26.09 | 1.1 | 19.17 | 10.31 |
| Chair | LN3Diff++ | 16.9 | 0.47 | 47.1 | 5.28 |
图像条件3D生成 (Objaverse)¶
| 方法 | CLIP-I↑ | FID↓ | KID(%)↓ | COV(%)↑ | MMD(‰)↓ |
|---|---|---|---|---|---|
| OpenLRM | 86.37 | 38.41 | 1.87 | 39.33 | 29.08 |
| LGM (V=4) | 87.99 | 19.93 | 0.55 | 50.83 | 22.06 |
| LN3Diff++ | 88.29 | 23.01 | 0.75 | 55.17 | 19.94 |
消融实验 - VAE架构设计¶
| 设计 | PSNR@100K |
|---|---|
| 2D Conv基线 | 17.46 |
| + ViT Block | 18.92 |
| ViT → DiT Block | 20.61 |
| + Plucker嵌入 | 21.29 |
| + Cross-Plane Attention | 21.70 |
| + Self-Plane Attention | 21.95 |
关键发现¶
- LN3Diff++仅用V=2视角就在ShapeNet全部三个类别上超越所有基线(FID/KID/MMD)
- GAN方法严重受模式坍塌影响(如Plane类别EG3D/GET3D只生成白色民航机)
- 扩散采样速度5.7s/实例(V100),是RenderDiffusion(15.8s)的近3倍
- 新视角判别器对单目数据集(FFHQ)至关重要,缺少则无法生成合理新视角
- DINO特征显著提升图像条件生成的保真度,仅用CLIP会导致不忠实生成
亮点与洞察¶
- 3D表示无关: 管线设计与具体3D表示(NeRF/3DGS/SDF)解耦,新渲染技术可直接插入
- 摊销化编码: 预训练编码器可在线编码新数据,无需逐实例优化,解决了现有方法的可扩展性瓶颈
- 统一框架: 同一框架支持无条件/文本条件/图像条件生成,在ShapeNet/FFHQ/Objaverse三个数据集上都有竞争力
- FM+DiT升级: 从DDPM+U-Net升级到Flow Matching+DiT带来质量和效率双重提升,与视频生成研究趋势一致
局限与展望¶
- 体渲染仍然内存密集,Flexicube微调版本视觉质量低于NeRF版本
- 三平面潜在空间可能不是最优选择,点云或稀疏体素可能更好
- 单目数据集训练的背景区域出现不自然伪影(新视角判别器的对抗性捷径)
- 几何和纹理联合分布建模可能产生次优结果,解耦框架可能更好
- 仅在Objaverse艺术家创作数据上训练,加入真实世界数据可提升泛化性
相关工作与启发¶
- EG3D [CVPR 2022]: 三平面表示的先驱→本文在潜在空间层面延续了这一表示
- SSDNeRF [NeurIPS 2023]: 联合重建与扩散训练→需要50视角且复杂调度
- RenderDiffusion [CVPR 2023]: 无潜在3D扩散→每步体渲染严重拖慢采样
- SD-3 [2024]: Flow Matching + DiT + prepend conditioning→本文3D扩散部分的核心参考
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次证明3D感知VAE潜在空间可高效支持3D扩散学习
- 实验充分度: ⭐⭐⭐⭐⭐ 涵盖ShapeNet/FFHQ/Objaverse三大数据集,消融充分
- 写作质量: ⭐⭐⭐⭐ 方法论清晰,但journal版内容较多,部分冗余
- 价值: ⭐⭐⭐⭐ 为原生3D扩散模型提供了一个可扩展的范式,影响力较大