LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation¶

会议: ECCV 2024
arXiv: 2403.12019
代码: 项目页面
领域: 3D视觉
关键词: 3D生成, 潜在扩散模型, 神经场, 三平面表示, VAE

一句话总结¶

提出LN3Diff++框架，通过3D感知的VAE将多视角图像压缩到紧凑的3D潜在空间，在该空间上训练扩散模型（U-Net或DiT），实现高质量、快速、通用的条件3D生成，包括文本到3D和图像到3D。

研究背景与动机¶

领域现状: 2D扩散模型已经超越GAN，但统一的3D扩散管线尚未建立。现有方法分为2D提升（SDS/Zero-123）和前馈3D扩散两大路线。

现有痛点: - 可扩展性差: 现有方法使用共享低容量MLP解码器进行逐实例优化，需要50+视角，计算成本随数据集线性增长 - 效率低: 高维3D潜在空间（如256×256×96）导致扩散训练困难；auto-decoding产生不干净的潜在空间 - 泛化性弱: 多集中在单类别无条件生成，忽视了跨类别的条件3D生成

核心矛盾: 需要同时实现紧凑潜在空间（高效扩散）、高质量3D重建（保留细节）、通用条件生成（跨类别泛化）

本文目标: 设计一个3D表示无关的管线，支持快速、高质量、通用的条件3D生成

切入角度: 借鉴2D LDM的成功经验，构建3D感知的VAE将图像压缩到结构化的三平面潜在空间

核心 idea: 在KL正则化的紧凑三平面潜在空间上训练扩散模型，解耦3D压缩与生成两阶段

方法详解¶

整体框架¶

两阶段训练管线： - 阶段一（3D潜在压缩）: 卷积编码器 \(\mathcal{E}_\phi\) 将输入图像编码为KL正则化的三平面潜在 \(z \in \mathbb{R}^{h \times w \times 3 \times c}\)，Transformer解码器 \(\mathcal{D}_T\) 将潜在解码为高容量三平面，卷积上采样器 \(\mathcal{D}_U\) 输出高分辨率三平面用于体渲染监督 - 阶段二（潜在扩散学习）: 在紧凑潜在空间上训练条件扩散模型（U-Net或DiT架构），支持文本/图像条件

关键设计¶

3D感知的Transformer解码器: 为促进3D空间信息流动，设计两种注意力机制：
- Self-Plane Attention: 对每个平面内部做自注意力，\(z \in \mathbb{R}^{l \times 3 \times c}\) 中每个平面独立进行特征聚合，复杂度低
- Cross-Plane Attention: 将三个平面展开为长序列 \(l \times 3 \times c \to 3l \times c\) 做全局注意力，所有token互相关注
- 两种注意力交替排列，使用DiT block和AdaLN层注入潜在条件，比Rodin更高效且支持并行计算
紧凑三平面潜在空间: 编码器下采样因子 \(f=8\)，输出 \(z \in \mathbb{R}^{h \times w \times 3 \times c}\)（三平面形式），与传统tri-plane类似但处于紧凑潜在空间。通过KL正则化 \(\mathcal{L}_{\text{KL}}\) 确保潜在空间结构化，适合扩散训练。仅需V=2个视角（ShapeNet）即可训练，远少于SSDNeRF所需的50视角。
Flow Matching扩散框架: 从DDPM+U-Net升级为FM+DiT，训练目标：

\[\mathcal{L}_{\text{FM}} = -\frac{1}{2}\mathbb{E}_{\mathcal{E}_\phi(I), \epsilon \sim \mathcal{N}(0,I), t}\left[w_t^{\text{FM}} \lambda_t' \|\epsilon - \epsilon_\theta(z_t, t, c)\|_2^2\right]\]

其中 \(z_t = (1-t)x_0 + t\epsilon\) 定义直线路径，网络预测速度 \(v_\Theta\)。

多模态条件注入:
- 文本条件：CLIP文本编码器输出77×768 token通过cross attention注入
- 图像条件：CLIP图像编码器+DINOv2 patch features。DINO特征通过prepend到self-attention（类似SD-3），提供低层细节提升重建保真度
- Classifier-free guidance：15%概率随机drop条件，采样时混合条件/无条件分数

损失函数 / 训练策略¶

VAE阶段总损失:

\[\mathcal{L}(\phi, \psi) = \mathcal{L}_{\text{render}} + \lambda_{\text{geo}}\mathcal{L}_{\text{geo}} + \lambda_{\text{kl}}\mathcal{L}_{\text{KL}} + \lambda_{\text{GAN}}\mathcal{L}_{\text{GAN}}\]

\(\mathcal{L}_{\text{render}}\): L1 + 感知损失，同时监督输入视角和随机采样的新视角
\(\mathcal{L}_{\text{GAN}}\): 使用DINOv2 vision-aided GAN，含输入视角判别器和新视角判别器
Flexicubes微调: \(\mathcal{L}_{\text{flex}} = \lambda_{\text{normal}}\mathcal{L}_{\text{normal}} + \lambda_{\text{reg}}\mathcal{L}_{\text{reg}}\)，仅微调解码器，从NeRF切换到SDF以支持高质量mesh提取

训练配置: BFloat16 + FlashAttention，DiT-L (24层, 16头, 1024维)，总计800K迭代，8×A100训练约7天。

实验关键数据¶

主实验 - ShapeNet无条件生成¶

类别	方法	FID↓	KID(%)↓	COV(%)↑	MMD(‰)↓
Car	EG3D	33.33	1.4	35.32	3.95
Car	SSDNeRF(V=3)	47.72	2.8	37.84	3.46
Car	LN3Diff++	17.6	0.49	43.12	2.32
Plane	EG3D	14.47	0.54	18.12	4.50
Plane	LN3Diff++	8.84	0.36	43.40	2.71
Chair	EG3D	26.09	1.1	19.17	10.31
Chair	LN3Diff++	16.9	0.47	47.1	5.28

图像条件3D生成 (Objaverse)¶

方法	CLIP-I↑	FID↓	KID(%)↓	COV(%)↑	MMD(‰)↓
OpenLRM	86.37	38.41	1.87	39.33	29.08
LGM (V=4)	87.99	19.93	0.55	50.83	22.06
LN3Diff++	88.29	23.01	0.75	55.17	19.94

消融实验 - VAE架构设计¶

设计	PSNR@100K
2D Conv基线	17.46
+ ViT Block	18.92
ViT → DiT Block	20.61
+ Plucker嵌入	21.29
+ Cross-Plane Attention	21.70
+ Self-Plane Attention	21.95

关键发现¶

LN3Diff++仅用V=2视角就在ShapeNet全部三个类别上超越所有基线（FID/KID/MMD）
GAN方法严重受模式坍塌影响（如Plane类别EG3D/GET3D只生成白色民航机）
扩散采样速度5.7s/实例(V100)，是RenderDiffusion(15.8s)的近3倍
新视角判别器对单目数据集（FFHQ）至关重要，缺少则无法生成合理新视角
DINO特征显著提升图像条件生成的保真度，仅用CLIP会导致不忠实生成

亮点与洞察¶

3D表示无关: 管线设计与具体3D表示（NeRF/3DGS/SDF）解耦，新渲染技术可直接插入
摊销化编码: 预训练编码器可在线编码新数据，无需逐实例优化，解决了现有方法的可扩展性瓶颈
统一框架: 同一框架支持无条件/文本条件/图像条件生成，在ShapeNet/FFHQ/Objaverse三个数据集上都有竞争力
FM+DiT升级: 从DDPM+U-Net升级到Flow Matching+DiT带来质量和效率双重提升，与视频生成研究趋势一致

局限与展望¶

体渲染仍然内存密集，Flexicube微调版本视觉质量低于NeRF版本
三平面潜在空间可能不是最优选择，点云或稀疏体素可能更好
单目数据集训练的背景区域出现不自然伪影（新视角判别器的对抗性捷径）
几何和纹理联合分布建模可能产生次优结果，解耦框架可能更好
仅在Objaverse艺术家创作数据上训练，加入真实世界数据可提升泛化性

评分¶

新颖性: ⭐⭐⭐⭐ 首次证明3D感知VAE潜在空间可高效支持3D扩散学习
实验充分度: ⭐⭐⭐⭐⭐ 涵盖ShapeNet/FFHQ/Objaverse三大数据集，消融充分
写作质量: ⭐⭐⭐⭐ 方法论清晰，但journal版内容较多，部分冗余
价值: ⭐⭐⭐⭐ 为原生3D扩散模型提供了一个可扩展的范式，影响力较大