Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?¶
会议: ICLR 2026
arXiv: 2410.23742
代码: https://fused-planes.github.io
领域: 3D视觉 / 大规模3D重建
关键词: tri-plane, NeRF, shared representation, large-scale 3D, latent space
一句话总结¶
提出 Fused-Planes,通过宏观-微观分解将 Tri-Plane 表示分为共享的类级基平面(macro)和对象特有的细节平面(micro),结合潜空间渲染,实现 7× 训练加速、3× 内存压缩,同时保持甚至超越独立 Tri-Plane 的重建质量。
研究背景与动机¶
领域现状:Tri-Planar NeRF 是强大的 3D 表示(与 2D 视觉模型兼容),但大规模场景重建需要为每个对象独立训练——千个对象 = 千次训练,计算成本极高。
现有痛点:(a) 独立训练忽视了同类对象间的结构相似性;(b) 已有共享表示方法(CodeNeRF)要么扩展性差(C3-NeRF 仅 20 场景),要么缺乏平面结构的优势。
切入角度:同类 3D 对象(如同类汽车)共享大量几何/纹理模式。将每个对象的 Tri-Plane 分解为"共享基底的加权组合 + 对象特有残差",大幅减少重复计算。
核心 idea:\(T_i = T_i^{mic} \oplus (W_i \cdot \mathcal{B})\)——每个对象的 Tri-Plane 由少量共享基平面的加权和(macro)加上对象特有的微观特征(micro)组成。
方法详解¶
整体框架¶
Fused-Planes 要解决的是"千个对象就要训千次 Tri-Plane"的浪费问题,办法是把同类对象之间高度重复的几何/纹理模式抽出来共享,只为每个对象单独训练它真正独特的那部分。具体来说,全体对象共用一组 \(M=50\) 个基平面 \(\mathcal{B} = \{B_1, ..., B_{50}\}\),每个对象 \(i\) 只持有一个小小的微观平面 \(T_i^{mic}\) 和一个权重向量 \(W_i\);推理时用 \(W_i\) 把基平面线性组合出"宏观平面",再与微观平面拼接成完整的 Fused-Plane。渲染不在 RGB 空间进行,而是先在一个低维潜空间出图,再由解码器恢复 RGB,从而把单对象训练从一小时压到十分钟以内。训练上分两段:先用少量对象把共享部件练熟,再冻结它们快速吞下剩余对象。
```mermaid
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
IN["对象 i 的多视图图像"] --> DECOMP
subgraph DECOMP["宏观-微观分解(设计 1)"]
direction TB
B["共享基平面 𝓑
M=50(全局一份)"] -->|"权重 W_i 线性组合"| MAC["宏观平面 T_i^mac
类级共性 22 维"]
MIC["微观平面 T_i^mic
私有细节 10 维"]
MAC --> FUSE["拼接成 Fused-Plane
32 维特征"]
MIC --> FUSE
end
FUSE --> RENDER["潜空间渲染(设计 2)
低维潜空间出图"]
RENDER --> DEC["解码器
潜表示→RGB"]
DEC --> OUT["重建图像"]
REGIME["两阶段训练(设计 3)
Regime 1 练共享件 →
Regime 2 冻结后吞新对象"] -.-> DECOMP
REGIME -.-> RENDER
关键设计¶
1. 宏观-微观分解:把每个对象的 Tri-Plane 拆成"共享基底 + 私有残差",避免重复训练同类共性
这一步直接针对"独立训练忽视同类结构相似性"的痛点。一个对象的特征被拆成两部分相加:宏观平面 \(T_i^{mac} = \sum_k w_i^k B_k\) 是 50 个共享基平面的加权和,负责承载类级别的共性结构(22 维),微观平面 \(T_i^{mic}\) 则只编码这个对象独有的细节(10 维),两者拼接得到 32 维特征。这样设计的直接好处是存储成本被压到极致——共享的基平面是全局一份,分摊到每个对象后,单对象只需存一个 480KB 的微观平面加一个 811B 的权重向量,而不是完整的 1.5MB Tri-Plane。共性越强、对象越多,这套分摊就越划算。
2. 潜空间渲染:把渲染从 RGB 空间搬到低维潜空间,并和表示一起从零联合训练
逐对象优化慢,很大一部分开销在高分辨率 RGB 体渲染上。这里引入一个基于 SD VAE 的图像自编码器,让 NeRF 直接在它压出的低维潜空间里渲染,分辨率大幅下降、训练随之提速。关键的一点是这个自编码器不能拿现成预训练权重直接用——预训练 VAE 的分布与 NeRF 渲染出的特征分布对不上——所以它必须与 Fused-Planes 从头联合训练,渲出的潜表示再经解码器还原成 RGB,质量才不掉。这也解释了为什么后面消融里"去掉潜空间、回到 RGB 空间"会让训练时间从 8.92 分钟反弹到 63.52 分钟。
3. 两阶段训练策略:先用少量对象把共享件练熟,再冻结它们快速吞下剩余对象
如果每来一个新对象都要顺带优化基平面和自编码器,共享的意义就打了折扣。于是训练分两段:Regime 1 只用前 500 个对象,联合优化全部组件(基平面、编码器、解码器),把这些全局共享的部件练到收敛;Regime 2 处理剩余对象时直接冻结已经收敛的编码器,只训练各自的微观平面和权重。共享件一旦固定,新对象的训练就退化成一个极轻量的拟合问题,这正是规模化时单对象成本能稳定维持在分钟级的原因。
损失函数 / 训练策略¶
训练目标由三项相加构成:
其中 \(\mathcal{L}^{latent}\) 监督潜空间里的渲染结果,\(\mathcal{L}^{RGB}\) 约束解码回 RGB 后的图像保真,\(\mathcal{L}^{ae}\)(权重 0.1)则保证自编码器自身的重建能力不退化。三项配合,使得"在潜空间渲染、再解码回像素"这条链路端到端可靠。
实验关键数据¶
主实验¶
| 方法 | 训练(min/obj) | 存储(MB/obj) | ShapeNet PSNR | FPS |
|---|---|---|---|---|
| Tri-Planes | 64.32 | 1.50 | 28.15 | 42.9 |
| K-Planes | 75.35 | 410.17 | 30.88 | 14.3 |
| Fused-Planes | 8.96 | 0.48 | 30.47 | 91.3 |
| Fused-Planes-ULW | 7.16 | 0.0008 | 29.02 | - |
Fused-Planes 比 Tri-Planes: 7.2× 快,3.2× 省存储,PSNR 高 2.32dB,渲染速度 2.1× 快。
消融实验¶
| 配置 | PSNR | 训练(min) | 存储(MB) |
|---|---|---|---|
| RGB空间(无潜空间) | 27.71 | 63.52 | 0.48 |
| 仅micro(无共享) | 27.64 | 12.84 | 1.50 |
| M=1 基平面 | 27.69 | 8.48 | 0.48 |
| M=50 基平面 | 28.64 | 8.92 | 0.48 |
| M=75 基平面 | 29.62 | 8.99 | 1348 总 |
关键发现¶
- 潜空间渲染是加速关键:RGB→潜空间训练从 63.52 降至 8.92 分钟(7.1×加速),且质量不降
- 共享基平面有效:M=50 是最优选择;更多基平面性能递减且增加内存
- ULW 变体极端压缩:完全不用 micro 平面,每个对象仅需 811B(权重向量),PSNR 仍达 29.02
- 多类训练可行:跨 4 个 ShapeNet 类训练仅有轻微质量下降
- 规模化收益:10000 对象时总内存仅 5GB(Tri-Planes 14.6GB,K-Planes 4TB)
亮点与洞察¶
- 微观-宏观分解思想可迁移到其他 3D 表示——任何基于逐对象优化的方法都可以尝试提取共享基底
- 潜空间渲染与表示学习联合训练是关键——预训练的 VAE 无法适应 NeRF 的特殊分布
- 在保持平面结构(2D 兼容)的前提下实现了接近 Instant-NGP 的训练速度,这对下游生成任务(如用平面做 diffusion)非常有价值
局限与展望¶
- 质量上限受限于 Tri-Plane 本身(30.47 vs TensoRF 36.74)——共享加速但不提升表示上限
- 需要预先定义基平面数量 M,不同类别的最优 M 可能不同
- 仅在合成数据(ShapeNet + Basel Faces)上验证,真实场景泛化未知
- 编码器冻结策略在类别分布变化大时可能失效
相关工作与启发¶
- vs Tri-Planes: 直接替代品——更快、更小、更好,保持平面兼容性
- vs CodeNeRF: CodeNeRF 用 latent code 共享,但没有平面结构;Fused-Planes 保持了平面的 2D 兼容性
- vs Instant-NGP: NGP 训练速度接近但存储 189MB/对象 vs 0.48MB/对象
评分¶
- 新颖性: ⭐⭐⭐⭐ 微观-宏观分解思路简洁有效,潜空间联合训练有洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多基线、全面消融、规模化分析、渲染速度评估
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,实验详尽,表格丰富
- 价值: ⭐⭐⭐⭐ 大规模 3D 重建的实用加速方案,与下游生成任务兼容