Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?¶

会议: ICLR 2026
arXiv: 2410.23742
代码: https://fused-planes.github.io
领域: 3D视觉 / 大规模3D重建
关键词: tri-plane, NeRF, shared representation, large-scale 3D, latent space

一句话总结¶

提出 Fused-Planes，通过宏观-微观分解将 Tri-Plane 表示分为共享的类级基平面（macro）和对象特有的细节平面（micro），结合潜空间渲染，实现 7× 训练加速、3× 内存压缩，同时保持甚至超越独立 Tri-Plane 的重建质量。

研究背景与动机¶

领域现状：Tri-Planar NeRF 是强大的 3D 表示（与 2D 视觉模型兼容），但大规模场景重建需要为每个对象独立训练——千个对象 = 千次训练，计算成本极高。

现有痛点：(a) 独立训练忽视了同类对象间的结构相似性；(b) 已有共享表示方法（CodeNeRF）要么扩展性差（C3-NeRF 仅 20 场景），要么缺乏平面结构的优势。

切入角度：同类 3D 对象（如同类汽车）共享大量几何/纹理模式。将每个对象的 Tri-Plane 分解为"共享基底的加权组合 + 对象特有残差"，大幅减少重复计算。

核心 idea：\(T_i = T_i^{mic} \oplus (W_i \cdot \mathcal{B})\)——每个对象的 Tri-Plane 由少量共享基平面的加权和（macro）加上对象特有的微观特征（micro）组成。

方法详解¶

整体框架¶

Fused-Planes 要解决的是"千个对象就要训千次 Tri-Plane"的浪费问题，办法是把同类对象之间高度重复的几何/纹理模式抽出来共享，只为每个对象单独训练它真正独特的那部分。具体来说，全体对象共用一组 \(M=50\) 个基平面 \(\mathcal{B} = \{B_1, ..., B_{50}\}\)，每个对象 \(i\) 只持有一个小小的微观平面 \(T_i^{mic}\) 和一个权重向量 \(W_i\)；推理时用 \(W_i\) 把基平面线性组合出"宏观平面"，再与微观平面拼接成完整的 Fused-Plane。渲染不在 RGB 空间进行，而是先在一个低维潜空间出图，再由解码器恢复 RGB，从而把单对象训练从一小时压到十分钟以内。训练上分两段：先用少量对象把共享部件练熟，再冻结它们快速吞下剩余对象。

```mermaid %%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%% flowchart TD IN["对象 i 的多视图图像"] --> DECOMP subgraph DECOMP["宏观-微观分解（设计 1）"] direction TB B["共享基平面 𝓑
M=50（全局一份）"] -->|"权重 W_i 线性组合"| MAC["宏观平面 T_i^mac
类级共性 22 维"] MIC["微观平面 T_i^mic
私有细节 10 维"] MAC --> FUSE["拼接成 Fused-Plane
32 维特征"] MIC --> FUSE end FUSE --> RENDER["潜空间渲染（设计 2）
低维潜空间出图"] RENDER --> DEC["解码器
潜表示→RGB"] DEC --> OUT["重建图像"] REGIME["两阶段训练（设计 3）
Regime 1 练共享件 →
Regime 2 冻结后吞新对象"] -.-> DECOMP REGIME -.-> RENDER

关键设计¶

1. 宏观-微观分解：把每个对象的 Tri-Plane 拆成"共享基底 + 私有残差"，避免重复训练同类共性

这一步直接针对"独立训练忽视同类结构相似性"的痛点。一个对象的特征被拆成两部分相加：宏观平面 \(T_i^{mac} = \sum_k w_i^k B_k\) 是 50 个共享基平面的加权和，负责承载类级别的共性结构（22 维），微观平面 \(T_i^{mic}\) 则只编码这个对象独有的细节（10 维），两者拼接得到 32 维特征。这样设计的直接好处是存储成本被压到极致——共享的基平面是全局一份，分摊到每个对象后，单对象只需存一个 480KB 的微观平面加一个 811B 的权重向量，而不是完整的 1.5MB Tri-Plane。共性越强、对象越多，这套分摊就越划算。

2. 潜空间渲染：把渲染从 RGB 空间搬到低维潜空间，并和表示一起从零联合训练

逐对象优化慢，很大一部分开销在高分辨率 RGB 体渲染上。这里引入一个基于 SD VAE 的图像自编码器，让 NeRF 直接在它压出的低维潜空间里渲染，分辨率大幅下降、训练随之提速。关键的一点是这个自编码器不能拿现成预训练权重直接用——预训练 VAE 的分布与 NeRF 渲染出的特征分布对不上——所以它必须与 Fused-Planes 从头联合训练，渲出的潜表示再经解码器还原成 RGB，质量才不掉。这也解释了为什么后面消融里"去掉潜空间、回到 RGB 空间"会让训练时间从 8.92 分钟反弹到 63.52 分钟。

3. 两阶段训练策略：先用少量对象把共享件练熟，再冻结它们快速吞下剩余对象

如果每来一个新对象都要顺带优化基平面和自编码器，共享的意义就打了折扣。于是训练分两段：Regime 1 只用前 500 个对象，联合优化全部组件（基平面、编码器、解码器），把这些全局共享的部件练到收敛；Regime 2 处理剩余对象时直接冻结已经收敛的编码器，只训练各自的微观平面和权重。共享件一旦固定，新对象的训练就退化成一个极轻量的拟合问题，这正是规模化时单对象成本能稳定维持在分钟级的原因。

损失函数 / 训练策略¶

训练目标由三项相加构成：

\[\mathcal{L} = \mathcal{L}^{latent} + \mathcal{L}^{RGB} + 0.1 \cdot \mathcal{L}^{ae}\]

其中 \(\mathcal{L}^{latent}\) 监督潜空间里的渲染结果，\(\mathcal{L}^{RGB}\) 约束解码回 RGB 后的图像保真，\(\mathcal{L}^{ae}\)（权重 0.1）则保证自编码器自身的重建能力不退化。三项配合，使得"在潜空间渲染、再解码回像素"这条链路端到端可靠。

实验关键数据¶

主实验¶

方法	训练(min/obj)	存储(MB/obj)	ShapeNet PSNR	FPS
Tri-Planes	64.32	1.50	28.15	42.9
K-Planes	75.35	410.17	30.88	14.3
Fused-Planes	8.96	0.48	30.47	91.3
Fused-Planes-ULW	7.16	0.0008	29.02	-

Fused-Planes 比 Tri-Planes: 7.2× 快，3.2× 省存储，PSNR 高 2.32dB，渲染速度 2.1× 快。

消融实验¶

配置	PSNR	训练(min)	存储(MB)
RGB空间（无潜空间）	27.71	63.52	0.48
仅micro（无共享）	27.64	12.84	1.50
M=1 基平面	27.69	8.48	0.48
M=50 基平面	28.64	8.92	0.48
M=75 基平面	29.62	8.99	1348 总

关键发现¶

潜空间渲染是加速关键：RGB→潜空间训练从 63.52 降至 8.92 分钟（7.1×加速），且质量不降
共享基平面有效：M=50 是最优选择；更多基平面性能递减且增加内存
ULW 变体极端压缩：完全不用 micro 平面，每个对象仅需 811B（权重向量），PSNR 仍达 29.02
多类训练可行：跨 4 个 ShapeNet 类训练仅有轻微质量下降
规模化收益：10000 对象时总内存仅 5GB（Tri-Planes 14.6GB，K-Planes 4TB）

亮点与洞察¶

微观-宏观分解思想可迁移到其他 3D 表示——任何基于逐对象优化的方法都可以尝试提取共享基底
潜空间渲染与表示学习联合训练是关键——预训练的 VAE 无法适应 NeRF 的特殊分布
在保持平面结构（2D 兼容）的前提下实现了接近 Instant-NGP 的训练速度，这对下游生成任务（如用平面做 diffusion）非常有价值

局限与展望¶

质量上限受限于 Tri-Plane 本身（30.47 vs TensoRF 36.74）——共享加速但不提升表示上限
需要预先定义基平面数量 M，不同类别的最优 M 可能不同
仅在合成数据（ShapeNet + Basel Faces）上验证，真实场景泛化未知
编码器冻结策略在类别分布变化大时可能失效

评分¶

新颖性: ⭐⭐⭐⭐ 微观-宏观分解思路简洁有效，潜空间联合训练有洞察
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多基线、全面消融、规模化分析、渲染速度评估
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，实验详尽，表格丰富
价值: ⭐⭐⭐⭐ 大规模 3D 重建的实用加速方案，与下游生成任务兼容