Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians¶

会议: ICCV 2025
arXiv: 2508.01464
代码: https://github.com/Zerg-Overmind/Can3Tok
领域: 3D Vision / 3D Generation
关键词: 3D高斯溅射, 变分自编码器, 场景级3D生成, 规范化token, 潜空间建模

一句话总结¶

提出 Can3Tok，首个可将场景级3DGS编码到低维潜空间的变分自编码器，通过规范化查询（canonical query）的交叉注意力实现高效tokenization，配合3DGS归一化和语义感知过滤解决尺度不一致问题，在DL3DV-10K上成功泛化到新场景。

研究背景与动机¶

3D生成取得了长足进展，但主要集中在物体级——基于NeRF/3DGS的方法可高质量生成单个物体。场景级3D生成面临根本性挑战：

3DGS数据结构不兼容现有VAE：3DGS本质上是高度非结构化的——包含异构特征（几何、外观、光照）且像点云一样不规则；场景级3DGS包含大量Gaussian基元（>10K），压缩到低维embedding很困难

尺度不一致：由 COLMAP SfM 初始化导致，不同场景的全局尺度和每个Gaussian的缩放值都不一致，无法直接用于大规模训练

噪声伪影：场景级3DGS重建中，由于观测不充分，常存在大量浮点（floaters）噪声

实验表明现有3D VAE（PointNet VAE、L3DG等）完全无法收敛于场景级3DGS数据——哪怕几百个场景也训练失败，更无泛化能力。

方法详解¶

整体框架¶

Can3Tok 是基于 Transformer 的 VAE，包含编码器和解码器。编码器通过交叉注意力将大量3DGS基元（40K个）压缩到低维潜空间，解码器从潜空间重建原始3DGS参数。整体流程：输入 \(\mathcal{G} \in \mathbb{R}^{N \times (2L_B + C)}\) → 交叉注意力 → 自注意力×8 → 潜空间(\(64 \times 64 \times 4\)) → 自注意力×16 → MLP → 输出3DGS。

关键设计¶

规范化查询的交叉注意力 Tokenization：
- 输入3DGS有N=40K个基元，直接自注意力计算量巨大
- 使用可学习查询 \(query \in \mathbb{R}^{M \times (P+Q)}\)（M=256）做交叉注意力，将N个输入压缩为M个token
- 关键创新：查询用规则体素网格坐标初始化（canonical space），引入结构化几何先验
- 输入特征包含 Fourier 位置编码 \(\gamma(\mathbf{x})\) 和最近体素坐标编码 \(\gamma(\mathbf{v})\)
- 体素坐标提供"锚点"位置信息，降低编码器学习难度
3DGS 归一化 (Normalization)：解决尺度不一致的核心方案。
- 平移：将场景3D中心移到原点 \(translate = -\frac{1}{n}\sum_{i=1}^n \mathbf{x}_i\)
- 缩放：将所有3DGS约束在半径 \(r\) 的球内 \(scale = \frac{r}{\max|\mathbf{x}+translate|_2 \times 1.1}\)
- 同步缩放每个Gaussian的 scaling 参数 \(\hat{\mathbf{s}} = \mathbf{s} \times scale\)
- 对应调整相机位置 \(\hat{T}_i = (T_i + translate) \times scale\)
- 保持其他属性（旋转、透明度、颜色、SH）不变
- 另一优势：可通过单目深度估计恢复真实尺度
语义感知过滤 (Semantic-aware Filtering)：
- 使用 LangSam（文本引导的SAM变体）在场景中间帧检测"最显著区域"
- 在分割掩码内选择一个Gaussian作为种子，通过K-NN逐步扩展到预设数量N=40K
- 去除浮点噪声和非显著区域，保留最干净、最有语义意义的3DGS子集
- 实验表明无过滤时高频细节严重丢失

损失函数 / 训练策略¶

\[\mathcal{L} = \text{Dist}(GS_{output}, GS_{input}) + \lambda \mathcal{L}_{KL}(\mathbf{z}, \mathcal{N}(\mathbf{0}, \mathbf{I}))\]

\(\text{Dist}\)：所有3DGS特征通道的 L2 距离
\(\lambda = 1 \times 10^{-6}\)：KL散度权重极小，优先保证重建质量
数据增强：对输入3DGS施加随机 SO(3) 旋转
训练细节：8× A100 GPU，5天训练；推理编解码仅需 ~0.06s

架构：编码器1层线性+1层交叉注意力+8层自注意力+2层投影；解码器1层线性+16层自注意力+3层MLP。注意力使用Flash-Attention，12头×64维。潜空间 \(\mathbf{z} \in \mathbb{R}^{64 \times 64 \times 4}\)，与Stable Diffusion潜空间相同大小。

实验关键数据¶

主实验¶

在 DL3DV-10K 测试集上的定量对比：

方法	L2 误差↓	失败率↓
L3DG（3DGS编码器，卷积）	1200.4	100%
PointNet VAE	1823.0	100%
PointTransformer	230.7	70%
Can3Tok (ours)	30.1	2.5%

失败率定义为重建L2误差超过1000的比例。所有对比方法几乎完全失败，仅Can3Tok成功泛化。PointNet和L3DG甚至在训练集中超过500个场景就无法收敛。

消融实验¶

设置	L2 误差↓	失败率↓
w/o Learnable Query	\(10^{25}\)	100%
w/o Normalization	1889.7	100%
w/o Voxel Appending	50.5	4.3%
w/o Data Filtering	73.3	6.1%
w/o Data Augmentation	53.3	4.6%
Full (ours)	30.1	2.5%

关键发现¶

归一化是必要条件：没有归一化即使Can3Tok也完全无法泛化（失败率100%），说明尺度不一致是场景级3D表示学习的根本障碍
可学习查询不可或缺：移除后误差爆炸至 \(10^{25}\)，交叉注意力tokenization是模型成功的基石
语义过滤显著提升质量：L2误差从73.3降至30.1，过滤噪声3DGS防止高频细节被潜空间"淹没"
潜空间保持空间信息：t-SNE可视化显示同一场景不同SO(3)旋转的latent呈闭环，相似场景在潜空间中聚集
潜空间具有语义编码能力：同一场景不同子采样（覆盖相同内容）的latent互相接近，不同场景的远离
推理速度快（~0.06s编解码），可无缝对接扩散模型做前馈生成

亮点与洞察¶

首次实现场景级3DGS VAE：所有之前的3D VAE方法（PointNet、L3DG等）在场景级数据上完全失败，Can3Tok是唯一成功的方案
简洁有效的归一化策略：借鉴2D图像将RGB归一化到[-1,1]的做法，对3DGS做中心平移+球面缩放，解决了3D场景表示学习的开放问题
潜空间与SD兼容：\(64 \times 64 \times 4\) 的潜空间形状与Stable Diffusion完全一致，可直接使用现有扩散架构（UNet/DiT）做条件生成
从数据到模型的完整方案：不仅设计了模型架构，还提出了3DGS预处理管线（归一化+过滤+增强），对社区有参考价值

局限与展望¶

仅限于3DGS表示，无法直接应用于NeRF、mesh等其他3D表示
2.5%的失败率主要来自训练数据中质量较差的3DGS重建（运动模糊、远近视角不平衡）
语义过滤截取最显著区域，可能丢失完整场景信息（仅保留前景）
生成质量受限于VAE重建精度，细节恢复仍有提升空间
text-to-3DGS生成依赖BLIP标注的简短描述，更丰富的文本条件有待探索
场景级数据集DL3DV-10K规模有限，更大数据集可能进一步提升泛化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次解决场景级3DGS潜空间建模问题，核心创新（canonical query + 归一化）简洁有效
实验充分度: ⭐⭐⭐⭐ 定量+定性+t-SNE潜空间分析+消融全面覆盖，但生成应用展示较初步
写作质量: ⭐⭐⭐⭐ 问题分析透彻，为什么现有方法失败解释清楚
价值: ⭐⭐⭐⭐⭐ 开辟了场景级3DGS生成的新方向，潜空间+扩散模型的范式具有广阔前景