TWINGS: Thin Plate Splines Warp-aligned Initialization for Sparse-View Gaussian Splatting¶
会议: CVPR 2026
arXiv: 2605.22069
代码: 无
领域: 3D视觉
关键词: 稀疏视角、3D高斯泼溅、薄板样条、点云初始化、非刚性配准
一句话总结¶
TWINGS 用薄板样条(TPS)把单目深度反投影出来的稠密点云,非刚性地对齐到多视角三角化出的稀疏 3D 控制点上,再在控制点附近采样得到稠密且几何精确的初始点云,作为即插即用模块喂给 3DGS,在 DTU / LLFF / Mip-NeRF360 的极稀疏视角下显著超过现有方法(DTU 3-view PSNR 21.52,比次优高 1.6+ dB)。
研究背景与动机¶
领域现状:3D 高斯泼溅(3DGS)的渲染质量高度依赖初始点云的质量。常规做法是用 SfM(COLMAP)从多视角重建出点云来初始化高斯的位置,这些点为优化提供关键的几何约束。
现有痛点:在稀疏视角(如 3 张图)场景下,COLMAP 找不到足够的特征匹配,重建出的点云极度稀疏,缺乏约束场景的几何线索。结果 3DGS 容易过拟合训练视角、收敛到错误局部最优、产生漂浮伪影;尽管 3DGS 自带稠密化机制,但初始点太稀疏,它无法把新高斯放到几何上合理的位置。
核心矛盾:为缓解稀疏,很多工作引入单目深度作为几何先验。但这里有个根本两难——COLMAP 点云稀疏又不可靠,而替代的单目深度本质上存在尺度歧义(scale ambiguity),且这种偏差是空间变化、非刚性的。已有方法(如对深度乘单一全局尺度因子 LS、或学一个相关性 CoMapGS)都局限于单一刚性变换,根本无法纠正不同视角间复杂的非刚性扭曲,对不齐就把误差带进了初始化。
本文目标:把稠密但几何不一致的单目深度点云,warp-align(形变对齐)到真实场景几何上,得到既稠密又几何精确的初始点云。
切入角度:作者只在初始化这一环节做文章(不改 3DGS 训练流程),并选用薄板样条 TPS 作为形变模型——TPS 专为「对应点驱动的对齐」设计,能在精确插值控制点对应的同时最小化弯曲能量,把可靠参考处的修正平滑传播到邻域,且几秒内完成,不会成为初始化瓶颈。
核心 idea:用 TPS 的非刚性形变代替单一全局缩放,把反投影深度对齐到三角化控制点,再在控制点附近采样作为 3DGS 初始化。
方法详解¶
整体框架¶
TWINGS 是一个即插即用的初始化模块(TWINGS-Init),整条流水线分三步:① 在所有训练视角间建立全局一致的多视角对应,并三角化出可靠的 3D 控制点(desired control points,粉色);② 用单目深度估计器对每张图反投影得到稠密点云(backprojected points,绿色),以「反投影点 ↔ 三角化点」为对应关系拟合一个 TPS 形变场,把整张稠密点云 warp 到场景几何上,得到校准反投影点(CBP);③ 只在可靠控制点附近半径 \(r\) 内采样 CBP(CBPS),与原 COLMAP 点云合并,作为 3DGS 的初始高斯位置。输入是稀疏训练图 + 相机参数,输出是稠密、几何精确的初始点云。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["稀疏训练图<br/>+ 相机参数"] --> B["全局一致多视角对应<br/>跨视角对应轨迹 → 三角化出<br/>3D 控制点 X*"]
A --> C["单目深度反投影<br/>得稠密点云 X_est"]
B --> D["TPS 非刚性形变对齐<br/>X_est 对齐到 X* → 校准点 CBP"]
C --> D
D --> E["CBPS 控制点邻域采样<br/>取 X* 半径 r 内的 CBP"]
E --> F["与 COLMAP 点云合并<br/>初始化 3DGS"]
关键设计¶
1. 全局一致的多视角对应与三角化控制点:给 TPS 提供可靠的「靶点」
TPS 形变需要一组高质量的目标位置(desired control points)作为对齐靶点,而靶点的几何一致性直接决定形变质量。作者不满足于两两视角的成对匹配,而是用稠密匹配器在所有训练视角间构造全局对应轨迹:对每个 query 像素 \(p_i^q\),收集它在所有其它图 \(I^j(j\neq q)\) 中的匹配 \(C^j(p_i^q)\),形成全局对应集合 \(\mathcal{M}\)(公式 4)。假设一条轨迹里的所有像素观测同一 3D 点 \(X_i\),用多视角几何的 DLT 直接线性变换求解 \(AX_i=0\)(公式 5)得到初始估计,再用非线性优化最小化总重投影误差 \(X_i^*=\arg\min_X\sum_{k=1}^{K+1}\|\pi(P^kX)-p_i^k\|_2^2\)(公式 6)精修。消融显示,相比只用成对匹配,多视角对应能给出全局更连贯、更准确的 3D 点,进而改善后续 TPS 形变与渲染质量(DTU 3-view PSNR 21.32→21.52)。
2. TPS 非刚性形变对齐:把稠密深度点云 warp 到真实几何上
这是全文核心,直击「单目深度尺度歧义是空间变化、非刚性」的痛点。把估计深度 \(D_{est}\) 按相机内参 \(K\) 反投影(公式 3:\(X_{i,j}=K^{-1}[i,j,1]^TD_{i,j}\))得稠密点图 \(X_{est}\);在匹配像素处取出「初始控制点」\(X_{est}(p^q)\),与三角化得到的「目标控制点」\(X^*(p^q)\) 配对,求解 TPS 参数。TPS 形变场写成全局仿射 + 局部非仿射两部分(公式 11):
其中 \(t\in\mathbb{R}^3\)、\(A\in\mathbb{R}^{3\times3}\) 是全局仿射(处理整体平移旋转缩放),\(w_{p^q}\) 是每个控制点的局部非线性权重,\(U(r)=r\) 是径向基函数。这些参数通过控制点对建立的线性系统解出。把 TPS 作用到整张 \(X_{est}\) 上,就得到形变后的校准反投影点 CBP。与 LS(单一全局尺度+偏移,无法刻画空间变化偏差)、FFD(控制点格栅,不保证反投影点对齐到三角化点)、NURBS(灵活但存储/计算开销大)相比,TPS 精确插值对应点、最小化弯曲能量,性能与计算时间权衡最好——几秒内给出几何精确的形变。
3. 校准反投影点采样(CBPS):只信控制点附近的点
即便 CBP 整体对齐了,远离可靠控制点的区域仍残留几何误差,全用上反而引入噪声。CBPS 因此做一次空间筛选:只保留落在某个三角化控制点半径 \(r\) 内的 CBP,
其中 \(\mathcal{B}\) 是全体 CBP,半径 \(r\) 取为场景尺度 \(S\)(包住所有相机位姿的包围球半径)的一个分数。这样既保留了稠密性、又把初始点锁定在最可靠的几何邻域,得到前景/背景平衡的初始化。\(r\) 需随视角数自适应:3-view 时 COLMAP 点极稀疏,需较大半径补足密度(最优 \(S\cdot1/8\));9-view 时点云已较稠密,过大半径反而次优,因为 3DGS 更看重初始点的质量而非数量。
损失函数 / 训练策略¶
TWINGS 只负责初始化,3DGS 训练沿用 DropGaussian 的结构正则策略,总损失(公式 13)为
其中 \(\mathcal{L}_1\) 与 \(\mathcal{L}_{D\text{-}SSIM}\) 是渲染图与 GT 的光度损失,\(\mathcal{L}_D\) 是渲染深度 \(\hat D\) 与估计深度 \(D_{est}\) 的深度损失,\(\lambda_1=0.2\)、\(\lambda_2=0.01\)。整个 TWINGS-Init 仅需约 12.45 s,对 3DGS 训练几乎零额外成本。
实验关键数据¶
主实验¶
DTU 数据集(3/6/9 训练视角),TWINGS 在 PSNR/SSIM/LPIPS/AVGE 四项全 SOTA,3-view 提升最显著:
| 数据集 | 视角 | 指标 | TWINGS | 次优 | 说明 |
|---|---|---|---|---|---|
| DTU | 3-view | PSNR↑ | 21.52 | 19.92 (FreeNeRF) | +1.6 dB |
| DTU | 3-view | SSIM↑ | 0.880 | 0.853 (CoR-GS) | |
| DTU | 3-view | LPIPS↓ | 0.107 | 0.119 (CoR-GS) | |
| DTU | 9-view | PSNR↑ | 28.22 | 27.75 (DropGaussian) | |
| Mip-NeRF360 | 12-view | PSNR↑ | 20.35 | 19.74 (DropGaussian) | |
| Mip-NeRF360 | 12-view | SSIM↑ | 0.618 | 0.591 (CoMapGS) | |
| LLFF | 3-view | PSNR↑ | 21.49 | 21.11 (CoMapGS) | |
| LLFF | 3-view | LPIPS↓ | 0.167 | 0.182 (CoMapGS) |
定性上,竞争方法在 DTU 上重建不出建筑窗框、错位文字、漏掉黑色瞳孔;Mip-NeRF360 上恢复不出白柱及投影、把球渲染得过透明或顶部变形;LLFF 上漏掉天花板喷淋头、在招牌上产生条纹伪影。TWINGS 都能忠实恢复这些高频细节。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Full(multi-view 对应) | DTU 3-view PSNR 21.52 / SSIM 0.880 | 完整模型 |
| w/ pairwise 对应 | DTU 3-view PSNR 21.32 / SSIM 0.875 | 只用成对匹配,全局一致性下降 |
| TPS(本文形变) | LLFF 3-view PSNR 21.49 / SSIM 0.754 | 形变方法最佳 |
| FFD 替换 | LLFF 3-view PSNR 20.96 / SSIM 0.727 | 引入扭曲、破坏结构 |
| Linear Scaling 替换 | LLFF 3-view PSNR 20.90 / SSIM 0.725 | 中心区域局部几何不稳 |
即插即用增益(TWINGS-Init,DTU 3-view):
| 基线 | PSNR (w/o → w/ Init) | 提升 |
|---|---|---|
| 3DGS | 17.65 → 20.21 | +2.56 dB |
| FSGS | 17.24 → 20.42 | +3.18 dB |
| CoR-GS | 19.21 → 21.27 | +1.96 dB(超越原 SOTA) |
关键发现¶
- 初始化单点就能撑起大半性能:仅把初始化换成 TWINGS-Init,vanilla 3DGS 直接 +2.56 dB 并追平原 SOTA,证明稀疏视角下「好的初始化」本身价值巨大,无需改训练。
- 非刚性形变是关键:TPS > FFD > LS,验证单目深度的尺度偏差是空间变化的,必须用非刚性模型才能真正对齐。
- 采样半径需随视角数自适应:3-view 用大半径(\(S\cdot1/8\))补密度最好,9-view 时质量优先于数量,过大半径反而掉点。
- 效率友好:TWINGS-Init 约 12.45 s 完成,TPS 形变本身仅几秒,几乎不增加流水线开销。
亮点与洞察¶
- 把经典 TPS 用在 3DGS 初始化上很巧:TPS 是图像配准的老工具,作者敏锐地把「对应点驱动 + 最小弯曲能量」这两条性质,对应到「精确贴合可靠三角化点 + 平滑传播到邻域」的初始化需求上,old tool new use。
- 只动初始化、不动训练,天然即插即用:TWINGS-Init 对 3DGS/FSGS/CoR-GS 全部带来增益,说明它解决的是这一类方法共同的上游瓶颈(初始点云质量),可迁移性强。
- CBPS 的「只信控制点邻域」很务实:承认形变在远离可靠参考处仍有残差,用一个简单的半径筛选把噪声挡在外面,比无脑用全部 CBP 更稳——这个「稠密生成 + 可靠筛选」的两段式思路可迁移到其它深度先验初始化场景。
- 诊断到位:把问题精准归因为「稀疏不可靠 vs 尺度歧义」的两难,并指出已有方法都困在单一刚性变换,论证链条清晰。
局限性 / 可改进方向¶
- 作者承认:方法针对极稀疏视角下 COLMAP 点云差的场景;当视角增多、或纹理丰富(SfM 本就能可靠重建几何)时,增益会递减。
- 依赖外部组件:性能受单目深度估计器与稠密匹配器质量影响,深度/匹配差时三角化控制点与反投影点都会退化,TPS 也无从对齐。
- TPS 控制点规模:求解 TPS 线性系统的开销随控制点数增长,超大场景或超稠密匹配下可能需要权衡(论文称几秒内完成,但未给极端规模下的扩展性分析)。
- 展望:作者提出可扩展到 3-view 表面重建用于实时 AR/VR、内容创作,利用其快速精确初始化保留精细面部细节。
相关工作与启发¶
- vs DNGaussian / FSGS(深度正则): 它们在 3DGS 训练中用单目深度作正则来优化高斯位置/不透明度;本文不碰训练损失,专攻初始化,把深度先验在初始化阶段就 warp 对齐好,二者正交、可叠加(FSGS+TWINGS-Init 提升 +3.18 dB)。
- vs CoMapGS(学相关性)/ Linear Scaling: 它们用单一全局尺度或学一个相关性对齐深度,本质是刚性/全局变换;本文用 TPS 做空间变化的非刚性形变,能纠正全局变换对不上的复杂扭曲(LLFF 3-view PSNR 21.49 vs 20.90)。
- vs CoR-GS / DropGaussian(鲁棒训练): 它们靠剪枝离群点或随机 dropout 让模型对差初始化更鲁棒;本文从源头改善初始化质量,二者互补——CoR-GS+TWINGS-Init 反而超越原 SOTA。
- vs FFD / NURBS(其它形变模型): FFD 用控制点格栅但不保证反投影点对齐到三角化点,NURBS 灵活但开销大;TPS 专为对应点对齐设计,在精度与速度间取得最佳折中。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 TPS 非刚性形变引入稀疏 3DGS 初始化,思路清晰且对症,但底层都是成熟组件的组合。
- 实验充分度: ⭐⭐⭐⭐⭐ 三个标准 benchmark × 多视角设置,主实验 + 即插即用 + 形变方法 + 对应方式 + 采样半径全套消融。
- 写作质量: ⭐⭐⭐⭐ 问题诊断(两难)与方法动机表述清楚,公式完整;图依赖较多。
- 价值: ⭐⭐⭐⭐ 即插即用、几秒开销、对多个基线普遍涨点,稀疏视角 3DGS 工程上很实用。