TWINGS: Thin Plate Splines Warp-aligned Initialization for Sparse-View Gaussian Splatting¶

会议: CVPR 2026
arXiv: 2605.22069
代码: 无
领域: 3D视觉
关键词: 稀疏视角、3D高斯泼溅、薄板样条、点云初始化、非刚性配准

一句话总结¶

TWINGS 用薄板样条（TPS）把单目深度反投影出来的稠密点云，非刚性地对齐到多视角三角化出的稀疏 3D 控制点上，再在控制点附近采样得到稠密且几何精确的初始点云，作为即插即用模块喂给 3DGS，在 DTU / LLFF / Mip-NeRF360 的极稀疏视角下显著超过现有方法（DTU 3-view PSNR 21.52，比次优高 1.6+ dB）。

研究背景与动机¶

领域现状：3D 高斯泼溅（3DGS）的渲染质量高度依赖初始点云的质量。常规做法是用 SfM（COLMAP）从多视角重建出点云来初始化高斯的位置，这些点为优化提供关键的几何约束。

现有痛点：在稀疏视角（如 3 张图）场景下，COLMAP 找不到足够的特征匹配，重建出的点云极度稀疏，缺乏约束场景的几何线索。结果 3DGS 容易过拟合训练视角、收敛到错误局部最优、产生漂浮伪影；尽管 3DGS 自带稠密化机制，但初始点太稀疏，它无法把新高斯放到几何上合理的位置。

核心矛盾：为缓解稀疏，很多工作引入单目深度作为几何先验。但这里有个根本两难——COLMAP 点云稀疏又不可靠，而替代的单目深度本质上存在尺度歧义（scale ambiguity），且这种偏差是空间变化、非刚性的。已有方法（如对深度乘单一全局尺度因子 LS、或学一个相关性 CoMapGS）都局限于单一刚性变换，根本无法纠正不同视角间复杂的非刚性扭曲，对不齐就把误差带进了初始化。

本文目标：把稠密但几何不一致的单目深度点云，warp-align（形变对齐）到真实场景几何上，得到既稠密又几何精确的初始点云。

切入角度：作者只在初始化这一环节做文章（不改 3DGS 训练流程），并选用薄板样条 TPS 作为形变模型——TPS 专为「对应点驱动的对齐」设计，能在精确插值控制点对应的同时最小化弯曲能量，把可靠参考处的修正平滑传播到邻域，且几秒内完成，不会成为初始化瓶颈。

核心 idea：用 TPS 的非刚性形变代替单一全局缩放，把反投影深度对齐到三角化控制点，再在控制点附近采样作为 3DGS 初始化。

方法详解¶

整体框架¶

TWINGS 是一个即插即用的初始化模块（TWINGS-Init），整条流水线分三步：① 在所有训练视角间建立全局一致的多视角对应，并三角化出可靠的 3D 控制点（desired control points，粉色）；② 用单目深度估计器对每张图反投影得到稠密点云（backprojected points，绿色），以「反投影点 ↔ 三角化点」为对应关系拟合一个 TPS 形变场，把整张稠密点云 warp 到场景几何上，得到校准反投影点（CBP）；③ 只在可靠控制点附近半径 \(r\) 内采样 CBP（CBPS），与原 COLMAP 点云合并，作为 3DGS 的初始高斯位置。输入是稀疏训练图 + 相机参数，输出是稠密、几何精确的初始点云。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["稀疏训练图<br/>+ 相机参数"] --> B["全局一致多视角对应<br/>跨视角对应轨迹 → 三角化出<br/>3D 控制点 X*"]
    A --> C["单目深度反投影<br/>得稠密点云 X_est"]
    B --> D["TPS 非刚性形变对齐<br/>X_est 对齐到 X* → 校准点 CBP"]
    C --> D
    D --> E["CBPS 控制点邻域采样<br/>取 X* 半径 r 内的 CBP"]
    E --> F["与 COLMAP 点云合并<br/>初始化 3DGS"]

关键设计¶

1. 全局一致的多视角对应与三角化控制点：给 TPS 提供可靠的「靶点」

TPS 形变需要一组高质量的目标位置（desired control points）作为对齐靶点，而靶点的几何一致性直接决定形变质量。作者不满足于两两视角的成对匹配，而是用稠密匹配器在所有训练视角间构造全局对应轨迹：对每个 query 像素 \(p_i^q\)，收集它在所有其它图 \(I^j(j\neq q)\) 中的匹配 \(C^j(p_i^q)\)，形成全局对应集合 \(\mathcal{M}\)（公式 4）。假设一条轨迹里的所有像素观测同一 3D 点 \(X_i\)，用多视角几何的 DLT 直接线性变换求解 \(AX_i=0\)（公式 5）得到初始估计，再用非线性优化最小化总重投影误差 \(X_i^*=\arg\min_X\sum_{k=1}^{K+1}\|\pi(P^kX)-p_i^k\|_2^2\)（公式 6）精修。消融显示，相比只用成对匹配，多视角对应能给出全局更连贯、更准确的 3D 点，进而改善后续 TPS 形变与渲染质量（DTU 3-view PSNR 21.32→21.52）。

2. TPS 非刚性形变对齐：把稠密深度点云 warp 到真实几何上

这是全文核心，直击「单目深度尺度歧义是空间变化、非刚性」的痛点。把估计深度 \(D_{est}\) 按相机内参 \(K\) 反投影（公式 3：\(X_{i,j}=K^{-1}[i,j,1]^TD_{i,j}\)）得稠密点图 \(X_{est}\)；在匹配像素处取出「初始控制点」\(X_{est}(p^q)\)，与三角化得到的「目标控制点」\(X^*(p^q)\) 配对，求解 TPS 参数。TPS 形变场写成全局仿射 + 局部非仿射两部分（公式 11）：

\[TPS(X)=t+AX+\sum_{p^q\in M}w_{p^q}\,U(\|X-X^*(p^q)\|)\]

其中 \(t\in\mathbb{R}^3\)、\(A\in\mathbb{R}^{3\times3}\) 是全局仿射（处理整体平移旋转缩放），\(w_{p^q}\) 是每个控制点的局部非线性权重，\(U(r)=r\) 是径向基函数。这些参数通过控制点对建立的线性系统解出。把 TPS 作用到整张 \(X_{est}\) 上，就得到形变后的校准反投影点 CBP。与 LS（单一全局尺度+偏移，无法刻画空间变化偏差）、FFD（控制点格栅，不保证反投影点对齐到三角化点）、NURBS（灵活但存储/计算开销大）相比，TPS 精确插值对应点、最小化弯曲能量，性能与计算时间权衡最好——几秒内给出几何精确的形变。

3. 校准反投影点采样（CBPS）：只信控制点附近的点

即便 CBP 整体对齐了，远离可靠控制点的区域仍残留几何误差，全用上反而引入噪声。CBPS 因此做一次空间筛选：只保留落在某个三角化控制点半径 \(r\) 内的 CBP，

\[\mathcal{S}_{\text{CBPS}}=\bigcup_{x\in X^*}\{\,b\in\mathcal{B}\mid\|b-x\|\le r\,\}\]

其中 \(\mathcal{B}\) 是全体 CBP，半径 \(r\) 取为场景尺度 \(S\)（包住所有相机位姿的包围球半径）的一个分数。这样既保留了稠密性、又把初始点锁定在最可靠的几何邻域，得到前景/背景平衡的初始化。\(r\) 需随视角数自适应：3-view 时 COLMAP 点极稀疏，需较大半径补足密度（最优 \(S\cdot1/8\)）；9-view 时点云已较稠密，过大半径反而次优，因为 3DGS 更看重初始点的质量而非数量。

损失函数 / 训练策略¶

TWINGS 只负责初始化，3DGS 训练沿用 DropGaussian 的结构正则策略，总损失（公式 13）为

\[\mathcal{L}=\mathcal{L}_1(\hat I,I)+\lambda_1\mathcal{L}_{D\text{-}SSIM}(\hat I,I)+\lambda_2\mathcal{L}_D(\hat D,D_{est})\]

其中 \(\mathcal{L}_1\) 与 \(\mathcal{L}_{D\text{-}SSIM}\) 是渲染图与 GT 的光度损失，\(\mathcal{L}_D\) 是渲染深度 \(\hat D\) 与估计深度 \(D_{est}\) 的深度损失，\(\lambda_1=0.2\)、\(\lambda_2=0.01\)。整个 TWINGS-Init 仅需约 12.45 s，对 3DGS 训练几乎零额外成本。

实验关键数据¶

主实验¶

DTU 数据集（3/6/9 训练视角），TWINGS 在 PSNR/SSIM/LPIPS/AVGE 四项全 SOTA，3-view 提升最显著：

数据集	视角	指标	TWINGS	次优	说明
DTU	3-view	PSNR↑	21.52	19.92 (FreeNeRF)	+1.6 dB
DTU	3-view	SSIM↑	0.880	0.853 (CoR-GS)
DTU	3-view	LPIPS↓	0.107	0.119 (CoR-GS)
DTU	9-view	PSNR↑	28.22	27.75 (DropGaussian)
Mip-NeRF360	12-view	PSNR↑	20.35	19.74 (DropGaussian)
Mip-NeRF360	12-view	SSIM↑	0.618	0.591 (CoMapGS)
LLFF	3-view	PSNR↑	21.49	21.11 (CoMapGS)
LLFF	3-view	LPIPS↓	0.167	0.182 (CoMapGS)

定性上，竞争方法在 DTU 上重建不出建筑窗框、错位文字、漏掉黑色瞳孔；Mip-NeRF360 上恢复不出白柱及投影、把球渲染得过透明或顶部变形；LLFF 上漏掉天花板喷淋头、在招牌上产生条纹伪影。TWINGS 都能忠实恢复这些高频细节。

消融实验¶

配置	关键指标	说明
Full（multi-view 对应）	DTU 3-view PSNR 21.52 / SSIM 0.880	完整模型
w/ pairwise 对应	DTU 3-view PSNR 21.32 / SSIM 0.875	只用成对匹配，全局一致性下降
TPS（本文形变）	LLFF 3-view PSNR 21.49 / SSIM 0.754	形变方法最佳
FFD 替换	LLFF 3-view PSNR 20.96 / SSIM 0.727	引入扭曲、破坏结构
Linear Scaling 替换	LLFF 3-view PSNR 20.90 / SSIM 0.725	中心区域局部几何不稳

即插即用增益（TWINGS-Init，DTU 3-view）：

基线	PSNR (w/o → w/ Init)	提升
3DGS	17.65 → 20.21	+2.56 dB
FSGS	17.24 → 20.42	+3.18 dB
CoR-GS	19.21 → 21.27	+1.96 dB（超越原 SOTA）

关键发现¶

初始化单点就能撑起大半性能：仅把初始化换成 TWINGS-Init，vanilla 3DGS 直接 +2.56 dB 并追平原 SOTA，证明稀疏视角下「好的初始化」本身价值巨大，无需改训练。
非刚性形变是关键：TPS > FFD > LS，验证单目深度的尺度偏差是空间变化的，必须用非刚性模型才能真正对齐。
采样半径需随视角数自适应：3-view 用大半径（\(S\cdot1/8\)）补密度最好，9-view 时质量优先于数量，过大半径反而掉点。
效率友好：TWINGS-Init 约 12.45 s 完成，TPS 形变本身仅几秒，几乎不增加流水线开销。

亮点与洞察¶

把经典 TPS 用在 3DGS 初始化上很巧：TPS 是图像配准的老工具，作者敏锐地把「对应点驱动 + 最小弯曲能量」这两条性质，对应到「精确贴合可靠三角化点 + 平滑传播到邻域」的初始化需求上，old tool new use。
只动初始化、不动训练，天然即插即用：TWINGS-Init 对 3DGS/FSGS/CoR-GS 全部带来增益，说明它解决的是这一类方法共同的上游瓶颈（初始点云质量），可迁移性强。
CBPS 的「只信控制点邻域」很务实：承认形变在远离可靠参考处仍有残差，用一个简单的半径筛选把噪声挡在外面，比无脑用全部 CBP 更稳——这个「稠密生成 + 可靠筛选」的两段式思路可迁移到其它深度先验初始化场景。
诊断到位：把问题精准归因为「稀疏不可靠 vs 尺度歧义」的两难，并指出已有方法都困在单一刚性变换，论证链条清晰。

局限性 / 可改进方向¶

作者承认：方法针对极稀疏视角下 COLMAP 点云差的场景；当视角增多、或纹理丰富（SfM 本就能可靠重建几何）时，增益会递减。
依赖外部组件：性能受单目深度估计器与稠密匹配器质量影响，深度/匹配差时三角化控制点与反投影点都会退化，TPS 也无从对齐。
TPS 控制点规模：求解 TPS 线性系统的开销随控制点数增长，超大场景或超稠密匹配下可能需要权衡（论文称几秒内完成，但未给极端规模下的扩展性分析）。
展望：作者提出可扩展到 3-view 表面重建用于实时 AR/VR、内容创作，利用其快速精确初始化保留精细面部细节。

评分¶

新颖性: ⭐⭐⭐⭐ 把 TPS 非刚性形变引入稀疏 3DGS 初始化，思路清晰且对症，但底层都是成熟组件的组合。
实验充分度: ⭐⭐⭐⭐⭐ 三个标准 benchmark × 多视角设置，主实验 + 即插即用 + 形变方法 + 对应方式 + 采样半径全套消融。
写作质量: ⭐⭐⭐⭐ 问题诊断（两难）与方法动机表述清楚，公式完整；图依赖较多。
价值: ⭐⭐⭐⭐ 即插即用、几秒开销、对多个基线普遍涨点，稀疏视角 3DGS 工程上很实用。