Selfi: Self-improving Reconstruction Engine via 3D Geometric Feature Alignment¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://denghilbert.github.io/selfi
领域: 3D视觉
关键词: 新视角合成, 3D视觉基础模型, 特征对齐, 高斯泼溅, 无位姿重建

一句话总结¶

Selfi 冻结 VGGT 这类 3D 视觉基础模型作骨干，仅训练一个轻量特征适配器——用 VGGT 自己输出的深度/位姿做伪标签、靠重投影一致性损失把特征蒸馏成「几何对齐」的新特征空间，从而把一个本不为高保真渲染设计的基础模型变成无位姿输入下 SOTA 的新视角合成与相机位姿估计引擎，全程零 3D 真值标注。

研究背景与动机¶

领域现状：传统新视角合成（NVS）依赖已知相机参数或先跑 SfM（检测关键点 → 匹配 → 解相机）再优化场景表示。前馈式 NVS 去掉了逐场景优化、一次前向直接预测 3D 基元，但大多仍假设相机已标定。

现有痛点：SfM 与场景表示解耦的管线计算重且脆弱——NVS 质量高度依赖 SfM 位姿精度，标定不准甚至失败时质量骤降。新近的 3D 视觉基础模型（VFM，如 DUSt3R、VGGT）能从未标定图像一次前向预测位姿、深度、3D 结构，绕开 SfM；但直接把 VFM 特征解码成 3D 高斯做 NVS，渲染质量明显落后于优化式方法。

核心矛盾：作者的判断是——VFM 特征虽对它被训练的几何预测任务很强，却没有被显式优化成跨视角几何一致，而这恰是高保真 NVS 的关键。换句话说，VFM 的特征空间「懂 3D 但不够对齐」。

本文目标：在不引入任何 3D 真值标注、不改 VFM 骨干的前提下，把预训练 VFM 改造成 SOTA 级的 NVS 与位姿估计引擎。

切入角度：既然 VFM 能输出还算靠谱的深度和相机，那就用它自己的输出当稠密自监督信号，去学一个几何对齐的新特征空间——这正是「self-improving / 自我改进」之名的来源。

核心 idea：冻结 VGGT，训一个轻量特征适配器，用「从一个视角把查询点重投影到其他视角」构造对应关系，强制对应位置的特征相似，得到既含语义又含 3D 邻近性的对齐特征；再把它喂给高斯预测头与束调整，闭环提升渲染和位姿。

方法详解¶

整体框架¶

Selfi 是一条「先对齐特征、再前馈出高斯、最后用束调整闭环回灌」的自改进管线。输入是一组未标定 RGB 图像：先用冻结的 VGGT 骨干 + DPT 适配器产出每像素特征，用 VGGT 自标注的深度/相机做伪真值、靠重投影一致性损失把特征训成几何对齐空间；对齐特征接一个 U-Net 解码器前馈预测每个像素的 3D 高斯参数（含一个关键的密度球谐）渲染新视角；同时用对齐特征建立的鲁棒对应做稠密束调整（BA）精修初始位姿，并把位姿修正经「深度漂移」仿射校正回灌到高斯位置，得到更高质量的最终渲染。三个贡献节点（特征对齐、高斯预测、带深度漂移的 BA）之间，VGGT+DPT 仅作骨干脚手架。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：未标定 RGB 图像"] --> B["VGGT 骨干（冻结）+ DPT 适配器<br/>产出每像素特征 + 伪真值深度/位姿"]
    B --> C["几何特征对齐<br/>重投影一致性损失蒸馏对齐特征"]
    C --> D["前馈高斯预测<br/>U-Net 解码 + 密度球谐"]
    D --> E["带深度漂移的稠密束调整<br/>精修位姿并仿射校正高斯深度"]
    E --> F["输出：新视角渲染"]

关键设计¶

1. 几何特征对齐：用 VFM 自己的输出当伪标签，学一个跨视角一致的特征空间

针对「VFM 特征不显式几何一致」的痛点，作者取 VGGT 的骨干与聚合器、外接一个 DPT 适配器 \(F_i = \mathrm{DPT}_{adapter}(T_i)\)（取四层中间 token，输出每像素 \(C=24\) 维特征）。训练目标是让「3D 空间邻近」的位置特征相似。给定源帧 \(s\) 的查询点 \(n\) 与目标帧 \(t\)，先算特征余弦相似图 \(S^n(u,v)=\frac{F_s^n\cdot F_t(u,v)}{\|F_s^n\|\|F_t(u,v)\|}\)，经温度 \(\tau\) 的 softmax 得权重 \(w^n\)，再以目标坐标的加权平均得到预测对应 \(\hat{p}_t^n=\sum_{u,v} w^n(u,v)[u,v]\)（用全像素加权平均比对比学习提供更稠密的监督）。伪真值对应则由 VGGT 给出：对源像素按其深度 \(D_s^n\) 反投影到 3D、变换到目标坐标系再投影回 2D 得 \(p_t^n\)，并用一个硬可见性图 \(V_t^n\) 通过比较反投影 z 坐标与目标深度图来处理遮挡。对齐损失即可见性加权的对应误差 \(L_{align}=\frac{1}{TN}\sum_t\sum_n V_t^n\|\hat{p}_t^n - p_t^n\|_2^2\)。这样学出的特征同时编码语义内容与 3D 邻近性，且全程不需任何相机标注或 VFM 输出之外的 3D 监督。

2. 前馈高斯预测与密度球谐：把对齐特征解成可渲染高斯，并用密度球谐对抗几何噪声

拿到对齐特征图后，冻结 DPT 适配器、新训一个 U-Net 解码器：\(F_s^{dec}=\mathrm{U\text{-}Net}(\mathrm{cat}(F_s, I_s))\)，再分头输出四元数 \(q_s\)、尺度 \(s_s\)、颜色 \(c_s\)、不透明度 \(\sigma_s\) 与深度残差 \(\Delta D_s\)；高斯中心由 \(\mu_s=(D_s+\Delta D_s)\pi_K^{-1}p_s\) 反投影得到。本文的关键改动是：除颜色用球谐建模视相关效果外，密度 \(\sigma_s\) 也启用球谐而非单标量。动机很具体——VGGT 的几何预测在低置信区域并不准，视相关密度等于学到一个「置信度度量」：对某个渲染视角，它会把不可靠的高斯调成近乎透明，从而克服遮挡与错位，还能据此剪掉低置信高斯提速。整个高斯头仅用 RGB 重建损失 \(L_{RGB}=\frac{1}{T}\sum_t\|\hat{I}_t - I_t\|\) 训练。

3. 带深度漂移的稠密束调整：用对齐特征做 BA 精修位姿，再把位姿修正一致地传回高斯

对齐特征带来的鲁棒对应，让作者能用一个快速收敛的经典 BA 精修 VGGT 的初始位姿，比其他前馈方法对相机和高斯都做后优化更高效。但有个陷阱：BA 会同时改变与 2D 对应相关的稀疏 3D 点位置，若只换新位姿、不挪稠密高斯，渲染就会错位（Fig. 4a）。作者观察到 BA 引起的深度变化主要是线性的（Fig. 4c），于是从稀疏 BA 点估一个仿射变换 \(\phi(\cdot)\) 并施加到所有稠密深度：\(\mu_s'=\phi(D_s+\Delta D_s)\pi_{K'}^{-1}p_s\)，尺度也按比例调整 \(s_s'=\frac{\phi(D_s+\Delta D_s)}{D_s+\Delta D_s}s_s\)。这个简单的「深度漂移」校正弥合了几何缺口，使 BA 的位姿提升能真正转化为 NVS 质量提升——消融显示不加校正时 BA 反而掉点。

损失函数 / 训练策略¶

两阶段训练：① 特征对齐阶段仅用对齐损失 \(L_{align}\)，在 DL3DV 上采 11 帧（中间帧为源、其余为目标），随机采 4096 个查询点，DPT + AdamW 训 150K 步，约 128 张 H100 跑 2 天；② 高斯头阶段用 RGB 重建损失 \(L_{RGB}\)，DL3DV + RealEstate10K 联合训练（6 源帧 + 帧间 5 目标帧），同样 150K 步约 1.5 天。可见性阈值 \(\alpha=0.05\)，softmax 温度 \(\tau=100\)，全程 JAX 实现。

实验关键数据¶

指标说明：PSNR/SSIM/LPIPS 为标准渲染质量指标；AUC@N 为相机位姿估计的精度曲线下面积（阈值 N 度，越高越准）。所有 NVS 评测在 RealEstate10K 与 DL3DV 的留出场景上进行。

主实验¶

在不同序列长度下，Selfi 全面超越前馈式 pose-free 基线（AnySplat、WorldMirror、Flare），短序列时甚至逼近用 GT 位姿 + SfM 初始化的逐场景优化 3DGS（作为上界）：

数据集 / 输入帧数	方法	PSNR↑	SSIM↑	LPIPS↓
DL3DV / 6 帧	3DGS（GT 位姿，上界）	25.63	0.8376	0.1985
DL3DV / 6 帧	AnySplat	18.84	0.5665	0.2949
DL3DV / 6 帧	WorldMirror	21.76	0.7389	0.2162
DL3DV / 6 帧	Ours	24.94	0.8442	0.1566
RE10K / 6 帧	WorldMirror	25.54	0.8691	0.1502
RE10K / 6 帧	Ours	28.34	0.9021	0.1206

在 PixelSplat 的两视角约定下，Selfi 取得所有方法（含需要 GT 位姿的）中最好的 SSIM 与 LPIPS：

方法	类型	PSNR↑	SSIM↑	LPIPS↓
DepthSplat	需位姿	27.47	0.889	0.114
ReSplat	需位姿	29.72	0.911	0.100
NoPoSplat	无位姿	26.82	0.880	0.125
Ours	无位姿	29.01	0.942	0.053

消融实验¶

DL3DV 上逐项叠加（Tab. 6）：

配置	PSNR↑	SSIM↑	LPIPS↓	说明
全去（VGGT 原特征）	22.53	0.759	0.240	基线
+ 特征对齐	23.29	0.792	0.210	对齐特征本身就涨 0.76 dB
+ 对齐 + RGB 球谐	23.70	0.801	0.207	视相关颜色
+ 对齐 + RGB&密度球谐	24.67	0.835	0.169	密度球谐贡献最大
+ BA（无深度漂移）	24.61	0.833	0.164	直接换位姿反而掉点
+ BA + 深度漂移	24.88	0.844	0.157	校正后才真正受益

位姿估计上（10 帧）Selfi 的 AUC@3 达 0.867，优于 VGGT+BA 的 0.835；更关键的是 100 帧时 Co-Tracker 因显存爆掉失败（OOM），Selfi 仍稳定输出。

关键发现¶

几何特征对齐是地基：仅把 VGGT 原特征换成对齐特征（高斯头训练计划相同），NVS 就显著提升，印证「VFM 特征缺几何一致性」的假设。
密度球谐是单点收益最大的设计：从 23.70 → 24.67（PSNR +0.97），它当作「学习到的置信度」把远离目标视角的高斯调透明，有效压制位姿/深度噪声。
BA 必须配深度漂移：直接灌新位姿会让 NVS 掉点（24.67 → 24.61），加上仿射深度校正后才反超到 24.88——说明位姿与稠密高斯必须一致更新。
随帧数增多前馈方法普遍退化，而 Selfi 退化最慢、并能 zero-shot 迁移到 MipNeRF360 / Tanks&Temples 的 BA 评测。

亮点与洞察¶

「用模型自己的输出当稠密伪标签」：把 VGGT 的深度/位姿变成重投影对应监督，绕开 3D 真值标注，是 self-supervised 改造基础模型的一个干净范式，可迁移到其他 VFM。
密度也上球谐 = 学习式置信度：把视相关性从颜色推广到密度，让模型自动「不信任」远视角的高斯，这一招同时解决遮挡、错位与剪枝，启发性强。
冻结骨干、只训小头即达 SOTA：训练成本集中在轻量适配器/解码器，说明 VFM 里已蕴含足够 3D 先验，缺的只是「对齐」这一步。
深度漂移用线性仿射闭合 BA 与渲染的缝：观察到 BA 深度变化近似线性、用一个仿射变换批量校正稠密高斯，简单却关键，是「让位姿提升真正转化为渲染提升」的临门一脚。

局限与展望¶

两视角下 PSNR 略低：作者归因于两输入间的曝光差异、且模型为多视角 NVS 训练，输入仅两帧时鲁棒性下降（虽 SSIM/LPIPS 仍最优）。
强依赖 VGGT 质量：整套自监督信号都来自 VGGT 的深度/位姿，若骨干在某类场景预测失准，伪标签会带偏对齐——论文未系统评估骨干失效的边界。
训练算力门槛高：两阶段共需 128 张 H100 跑 3.5 天，复现成本不低。⚠️ 更多实现细节作者放在补充材料。
可改进方向：让密度置信度显式建模不确定性、或把对齐损失扩展到时序/动态场景，可能进一步增强稀疏视角与长序列下的稳健性。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「用 VFM 自身输出做伪标签学几何对齐特征」是干净且有普适性的新范式，密度球谐与深度漂移两处设计都很巧。
实验充分度: ⭐⭐⭐⭐ 序列长度、重叠度、两视角、位姿估计多维评测充分，消融把每个设计拆得清楚；两视角 PSNR 略弱有合理解释。
写作质量: ⭐⭐⭐⭐⭐ 动机—假设—方法—验证逻辑闭环，图示（Fig. 2/4/6）有效支撑「特征对齐」与「视相关密度」等抽象概念。
价值: ⭐⭐⭐⭐ 把基础模型改造成无位姿 SOTA NVS 引擎、且零 3D 标注，对实用化无标定重建有明确意义，唯训练算力门槛偏高。