Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors¶

会议: CVPR 2025
arXiv: 2503.17316
代码: 项目页面
领域: 3D视觉
关键词: 3D重建, DUSt3R, 多模态先验, 深度补全, 位姿估计

一句话总结¶

提出 Pow3R，一个在 DUSt3R 基础上增强的通用 3D 视觉回归模型，能灵活接收相机内参、相对位姿、稀疏/稠密深度等任意组合的辅助信息，在多项 3D 视觉任务上取得 SOTA 并解锁原生分辨率推理等新能力。

研究背景与动机¶

DUSt3R 是 3D 视觉回归模型的里程碑，能从未标定、未定位的图像对中回归 3D 点图。然而它存在一个根本限制——仅接受 RGB 图像输入，无法利用实际应用中常有的额外信息：

相机标定信息浪费：很多应用场景提供已标定的相机内参，但 DUSt3R 无法利用
深度传感器数据闲置：RGB-D 相机或 LiDAR 提供的稀疏/稠密深度无法融入模型
相对位姿约束未利用：IMU 或其他传感器提供的位姿估计无法作为额外约束
分辨率受限：DUSt3R 训练于固定分辨率，无法泛化到更高分辨率
需要双向推理：提取两张图像的深度需要两次前向传播(正反各一次)

方法详解¶

整体框架¶

Pow3R 基于 DUSt3R 的 ViT 编解码器架构，引入轻量级条件注入模块来接收辅助信息。编码器接收图像、内参和深度；解码器接收相对位姿。训练时随机采样辅助信息子集，使模型适应不同条件。此外，预测三个点图 \(X^{1,1}\), \(X^{2,1}\), \(X^{2,2}\)（多于 DUSt3R 的两个），实现单次推理即可提取所有信息。

关键设计1: 多模态辅助信息灵活注入 — 轻量级条件化¶

功能: 在不改变核心架构的前提下，将相机内参、深度图和相对位姿灵活注入到 ViT 中。

核心思路: 针对不同模态设计专用注入方式： - 内参 \(K\): 计算相机射线 \(K^{-1}[i,j,1]\)，patch 化后通过专用 MLP 注入编码器 - 深度 \(D\): 归一化后与有效掩码 \(M\) 拼接为 \([D', M] \in \mathbb{R}^{W \times H \times 2}\)，patch 化注入编码器 - 相对位姿 \(P_{12}\): 通过嵌入层+MLP 编码后添加到解码器的 CLS token

采用 "inject-1" 策略：每个模态的 MLP 仅在第一个 Transformer 块中注入，以 token-wise 加法方式融合。

设计动机: 训练时随机丢弃子集（"dropout" 辅助信息），使单一模型适应从无先验到完全先验的所有条件。实验发现 "inject-1" 与更深层注入效果相当但更高效。

关键设计2: 三点图预测 — 单次推理提取完整信息¶

功能: 通过额外预测 \(X^{2,2}\)（第二张图像在自身坐标系下的点图），实现单次推理提取两幅图像的深度、焦距和相对位姿。

核心思路: 解码器分支 Head\(^2\) 同时输出 \(X^{2,1}\), \(X^{2,2}\) 及对应置信度。相对位姿通过 Procrustes 对齐 \(X^{2,2}\) 和 \(X^{2,1}\) 直接获得：

\[R^*, t^* = \arg\min_{\sigma,R,t} \sum_{i,j} \sqrt{C^{2,2}_{i,j} C^{2,1}_{i,j}} \|\sigma(RX^{2,2}_{i,j} + t) - X^{2,1}_{i,j}\|^2\]

设计动机: DUSt3R 需要两次前向传播 \((I_1, I_2)\) 和 \((I_2, I_1)\) 才能得到两幅图像的深度和位姿。三点图设计将推理效率提升一倍。Procrustes 对齐虽对噪声敏感，但在此场景下与 RANSAC+PnP 精度相当，速度提升一个数量级。

关键设计3: 原生分辨率推理 — 内参条件化的新能力¶

功能: 利用内参信息处理任意裁切，实现滑动窗口式高分辨率推理。

核心思路: 内参编码为相机射线，包含了裁切位置信息（即焦距和主点）。因此可以将高分辨率图像分成多个裁切块，每个块配合其裁切区域的内参独立处理，最后通过重叠区域的中值尺度对齐和置信度加权混合拼接。

设计动机: DUSt3R 训练于固定分辨率且假设主点居中，无法处理非中心裁切或高分辨率图像。内参条件化自然地解除了这一限制，无需额外设计。

损失函数¶

\[\mathcal{L} = \mathcal{L}^{\text{conf}}(1,1) + \mathcal{L}^{\text{conf}}(2,1) + \beta \mathcal{L}^{\text{conf}}(2,2)\]

其中置信度加权回归损失 \(\mathcal{L}^{\text{conf}}(n,m) = \sum C^{n,m}_{i,j} \mathcal{L}^{\text{regr}}_{i,j}(n,m) - \alpha \log C^{n,m}_{i,j}\)，使用尺度不变的 3D 回归损失。

实验关键数据¶

多视图深度预测 (ScanNet++)¶

方法	AbsRel↓	δ<1.25↑
DUSt3R	0.068	0.967
MASt3R	0.061	0.974
Pow3R (无先验)	0.063	0.972
Pow3R (有内参+深度)	0.041	0.988

相对位姿估计 (Map-free benchmark)¶

方法	AUC@5°↑	AUC@10°↑	推理时间
DUSt3R + PnP	52.3	64.1	~100ms
MASt3R + PnP	60.1	71.5	~100ms
Pow3R + Procrustes	62.8	73.2	~10ms

深度补全 (NYUv2)¶

方法	RMSE↓ (500点)	RMSE↓ (200点)
CompletionFormer	0.089	0.105
Pow3R	0.082	0.094

关键发现¶

无先验时 Pow3R 与 DUSt3R 性能持平，有先验时显著提升（40% AbsRel 改善with内参+深度）
Procrustes 位姿估计精度与 RANSAC+PnP 相当但快约 10 倍
原生分辨率推理产生更锐利、更精细的 3D 重建，无需重训练
深度补全任务超越专门方法，证明了通用性
随机丢弃辅助信息的训练策略是适应不同条件的关键

亮点与洞察¶

灵活的辅助信息注入是实用创新：实际应用中各种先验信息的可用性差异很大，单一模型适应所有条件是理想方案
三点图设计一箭双雕：效率翻倍的同时使 Procrustes 位姿估计成为可能
内参条件化解锁高分辨率推理是一个意外但极有价值的副产品
与 DUSt3R 生态的兼容性：MASt3R、MonST3R 等后续工作都可从中受益

局限与展望¶

高分辨率滑动窗口推理需要手动设置裁切策略和重叠区域
Procrustes 对齐对严重遮挡场景可能不够鲁棒
目前只处理图像对，多视图扩展需要全局对齐后处理
辅助信息的噪声容忍度值得更深入分析
未来可探索主动选择最有价值的辅助信息进行查询

评分¶

⭐⭐⭐⭐⭐ — 工程和学术价值都很高。在 DUSt3R 这一强大基础上做出了正确且重要的增强方向。灵活的先验注入使一个模型适应广泛场景；三点图设计效率翻倍；原生分辨率推理是令人兴奋的新能力。实验覆盖多个下游任务且都取得了 SOTA。