Structure-Aware Correspondence Learning for Relative Pose Estimation¶
会议: CVPR 2025
arXiv: 2503.18671
代码: https://github.com/Cyhhzo02/SAC-Pose-code
领域: 人体姿态/3D视觉
关键词: 相对位姿估计, 结构感知关键点, 3D对应, 无特征匹配, SVD求解
一句话总结¶
提出结构感知对应学习方法(SAC-Pose),通过学习能代表物体结构的关键点,并基于图像间结构感知特征直接回归3D-3D对应关系(无需显式特征匹配),显著提升未见类别物体的相对位姿估计精度。
研究背景与动机¶
- 领域现状:相对位姿估计旨在从一对图像估计物体的相对旋转,对于实现物体无关的位姿估计有重要价值。主流方法分三类:2D对应(SuperGlue/LoFTR)、假设验证(RelPose/RelPose++)、3D对应(DVMNet)。
- 现有痛点:2D方法在大视角差/小重叠区域下匹配失败;假设验证方法依赖离散采样,计算成本高且无法建模连续位姿空间;3D方法将2D特征提升到3D体素后做密集匹配,但不可见区域的3D特征推断不可靠,且立方级复杂度很高。
- 核心矛盾:现有3D对应方法依赖显式特征匹配,但从单视图2D表面特征推断不可见区域的3D特征本身就不可靠,导致匹配错误。
- 本文目标:设计一种无需显式特征匹配就能建立可靠3D-3D对应关系的方法。
- 切入角度:模仿人类"拼装能力"——人看到手提箱的前面和后面,即使重叠区域很小,也能通过结构信息(形状、把手位置、颜色pattern)推断拼合方式。
- 核心 idea:用一组结构化关键点表示物体结构,再通过结构感知特征交互直接回归3D对应坐标,绕过匹配步骤。
方法详解¶
整体框架¶
输入query和reference两张图像 → 共享特征提取器 + 对称注意力 → 结构感知关键点提取(独立提取) → 结构感知对应估计(自/交叉注意力) → 2D关键点提升至3D + 回归参考坐标系中的3D坐标 → wSVD求解相对旋转。
关键设计¶
-
结构感知关键点提取模块 (SA-KPE)
- 功能:从特征图中自适应地选取能代表物体结构的稀疏关键点
- 核心思路:初始化一组可学习query \(\mathbf{Q} \in \mathbb{R}^{N_{kpt} \times C}\),通过交叉注意力与图像特征交互得到图像自适应的关键点检测器 \(\tilde{\mathbf{Q}}_q\)。计算检测器与特征的相似度生成热力图 \(\mathbf{H}_q = \text{softmax}(\tilde{\mathbf{Q}}_q \cdot \mathbf{F}_q'^{\top})\),再通过热力图加权平均得到关键点坐标和特征。为防止关键点聚集,设计图像重建损失(从关键点特征+坐标重建前景图像),包含L2像素损失+VGG感知损失。
- 设计动机:密集像素特征引入背景噪声且计算贵,随机采样缺乏一致性;关键点方式以更少计算量(50.05G vs 55.26G MACs)实现更好性能(mAE 14.2° vs 15.52°)。图像重建约束迫使关键点分散到语义丰富区域。
-
结构感知对应估计模块 (SA-CE)
- 功能:从关键点特征中提取结构感知特征,用于3D对应关系回归
- 核心思路:先用带ROPE位置编码的自注意力聚合同一图像内的关键点结构信息 \(\tilde{\mathbf{F}}_{kpt,q} = \text{MHSA}(\mathbf{F}_{kpt,q} \circledast R(\mathbf{X}_{kpt,q}))\);再用交叉注意力聚合参考图像的关键点特征。有了结构感知特征后,用MLP回归伪深度 \(d_{i,q}\) 将2D关键点提升到query坐标系的3D空间 \(\mathbf{x}^{(\mathcal{Q})}_{i,q}\),再用另一个MLP回归其在参考坐标系中的3D坐标 \(\mathbf{x}^{(\mathcal{R})}_{i,q}\) 及置信度 \(c_i\)。
- 设计动机:自注意力+ROPE让每个关键点感知自身在物体结构中的相对位置(图内结构),交叉注意力让关键点理解两个视图的互补结构信息(图间结构),二者结合使网络能"脑补"两个部分如何拼合。
-
基于wSVD的端到端位姿求解
- 功能:从3D-3D对应关系求解最优旋转矩阵
- 核心思路:计算加权协方差矩阵 \(\mathbf{H} = \sum_i c_i \mathbf{x}^{(\mathcal{Q})}_{i,q}(\mathbf{x}^{(\mathcal{R})}_{i,q})^\top\),对其做SVD分解 \(\mathbf{H}=\mathbf{U}\Sigma\mathbf{V}^\top\),则最优旋转 \(\Delta\mathbf{R}=\mathbf{V}\mathbf{U}^\top\)。置信度 \(c_i\) 由网络预测,自动降低不可靠对应的权重。
- 设计动机:wSVD提供了从对应关系到旋转的可微闭式解,保证端到端训练。置信度权重让模型自动识别哪些对应可信。
损失函数 / 训练策略¶
总损失 \(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{pts} + \lambda_2 \mathcal{L}_{rec} + \lambda_3 \mathcal{L}_{rot} + \lambda_4 \mathcal{L}_{mask}\)。其中 \(\mathcal{L}_{pts}\) 使用对称stop-gradient约束3D坐标预测精度(含置信度加权);\(\mathcal{L}_{rot}\) 用L1损失对齐6D旋转表示;训练时query和reference对称使用以增加数据效率。
实验关键数据¶
主实验¶
| 方法 | 类型 | CO3D mAE↓ | CO3D Acc@15°↑ | Objaverse mAE↓ | LineMOD mAE↓ |
|---|---|---|---|---|---|
| SuperGlue | 2D | 67.2° | 37.7% | 102.4° | 64.8° |
| LoFTR | 2D | 77.5° | 33.1% | 134.1° | 84.5° |
| DVMNet | 3D | 19.9° | 62.3% | 20.2° | 36.8° |
| Ours | 3D | 14.2° | 80.2% | 15.3° | 27.2° |
消融实验¶
| 配置 | mAE↓ | Acc@30°↑ | Acc@15°↑ | MACs(G) |
|---|---|---|---|---|
| Dense features | 15.52 | 92.65 | 78.20 | 55.26 |
| Random points | 20.15 | 88.34 | 68.99 | 49.59 |
| Keypoint (ours) | 14.2 | 93.6 | 80.2 | 50.05 |
| w/o Self-Attn | 17.79 | 90.22 | 72.48 | - |
| w/o Cross-Attn | 18.53 | 89.38 | 70.99 | - |
关键发现¶
- 相比DVMNet,CO3D上mAE降低约6°(19.9→14.2),Acc@15°提升近18个百分点,证明直接回归对应优于密集3D匹配
- 去掉自注意力(+3.6° mAE)和交叉注意力(+4.3° mAE)后性能均显著下降,说明图内和图间结构信息都至关重要
- 关键点方法比密集特征少10%计算量却性能更优,说明结构化稀疏表示比密集表示更高效
亮点与洞察¶
- "绕过匹配直接回归"的思路很聪明:避免了在特征空间做显式匹配(容易受不可见区域影响),改为让网络直接学从结构特征到3D坐标的映射。这种思路可迁移到点云配准等领域。
- 图像重建作为关键点分散约束:用重建目标驱动关键点覆盖语义丰富区域,比直接加分散正则更自然且有效。
- 对称训练策略:query和reference互换使用,相当于数据翻倍,简单但有效。
局限与展望¶
- 目前只估计旋转(3DoF),平移部分假设可由2D检测解决,但这在实际应用中不一定成立
- 关键点数量 \(N_{kpt}\) 需要预设,对不同复杂度的物体可能需要自适应调整
- 只在物体级别测试,未验证在场景级别(大规模、多物体)的效果
- 图像重建模块增加了训练开销,推理时可去掉但训练需要额外计算
相关工作与启发¶
- vs DVMNet: DVMNet做3D体素密集匹配,本文用稀疏关键点直接回归,计算更少效果更好
- vs LoFTR/SuperGlue: 这些2D方法在大视角差下失败,本文通过3D对应回归天然支持大视角
- 3D关键点+结构感知的思路可以扩展到多视图重建、6DoF物体姿态估计等任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 结构感知关键点+直接回归对应的组合新颖
- 实验充分度: ⭐⭐⭐⭐ 三个数据集+详细消融
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,人类拼装类比很直观
- 价值: ⭐⭐⭐⭐ 在相对位姿估计领域提供了新的SOTA方案