ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation¶
会议: ECCV 2024
arXiv: 2408.09042
领域: 3D视觉 / 相机位姿估计
关键词: 稀疏视图, 相机位姿, 生成器-判别器, 自适应采样, 对比学习
一句话总结¶
提出ADen框架,通过生成器输出多个位姿假设+判别器评分选择最佳的方式,统一了位姿回归和概率估计范式,仅需500个自适应样本即超越需要500K均匀采样的方法,同时实现实时推理。
研究背景与动机¶
- 领域现状:稀疏视图相机位姿估计有两种主流方法——回归法(单模预测)和概率法(均匀采样SO(3)空间)。
- 现有痛点:回归法假设单模分布,在对称物体上表现差;概率法如RelPose需500K均匀采样才能获得足够精度,计算代价极高,且维度灾难限制了联合旋转+平移的建模。
- 核心矛盾:精度需要密集采样 vs 采样效率决定运行时间,均匀网格在高维空间不可行。
- 本文目标:如何用极少量样本实现高精度、多模态感知的位姿估计。
- 切入角度:现实中位姿分布高度偏斜,仅有少数模态占主导,自适应采样远优于均匀采样。
- 核心 idea:生成器学习从条件分布中采样少量高质量假设,判别器对比学习选出最佳假设。
方法详解¶
整体框架¶
ResNet提取逐图像特征→Transformer融合多视图特征→共享backbone分出Pose Generator(多假设生成)和Pose Discriminator(对比排序)两个head。
关键设计¶
设计1:多假设位姿生成器 - 功能:生成M个位姿假设,每个为四元数+平移的7维向量。 - 核心思路:M个可学习query嵌入通过MLP映射,结合融合特征生成M个假设。仅回归最接近GT的假设(geodesic距离最小),其余不施加损失。 - 设计动机:避免mode collapse——不将所有假设都回归到同一GT,让模型自由探索多个模态。
设计2:对比判别器 - 功能:评估每个生成假设的正确概率。 - 核心思路:训练时将GT位姿作为正样本加入,用对比负对数似然损失训练判别器区分GT和生成假设。推理时不使用GT,选概率最高的假设。 - 设计动机:将位姿选择转化为对比学习问题,避免了均匀采样的维度灾难。
设计3:联合训练稳定策略 - 功能:在query嵌入中注入高斯噪声。 - 核心思路:类似GAN的稳定训练技巧,防止生成器太好导致判别器梯度消失。 - 设计动机:生成器-判别器框架的经典训练不稳定问题。
损失函数/训练策略¶
\(\mathcal{L} = \mathcal{L}_g + \mathcal{L}_d\)。生成器损失:最近假设的geodesic旋转距离 + L2平移距离。判别器损失:对比负对数似然。训练2000 epoch,Adam lr=1e-4。
实验关键数据¶
主实验¶
CO3D数据集旋转精度(Acc@15°)
| 方法 | 2-view(seen) | 5-view(seen) | 8-view(seen) |
|---|---|---|---|
| RelPose++ | 81.8 | 84.7 | 85.5 |
| PoseDiff | 76.0 | 77.7 | 78.5 |
| ADen | 84.3 | 86.5 | 87.3 |
紧阈值精度(Acc@5°)
| 方法 | Seen | Unseen |
|---|---|---|
| RelPose++ | 39.5 | 27.8 |
| ADen | 51.2 | 36.5 |
消融实验¶
| 配置 | Acc@15° |
|---|---|
| 仅回归(无多假设) | 82.1 |
| 仅生成器(无判别器) | 83.5 |
| 完整ADen | 84.3 |
| 去掉query噪声 | 83.0 |
关键发现¶
- 在紧阈值(5°/10°)下ADen的优势更显著——不受网格分辨率限制。
- ADen在Objectron和Niantic零样本迁移中也取得SOTA,泛化能力强。
- 500个样本 > 500K均匀采样,验证了自适应采样的高效性。
亮点与洞察¶
- 优雅地统一了回归和概率两种范式,取各家之长。
- 自然扩展到高维空间(联合R+t),不增加样本数。
- 实时推理速度,比RelPose++快数倍。
局限与展望¶
- 生成器的多样性依赖可学习query的初始化,可能不够充分。
- 判别器在高度对称物体上可能仍有困难。
- 未探索扩散模型作为生成器的可能性。
相关工作与启发¶
- RelPose/RelPose++开创了概率位姿估计范式,ADen通过自适应采样革新了采样方式。
- 核心insight:现实位姿分布是稀疏的,不需要均匀采样整个空间。
评分¶
| 维度 | 评分 |
|---|---|
| 创新性 | ★★★★☆ |
| 实用性 | ★★★★☆ |
| 实验充分性 | ★★★★☆ |
| 写作清晰度 | ★★★★★ |