UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image¶

会议: CVPR 2025
arXiv: 2411.16106
代码: GitHub
领域: 人体理解
关键词: 未知物体位姿估计, 单参考图像, SE(3)不变性, 点云配准, 重叠预测

一句话总结¶

提出 UNOPose 方法和基准，仅使用单张无位姿的 RGB-D 参考图像即可估计未知物体的 6DoF 相对位姿，通过 \(SE(3)\) 不变参考坐标系和重叠感知匹配实现了与依赖 CAD 模型方法相当的性能。

研究背景与动机¶

现有物体位姿估计方法大多依赖 CAD 模型或多张参考视图来覆盖目标物体的外观，标注和准备成本高
实例级和类别级方法只能处理已知物体/已知类别，在开放世界应用中有明显局限
单张参考图像的设定面临巨大挑战：相对位姿可在整个 \(SE(3)\) 空间变化，不再有多视图选择最近锚点的简化
遮挡、传感器噪声和极端几何形状可能导致视点间重叠区域很小
已有的相对位姿估计方法（如 3DAHV、DVMNet）仅使用 RGB 模态预测 3DoF 旋转，无法估计完整的 6DoF 位姿（包含平移）
需要一种低成本、仅需单张 RGB-D 参考即可工作的通用位姿估计方案

方法详解¶

整体框架¶

UNOPose 采用从粗到精的范式：（1）利用 SAM+DINOv2 进行未知物体分割，从查询图像中定位目标物体；（2）将 RGB-D 图像反投影为 3D 点云，通过 \(SE(3)\) 不变全局参考坐标系（GRF）标准化物体表示后，进行粗匹配获取初始位姿估计；（3）在初始对齐后的密集点云上进行精细匹配，利用局部参考坐标系（LRF）编码捕获细粒度几何结构，最终通过 RANSAC 求解精确位姿。

关键设计¶

1. \(SE(3)\) 不变全局参考坐标系（GRF）

功能：消除物体位姿和尺度变化对匹配的影响，标准化物体表示
核心思路：通过7DoF变换 \(\{\mathbf{R}_G, \mathbf{t}_G, s_G\}\) 将点云转到标准坐标系。原点设为物体中心（平移不变），半径归一化为1（尺度不变），旋转由物体中心法向量（SVD 最小奇异值对应向量）确定 z 轴，投影到切平面的加权向量和确定 x 轴
设计动机：单参考图设定下相对位姿可覆盖整个 \(SE(3)\) 空间，需要首先消除位姿和尺度变化才能有效建立对应关系。相比需要复杂网络或 PPF 特征的方法，GRF 变换计算高效

2. 重叠感知对应关系建立

功能：在部分-部分匹配场景中识别可靠对应点，抑制非重叠区域的干扰
核心思路：网络额外预测每个点是否处于重叠区域的置信度 \(\hat{O}_Q^c, \hat{O}_P^c\)，将其与特征描述子逐元素相乘后计算相关矩阵 \(\mathbf{X}^c = \text{softmax}[(\hat{O}_Q^c \odot \hat{F}_Q^c)(\hat{O}_P^c \odot \hat{F}_P^c)^\top]\)，同时引入可学习背景 token 处理无对应点
设计动机：单参考图场景下遮挡、视角差异大导致重叠比例不可预知，不加区分的匹配会引入大量错误对应，需要自动调整每个对应点的权重

3. 层级几何编码（GRF + LRF）

功能：粗匹配后对密集点云进行精细匹配，捕获局部几何细节
核心思路：在精细阶段，对每个点构建局部邻域并计算其局部参考坐标系（LRF），方式与 GRF 类似但作用于局部点集。结合全局位置编码（mini-PointNet）和 LRF 编码，前者提供全局位置上下文，后者捕获细粒度局部几何结构，两者互补
设计动机：粗匹配后残余误差需要利用细粒度几何特征来精确修正，LRF 保证了局部描述子的旋转不变性

损失函数 / 训练策略¶

粗阶段：对应矩阵的负对数似然损失 + 重叠预测的二元交叉熵损失
精细阶段：对应矩阵损失 + 位姿回归损失（ADD-style）
使用 GeoTransformer 作为几何编码器，DINOv2 作为颜色特征编码器
通过 \(N_H\) 个三元组点对假设采样和评分选择最佳粗位姿

实验关键数据¶

主实验¶

基于 BOP Challenge 的 AR_BOP 指标（YCB-V + LM-O + TUD-L 平均）：

方法	参考类型	AR_BOP
ICP（经典方法）	单参考	13.8
FPFH + RANSAC	单参考	28.5
DVMNet	单参考	42.9
UNOPose	单参考	70.9
ZTE-PPF (CAD-based)	CAD模型	69.0
Koenig-PPF (CAD-based)	CAD模型	75.1

消融实验¶

配置	YCB-V AR	LM-O AR	TUD-L AR
w/o GRF	62.1	43.2	71.8
w/o Overlap Predictor	68.3	49.7	80.5
w/o LRF (fine)	70.2	51.4	82.1
Full UNOPose	73.8	55.2	83.7

关键发现¶

UNOPose（70.9% AR_BOP）超越了基于 CAD 模型的 ZTE-PPF（69.0%），且仅需单张无位姿参考
GRF 贡献最大，移除后性能显著下降，证实了 \(SE(3)\) 不变标准化的关键性
相比传统方法（ICP 13.8%, FPFH 28.5%），学习方法在单参考设定下优势巨大
重叠预测器在低重叠场景（大视角差异）中提升尤为显著

亮点与洞察¶

首次将未知物体位姿估计的参考需求降低到单张无位姿 RGB-D 图像，极大简化了部署流程
GRF 的设计简洁优雅，利用点云协方差矩阵 SVD 构建不变坐标系，计算高效且无需学习
构建了基于 BOP Challenge 的标准化评测基准，便于社区评估和比较
单张参考超越部分 CAD-based 方法的结果令人惊喜

局限与展望¶

GRF 对对称物体不鲁棒，法向量方向可能模糊
深度数据的噪声水平和传感器类型会显著影响性能
遮挡严重时，重叠区域过小仍可能导致失败
未来可扩展到少样本（few-shot）参考设定，进一步提升鲁棒性
可探索将 RGB-only 推广为纯 RGB 设定（无需深度）

评分¶

新颖性: ⭐⭐⭐⭐ — 单参考无位姿设定是全新的，GRF 和重叠预测设计有效
实验充分度: ⭐⭐⭐⭐ — BOP 标准评测，消融全面，与多种基线对比
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，数学推导严谨
价值: ⭐⭐⭐⭐⭐ — 显著降低了未知物体位姿估计的应用门槛，实用价值极高