跳转至

SingRef6D: Monocular Novel Object Pose Estimation with a Single RGB Reference

会议: NeurIPS 2025
arXiv: 2509.21927
代码: https://plusgrey.github.io/singref6d/
领域: 3D视觉 / 6D位姿估计
关键词: 6D位姿估计, 单目深度估计, 单参考图像, Depth-Anything, 深度感知匹配

一句话总结

提出SingRef6D,一个仅需单张RGB参考图像的轻量级6D位姿估计流水线,通过token-scaler微调Depth-Anything v2实现鲁棒深度预测,并引入深度感知匹配增强LoFTR的空间推理能力,在透明/反光物体场景中大幅超越现有方法。

研究背景与动机

6D位姿估计是机器人、工业自动化和增强现实的核心任务。当前方法面临几个实际限制:

依赖CAD模型:获取新物体的CAD模型成本高昂,需要专业扫描设备和人工精修

深度传感器局限:传感器对透明、高反射材质的物体失效率超过85%(ClearPose数据集)

多视角方法开销大:多视角匹配需要大量模板库,神经场构建计算密集且限于逐实例训练

RGB方法缺乏几何信息:在低光照和无纹理场景中匹配性能弱

核心矛盾:如何在"最小参考输入"(仅单张RGB图像)的约束下,实现对挑战性表面条件(透明、反光)的鲁棒6D位姿估计?

本文受人类视觉系统启发——人类无需CAD模型或双目视觉就能高效估计物体位姿,依靠的是认知深度感知和形状理解机制。SingRef6D模仿这一机制,通过学习深度先验来隐式扩展参考空间。

方法详解

整体框架

SingRef6D包含三个阶段: 1. 鲁棒深度预测:用token-scaler机制微调Depth-Anything v2,从单张RGB预测精确度量深度 2. 深度感知匹配:将RGB和深度融合到统一隐空间中,扩展LoFTR的匹配能力 3. 位姿求解:使用PointDSC精炼匹配对应关系,通过深度投影点云计算相对位姿

关键设计

  1. Token-Scaler微调机制:在DPAv2的分层特征上引入ControlNet式结构,对不同层级特征进行动态缩放和调制: \(F_l' = \mathcal{F}_l(F_l, Scaler(F_{l+1}'))\)

    • 低/中层特征(\(F_1, F_2\)):使用高效注意力层增强全局感知,抑制噪声
    • 高/全局层特征(\(F_3, F_4\)):使用InceptConv网络强调局部特征以增强高层特征图
    • 设计动机:模仿人类视觉的分层空间感知机制,冻结DPAv2主体参数仅训练轻量token scaler
  2. 多级损失函数:结合全局和局部损失 \(\mathcal{L}_{depth} = \mathcal{L}_{local} + \mathcal{L}_{global}\)

    • Scale Alignment Loss:强制物体级尺度对齐,带鲁棒项抗离群值 \(\mathcal{L}_{scale} = \frac{1}{M}\sum_i \frac{(\hat{d}_i - d_i)^2}{1 + \eta|\hat{d}_i - d_i|}\)
    • Edge-emphasize Loss:利用RGB梯度加权深度梯度误差,改善边界重建 \(\mathcal{L}_{edge} = \frac{1}{M}\sum_i e^{-\sigma\|\nabla I_i\|} \cdot \|\nabla\hat{d}_i - \nabla d_i\|_2^2\)
    • Normal Consistency Loss:强制表面法线方向一致性,保持几何结构的连贯性
    • 全局损失:SSI + BerHu + 正则化
  3. 深度感知匹配模块:冻结LoFTR参数,在其隐空间中融合RGB和深度特征。深度图提供空间先验,使匹配在低纹理和挑战性光照条件下仍然有效。最后用PointDSC精炼匹配并通过 \(T_q^{-1} = T_r^{-1} T_{q\to r}\) 求解6D位姿。

损失函数 / 训练策略

训练时冻结DPAv2和LoFTR的参数,仅训练token scaler,极大降低训练成本。深度损失综合了全局尺度校准(SSI+BerHu)和局部几何精度(Scale+Edge+Normal)。

实验关键数据

主实验(深度估计)

数据集 指标 本文 DPAv2(FT) UniDepth(FT) 提升
Toyota-Light \(\delta_{1.05}\) 80.09 14.64 11.80 +65.45
REAL275 \(\delta_{1.05}\) 44.28 29.87 33.81 +14.41 vs DPAv2
ClearPose \(\delta_{1.05}\) 54.30 31.23 12.73 +23.07 vs DPAv2

主实验(6D位姿估计)

数据集 匹配器 深度 AR↑ 对比Oryon 提升
REAL275 Ours Ours 28.7 20.4 +8.3
Toyota-Light Ours Ours 31.7 24.1 +7.6
ClearPose Ours Ours 19.4 17.1 +2.3
三数据集平均 - - - - +6.1

消融实验

配置 \(\delta_{1.05}\) Abs.Rel.↓ RMSE↓ 说明
无局部损失 31.16 0.279 0.281 仅全局损失
+Edge+Norm 40.23 0.139 0.162 +边缘+法线
+Scale+Edge 40.41 0.124 0.140 +尺度+边缘
Full (所有) 44.28 0.082 0.107 三项损失均贡献

效率对比:本方法仅11.6M参数/13.9 GFLOPs/0.74GB显存,而Oryon为264.3M/120.1G/5.90GB,计算效率提升约8倍。

关键发现

  • 在透明物体(ClearPose)上深度预测准确率从31.23%提升到54.30%,提升23%
  • 深度质量直接影响位姿精度:使用Oracle深度时AR最高可达56.8,说明深度预测仍有提升空间
  • 仅用50%训练数据就能匹配UniDepth的完整数据性能

亮点与洞察

  • "最小参考"设计理念:无需CAD模型、多视角、神经场或扩散生成,仅用单张RGB图像
  • Token-scaler微调策略既保留了DPAv2预训练知识,又实现精确度量深度,冻结主体只训练轻量模块
  • 三个层级的局部损失(Scale+Edge+Normal)覆盖了深度预测的主要几何误差来源,设计系统且动机清晰

局限与展望

  • Oracle深度与预测深度之间仍有显著gap(AR: 56.8 vs 28.7),深度预测仍是瓶颈
  • 在Toyota-Light上使用预测深度时低于Oryon+DPAv2,对光照变化的鲁棒性有待提升
  • 当前LoFTR参数冻结不做微调,联合训练可能进一步提升匹配质量
  • 未在BOP Challenge标准协议下完整评估

相关工作与启发

  • vs FoundationPose: FoundationPose需训练神经场+多视角模板,计算开销大;SingRef6D完全无需视角合成
  • vs NOPE: NOPE需训练U-Net合成342个新视角,限于单物体纹理场景;SingRef6D支持多物体复杂场景
  • vs Zero123-6D: Zero123-6D用扩散模型生成新视角+NeRF重建3D,SingRef6D避免了所有这些昂贵步骤
  • vs Oryon: Oryon依赖CLIP文本嵌入和传感器深度,无法处理透明物体;SingRef6D通过学习深度先验解决此问题

评分

  • 新颖性: ⭐⭐⭐⭐ 单RGB参考的定位清晰且实际,token-scaler微调和深度感知匹配设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集覆盖不同挑战,深度和位姿均有详细评估,消融完整
  • 写作质量: ⭐⭐⭐⭐ 方法动机和对比表1清晰展示了与现有方法的差异
  • 价值: ⭐⭐⭐⭐ 在低资源场景下有很强的实用价值,特别是透明/反光物体的位姿估计