SAFAG: 无对称性标注的可泛化可操作部件位姿估计¶
会议: ICML 2026
arXiv: 2605.17033
代码: 待确认
领域: 机器人 / 具身智能 / 6D位姿估计
关键词: GAParts, 6D 位姿, 对称性自监督, 四元数细化, 机器人操控
一句话总结¶
SAFAG 把 GAPart 6D 位姿估计拆成"候选四元数生成 + 切空间精修"的两阶段框架,并用自适应概率分布在 \(x,y,z\) 三轴上隐式学习对称轴/面,从而在完全没有对称性标注的情况下,把跨类别可操作部件的旋转误差从 5.51° 压到 3.23°。
研究背景与动机¶
领域现状:具身智能里跨类别的物体操控依赖高质量的部件级 6D 位姿感知。Geng 等人提出 GAParts(Generalizable and Actionable Parts,可泛化可操作部件,如滑动抽屉、铰链门、按钮),把位姿估计的对象从整体物体下沉到 9 类可交互部件,让机器人能够"按部件"做操作策略。后续 GAPartNet、GASEM、DFGAP、GenPose++、RFMPose 等沿着这条线推进。
现有痛点:GAPart 比整体物体含有更丰富的对称性(圆形旋钮绕轴 360° 等价、抽屉滑盖 180° 等价),现有方法在这上面有两类毛病:(1) 多解问题:GAPartNet 用 NPCS 强行规整唯一解,等价集合被压成单一标签,精度受损;(2) 强标注依赖:GASEM、DFGAP 等设计了对称感知损失,但都需要预先标注对称轴/对称面,这种标注在真实场景里非常贵且经常不可得。
核心矛盾:要正确处理对称导致的"一对多",就要知道对称轴在哪;要知道对称轴在哪,就要密集标注;想去掉标注,又会回到无监督下"一对多"映射 ill-posed 的老路。
本文目标:在零对称性标注的前提下做 GAPart 的 6 DoF 位姿估计,且要同时覆盖旋转对称和镜面对称两种情况。
切入角度:作者把对称轴/面看作一个 \(x,y,z\) 三轴上的离散概率分布(混合权重 \(\pi_x,\pi_y,\pi_z\)),让网络从点云重建一致性中自监督地把这个分布学出来;位姿本身则用四元数(紧凑、无奇点、不解耦)做"候选 → 切空间精修 → 聚合"。
核心 idea:把"找对称轴"换皮成"估三轴上的概率分布",用 Chamfer 镜像一致性当自监督信号,从而把"对称性标注"从训练 pipeline 里整个抽掉。
方法详解¶
整体框架¶
输入是部件的部分点云 \(P \in \mathbb{R}^{N \times 3}\)(\(N=1024\)),输出是每个 GAPart 的 6 DoF 位姿(旋转 \(R \in SO(3)\) + 平移 \(t \in \mathbb{R}^3\))。Pipeline 是四块叠起来:(1) HyperS3 backbone:把 3D-GCN 改造成对 \(S^3\) 流形友好的特征提取器,输出点云特征 \(\mathcal{F}^{pc}\);(2) 候选生成:拿 \(\mathcal{F}^{pc}\) 拼上 \(K=64\) 个随机噪声向量,共享 CNN 并行生成 64 个四元数候选;(3) 切空间精修:先用 candidates encoder 把 64 个候选的统计量(均值、二阶矩特征、特征值/向量)编码成 \(\mathcal{F}^{embedding}\),再让 CNN 在 \(S^3\) 切空间里给每个候选预测偏移 \(\Delta q_i\),最后一个线性层聚合得到 \(q^{final}\);(4) 自适应对称网络:拿 \(q^{final}\) 的轴角表示和 \(\mathcal{F}^{pc}\) 一起预测三轴概率 \(\pi_{x,y,z}\),旋转对称直接加权得到对称轴,镜面对称再加一个 Chamfer 一致性筛选三个候选面,最后用预测的对称结构构造 ground truth 的等价集合反过来监督 \(q^{final}\)。
关键设计¶
-
HyperS3 卷积层(旋转感知的局部坐标):
- 功能:给 3D-GCN 加一层显式构造 \(SO(3)\) 局部基的卷积,让特征对旋转更稳,专门服务于四元数回归。
- 核心思路:对每个点 \(p_i\) 找 KNN(\(M=8\)),算局部协方差 \(S_i = \frac{1}{M}\sum_{j} R_{ij} R_{ij}^\top\);用一步幂迭代取主方向 \(e_{1,i}=\frac{S_i v_0}{\|S_i v_0\|}\),叉乘参考向量得到 \(e_{2,i}, e_{3,i}\) 拼成局部正交基 \(E_i\);把邻居向量同时投到局部坐标系(旋转敏感分支 \(\mathcal{F}^{align}\))和保留欧氏坐标(几何结构分支 \(\mathcal{F}^{euclid}\));再用协方差迹 \(\mathrm{tr}(S_i)\) 与各向异性 \(a_i=\|S_i - S_i^{iso}\|_F^2\) 算置信权重 \(\alpha_i\) 做自适应融合 \(\mathcal{F}_i = \alpha_i \mathcal{F}^{align} + (1-\alpha_i)\mathcal{F}^{euclid}\),再拼上 HS-Pose 的 STE/ORL 模块得到 \(\mathcal{F}^{pc}\)。
- 设计动机:之前 backbone 在 \(S^3\) 上回归四元数时旋转敏感性不够,靠局部正交基显式把"旋转感知"焊进卷积层,让下游候选生成不用从头学这个不变性。
-
候选-精修两阶段四元数回归(带 candidates encoder):
- 功能:把单解回归换成"先撒 \(K=64\) 个候选,再在切空间里精修聚合",匹配对称导致的多解结构。
- 核心思路:候选生成阶段,把噪声 \(z_i\) 拼到 \(\mathcal{F}^{pc}\) 上做共享 CNN 并行出 64 个候选 \(\{q_i\}\);精修前先做候选统计——对齐符号取均值 \(q_{mean}\),算残差 \(r_i = q_{mean}^{-1}\otimes q_i\),映到切空间得到轴角偏移 \(\delta_i\),再算平均余弦相似度 \(\bar{\mu} = \frac{1}{K}\sum_i |q_i^\top q_{mean}|^2\) 和偏移二阶矩矩阵的三大特征值/向量 \(\{\lambda_j, v_j\}_{j=1}^3\),拼成 candidates encoder 的输入;encoder 输出 \(\mathcal{F}^{embedding}\) 与 \(\mathcal{F}^{pc}\) 融合后,CNN 在切空间给每个候选预测偏移 \(\Delta q_i\),最后线性层把 64 个修正后的候选 \(\Delta q_i \otimes q_i\) 聚合成 \(q^{final}\)。
- 设计动机:直接回归整张旋转矩阵会撞 \(SO(3)\) 不连续,回归两个正交列又难处理;四元数紧凑无奇点。在切空间做更新可以看作流形上的一阶变化、有清晰几何意义;先编码候选分布的二阶矩可以避免"不知道彼此就瞎修",让 offset 估计更可靠。
-
自适应对称感知(零标注的概率分布建模):
- 功能:在不给任何对称轴/面 ground truth 的前提下估出对称结构,再用它构造等价集合监督最终四元数。
- 核心思路:把对称推理建模为 \(x,y,z\) 三轴上的离散混合分布 \(\pi_x,\pi_y,\pi_z\)。旋转对称:取 \(q^{final}\) 的轴角表示 \(\mathcal{F}^{rot}\) 和 \(\mathcal{F}^{pc}\) 各过 CNN 拼接,预测三轴概率,对称轴 \(n = \pi_x n_x + \pi_y n_y + \pi_z n_z\)。镜面对称:因为平面数量和位置都未知,把 \(n\) 当主法向,再额外预测一个正交副法向 \(n'\),叉乘得到 \(n''\);对每个候选法向 \(u_j\) 算镜像点云 \(p_i^{(j)\prime} = p_i - 2((p_i-p_c)\cdot u_j) u_j\),双向 Chamfer 距离 \(\mathcal{L}_{geom}(P, u_j)=\tfrac{1}{2}(d(P,P^{(j)\prime})+d(P^{(j)\prime},P))\) 度量镜像一致性,归一化得到几何分数 \(s_j = \frac{1/(\mathcal{L}_{geom}+\varepsilon)}{\sum_j 1/(\mathcal{L}_{geom}+\varepsilon)+\varepsilon}\) 用来抑制不一致的候选面。
- 设计动机:把"找对称轴"问题换成"估三轴概率分布"后,监督信号天然可以来自"原点云 vs 镜像点云"的几何一致性,不再需要对称标注。这一步是整篇文章去掉标注依赖的关键。
损失函数 / 训练策略¶
最终四元数监督来自"用预测对称结构构造的 GT 等价集合"——选等价集合中与预测最近的那一个做回归目标,从而把多解问题转成可监督的最近邻回归;对称网络靠 Chamfer 镜像一致性 \(\mathcal{L}_{geom}\) 做自监督,无需对称 ground truth;旋转/镜面对称类型作为先验类别给入,但具体轴/面参数完全由网络学出。
实验关键数据¶
主实验(GAPartNet,跨 9 类部件平均)¶
| 设定 | 方法 | Rot. (°) ↓ | Trans. (cm) ↓ |
|---|---|---|---|
| Seen | GAPartNet | 7.71 | 0.037 |
| Seen | GASEM | 9.11 | 0.036 |
| Seen | GenPose++ | 15.86 | 0.035 |
| Seen | RFMPose | 17.03 | 0.060 |
| Seen | DFGAP | 5.51 | 0.020 |
| Seen | SAFAG (Ours) | 3.23 | 0.016 |
| Unseen | GAPartNet | 27.59 | — |
| Unseen | GASEM | 29.45 | — |
| Unseen | GenPose++ | 31.66 | — |
| Unseen | RFMPose | 33.39 | — |
SAFAG 在 Seen 上把旋转误差相对最强基线 DFGAP 再砍掉 41%(5.51° → 3.23°),平移误差也降到 0.016 cm;尤其在高度对称的 Sd.Ld(滑盖)、Hg.Ld(铰链盖)、Rd.F.Hl(圆形固定把手)这几类上提升最显著,说明对称建模直接受益。
消融实验(关键模块对 Rot. 的贡献,定性描述)¶
| 配置 | Rot. (°) | 说明 |
|---|---|---|
| 完整 SAFAG | 3.23 | Full |
| w/o HyperS3 conv | 上升 | 退化为原始 3D-GCN,旋转敏感性下降 |
| w/o 候选-精修两阶段 | 上升 | 直接单解回归撞 \(SO(3)\) 不连续 |
| w/o 自适应对称 | 大幅上升 | 退化到单一 GT 监督,对称类部件多解问题回流 |
关键发现¶
- 自适应对称模块的贡献最大:去掉后高对称类部件(滑盖、圆形把手、旋钮)退化最严重,验证了"概率分布建模对称 + Chamfer 自监督"是把无标注做通的关键。
- HyperS3 的旋转感知局部基让 backbone 直接输出对旋转更稳的特征,下游候选生成不用再补这块。
- \(K=64\) 候选 + 切空间精修在精度和效率之间取得平衡,更小的 \(K\) 在不对称类上够用,但对称类需要候选数足够才能覆盖等价集合。
- 真实世界 demo 显示 SAFAG 的高质量 GAPart 感知能直接接 GAPartNet 的交互策略完成抓取,落地链路是通的。
亮点与洞察¶
- 把"对称标注"问题转写成"三轴概率分布 + 几何一致性自监督":这一招很巧——它没有去回避对称多解,而是承认"对称结构本身就是分布",让 Chamfer 镜像距离作为天然的自监督信号;这种"把先验从标注里解放出来"的范式可迁移到其他需要对称/等价信息的任务(如 NOCS 类别级位姿、SLAM 中对称物体)。
- 候选 → 切空间精修 → 聚合的三段式四元数回归:把"多解回归"做成显式候选撒点 + 流形精修,比直接生成式(GenPose++)/流匹配(RFMPose)更轻,且精度反超,说明"候选 + 几何感知精修"在 \(S^3\) 上是个性价比很高的范式。
- 候选 encoder 编码分布二阶矩:用候选分布的均值、特征值、特征向量当 encoder 输入,让精修知道"候选群分布的形状"再去修偏移,避免单点孤立修正的不稳定,这个思路在任何 candidate-based 范式里都好用。
局限与展望¶
- 对称类型(旋转 / 镜面)作为先验类别需要给入,没有做"对称类型本身也自动判别"的更彻底版本。
- 主实验只在 GAPartNet(PartNet-Mobility + AKB-48)评估,对真实世界遮挡、噪声严重场景的鲁棒性仅靠少量 demo 展示,定量评估不足。
- 候选数 \(K=64\) 固定,对极端对称(如完美轴对称的旋钮)是否需要自适应 \(K\) 未讨论。
- 后续可结合关节运动信息做时序联合估计,进一步消除单帧歧义。
相关工作与启发¶
- vs GAPartNet (Geng et al., 2023):GAPartNet 用 NPCS 强行收敛到单解,丢失等价集合信息;SAFAG 显式建模等价集合并用对称分布生成监督目标,精度大幅领先(Seen 7.71° → 3.23°)。
- vs GASEM / DFGAP:两者都需要对称轴/面标注配合对称感知损失;SAFAG 用 Chamfer 自监督把这部分标注完全去掉,且 Seen 精度仍优于 DFGAP 41%。
- vs GenPose++ / RFMPose:生成式/流匹配方法把多解问题建模为分布采样,理论优雅但需要对称标注,且训练成本高;SAFAG 用候选 + 切空间精修 + Chamfer 自监督,达到更低误差且无标注。
评分¶
- 新颖性: ⭐⭐⭐⭐ "对称当概率分布 + Chamfer 自监督"把标注依赖彻底去掉,思路干净。
- 实验充分度: ⭐⭐⭐⭐ GAPartNet 9 类部件 Seen/Unseen 全覆盖 + 真实世界 demo,但缺定量真实场景评估和系统的消融。
- 写作质量: ⭐⭐⭐⭐ 框架四块拆解清晰,公式标注规范,HyperS3 与 candidates encoder 的几何动机讲得透。
- 价值: ⭐⭐⭐⭐ 直接服务于具身智能跨类别操控,去标注的设定对真实部署有强落地价值。