Manual-PA: Learning 3D Part Assembly from Instruction Diagrams¶

会议: ICCV 2025
arXiv: 2411.18011
代码: 无
领域: 自监督
关键词: 3D Part Assembly, 指令图组装, Transformer, 对比学习, 排列学习

一句话总结¶

提出 Manual-PA，一个基于 Transformer 的说明书引导 3D 零件组装框架：通过对比学习将 3D 零件与说明书步骤图对齐来推断组装顺序，再以学到的顺序作为位置编码的软引导进行 6DoF 位姿预测，在 PartNet 上显著超越现有方法。

研究背景与动机¶

领域现状：3D 零件组装任务旨在将一组无序的 3D 零件预测其 6DoF 位姿并组装成完整物体。现有方法分为两类：(1) 基于几何特征的生成式方法（如 3DHPA、SPAFormer），利用零件形状关系进行组装，但可能产生不稳定结果；(2) 基于引导信息的方法（如 MEPNet 用于 LEGO），但通常假设零件按步骤逐个提供。

现有痛点： - 解空间巨大且稀疏：组合爆炸问题——N 个零件的排列数为 N!，加上每个零件的连续 6DoF 位姿参数，可行的稳定组装序列非常少 - 无引导的生成式方法：不使用用户可获取的额外信息（如说明书），在零件数增多时性能急剧下降 - LEGO 类方法的局限：假设零件按步骤提供、有标准化"stud"接口，不适用于家具等通用组装场景——家具说明书不直接告诉每步用哪个零件 - 误差累积：直接用自回归方式按预测顺序组装容易让前步错误传播到后续步骤

核心想法：人类组装家具时依赖说明书的步骤示意图——利用这些图像信息来降低搜索空间。关键挑战在于：(1) 如何将 2D 线稿示意图与 3D 零件对齐确定顺序；(2) 如何让顺序信息作为"软引导"而非"硬约束"来辅助组装。

核心idea：对比学习对齐 3D 零件与步骤图得出组装顺序 + 排列感知的位置编码引导 Transformer 预测位姿。

方法详解¶

整体框架¶

输入：N 个 3D 零件点云 \(\{\mathcal{P}_i\}_{i=1}^N\) + N 步说明书图像序列 \((\mathcal{I}_1, ..., \mathcal{I}_N)\)。

Pipeline 分三个阶段： 1. 特征提取：PointNet 编码 3D 零件 → \(\mathbf{f}^P \in \mathbb{R}^{N \times D}\)；DINOv2 编码相邻步骤差分图 → \(\mathbf{f}^I \in \mathbb{R}^{N \times K \times D}\) 2. 排列学习：计算相似度矩阵 → 匈牙利匹配得到排列矩阵 \(\mathbf{P}\) 3. 位姿预测：用排列顺序设定位置编码 → Transformer 解码器预测每个零件的旋转和平移

关键设计¶

差分图特征提取：
- 功能：从步骤说明图中提取"每步新增了什么零件"的信息
- 核心思路：对相邻两步的图像取差分 \(|\mathcal{I}_j - \mathcal{I}_{j+1}|\)，获得新增零件区域，将差分图 patchify 后送入 DINOv2 编码器，通过线性层映射到统一维度 \(D\)
- 设计动机：说明书的增量特性意味着步骤差异直接对应新增零件信息
对比学习驱动的排列学习：
- 功能：学习 3D 零件与说明书步骤之间的对应关系
- 核心思路：
  - 构建相似度矩阵 \(\mathbf{S}_{ij} = \text{sim}(\mathbf{f}_i^P, \mathbf{g}_j^I)\)，其中 \(\mathbf{g}^I\) 是对 patch 维度 max-pool 后的步骤特征
  - 用匈牙利算法在 \(\mathbf{C} = -\mathbf{S}\) 上求解最优二部图匹配得到排列矩阵 \(\mathbf{P}\)
  - 训练使用 InfoNCE 对比损失：\(\mathcal{L}_{\text{order}} = -\frac{1}{B}\sum_i \log\frac{\exp(\text{sim}(\mathbf{f}^P_{\sigma(i)}, \mathbf{g}^I_i)/\tau)}{\sum_j \exp(\text{sim}(\mathbf{f}^P_{\sigma(i)}, \mathbf{g}^I_j)/\tau)}\)
- 设计动机：对比学习天然适合跨模态对齐，匈牙利匹配保证一一对应的排列约束
排列感知位置编码引导的位姿预测：
- 功能：将学到的组装顺序作为软引导注入位姿预测过程
- 核心思路：
  - 用正弦位置编码 \(\Phi \in \mathbb{R}^{N \times D}\) 表示步骤顺序
  - 步骤图直接使用 \(\mathbf{p}^I = \Phi\)；零件的位置编码通过排列矩阵重排 \(\mathbf{p}^P = \mathbf{P}^T \Phi\)
  - 训练时用真值顺序，推理时用预测的 \(\hat{\mathbf{P}}\)
  - 位置编码加到特征上后送入 L 层 Transformer 解码器：自注意力（零件间交互）→ 交叉注意力（步骤图到零件的信息注入）
  - 位姿预测头输出每个零件的四元数旋转 \(\hat{q}_i\) 和三维平移 \(\hat{t}_i\)。使用 RoPE 替代标准正弦编码获得更好性能
- 设计动机：位置编码是"软引导"——通过注意力分数自然使每个零件更多关注其对应的步骤图，但不硬性约束，避免误差累积
几何等价组处理：
- 功能：处理几何上相同的零件（如四条桌腿）
- 核心思路：通过 AABB 尺寸识别等价组，组内使用匈牙利匹配（以 Chamfer 距离为代价）确定最优对应关系后再计算损失
- 设计动机：避免对称零件的任意标签导致训练信号混乱

损失函数 / 训练策略¶

排列学习：InfoNCE 对比损失 \(\mathcal{L}_{\text{order}}\)
位姿估计：四项加权和 \(\mathcal{L}_{\text{pose}} = \lambda_T \mathcal{L}_T + \lambda_C \mathcal{L}_C + \lambda_E \mathcal{L}_E + \lambda_S \mathcal{L}_S\)
- \(\mathcal{L}_T\)：平移的 \(\ell_2\) 距离
- \(\mathcal{L}_C\)：旋转的 Chamfer 距离（处理内在对称性）
- \(\mathcal{L}_E\)：旋转的 \(\ell_2\) 距离（正则化项，处理非完美对称零件）
- \(\mathcal{L}_S\)：整体组装形状的 Chamfer 距离
两阶段训练：先训练排列学习至收敛，再训练位姿估计（使用排列模型预测的顺序）

实验关键数据¶

主实验¶

PartNet 测试集（Level-3，3 个类别）：

在 Chair / Table / Storage 三个类别上与现有方法对比，评测指标包括 Shape Chamfer Distance (SCD↓)、Part Accuracy (PA↑)、Connectivity Accuracy (CA↑)、Success Rate (SR↑)：

Manual-PA 在 Chair 类别上取得最高成功率（SR），显著超越 SPAFormer、3DHPA 等无引导方法
在 Table 类别上 Shape Chamfer Distance 最低，组装精度最高
与 Image-PA（使用 RGB 图像引导）对比，Manual-PA 使用线稿图仍然取得更好效果，说明步骤顺序信息比图像外观更关键

IKEA-Manual 零样本泛化：

在真实 IKEA 家具数据集上进行零样本评测（仅在 PartNet 上训练）
在 Chair 和 Table 类别上均展示了良好的泛化能力
证明方法不依赖于特定数据集的分布特性

消融实验¶

组件	SCD↓	PA↑	SR↑
无说明书引导 (baseline)	高	低	低
+ 排列学习	中	中	中
+ 顺序引导位置编码	低	高	高
+ RoPE	最低	最高	最高

排列学习提供的组装顺序是性能提升的关键因素
将顺序作为软引导（位置编码）比硬约束（自回归）更鲁棒
准确的排列预测对下游位姿估计至关重要——排列准确率越高，组装成功率越高

个人思考¶

亮点：问题定义新颖——首次将组装说明书引入 3D 零件组装；"软引导"设计巧妙，通过位置编码将离散顺序信息自然融入连续位姿预测；对比学习跨模态对齐 + 匈牙利匹配的组合简洁有效
局限：假设每步只添加一个零件，且需要预先渲染差分图；真实说明书通常有文字和箭头等复杂元素，当前方法仅处理线稿
启发：利用人类已有的结构化知识（说明书/图纸）来约束组合优化问题是一个有前景的方向，可推广到机器人操作、建筑施工等领域

亮点与洞察¶

局限与展望¶

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评