PD²GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting¶
会议: ICLR 2026
arXiv: 2506.09663
代码: 有
领域: 3D 视觉 / 铰接物体建模
关键词: articulated objects, 3D Gaussian Splatting, part segmentation, continuous deformation, SAM
一句话总结¶
提出 PD²GS 框架,通过学习共享的 canonical 高斯场并将每个交互状态建模为其连续形变,实现铰接物体的部件级解耦、重建和连续控制,采用粗到细的运动轨迹聚类 + SAM 引导的边界细化,无需手动监督。
研究背景与动机¶
领域现状:铰接物体(门、抽屉、笔记本)的 3D 建模对机器人、AR/VR、数字孪生至关重要。近期 PARIS、GAPartNet 等用 NeRF/3DGS 做自监督建模,但多限于单关节两状态。
现有痛点:(1) 两状态方法只能做离散配对比较,无法建模连续运动;(2) 需要已知部件数或严格的几何约束;(3) 多部件解耦依赖 Marching Cubes 显式网格,误差累积严重。
核心矛盾:如何在有限的离散交互状态观测下,学习连续的部件级运动模型?
本文目标 从多视图多状态图像自监督学习:(1) 部件感知重建;(2) 部件级连续控制;(3) 精确运动学建模。
切入角度:关键洞察——每个交互状态可以建模为共享 canonical 高斯场的连续形变,部件内运动一致、部件间运动不同。
核心 idea:用 latent code 条件化的形变网络驱动 canonical 高斯场的连续变形,通过运动轨迹聚类 + SAM 边界细化实现自动部件解耦。
方法详解¶
整体框架¶
输入为铰接物体在 K 个交互状态下的多视图图像。(1) 构建 canonical 高斯场 + latent code 条件化的形变 MLP;(2) 基于运动轨迹的粗粒度部件聚类;(3) SAM 引导的边界细化;(4) 运动学分析和连续控制。
关键设计¶
-
Deformable Gaussian Splatting:
- 功能:将离散交互状态统一为共享 canonical 场的连续形变
- 核心思路:每个状态 k 对应一个 latent code \(\alpha_k \in \mathbb{R}^D\),MLP \(f_{def}\) 预测每个高斯的位移 \((\Delta\mu_i, \Delta q_i, \Delta s_i) = f_{def}(\mu_i, q_i, s_i | \alpha_k)\),通过加法(位置)和四元数乘法(旋转)应用形变
- 设计动机:latent code 参数化使得可以在训练完成后插值生成未见状态
-
粗粒度运动驱动的部件分割:
- 功能:从运动轨迹自动发现部件
- 核心思路:(a) 计算每个高斯在 K 个状态间的最大位移,阈值分离静态/动态;(b) 用 VLM(BLIP/Gemini)从图像对估计运动部件数目(众数投票);(c) 构建运动描述子(归一化方向+位移幅度),在单位球上做 K-means 聚类
- 设计动机:同一刚体部件的高斯有相同运动方向,即使幅度不同(归一化后角距离相近)
-
SAM 引导的边界细化:
- 功能:精细化部件边界
- 核心思路:为部件边界区域的高斯生成 3D→2D 投影提示点,调用 SAM 得到 2D mask,反投影回 3D 修正高斯的部件标签。对边界高斯做 splitting,将一个高斯分成多个更小的高斯并重新分配标签
- 设计动机:运动聚类给出粗糙边界,视觉先验(SAM)提供像素级精确分割
损失函数¶
\(\mathcal{L}_{total} = \mathcal{L}_{photo} + \mathcal{L}_{D_{SIMM}}\),光度重建损失 + 密度相似性正则化。
实验关键数据¶
主实验(PartNet-Mobility)¶
| 方法 | PSNR↑ | SSIM↑ | 部件 IoU↑ | 关节误差↓ |
|---|---|---|---|---|
| PARIS | 低 | 低 | ~50% | 高 |
| CAGE | 中 | 中 | ~55% | 中 |
| PD²GS | 最高 | 最高 | ~70% | 最低 |
消融实验¶
| 配置 | 重建质量 | 分割精度 | 说明 |
|---|---|---|---|
| Full PD²GS | 最优 | 最优 | 完整模型 |
| w/o SAM 细化 | 略低 | 下降 ~10% | 粗聚类边界不精确 |
| w/o VLM 计数 | 相当 | 下降 ~5% | 手动指定 K 效果接近 |
| 2 状态 vs 4 状态 | 较低 | 较低 | 更多状态提供更好的运动约束 |
关键发现¶
- 连续控制能力:通过插值 latent code 可以生成平滑的中间状态,而之前的方法只能在离散状态间跳跃
- 多部件支持:成功处理了抽屉柜(多个独立运动的抽屉)等复杂多部件物体
- RS-Art 真实数据:在自建的真实→仿真数据集上也表现良好,验证了 sim-to-real 泛化
亮点与洞察¶
- latent code 驱动的连续形变很优雅:将离散状态的观测编码为连续运动空间,支持未见配置的生成
- 运动即分割的自监督思路:不需要任何人工标注,从运动差异自动发现部件结构
- 3D-to-2D SAM 提示的创新:自动从 3D 部件边界生成 2D 提示点,避免了人工标注的 SAM 提示
局限与展望¶
- VLM 计数可能不准确,需要众数投票稳定性
- 运动阈值 \(\tau_{mot}\) 需要调参
- 仅处理刚体铰接运动,柔性形变(如布料)不支持
- RS-Art 数据集规模较小
相关工作与启发¶
- vs PARIS: 仅支持单关节两状态,PD²GS 支持多部件多状态连续控制
- vs 动态 3DGS(4D-GS 等): 动态方法不区分部件运动语义,PD²GS 显式解耦
- 对机器人的物体操作有直接应用价值——预测出部件和运动学参数后可以规划操作策略
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ canonical 场 + latent 形变 + 自动部件发现的组合很新
- 实验充分度: ⭐⭐⭐⭐ PartNet-Mobility + RS-Art 真实数据,消融完整
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,公式规范
- 价值: ⭐⭐⭐⭐⭐ 铰接物体连续建模的重要进展