跳转至

PD²GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

会议: ICLR 2026
arXiv: 2506.09663
代码: 有
领域: 3D 视觉 / 铰接物体建模
关键词: articulated objects, 3D Gaussian Splatting, part segmentation, continuous deformation, SAM

一句话总结

提出 PD²GS 框架,通过学习共享的 canonical 高斯场并将每个交互状态建模为其连续形变,实现铰接物体的部件级解耦、重建和连续控制,采用粗到细的运动轨迹聚类 + SAM 引导的边界细化,无需手动监督。

研究背景与动机

领域现状:铰接物体(门、抽屉、笔记本)的 3D 建模对机器人、AR/VR、数字孪生至关重要。近期 PARIS、GAPartNet 等用 NeRF/3DGS 做自监督建模,但多限于单关节两状态。

现有痛点:(1) 两状态方法只能做离散配对比较,无法建模连续运动;(2) 需要已知部件数或严格的几何约束;(3) 多部件解耦依赖 Marching Cubes 显式网格,误差累积严重。

核心矛盾:如何在有限的离散交互状态观测下,学习连续的部件级运动模型?

本文目标 从多视图多状态图像自监督学习:(1) 部件感知重建;(2) 部件级连续控制;(3) 精确运动学建模。

切入角度:关键洞察——每个交互状态可以建模为共享 canonical 高斯场的连续形变,部件内运动一致、部件间运动不同。

核心 idea:用 latent code 条件化的形变网络驱动 canonical 高斯场的连续变形,通过运动轨迹聚类 + SAM 边界细化实现自动部件解耦。

方法详解

整体框架

输入为铰接物体在 K 个交互状态下的多视图图像。(1) 构建 canonical 高斯场 + latent code 条件化的形变 MLP;(2) 基于运动轨迹的粗粒度部件聚类;(3) SAM 引导的边界细化;(4) 运动学分析和连续控制。

关键设计

  1. Deformable Gaussian Splatting:

    • 功能:将离散交互状态统一为共享 canonical 场的连续形变
    • 核心思路:每个状态 k 对应一个 latent code \(\alpha_k \in \mathbb{R}^D\),MLP \(f_{def}\) 预测每个高斯的位移 \((\Delta\mu_i, \Delta q_i, \Delta s_i) = f_{def}(\mu_i, q_i, s_i | \alpha_k)\),通过加法(位置)和四元数乘法(旋转)应用形变
    • 设计动机:latent code 参数化使得可以在训练完成后插值生成未见状态
  2. 粗粒度运动驱动的部件分割:

    • 功能:从运动轨迹自动发现部件
    • 核心思路:(a) 计算每个高斯在 K 个状态间的最大位移,阈值分离静态/动态;(b) 用 VLM(BLIP/Gemini)从图像对估计运动部件数目(众数投票);(c) 构建运动描述子(归一化方向+位移幅度),在单位球上做 K-means 聚类
    • 设计动机:同一刚体部件的高斯有相同运动方向,即使幅度不同(归一化后角距离相近)
  3. SAM 引导的边界细化:

    • 功能:精细化部件边界
    • 核心思路:为部件边界区域的高斯生成 3D→2D 投影提示点,调用 SAM 得到 2D mask,反投影回 3D 修正高斯的部件标签。对边界高斯做 splitting,将一个高斯分成多个更小的高斯并重新分配标签
    • 设计动机:运动聚类给出粗糙边界,视觉先验(SAM)提供像素级精确分割

损失函数

\(\mathcal{L}_{total} = \mathcal{L}_{photo} + \mathcal{L}_{D_{SIMM}}\),光度重建损失 + 密度相似性正则化。

实验关键数据

主实验(PartNet-Mobility)

方法 PSNR↑ SSIM↑ 部件 IoU↑ 关节误差↓
PARIS ~50%
CAGE ~55%
PD²GS 最高 最高 ~70% 最低

消融实验

配置 重建质量 分割精度 说明
Full PD²GS 最优 最优 完整模型
w/o SAM 细化 略低 下降 ~10% 粗聚类边界不精确
w/o VLM 计数 相当 下降 ~5% 手动指定 K 效果接近
2 状态 vs 4 状态 较低 较低 更多状态提供更好的运动约束

关键发现

  • 连续控制能力:通过插值 latent code 可以生成平滑的中间状态,而之前的方法只能在离散状态间跳跃
  • 多部件支持:成功处理了抽屉柜(多个独立运动的抽屉)等复杂多部件物体
  • RS-Art 真实数据:在自建的真实→仿真数据集上也表现良好,验证了 sim-to-real 泛化

亮点与洞察

  • latent code 驱动的连续形变很优雅:将离散状态的观测编码为连续运动空间,支持未见配置的生成
  • 运动即分割的自监督思路:不需要任何人工标注,从运动差异自动发现部件结构
  • 3D-to-2D SAM 提示的创新:自动从 3D 部件边界生成 2D 提示点,避免了人工标注的 SAM 提示

局限与展望

  • VLM 计数可能不准确,需要众数投票稳定性
  • 运动阈值 \(\tau_{mot}\) 需要调参
  • 仅处理刚体铰接运动,柔性形变(如布料)不支持
  • RS-Art 数据集规模较小

相关工作与启发

  • vs PARIS: 仅支持单关节两状态,PD²GS 支持多部件多状态连续控制
  • vs 动态 3DGS(4D-GS 等): 动态方法不区分部件运动语义,PD²GS 显式解耦
  • 对机器人的物体操作有直接应用价值——预测出部件和运动学参数后可以规划操作策略

评分

  • 新颖性: ⭐⭐⭐⭐⭐ canonical 场 + latent 形变 + 自动部件发现的组合很新
  • 实验充分度: ⭐⭐⭐⭐ PartNet-Mobility + RS-Art 真实数据,消融完整
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,公式规范
  • 价值: ⭐⭐⭐⭐⭐ 铰接物体连续建模的重要进展