跳转至

ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

会议: CVPR 2026
arXiv: 2603.25791
代码: https://arthoi-reconstruction.github.io
领域: 3D 视觉 / 手物交互重建
关键词: Hand-Object Interaction, Articulated Object, 4D Reconstruction, Foundation Models, MLLM

一句话总结

ArtHOI 首次实现了从单目 RGB 视频重建手与铰接物体(如剪刀、眼镜、笔记本电脑)4D 交互的完整流水线,通过自适应采样精化(ASR)优化物体度量尺度和位姿、以及 MLLM 引导的手物对齐方法,在多个数据集上超越了需要预扫描物体几何的基线 RSRD。

研究背景与动机

领域现状:手物交互(HOI)重建在人体行为分析、机器人操作和增强现实中至关重要。早期方法依赖预定义物体模板或类别特定知识,泛化能力有限。

现有方法的两大局限: - HOI 方法(template-free)虽然泛化性提升,但几乎只适用于刚体物体 - 铰接物体 4D 重建方法通常需要预扫描物体(获取规范形状)或多视角视频,无法应对自然场景

核心挑战:从单目视频重建手-铰接物体交互是高度病态问题——视觉线索有限、遮挡频繁、物体有内部自由度。

切入角度:借鉴人类"利用积累知识和经验来感知复杂交互"的能力,利用多个基础模型的丰富先验(image-to-3D、位姿估计、深度估计、跟踪、MLLM 等)来解决这一病态问题。

核心矛盾:简单集成多个基础模型会失败,因为:(1) image-to-3D 生成的 mesh 是归一化坐标系的,缺乏度量尺度;(2) 独立重建的手和物体存在空间不对齐。

方法详解

整体框架

四阶段流水线: 1. 数据预处理:利用基础视觉模型提取掩码、深度、相机参数,视频修复去除手的遮挡 2. 规范物体 mesh 重建:HunYuan3D 生成归一化 3D mesh → ASR 恢复度量尺度和位姿 3. 部件运动重建:CoTracker 密集跟踪 → 优化每部件的逐帧 SE(3) 变换 4. MLLM 引导的手物对齐:WiLoR 重建手 mesh → MLLM 推理接触状态 → 联合优化

关键设计

  1. 自适应采样精化 ASR(Adaptive Sampling Refinement)

    • 问题:image-to-3D 模型生成归一化 mesh,直接用 FoundationPose 估计位姿会因 mesh 尺度与深度不一致而失败
    • 方法:先通过反投影深度估算粗略尺度;然后在自适应范围内迭代采样候选尺度,对每个尺度调用 FoundationPose 估计位姿,渲染轮廓并与物体掩码比较 IoU,选择最优
    • 自适应机制:若近期无改善则扩展采样范围(\(\delta \leftarrow 2\delta\)),否则保持不变
    • 设计动机:通过搜索尺度空间并以渲染反馈为验证标准,鲁棒地协调归一化 mesh、噪声深度和位姿预测
  2. 部件运动重建(Part-wise Motion)

    • 用 PartField 对 mesh 进行部件分割
    • CoTrackerV3 跟踪各部件的 2D 轨迹,结合深度提升到 3D
    • 优化目标:跟踪一致性损失 + 运动平滑正则 \(\mathcal{L}_{motion} = \mathcal{L}_{track} + \lambda_{smooth} \mathcal{L}_{smooth}\)
    • 其中 \(\mathcal{L}_{smooth}\) 使用离散二阶差分约束时间平滑性
  3. MLLM 引导的手物对齐

    • 接触推理:设计结构化 prompt 策略查询 Qwen-VL-Max,推理每帧的接触状态(是否接触、哪些手指接触)
    • 缓解 MLLM 错误:先询问相机视角(自我中心 vs 外中心)避免左右手混淆;拼接相邻帧的 RGB + 彩色深度图提供丰富上下文
    • 两阶段优化
      • 阶段一:仅优化物体尺度 \(s_c^o\)(利用手的度量尺度先验对齐)
      • 阶段二:固定物体尺度,联合优化手姿态 \(\theta_i^h\) 和全局变换 \(\mathbf{T}_i^h\)
    • 接触损失\(\mathcal{L}_{contact} = \sum_{i \in \mathbb{C}} \sum_{\mathbf{v}_t \in \mathbb{T}_i} \min_{\mathbf{v}_o \in \mathcal{G}_i^o} \|\mathbf{v}_o - \mathbf{v}_t\|_2\)

损失函数 / 训练策略

  • 纯优化框架,无需训练神经网络
  • 单视频处理约 1 小时(100 帧,960×540),A6000 GPU
  • ASR:20 次迭代,初始范围 \(\delta=0.03\)
  • 运动优化:每帧 500 次迭代,Adam,学习率从 0.02 线性衰减到 0.002
  • HOI 对齐:800 步优化

实验关键数据

主实验(ArtHOI-RGBD 数据集)

物体 方法 CD(mm)↓ MSSD(mm)↓ F10↑ F5↑
Headphone RSRD (预扫描) 14.71 41.06 41.67 20.91
Headphone ArtHOI 8.12 30.43 69.68 42.19
CD Drive RSRD 282.33 348.59 10.90 6.92
CD Drive ArtHOI 3.33 9.71 96.01 78.75
Stapler RSRD 288.70 363.92 0.80 0.34
Stapler ArtHOI 4.49 20.15 91.63 67.94

消融实验(根据论文中 ARCTIC 数据集结果推断的关键模块贡献)

配置 说明
无 ASR FoundationPose 直接估计尺度和位姿,因 mesh/深度不一致而不稳定
无 MLLM 对齐 手物构成出现穿透/脱离
完整 ArtHOI 物理合理的 4D HOI 重建

关键发现

  • ArtHOI 无需预扫描物体,却在多数物体上超越了需要预扫描的 RSRD(CD Drive:CD 降低 80×)
  • 在 RSRD 数据集上也有竞争力,某些物体(Scissor, Sunglasses)明显领先
  • MLLM 接触推理的准确率足以指导优化,但仍存在左右手混淆等错误

亮点与洞察

  • "调和多个不完美先验"的范式:每个基础模型的预测可能有误,但通过 ASR 和优化框架可以协调它们,非常具有启发性
  • MLLM 作为物理先验提供者:用语言模型推理接触状态来约束物理优化,是 MLLM 在 3D 重建中的创新应用
  • 两个新数据集的贡献:ArtHOI-RGBD 和 ArtHOI-Wild 提供了铰接物体 HOI 的评测基准

局限与展望

  • 处理单个视频约 1 小时,效率需大幅提升
  • 依赖多个基础模型的级联,每个环节的错误会传播
  • PartField 对部件分割的准确性直接影响运动重建质量
  • MLLM 的接触推理仍有误差(尤其在遮挡严重时),可引入学习式方法替代

相关工作与启发

  • RSRD 是直接竞品,但需要预扫描;ArtHOI 通过基础模型先验免去了这一需求
  • 与 EasyHOI(逐帧 HOI 重建)相比,ArtHOI 利用时间一致性大幅提升
  • "多基础模型协同"的范式可推广到其他复杂场景理解任务

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次实现单目铰接物体 HOI 4D 重建,方法论贡献显著
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集评估,但消融较少,部分模块贡献难以定量分离
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,但四阶段流水线细节较多
  • 价值: ⭐⭐⭐⭐⭐ 开创性问题定义,对机器人、AR 应用有直接价值