跳转至

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

会议: CVPR 2026
arXiv: 2603.28760
代码: https://show3d-dataset.github.io/
领域: 视频理解
关键词: 手物交互数据集, 野外3D标注, 多相机采集, 自我中心视觉, 手部姿态估计

一句话总结

提出首个真正野外环境下具有精确3D标注的手-物体交互数据集SHOW3D,通过设计轻便可穿戴多相机背包系统和ego-exo融合标注pipeline,采集430万帧多视角数据,手部和物体均达到亚厘米级标注精度,跨数据集实验验证其训练模型的泛化优势。

研究背景与动机

  1. 领域现状:手-物体交互的3D理解对AR/VR和机器人至关重要,现有数据集(GigaHands、HOT3D、ARCTIC等)主要在室内工作室中用动捕系统或固定多相机阵列采集。
  2. 现有痛点:工作室环境限制了场景多样性和真实性——固定设备限制移动自由,标记点(marker)影响手和物体的视觉外观。另一极端如Ego-Exo4D环境多样但缺乏精确3D标注。
  3. 核心矛盾:环境真实性与3D标注精度之间存在根本性权衡。要么有精确标注但环境受限,要么环境多样但缺乏标注。
  4. 本文目标:打破这个权衡——在真正野外环境中获取精确的手和物体3D标注。
  5. 切入角度:设计约8公斤的背包式多相机系统,无需marker,用先进的2D检测+多视角三角化实现无标记的自动3D标注。
  6. 核心 idea:用可穿戴多相机系统+ego-exo自动标注pipeline在野外获取与工作室可比的3D手物标注精度。

方法详解

整体框架

系统由三部分构成:(1) 背包式多相机采集系统(8个外视角+2个头戴设备自我中心相机,共10个同步鱼眼相机@60Hz),(2) ego-exo 3D手部姿态标注pipeline,(3) CAD-based 3D物体位姿标注pipeline。输入为多视角同步灰度图像,输出为3D手部关键点/网格、6DoF物体位姿、分割掩码、接触区域和文本描述。

关键设计

  1. 可穿戴多相机采集系统:

    • 功能:在不限制用户活动自由度的情况下获取多角度同步影像
    • 核心思路:8个灰度鱼眼相机(1024×1280,152°×116° FOV)呈半球形安装在背包架上,额外2个来自Meta Quest 3的自我中心相机。5个MoCap相机跟踪头盔上的光学标记以关联头盔-背包之间的相对位姿。所有相机硬件同步,参考坐标系随用户一起移动
    • 设计动机:约8公斤重量不显著限制自然运动;鱼眼镜头最大化视觉覆盖;头盔不固定在背包上允许自然头部运动
  2. Ego-Exo手部3D标注:

    • 功能:从多视角图像自动获取亚厘米精度的3D手部关键点和网格
    • 核心思路:先用Sapiens模型在全图检测21个手部关键点,再用InterNet在裁剪的透视图上精细检测。对两组2D关键点进行RANSAC鲁棒三角化融合得到3D关键点。然后用个性化的线性混合蒙皮模型通过逆运动学拟合详细手部网格。最终通过贝叶斯置信度估计(关键点误差+IK残差)自动过滤低质量标注
    • 设计动机:Sapiens全图检测覆盖全但手部分辨率不足,InterNet裁剪检测精度高但需要先粗定位,两者互补;自我中心视角提供独特角度补充外视角盲区
  3. CAD-based物体6DoF标注:

    • 功能:自动获取物体在每帧的精确6DoF位姿
    • 核心思路:三阶段pipeline——CNOS做2D物体检测、FoundPose做粗位姿估计、GoTrack做6DoF位姿精化。三个阶段均扩展为多视角输入,用多视角gPnP替代标准PnP。当前帧置信度足够高时仅运行精化阶段(用上一帧结果初始化),提高效率和遮挡鲁棒性。所有阶段基于DINOv2特征,无需物体特定训练
    • 设计动机:多视角输入从根本上提高位姿精度和置信度可靠性;无需物体训练使pipeline可快速应用于任何有CAD模型的物体

损失函数 / 训练策略

标注pipeline本身不涉及端到端训练,而是2D检测 + 几何三角化/优化的组合。对于手部,置信度由贝叶斯公式估计(关键点检测/三角化误差 + IK残差);对于物体,使用GoTrack精化器的多视角置信度作为过滤阈值。

实验关键数据

主实验

3D手部姿态估计跨数据集泛化(MKPE mm↓):

训练集 测试集 MKPE(mm)
UmeTrack SHOW3D 22.2 (+55%)
HOT3D SHOW3D 19.6 (+37%)
UmeTrack+HOT3D SHOW3D 16.4 (+15%)
SHOW3D SHOW3D 15.5 (+8%)
All three SHOW3D 14.3
HOT3D HOT3D 14.0 (+14%)
All three HOT3D 12.3

消融实验

交互场估计跨数据集泛化(ADE mm↓):

训练集 测试集 ADE(mm) ACC(m/s²)
SHOW3D HOT3D 14.70 4.05
HOT3D HOT3D 11.29 3.21
HOT3D+SHOW3D HOT3D 8.80 2.16
HOT3D SHOW3D 22.57 5.61
SHOW3D SHOW3D 13.82 3.79

文本驱动6DoF物体轨迹预测(平均平移误差 mm↓):

预测帧数 无文本 有文本 提升
30帧 42.7 30.4 -29%
60帧 46.7 35.0 -25%

关键发现

  • 泛化不对称性:在SHOW3D上训练的模型测HOT3D仅14.70mm ADE,反过来HOT3D训练测SHOW3D高达22.57mm(+54%),证实野外数据覆盖的分布更广
  • 联合训练收益不对称:加SHOW3D训练使HOT3D测试提升22%(11.29→8.80),但HOT3D对SHOW3D仅提升2%(13.82→13.50),说明SHOW3D已基本涵盖工作室环境分布
  • 文本条件对mustard物体的轨迹预测改进最大(72%),对mug改进34%,表明语义上下文在消歧相似轨迹中的真实价值
  • UMAP可视化显示SHOW3D在特征空间中跨越GigaHands、HOT3D、ARCTIC三个工作室数据集的紧凑聚类之间

亮点与洞察

  • 工程设计与科学验证并重:不仅是一个采集系统,论文花大量篇幅量化验证标注精度——手部和物体都与MoCap金标准对比达到亚厘米级,这在野外数据集论文中极为少见
  • 打破权衡的实用方案:8公斤背包+Quest 3组合,让真正的户外采集变得实际可操作(花园、走廊、餐厅、户外座位区等),同时保持10个同步相机@60Hz的标注能力
  • 文本标注的创新价值:通过LLM从操作说明生成多样化语义描述,文本条件轨迹预测实验证实了这些标注在下游任务中的实际用途,而非仅仅增加数据集丰富度

局限与展望

  • 仅21个日常物体,相比GigaHands的417个物体种类有限
  • 仍需高端计算工作站(放在移动推车上跟随用户),部署成本较高
  • 灰度图像缺少颜色信息,对依赖外观的任务(如物体识别)可能不利
  • 个性化手部模型需要高分辨率手部扫描,限制了大规模被试招募
  • 未来可集成触觉传感和深度相机,扩展数据模态

相关工作与启发

  • vs GigaHands: 51个RGB相机、工作室设置、3.7M帧、417个物体。SHOW3D环境多样性远超GigaHands但物体数量少且缺少RGB
  • vs HOT3D: 同样用Meta Quest 3,但HOT3D用MoCap+marker做标注限制在工作室,SHOW3D用无标记pipeline实现野外采集
  • vs Ego-Exo4D: 野外采集、大规模,但仅有稀疏手部标注无物体标注。SHOW3D证明在野外可以做到密集3D标注

评分

  • 新颖性: ⭐⭐⭐⭐ 首个野外3D手物交互数据集,系统设计实用性强
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个下游任务验证+标注精度量化评估+跨数据集泛化分析
  • 写作质量: ⭐⭐⭐⭐⭐ 清晰展示动机、系统设计、标注pipeline和实验,数据集论文的典范
  • 价值: ⭐⭐⭐⭐⭐ 对自我中心视觉和手物交互领域有直接而重大的推动作用