HandX: Scaling Bimanual Motion and Interaction Generation¶

会议: CVPR 2026
arXiv: 2603.28766
代码: https://handx-project.github.io
领域: 人体理解 / 动作生成
关键词: 双手运动生成, 灵巧手部交互, 运动捕捉数据集, 文本到运动, Scaling Law

一句话总结¶

构建了 HandX——一个统一的双手运动生成基础设施（包含 54.2 小时运动数据 + 48.5 万条细粒度文本标注），提出解耦式自动标注策略（运动学特征提取 + LLM 推理生成描述），并基准测试了扩散和自回归两种生成范式，展示了明确的数据和模型 scaling 趋势。

研究背景与动机¶

领域现状：人体运动生成在身体层面取得了显著进展（如 MDM、MotionDiffuse 等），但几乎所有方法都将手部视为刚体末端执行器，缺乏精细的手指关节表示。手部相关的数据集和度量标准同样匮乏——现有数据要么缺少手部细节（HumanML3D、InterAct），要么局限在物体操作场景（ARCTIC、H2O），且标注粒度粗糙。

现有痛点：1) 缺少包含精细手指动力学和双手协调的高保真运动数据；2) 不同数据源的骨架定义、帧率和标注协议不统一，难以合并使用；3) 大规模人工标注成本过高；4) 现有评估指标无法衡量手部运动保真度和双手协调质量。

核心矛盾：要生成逼真的双手运动需要大量高质量数据和精细标注，但高质量数据采集昂贵，人工标注无法扩展，且缺少统一的评估体系。

本文目标 建立一个涵盖数据、标注和评估的统一基础设施，支持高质量双手运动生成的研究。

切入角度：采用"整合 + 自采 + 自动标注"三步走策略解决数据问题，同时基准测试两种生成范式来研究 scaling 行为。

核心 idea：通过整合已有数据集、自采新动捕数据、解耦式 LLM 自动标注三管齐下构建大规模双手运动基础设施，并验证明确的 scaling 趋势。

方法详解¶

整体框架¶

HandX 包含三个层面的贡献：1) 数据层——整合 5 个已有数据集（GigaHands、HOT3D、ARCTIC、H2O、HoloAssist）并自采新动捕数据，统一为共享骨架表示，经质量过滤后获得 54.2 小时运动数据；2) 标注层——提出两阶段自动标注策略，先提取结构化运动学特征（接触事件、手指弯曲度等），再用 LLM 推理生成多粒度文本描述（48.5 万条）；3) 生成层——基准测试扩散模型和自回归模型两种范式，支持多种条件控制模式。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph D1["统一数据整合与质量过滤"]
        direction TB
        A["5 个外部数据集<br/>GigaHands / HOT3D / ARCTIC / H2O / HoloAssist"]
        B["自采动捕<br/>36 相机 OptiTrack + 25 反射标记点"]
        A --> C["重投影到共享骨架与坐标系"]
        B --> C
        C --> E["强度感知过滤<br/>按关节角速度去除静止段"]
    end
    E --> F["54.2 小时运动数据"]
    subgraph D2["解耦式自动标注"]
        direction TB
        G["运动学分析<br/>弯曲度 / 接触 / 分离事件 → 结构化 JSON"] --> H["LLM 推理生成<br/>五粒度 × 左手 / 右手 / 双手关系"]
    end
    F --> G
    H --> I["48.5 万条文本标注"]
    subgraph D3["双范式生成基准"]
        direction TB
        J["扩散模型<br/>x-prediction + 三路 cross-attention"]
        K["自回归模型<br/>FSQ token + next-token 预测"]
    end
    F --> D3
    I --> D3
    J --> L["双手运动生成 + 多种推理时条件控制"]
    K --> L

关键设计¶

1. 统一数据整合与质量过滤：把五个异构数据集拼成一致可训练的整体

不同数据源的骨架定义、帧率、坐标系各不相同，直接拼起来训练只会让模型学到噪声，这是合并使用最现实的障碍。HandX 先把所有序列重投影到同一套共享骨架表示和坐标系上，再用一个强度感知过滤器按关节角速度筛选——数据集里占主导的往往是静止或近静止的片段，这些对学习交互动作几乎没有价值，过滤掉后只留下有意义的运动段落。除了整合外部数据，作者还自采了一批专门针对双手交互的数据：用 36 相机 OptiTrack 光学动捕系统，每个演员佩戴 25 个反射标记点来捕捉精细的手指关节运动，再通过估计关节中心加解剖约束优化来重建手部骨架。这批自采数据补的正是现有数据集最缺的部分——双手协调、手指间接触这类高难度场景，最终整套数据经质量过滤后得到 54.2 小时。

2. 解耦式自动标注：把"看懂运动"和"写成语言"拆成两步

大规模人工标注成本太高、无法扩展，但直接让 LLM 标注又行不通——LLM 擅长语言推理，却读不懂高维连续的运动信号。HandX 的做法是把标注拆成两个阶段，让 LLM 只干它擅长的那一半。第一阶段不碰语言，纯做运动学分析：提取手指弯曲度、手指-手掌距离、双手空间关系等结构化描述子，再沿时间轴分析它们的演化，抽出接触、分离、过度伸展等离散事件，整理成结构化 JSON。第二阶段才把这份 JSON 喂给 LLM，用提示引导它生成五个粒度级别的描述（从简要摘要到中等细节再到全面描述），并要求每条都覆盖左手、右手、双手关系三个维度且保持时间顺序。这样运动对齐性由第一阶段的结构化事件保证，自然语言的流畅度由 LLM 负责，多粒度设计又顺带增加了标注多样性，最终产出 48.5 万条文本。

3. 双范式生成基准：在同一份数据上同时跑通扩散和自回归两条路线

为了搞清楚哪类生成范式更适合双手运动，作者把两种主流路线都实现了一遍并放在同一基准下对比。扩散模型用坐标加旋转标量的联合表示，预测干净的运动序列；关键的工程细节是它没有把左手、右手、双手交互三段文本简单拼成一句话喂进去，而是用三路 cross-attention 分别处理——因为简单拼接时模型会把右手该做的动作错误地分给左手，分路注意力正好切断了这种串味。自回归模型则走离散化路线，用 FSQ（有限标量量化）把运动压成 token，再以文本作前缀做 next-token 预测；选 FSQ 而非 VQ-VAE 是看中它更高的 codebook 利用率和更稳的缩放行为。扩散这一支还额外支持多种推理时条件控制，包括动作补间、关键帧生成、手腕轨迹跟随、单手反应生成和长程生成。

损失函数 / 训练策略¶

扩散模型训练目标为直接预测干净信号（x-prediction），用标准去噪 MSE 损失。自回归模型的 tokenizer 训练使用重建损失 \(\|\mathbf{x} - \mathcal{D}(\hat{\mathbf{y}})\|_2^2\)，自回归部分使用标准交叉熵损失。提出接触精确率/召回率/F1 等手部交互专用指标，接触阈值设为 2cm。

实验关键数据¶

主实验 (扩散模型 Scaling)¶

数据比例	解码器层数	R-Prec Top1↑	FID↓	CF1↑
5%	4	0.142	2.574	0.523
5%	12	0.343	1.837	0.618
20%	12	0.357	1.140	0.606
100%	12	0.427	1.349	0.641
100%	16	0.382	1.675	0.624
Ground Truth	-	0.854	0.000	0.984

消融实验 (自回归模型 Scaling)¶

模型大小(M)	Codebook	R-Prec Top1↑	FID↓
4.63	512	0.366	8.377
26.33	1024	0.322	2.750
38.95	2048	0.305	3.245
215.31	4096	0.281	1.721

关键发现¶

扩散模型展现明确的 scaling 趋势：从 5% 到 100% 数据 + 从 4 层到 12 层解码器，R-Precision Top1 从 0.142 提升到 0.427（3x），接触 F1 从 0.523 提升到 0.641
16 层解码器反而不如 12 层，表明存在过拟合/优化困难
自回归模型中 codebook 大小和模型容量需要匹配缩放：单独扩大 codebook 而不增加模型容量会导致性能下降
FID 在最大模型+最大数据配置下取得最优（扩散 1.140，自回归 1.721），但与 Ground Truth 差距仍然很大

亮点与洞察¶

解耦式标注策略是本文最有价值的贡献——将运动特征提取和语言生成分离，让 LLM 只负责它擅长的语言推理部分，这个思路可以迁移到任何需要大规模标注的动作理解任务
三路 cross-attention 解决左右手混淆的设计简单有效，是双手运动生成的重要工程细节
首次系统性地展示了双手运动生成中的 scaling 行为，和 NLP/CV 领域的 scaling law 趋势一致
将生成的灵巧运动迁移到真实人形机器人上，展示了实际应用潜力

局限与展望¶

R-Precision Top1 最高仅 0.427（GT 为 0.854），生成质量与真实运动仍有很大差距
自采数据量相对有限，整合的外部数据在质量和一致性上可能存在问题
运动表示使用 3D 坐标而非旋转参数，可能限制了物理真实性
接触检测使用简单的距离阈值（2cm），未建模接触力学
评估指标虽然引入了接触 F1，但仍缺少对双手协同时序的评估

评分¶

新颖性: ⭐⭐⭐⭐ 统一基础设施 + 解耦标注策略设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 双范式对比、多尺度 scaling 分析、多种条件控制、机器人迁移
写作质量: ⭐⭐⭐⭐ 结构清晰，数据统计详尽
价值: ⭐⭐⭐⭐⭐ 填补双手运动生成基础设施空白，对社区有重要推动作用