TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size¶

会议: CVPR 2026
arXiv: 2603.07988
代码: 项目主页
领域: 其他
关键词: 多智能体协作, 基于物理的人体控制, 人-物交互, Transformer策略网络, 对抗运动先验

一句话总结¶

提出 TeamHOI 框架，通过基于 Transformer 的去中心化策略网络和掩码对抗运动先验（Masked AMP），使单一策略能够泛化到任意数量智能体的协作搬运任务，2-8 个仿人智能体协作搬桌子成功率达 97%+。

研究背景与动机¶

单智能体已成熟但多智能体协作缺失：基于物理的仿人控制在单智能体行为（行走、抓取、操控）上已取得显著进展，但现实中许多任务（如搬运大型重物）需要多智能体协调物理动作，现有框架难以处理协作场景。

固定团队规模限制：现有方法多采用固定大小输入的 MLP 策略网络，导致策略被限制在固定的团队规模上（如 SMPLOlympics 只支持固定小规模团队），无法灵活适应不同数量的协作者。

缺乏显式智能体间通信：CooHOI 等方法完全不建模智能体间的感知，仅依赖共享物体动力学作为隐式通信渠道，无法捕捉人类协作中持续感知队友并动态调整的本质。

多人协作运动数据稀缺：AMP 需要参考运动数据来保证动作真实性，但多人协作的动捕数据几乎不存在，直接使用单人参考运动会严重限制可学到的协作行为多样性。

协作模式单一化：现有方法（如 CooHOI）由于依赖完整单人参考运动，协作模式被限制为仅前后抬举，无法产生侧向步行搬运等多样化协作策略。

编队策略缺乏自主性：CooHOI 需要预先为每个智能体指定接触点（oracle 指派），智能体无法自主推断合适的站位以实现稳定搬运。

方法详解¶

整体框架¶

TeamHOI 把 AMP 框架扩展为可变规模的多智能体强化学习设置，方法围绕三个核心设计展开。每个智能体在自己的局部坐标系下，把观测拆成本体感受、物体状态、目标位置、队友线索等多组 token，送入 Transformer 策略网络：自注意力处理自身 token，交叉注意力关注数量可变的队友 token，从而让同一套网络支持任意团队规模。网络输出关节目标旋转，经 PD 控制驱动仿人动作，多个智能体之间通过共享的物体动力学相互耦合。

奖励侧由三路汇合：分阶段的任务奖励（走向 / 接触 / 抬举 / 搬运 / 放下）、解耦"运动真实性"与"物体交互"的掩码 AMP（Masked AMP）风格奖励、以及让智能体自主围绕物体均匀站位的编队奖励。整套策略用 PPO 优化，训练时并行实例化 2-8 人的不同团队规模、对各规模的优势值独立归一化以稳定训练，最终得到一个能通吃任意人数的统一策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    OBS["观测分解为 token<br/>本体感受 / 物体状态 / 目标 / 队友线索"]
    OBS --> POL["Transformer 策略网络与队友 Token<br/>自注意力(自身)+交叉注意力(可变队友)"]
    POL --> ACT["关节目标旋转 → PD 控制 → 仿人动作"]
    ACT --> ENV["环境推进<br/>多智能体经共享物体动力学耦合"]
    ENV --> RT["任务奖励<br/>走向/接触/抬举/搬运/放下"]
    ENV --> RM["掩码 AMP 风格奖励<br/>σ(α)·D_mask + (1−σ(α))·D_full"]
    ENV --> RF["编队奖励<br/>角度扩展 + 主轴覆盖"]
    RT --> SUM["总奖励"]
    RM --> SUM
    RF --> SUM
    SUM --> PPO["PPO 统一策略训练<br/>2-8 人并行、优势独立归一化"]
    PPO -.更新.-> POL

关键设计¶

1. Transformer 策略网络与队友 Token

观测组成（均在智能体局部坐标系下）：

本体感受 $\in \mathbb{R}^{223}$：关节状态和根节点运动学
物体中心 $\in \mathbb{R}^{3}$：桌子中心 3D 坐标
候选接触点 $\in \mathbb{R}^{64 \times 3}$：沿桌面周长均匀采样的 64 个点
最近手-物体点 $\in \mathbb{R}^{2 \times 3}$：距两只手最近的候选接触点
目标位置 $\in \mathbb{R}^{3}$：桌子的目标 x,y 坐标和高度/升降指示
队友线索 $\in \mathbb{R}^{(n-1) \times 9}$：每个队友的根位置(2D)、朝向(6D旋转)、相对角度(1D)

每个观测组件通过独立的三层 MLP tokenizer 编码为 64 维 token。Transformer 由 3 层交替的自注意力和交叉注意力组成，各 2 个注意力头，512 维前馈层。更新后的可学习嵌入 $e$ 经 MLP [1024, 512, 28] 输出目标关节旋转。

2. 掩码对抗运动先验（Masked AMP）

训练两个判别器网络： - $D_{\text{full}}$：评估完整身体参考运动 - $D_{\text{mask}}$：排除与物体交互的身体部位（手和前臂）

混合风格奖励： $$r_t^{\text{style}} = \sigma(\alpha_t) \, r_t^{\text{mask}} + (1 - \sigma(\alpha_t)) \, r_t^{\text{full}}$$

其中 $\sigma$ 为 sigmoid 函数，$\alpha_t$ 为连续交互指示器（如智能体-物体距离）。不与物体交互时使用完整判别器保证全身动作真实，交互时使用掩码判别器释放手部自由度让任务奖励引导。

3. 编队奖励（Formation Reward）

由两部分互补组成：

角度扩展奖励 $r_{\text{ang}}$：鼓励 $m$ 个智能体围绕桌子均匀分布，理想间距 $2\pi/m$： $$r_{\text{ang}} = \exp\!\left(-k_\theta \frac{1}{2}\left[(\Delta\phi_i^{\text{ccw}} - \frac{2\pi}{m})^2 + (\Delta\phi_i^{\text{cw}} - \frac{2\pi}{m})^2\right]\right)$$
主轴覆盖奖励 $r_{\text{cov}}$：测量智能体支撑区域对物体主轴的覆盖程度，通过凸包投影计算每轴覆盖比例 $g_i = \min(d_i^+ / \ell_i^+, d_i^- / \ell_i^-)$，最终 $r_{\text{cov}} = \frac{1}{2}(g_1 + g_2)$。

综合编队奖励：$r_{\text{form}} = 0.25 \, r_{\text{ang}} + 0.75 \, r_{\text{cov}}$

损失函数¶

总体奖励组合：$r_t = r_t^{\text{task}} + \lambda_{\text{AMP}} \, r_t^{\text{style}}$

任务奖励 $r_t^{\text{task}}$：包含走向物体、接触、抬举、搬运、放下五个阶段的分量，以及编队奖励
风格奖励 $r_t^{\text{style}}$：掩码 AMP 混合判别器输出
判别器损失：标准 GAN 损失，$D_{\text{full}}$ 和 $D_{\text{mask}}$ 分别训练，区分参考/策略产生的状态转移

策略通过 PPO 优化，不同团队规模的优势值独立归一化。

实验¶

主实验结果¶

在协作搬桌子任务上评估，桌子有方形（1.6m×1.6m）、矩形（2.0m×1.2m）和圆形（直径2.0m）三种几何形状，重量50-70kg。每次评估运行10,000个仿真回合。

方法	编队方式	2人SR(%)	4人SR(%)	8人SR(%)	4人协作率	8人协作率
CooHOI*-2	预定义	97.5	73.2	10.1	54.6%	1.0%
CooHOI*-4	预定义	95.5	94.5	61.5	92.1%	27.2%
CooHOI*-8	预定义	29.4	52.4	42.2	93.6%	81.6%
TeamHOI	自主学习	99.1	99.2	97.5	96.1%	90.1%

重载设置（5×桌重）：4人场景 TeamHOI 达 3.5% SR（小团队几乎无法抬起），8人场景 TeamHOI 达 81.1% SR，而所有 CooHOI* 基线均 < 15%。

消融实验¶

消融项	效果
去掉 Masked AMP	抬举阶段成功率显著下降，手-物体交互失败频繁
仅用角度扩展奖励（无主轴覆盖）	智能体不沿主轴分布，出现不自然的对角步态
完整方法	智能体沿主轴对齐，自然对称步态，稳定搬运

关键发现¶

单一策略通吃：TeamHOI 用一个策略在 2-8 人所有配置上均达到高成功率，而每个 CooHOI* 变体只在其训练的团队规模上表现良好
零样本泛化：模型可零样本泛化到 16 个智能体的配置
自主编队 vs 预定义编队：TeamHOI 的智能体需自主推断站位，任务更难，但仍大幅超越使用预设接触点的基线
Masked AMP 的关键作用：掩码策略使单人侧向行走参考动作可被重用为侧向搬运动作，极大扩展了可行协作行为的多样性

亮点¶

可扩展的去中心化架构：通过 Transformer 交叉注意力处理可变数量的队友 token，优雅地解决了固定输入大小的限制，单策略支持任意团队规模
Masked AMP 的精巧设计：仅掩码与物体交互的身体部位，非交互时保持全身运动真实性，用任务奖励引导被掩码区域，从有限单人数据中解锁多样化协作行为
编队奖励的通用性：角度扩展 + 主轴覆盖的组合对团队规模和物体形状均不敏感，且主轴覆盖奖励可推广到不规则几何和非均匀质量分布
无需 oracle 指派：智能体从随机初始位置出发，自主推断合理站位并形成稳定编队

局限性¶

任务单一：目前仅在搬桌子任务上验证，未扩展到其他协作 HOI 任务（如推、拉、抛接等）
简化的手部模型：使用无手指的球形手，未涉及精细抓取
仅限水平搬运：桌面高度固定略低于站立手位，回避了需要弯腰/举高等更复杂的交互
参考运动有限：仍依赖 AMASS 中少量行走和拾取动作，对更复杂的协作模式可能不够
无异构智能体：所有智能体共享相同策略和体型，未探索异构团队协作

评分¶

新颖性: ⭐⭐⭐⭐ — Masked AMP 和主轴覆盖奖励设计新颖，Transformer 队友 token 思路自然但有效
实验充分度: ⭐⭐⭐⭐ — 10k 回合评估、多种几何形状、2-8人配置、重载测试、消融全面，缺少更多任务类型验证
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，公式推导完整，图示直观，问题动机阐述扎实
价值: ⭐⭐⭐⭐ — 为可扩展多智能体物理协作提供了坚实基础，但需更多任务验证泛化性