TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size¶

会议: CVPR 2026
arXiv: 2603.07988
代码: 项目主页
领域: 其他
关键词: 多智能体协作, 基于物理的人体控制, 人-物交互, Transformer策略网络, 对抗运动先验

一句话总结¶

提出 TeamHOI 框架，通过基于 Transformer 的去中心化策略网络和掩码对抗运动先验（Masked AMP），使单一策略能够泛化到任意数量智能体的协作搬运任务，2-8 个仿人智能体协作搬桌子成功率达 97%+。

研究背景与动机¶

单智能体已成熟但多智能体协作缺失：基于物理的仿人控制在单智能体行为（行走、抓取、操控）上已取得显著进展，但现实中许多任务（如搬运大型重物）需要多智能体协调物理动作，现有框架难以处理协作场景。

固定团队规模限制：现有方法多采用固定大小输入的 MLP 策略网络，导致策略被限制在固定的团队规模上（如 SMPLOlympics 只支持固定小规模团队），无法灵活适应不同数量的协作者。

缺乏显式智能体间通信：CooHOI 等方法完全不建模智能体间的感知，仅依赖共享物体动力学作为隐式通信渠道，无法捕捉人类协作中持续感知队友并动态调整的本质。

多人协作运动数据稀缺：AMP 需要参考运动数据来保证动作真实性，但多人协作的动捕数据几乎不存在，直接使用单人参考运动会严重限制可学到的协作行为多样性。

协作模式单一化：现有方法（如 CooHOI）由于依赖完整单人参考运动，协作模式被限制为仅前后抬举，无法产生侧向步行搬运等多样化协作策略。

编队策略缺乏自主性：CooHOI 需要预先为每个智能体指定接触点（oracle 指派），智能体无法自主推断合适的站位以实现稳定搬运。

方法详解¶

整体框架¶

TeamHOI 将 AMP 框架扩展为灵活的多智能体强化学习设置。核心设计包含三部分：

Transformer 策略网络：每个智能体的观测被分解为多个 token（本体感受、物体状态、目标位置、队友线索），通过交替的自注意力和交叉注意力层处理。自注意力作用于观测智能体自身的 token，交叉注意力使其关注可变数量的队友 token，从而支持任意团队规模。
统一策略训练：并行实例化不同团队规模（2-8人）的环境，让单一策略在多样化配置中训练，每个团队规模的 PPO 优势值独立归一化以保证训练稳定。
掩码 AMP 策略：解耦运动真实性和物体交互，使有限的单人参考运动能产生多样化协作行为。

关键设计¶

1. Transformer 策略网络与队友 Token

观测组成（均在智能体局部坐标系下）：

本体感受 $\in \mathbb{R}^{223}$：关节状态和根节点运动学
物体中心 $\in \mathbb{R}^{3}$：桌子中心 3D 坐标
候选接触点 $\in \mathbb{R}^{64 \times 3}$：沿桌面周长均匀采样的 64 个点
最近手-物体点 $\in \mathbb{R}^{2 \times 3}$：距两只手最近的候选接触点
目标位置 $\in \mathbb{R}^{3}$：桌子的目标 x,y 坐标和高度/升降指示
队友线索 $\in \mathbb{R}^{(n-1) \times 9}$：每个队友的根位置(2D)、朝向(6D旋转)、相对角度(1D)

每个观测组件通过独立的三层 MLP tokenizer 编码为 64 维 token。Transformer 由 3 层交替的自注意力和交叉注意力组成，各 2 个注意力头，512 维前馈层。更新后的可学习嵌入 $e$ 经 MLP [1024, 512, 28] 输出目标关节旋转。

2. 掩码对抗运动先验（Masked AMP）

训练两个判别器网络： - $D_{\text{full}}$：评估完整身体参考运动 - $D_{\text{mask}}$：排除与物体交互的身体部位（手和前臂）

混合风格奖励： $$r_t^{\text{style}} = \sigma(\alpha_t) \, r_t^{\text{mask}} + (1 - \sigma(\alpha_t)) \, r_t^{\text{full}}$$

其中 $\sigma$ 为 sigmoid 函数，$\alpha_t$ 为连续交互指示器（如智能体-物体距离）。不与物体交互时使用完整判别器保证全身动作真实，交互时使用掩码判别器释放手部自由度让任务奖励引导。

3. 编队奖励（Formation Reward）

由两部分互补组成：

角度扩展奖励 $r_{\text{ang}}$：鼓励 $m$ 个智能体围绕桌子均匀分布，理想间距 $2\pi/m$： $$r_{\text{ang}} = \exp\!\left(-k_\theta \frac{1}{2}\left[(\Delta\phi_i^{\text{ccw}} - \frac{2\pi}{m})^2 + (\Delta\phi_i^{\text{cw}} - \frac{2\pi}{m})^2\right]\right)$$
主轴覆盖奖励 $r_{\text{cov}}$：测量智能体支撑区域对物体主轴的覆盖程度，通过凸包投影计算每轴覆盖比例 $g_i = \min(d_i^+ / \ell_i^+, d_i^- / \ell_i^-)$，最终 $r_{\text{cov}} = \frac{1}{2}(g_1 + g_2)$。

综合编队奖励：$r_{\text{form}} = 0.25 \, r_{\text{ang}} + 0.75 \, r_{\text{cov}}$

损失函数¶

总体奖励组合：$r_t = r_t^{\text{task}} + \lambda_{\text{AMP}} \, r_t^{\text{style}}$

任务奖励 $r_t^{\text{task}}$：包含走向物体、接触、抬举、搬运、放下五个阶段的分量，以及编队奖励
风格奖励 $r_t^{\text{style}}$：掩码 AMP 混合判别器输出
判别器损失：标准 GAN 损失，$D_{\text{full}}$ 和 $D_{\text{mask}}$ 分别训练，区分参考/策略产生的状态转移

策略通过 PPO 优化，不同团队规模的优势值独立归一化。

实验¶

主实验结果¶

在协作搬桌子任务上评估，桌子有方形（1.6m×1.6m）、矩形（2.0m×1.2m）和圆形（直径2.0m）三种几何形状，重量50-70kg。每次评估运行10,000个仿真回合。

方法	编队方式	2人SR(%)	4人SR(%)	8人SR(%)	4人协作率	8人协作率
CooHOI*-2	预定义	97.5	73.2	10.1	54.6%	1.0%
CooHOI*-4	预定义	95.5	94.5	61.5	92.1%	27.2%
CooHOI*-8	预定义	29.4	52.4	42.2	93.6%	81.6%
TeamHOI	自主学习	99.1	99.2	97.5	96.1%	90.1%

重载设置（5×桌重）：4人场景 TeamHOI 达 3.5% SR（小团队几乎无法抬起），8人场景 TeamHOI 达 81.1% SR，而所有 CooHOI* 基线均 < 15%。

消融实验¶

消融项	效果
去掉 Masked AMP	抬举阶段成功率显著下降，手-物体交互失败频繁
仅用角度扩展奖励（无主轴覆盖）	智能体不沿主轴分布，出现不自然的对角步态
完整方法	智能体沿主轴对齐，自然对称步态，稳定搬运

关键发现¶

单一策略通吃：TeamHOI 用一个策略在 2-8 人所有配置上均达到高成功率，而每个 CooHOI* 变体只在其训练的团队规模上表现良好
零样本泛化：模型可零样本泛化到 16 个智能体的配置
自主编队 vs 预定义编队：TeamHOI 的智能体需自主推断站位，任务更难，但仍大幅超越使用预设接触点的基线
Masked AMP 的关键作用：掩码策略使单人侧向行走参考动作可被重用为侧向搬运动作，极大扩展了可行协作行为的多样性

亮点¶

可扩展的去中心化架构：通过 Transformer 交叉注意力处理可变数量的队友 token，优雅地解决了固定输入大小的限制，单策略支持任意团队规模
Masked AMP 的精巧设计：仅掩码与物体交互的身体部位，非交互时保持全身运动真实性，用任务奖励引导被掩码区域，从有限单人数据中解锁多样化协作行为
编队奖励的通用性：角度扩展 + 主轴覆盖的组合对团队规模和物体形状均不敏感，且主轴覆盖奖励可推广到不规则几何和非均匀质量分布
无需 oracle 指派：智能体从随机初始位置出发，自主推断合理站位并形成稳定编队

局限性¶

任务单一：目前仅在搬桌子任务上验证，未扩展到其他协作 HOI 任务（如推、拉、抛接等）
简化的手部模型：使用无手指的球形手，未涉及精细抓取
仅限水平搬运：桌面高度固定略低于站立手位，回避了需要弯腰/举高等更复杂的交互
参考运动有限：仍依赖 AMASS 中少量行走和拾取动作，对更复杂的协作模式可能不够
无异构智能体：所有智能体共享相同策略和体型，未探索异构团队协作

评分¶

新颖性: ⭐⭐⭐⭐ — Masked AMP 和主轴覆盖奖励设计新颖，Transformer 队友 token 思路自然但有效
实验充分度: ⭐⭐⭐⭐ — 10k 回合评估、多种几何形状、2-8人配置、重载测试、消融全面，缺少更多任务类型验证
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，公式推导完整，图示直观，问题动机阐述扎实
价值: ⭐⭐⭐⭐ — 为可扩展多智能体物理协作提供了坚实基础，但需更多任务验证泛化性