AssistMimic: Physics-Grounded Humanoid Assistance via Multi-Agent RL¶

会议: CVPR 2026
arXiv: 2603.11346
代码: 项目页
领域: 其他
关键词: 多智能体强化学习, 物理仿真, 辅助行为, 运动模仿, 接触式交互

一句话总结¶

首个在物理仿真中实现接触式人-人辅助行为模仿学习的多智能体RL框架，通过运动先验初始化、动态参考重定向和接触促进奖励使MARL在高接触设置中可行。

本文目标：领域现状：单人运动跟踪（PHC、DeepMimic）已能模仿广泛的人类动作，但主要限于无接触社交或孤立运动。辅助场景（扶起跌倒者、护理卧床者）需要持续感知伙伴并适应其动态变化，涉及紧密接触和力交换——这比高-five等无接触社交交互困难得多。

先前方法用"运动学回放"策略——先独立生成被辅助者运动再训练辅助者反应。但在辅助场景中，被辅助者在物理上无法独立完成动作（如肌无力者无法自行站起），此范式根本不适用。解耦两个智能体的学习会打破物理一致性。

核心矛盾是：接触式辅助运动的RL训练极其不稳定——接触位置和力的微小误差就能使被辅助者失去平衡，加上动捕数据中严重的遮挡导致参考轨迹噪声大。因此需要一整套使MARL在物理紧耦合场景中可行的技术组件。

将辅助运动模仿形式化为非对称多智能体MDP：辅助者（Supporter）和被辅助者（Recipient）各有独立策略但共享物理环境。被辅助者的PD增益和最大关节扭矩被显式降低（下肢0.5×，上肢0.5×）以模拟身体障碍。两个策略用PPO联合优化。

单人运动先验初始化:
- 功能：为MARL提供可靠的初始探索起点
- 核心思路：用预训练PHC单人跟踪控制器初始化两个策略的共享参数。新增的辅助状态输入维度用零填充，数学上保证初始行为不被破坏：\(\mathbf{W}_{new} = [\mathbf{W}_{prior} | \mathbf{0}]\)
- 设计动机：无初始化→0%成功率或reward hacking。单人先验提供基本站立/行走能力，策略只需在此基础上学习接触协调
动态参考重定向:
- 功能：使辅助者手部目标跟随被辅助者实时姿态变化
- 核心思路：当两者距离足够近时，辅助者手部参考从固定参考轨迹切换为相对于被辅助者当前姿态的偏移——手始终锚定在伙伴身体的正确位置
- 设计动机：参考轨迹因遮挡噪声大，固定跟踪会导致手部位置偏移→失去接触→被辅助者摔倒
接触促进奖励:
- 功能：鼓励辅助者在近距离时建立并维持物理接触
- 核心思路：当手接近被辅助者上半身时，抑制运动学跟踪惩罚，转而激活基于距离和接触力的奖励。包含接触稀疏奖励（是否接触）和力饱和聚合函数（接触力质量），鼓励真正的物理支撑而非假接触
- 设计动机：纯运动学跟踪奖励在噪声参考下会惩罚正确的接触行为

总奖励 = 0.5×任务奖励 + 0.5×AMP对抗奖励。辅助者最终奖励 = 0.5×自身 + 0.5×被辅助者（鼓励利他行为）。先按动作片段训练专家策略，再用DAgger蒸馏为通用策略。

数据集	指标	AssistMimic	无初始化	无接触奖励
Inter-X	SR	83.3%	0%	77.1%
HHI-Assist	SR	73.2%	hacking	27.7%

首次实现物理仿真中接触式辅助行为的多智能体模仿学习，填补了从"无接触社交"到"力交换辅助"的重要空白。通过降低被辅助者物理参数来isolate辅助贡献的实验设计非常巧妙。