InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://binlee26.github.io/InterAgent-Page （未明确开源代码）
领域: 人体理解 / 物理仿真 / 扩散模型
关键词: 多智能体交互、物理仿真人形控制、文本驱动动作生成、交互图、稀疏注意力

一句话总结¶

InterAgent 是第一个文本驱动、基于物理仿真的双人形智能体控制框架，用一个多流的自回归扩散 Transformer（Inter-DiT）把本体感知、外部感知、动作三路解耦建模，并用"交互图 + 稀疏边注意力"刻画关节到关节的细粒度交互关系，从而仅凭一句文本就能生成物理上合理、语义上忠实的双人互动行为。

研究背景与动机¶

领域现状：人形智能体动作生成有两条主线。一是运动学方法（kinematics-based），用扩散/自回归生成模型直接合成动作序列（如 InterGen、InterMask），语义对齐好但不进物理引擎；二是物理仿真方法（physics-based），用强化学习训练跟踪策略（PHC、PULSE）或端到端扩散策略（PDP、UniPhys、Diffuse-CLoC），动作受物理约束。

现有痛点：运动学方法忽略物理可行性，常出现肢体穿模、漂浮、脚底打滑等假象；"生成-跟踪"式物理方法（PhysDiff、CLoSD）则受困于运动学先验与物理跟踪之间的不一致，容易摔倒。更关键的是——几乎所有物理仿真方法都只做单智能体，把多智能体之间协作、社交这类丰富的交互动态留作空白。

核心矛盾：多智能体场景下，每个 agent 的动作不仅由自身动力学（本体感知 proprioception）决定，还被对方的状态与行为（外部感知 exteroception）影响。如果像单 agent 那样只建模自身，或把外部感知朴素地表示为"对方在我坐标系下的相对状态"，就会丢掉协调互动真正依赖的关节到关节的细粒度空间依赖（如握手主要靠手臂和手，下半身几乎不参与）。

本文目标：构造一个端到端、文本驱动、进物理引擎的双 agent 控制框架，让生成的互动既物理合理又语义忠实。

切入角度：把本体感知、外部感知、动作视为异质的三种模态分别建模以减少互相干扰；同时把外部感知显式建成"交互图"，并利用真实互动天然稀疏的特性做边剪枝。

核心 idea：用一个多流自回归扩散 Transformer 解耦三模态，配合"交互图外部感知 + 稀疏边注意力"显式且选择性地刻画 inter-agent 关系。

方法详解¶

整体框架¶

InterAgent 解决的是"给一句文本指令 → 让两个物理仿真人形完成协调互动"。整体走的是物理仿真领域常见的 track-then-distill（先跟踪再蒸馏） 范式：先在 Isaac Gym 里用强化学习训练跟踪策略去模仿 MoCap 参考动作（跟踪奖励中额外加了交互图奖励来显式约束两 agent 的空间关系），再用训好的专家策略 rollout 出"含噪状态 + 干净动作"的轨迹数据集（每条动作多次 rollout 取 8 条成功轨迹，噪声 \(\sigma=0.01\)）。真正的生成模型是 Inter-DiT——两个权重共享、协同的网络在自回归扩散范式下，输入近 \(h\) 帧历史状态 \(S=[x_p,x_e]_{n-h:n}\) 与文本条件 \(c\)，预测未来 \(m\) 帧去噪后的行为序列 \(\hat{X}^{(0)}=[x_p,x_e,x_a]\)，把预测出的动作 \(\hat{x}_a\) 送进 Isaac Gym 推进物理状态，再把新状态存进 FIFO 历史缓冲，自回归地滚动下去。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["文本指令 c<br/>(CLIP 编码)"] --> B["Inter-DiT<br/>两个权重共享网络<br/>自回归扩散范式"]
    H["FIFO 历史缓冲<br/>近 h 帧 [xp, xe]"] --> B
    B --> C["多流 DiT 块<br/>本体/外部/动作三路解耦"]
    C --> D["交互图外部感知 IG<br/>关节到关节有向边"]
    D --> E["稀疏边注意力 SIG<br/>剪掉冗余边、保留显著关系"]
    E --> F["预测动作 x̂a (28-dof)"]
    F --> G["Isaac Gym 物理仿真<br/>推进到下一状态 st+1"]
    G -->|存回历史、自回归滚动| H

关键设计¶

1. Inter-DiT：权重共享双网络的自回归扩散 Transformer

针对"多 agent 场景每个 agent 的动作既受自身动力学又受对方影响"这一核心矛盾，Inter-DiT 借鉴 Diffuse-CLoC 与 UniPhys，在文本条件 \(c\) 下建模状态与动作的联合分布，从而隐式学到一个动力学转移的世界模型，能连贯地预测未来 state-action 对。它借鉴 InterGen，用两个协同、权重共享的网络分别处理两个 agent，天然刻画双人交互的对称性。训练目标是去噪回归：

\[\mathcal{L} = \mathbb{E}_{t,X}\big[\,\lVert X - \Phi(X^{(t)}, t, c, S)\rVert\,\big]\]

其中 \(t\) 为扩散时间步，\(X^{(t)}\) 为加噪行为序列，\(S\) 为历史状态。这样把"生成"和"物理执行"统一到一个端到端策略里，避开了生成-跟踪两阶段的先验/物理不一致问题。

2. 多流 DiT 块：把本体感知/外部感知/动作当三种异质模态解耦

针对"把状态和动作揉成一个表示会互相干扰"的痛点，Inter-DiT 不像 Diffuse-CLoC/UniPhys 那样把 state 和 action 合并，而是把本体感知 \(x_p\)、外部感知 \(x_e\)、动作 \(x_a\) 当作三种异质模态各走一条独立的流。每个多流块分两阶段注意力：① inter-stream fusion attention——三条流的特征投影到共享空间后沿序列维拼接做自注意力，再 split 回各自的投影层，让模态间交换信息又不至于互相污染；② context-aware conditioning attention——把三流输出作为 query，依次以"历史观测 \([x_{p},x_{e}]_{n-h:n}\)"和"对方 agent 的隐特征"为 key/value 做注意力，注入时序和 inter-agent 上下文，最后每条流过一个 FFN MLP；文本 \(c\) 与时间步 \(t\) 通过 AdaLN 注入。这种"解耦但协同"的设计保留了每个模态的独特性，又能协调耦合。论文里用了 4 个多流块、隐维 768，每块含 1 个 inter-stream fusion attention + 5 个 context-aware conditioning attention。

3. 交互图（IG）外部感知：显式刻画关节到关节的空间依赖

朴素的外部感知表示是把对方的本体状态转到自己坐标系下（relative state, RS），但这会丢掉协调互动真正依赖的细粒度关节关系。受 Zhang et al. 启发，本文把外部感知建成一张有向交互图：对一个 agent 的每个关节位置 \(p_j\in\mathbb{R}^3\)，向对方所有关节 \(p_i\) 连有向边，边向量 \(e_{ij}=p_i-p_j\in\mathbb{R}^3\) 编码这对关节的空间互动。全连接版（FIG）写成 \(x_e=(e_{1,1},\dots,e_{J,J})\in\mathbb{R}^{(J\ast J)\times 3}\)，\(J\) 为单个人形关节数（论文里每个人形 15 关节、28 自由度）。相比 RS，IG 把 inter-agent 关系显式、结构化地表达出来，更利于网络学习。

4. 稀疏边注意力（SIG）：按真实互动的稀疏性剪掉冗余边

全连接 IG 与真实互动"天然稀疏"的特性相矛盾——握手时主要是手臂和手在交互，下半身关节贡献极小。于是在外部感知流上加一个稀疏注意力：把 \(l_e\ast J\ast J\) 条边均分给若干注意力头，用 Gumbel-Softmax 算注意力图 \(A=\text{Gumbel-Softmax}(QK^{\top}/\sqrt{d_f})\)（query 来自特征序列、key/value 来自 reshape 后的边），再用 top-\(k\) 取二值掩码 \(M\) 只保留得分最高的边：

\[M_{ij}=\begin{cases}1,& j\in\arg\text{TopK}_k(A_i)\\ 0,& \text{otherwise}\end{cases},\qquad f' = (M\circ A)V\]

\(\circ\) 为 Hadamard 积。处理后的全连接 IG 记为 Sparse IG（SIG）。这样模型被强制聚焦最显著的关节级依赖（如手到手），抑制无关连接，提升交互的鲁棒性与合理性。消融显示 edge-based（针对单条关节-关节边）、保留比例 1/2 时效果最好。

损失函数 / 训练策略¶

训练分两块：① RL 跟踪策略用类似 PHC 的课程学习（由易到难），跟踪奖励叠加交互图奖励；② Inter-DiT 用上面的去噪回归损失 \(\mathcal{L}\) 端到端训练。文本编码器用冻结的 CLIP-ViT-L/14，采用 classifier-free guidance（训练时 10% CLIP 嵌入置零，采样时 guidance scale 3.5）。预测 horizon \(m=4\)、历史缓冲 \(h=364\)（把前 360 帧均匀下采样到 12 帧 + 最近 4 帧）。用 AdamW、cosine 学习率（峰值 \(1\times10^{-4}\)、5K warm-up），batch 256，在 8 张 RTX 4090 上训 80K 步约 12 小时。

实验关键数据¶

主实验¶

在 InterHuman（带细粒度文本标注的双人 MoCap 数据集）上，按 text-to-motion 通用协议用五个指标评测：R-Precision（文本-动作检索一致性，越高越好）、FID（生成与真实分布距离，越低越好）、MMDist（文本-动作潜空间对齐，越低越好）、Diversity（越接近真实越好）、MModality（同一文本下变化度，越大越好）。Phys-GT 为物理仿真过的真实动作上界。

方法	R-prec Top-3 ↑	FID ↓	MMDist ↓	MModality ↑
Phys-GT（上界）	0.722	0.004	3.401	-
InterGen++ [生成+跟踪]	0.542	0.943	3.751	2.482
InterMask++ [生成+跟踪]	0.339	2.143	4.027	1.939
PDP（扩展双人）	0.375	1.268	3.927	2.402
CLoSD（扩展双人）	0.470	1.132	3.827	1.474
InterAgent（本文）	0.615	0.582	3.585	1.903

InterAgent 在 R-Precision、FID、MMDist 上全面领先所有 baseline，文本-动作对齐和整体真实度最好；Diversity/MModality 略逊于运动学的 InterGen，但其余指标稳定胜出。定性上，生成-跟踪类（InterGen++/InterMask++）常无法完成完整动作或不稳定，CLoSD/PDP 的自回归扩展容易丢失细粒度互动细节，而 InterAgent 能产出"紧贴的拥抱""精准打向腹部的出拳"等物理连贯、语义忠实的双人动作。

消融实验¶

外部感知表示 + 多流数量（Table 2，指标 R-prec Top-3 / FID）：

外部感知	DiT 流数	R-prec Top-3 ↑	FID ↓	说明
RS	3	0.588	0.676	相对状态外部感知
FIG	1	0.523	0.828	全连接图 + 单流
FIG	2	0.608	0.662	双流
FIG	3	0.612	0.634	三流
SIG（本文）	3	0.615	0.582	稀疏图 + 三流

IG 注意力方式与稀疏比例（Table 3）：edge-based + 比例 1/2 取得最佳（R-prec 0.615 / FID 0.582）；比例过大（3/4）或过小（1/8）都退化，joint-based 整体略逊于 edge-based。

关键发现¶

交互图 > 相对状态：FIG/SIG 在 FID 和 R-precision 上均超过 RS，说明把外部感知建成图能给出更结构化、更有信息量的 inter-agent 表示。
稀疏性确实有用：SIG 比 FIG 进一步降 FID、升 R-prec，证明稀疏注意力有效利用了交互图天然的稀疏结构；剪枝比例存在甜点（1/2），过度剪枝反而损失关键关系线索。
三流解耦优于单流/双流：三流 Inter-DiT 在所有指标上稳定胜过把三模态揉一起的单流和"状态/动作两分"的双流变体。
零训练反应式控制：推理时引入 inpainting 机制，固定一个 agent 的行为（用 replay 覆盖其预测的本体感知），就能让另一个 agent 生成对应的反应式行为，无需重训。

亮点与洞察¶

把"交互"显式建成图：用关节到关节的有向边向量刻画双人空间关系，比"对方相对状态"更细粒度，是把图结构先验注入物理动作生成的巧思——这套表示可迁移到人-物交互、群体协作等场景。
稀疏性来自对真实互动的观察：握手只用手、出拳只用拳——作者据此设计 top-\(k\) 边剪枝，让模型把注意力压在显著关节上，既降冗余又提鲁棒，是"领域先验→网络结构"的好例子。
多流解耦缓解跨模态干扰：把本体/外部/动作当三种异质模态分流，再用两段注意力（流间融合 + 上下文条件）协调，既保模态独特性又能耦合，思路可借给其他多模态扩散策略。
第一个文本驱动物理双人控制框架：把单 agent 的 track-then-distill 范式成功扩展到双 agent，填补了物理仿真多智能体交互的空白。

局限与展望¶

只做两个 agent：框架和实验都聚焦双人交互，三人及以上群体场景（边数随 agent 数平方膨胀，稀疏注意力的可扩展性、计算开销）未验证。
依赖 MoCap 与跟踪策略：track-then-distill 需要先有可靠的 RL 跟踪专家和 MoCap 参考，超出 InterHuman 覆盖范围的新颖互动是否还能学好存疑。
Diversity/MModality 偏弱：相比运动学 InterGen，物理约束下生成的多样性略降，可能是物理可行性与多样性之间的 trade-off。⚠️ 论文未深入分析该权衡来源。
改进方向：把交互图扩展为多 agent 超图、引入层次化稀疏（先选 agent 对再选关节对）、或把反应式 inpainting 升级为在线实时交互，都是自然的下一步。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个文本驱动物理仿真双人形控制框架，交互图 + 稀疏边注意力的组合有原创性。
实验充分度: ⭐⭐⭐⭐ 主结果 + 多组消融（外部感知/流数/稀疏比例）扎实，但仅单数据集、仅双 agent。
写作质量: ⭐⭐⭐⭐ 动机与方法链条清晰，公式与图配合好；个别记号（历史缓冲 \(h=364\) 与"近 h 帧"的关系）需对照原文。
价值: ⭐⭐⭐⭐ 为物理仿真多智能体交互打开口子，对游戏/VR/具身仿真有实用潜力。