Empowering Multi-Robot Cooperation via Sequential World Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=IvUM6UwYCJ
代码: SeqWM（论文主页提供）
领域: 机器人 / 多智能体
关键词: 多机器人合作、世界模型、序列范式、模型预测路径积分、自回归动力学建模

一句话总结¶

提出 SeqWM（Sequential World Model），将序列化（自回归）范式引入多机器人模型强化学习，使每个机器人独立维护一个世界模型并顺序传递预测轨迹，在降低建模复杂度的同时，通过意图共享让系统自发涌现出预测适应、时序对齐、角色分工等高级协作行为，并成功完成 sim-to-real 迁移。

研究背景与动机¶

领域现状：模型基强化学习（MBRL）凭借高样本效率和多步规划能力在单机器人任务中取得显著成果，但将其扩展至多机器人合作时面临"联合动力学"建模复杂度爆炸的核心挑战。
现有痛点：去中心化方法为每个智能体独立建模，忽略耦合关系，协调能力差；中心化方法（如 CoDreamer、MARIE）在联合状态-动作空间中预测，高维度（O∈R²²⁹，A∈R²⁶）下计算成本极高，难以部署到真实机器人。
核心矛盾：去中心化建模失去协调能力，中心化建模无法负担高维联合空间的计算代价——两者都不能同时满足"高效建模"与"精准协调"。
本文目标：在二者之间寻找一条"有序通信"的中间路线，将多机器人 MBRL 同时满足低建模复杂度和显式意图共享两个需求。
核心 idea：借鉴多智能体序列决策范式（MAT、HARL），把联合动力学分解为自回归的 per-agent 世界模型——每个机器人只学自己的局部动力学，但在预测时以前驱机器人的预测轨迹为条件输入；规划时同样顺序传递最优动作计划，实现"意图共享"。

方法详解¶

整体框架¶

SeqWM 包含两个协同组件：Sequential World Modelling（在潜空间中自回归建模联合动力学）和 Sequential Planning（基于 MPPI 的序列化多智能体规划器）。训练时遵循序列更新策略，确保每个 agent 的世界模型总以最新前驱预测为条件，保证单调提升。

flowchart TD
    O1["观测 o¹_t"] --> E1["编码器 E¹"] --> Z1["潜态 z¹_t"]
    Z1 --> D1["动力学 D¹(z,a,e)"] --> Z1p["ẑ¹_{t+1}"]
    Z1p --> Comm1["通信: e² = e¹ ⊕ a¹"]

    O2["观测 o²_t"] --> E2["编码器 E²"] --> Z2["潜态 z²_t"]
    Comm1 --> D2["动力学 D²(z,a,e)"] --> Z2p["ẑ²_{t+1}"]
    Z2 --> D2

    Z1 --> Plan1["MPPI 规划器¹\n采样 N 条序列\n潜空间 rollout"] --> BestA1["最优动作 a¹*\n+预测轨迹"]
    BestA1 --> Plan2["MPPI 规划器²\n条件化于前驱意图"]
    Z2 --> Plan2 --> BestA2["最优动作 a²*"]

关键设计¶

1. 自回归潜空间世界模型：以前驱预测为条件降低建模复杂度

SeqWM 的核心是将联合动力学 \(P(s_{t+1}|s_t,\mathbf{a}_t)\) 分解为 \(n\) 个条件概率的乘积。对于第 \(i\) 个 agent，其世界模型为：

\[ z^i_t = E^i(o^i_t), \quad \hat{z}^i_{t+1} = D^i(z^i_t, a^i_t, e^i_t), \quad e^{i+1}_t = e^i_t \oplus a^i_t \]

其中 \(e^i_t\) 是前驱 agent 通过拼接（concat）传来的通信消息，包含所有 \(j<i\) 的潜态预测和动作。关键在于：（a）每个 agent 的编码器、动力学预测器均独立，无参数共享，便于真实机器人的分布式部署；（b）通信采用简单 concat 而非交叉注意力或 RNN，消融实验证明这保留了完整通信内容，同时避免了额外可学习参数导致的梯度不稳定；（c）训练损失严格遵循自回归顺序——训练 agent \(i+1\) 时，其输入来自前 \(i\) 个 agent 最新版本模型的预测，形成序列更新策略。

训练目标（预测 horizon \(H\) 步，衰减权重 \(\lambda\)）：

\[ \mathcal{L}_i(\theta) = \sum_{t}^{H} \lambda^t \Big[ \underbrace{\|\hat{z}^i_{t+1} - \text{sg}(z^i_{t+1})\|^2}_{\text{dynamics loss}} + \underbrace{\text{Soft-CE}(\hat{r}^i_t, r_t)}_{\text{reward loss}} + \underbrace{\text{Soft-CE}(\hat{q}^i_t, G_t)}_{Q\text{-value loss}} \Big] \]

stop-gradient 算子 \(\text{sg}(\cdot)\) 作用于潜态目标 \(z^i_{t+1}=E^i(o^i_{t+1})\)，防止循环梯度流。

2. 序列化 MPPI 规划：通过意图传递实现联合规划

规划阶段同样遵循序列结构：agent \(i\) 先从 actor 提供的初始分布中采样 \(N\) 条候选动作序列，在本地世界模型中进行潜空间 rollout，估计每条轨迹的价值：

\[ V^i_{t+H} = \gamma^H Q^i(\hat{z}^i_{t+H}, a^i_{t+H}, e^i_{t+H}) + \sum_{h=t}^{t+H-1} \gamma^{h-t} R^i(\hat{z}^i_h, a^i_h, e^i_h) \]

基于 Cross-Entropy Method，按价值排序后保留 elite 子集，迭代更新动作分布。收敛后，agent \(i\) 将优化后的动作序列 + 预测轨迹作为消息传递给 agent \(i+1\)——这正是"意图共享"的核心：后续机器人能直接参考前驱机器人的完整未来规划，而非仅当前动作。

3. 通信鲁棒性设计：随机掩码 + 低通滤波 + 缓存回退

随机掩码训练（受 MAE 启发）：训练时以一定概率对 agent 间通信做随机遮蔽，并随机打乱序列顺序，迫使世界模型在通信缺失时也能鲁棒预测，显著提升对丢包/干扰的抵抗力。
低通动作平滑：规划每次迭代中，采样的动作序列沿时间维度经低通滤波抑制高频抖动，避免真实机器人关节磨损，保障硬件安全。
通信缓存回退：当 \(t+1\) 时刻通信失败时，agent \(i+1\) 从缓存取回 agent \(i\) 在 \(t\) 时刻存储的预测消息 \(\hat{z}^i_{t+1}=D^i(E^i(o^i_t))\)，保证系统降级运行。
启发式提前终止：当相邻规划迭代的动作分布 KL 散度低于阈值时终止，减少机器人在线规划延迟。

实验关键数据¶

主实验¶

任务	评估指标	SeqWM	最强 Baseline	说明
Bi-DexHands: Over	Episode Return	最高	MARIE	2–4M 步达近最优
Bi-DexHands: Scissors	Episode Return	最高	MARIE	2–4M 步达近最优
Bi-DexHands: Pen	Episode Return	最高、最低方差	HASAC	稳定性显著更好
Multi-Quad: Gate	成功率	~100% 早期达到	MAT	样本效率大幅领先
Multi-Quad: Shepherd	成功率	~100% 早期达到	MAT	序列意图共享关键

（全部任务的学习曲线见论文 Figure 3 与 Appendix Figure 12）

消融实验¶

配置	BottleCap 性能	说明
SeqWM (concat)	最高且稳定	完整信息+无额外参数
MLP fusion	下降	额外参数破坏梯度稳定性
Cross-Attn fusion	下降	长 horizon 下梯度不稳
RNN fusion	低于 Dec（无通信）	对输入顺序敏感，多智能体场景有害
DecWM（无意图共享）	中等	去掉轨迹传递后显著下降
SeqFree（无世界模型，仅单步通信）	最低	验证世界模型和意图共享均不可缺

关键发现¶

序列模型（SeqWM）与中心化模型预测误差相近，均显著低于去中心化模型，证明自回归分解在降低建模复杂度同时保持了建模精度。
SeqWM 在 5-agent Gate 中成功泛化，机器人自发形成"预测-等待-通过-礼让"节奏，展现良好的可扩展性。
真实 Unitree Go2-W 机器人上的三个任务（PushBox、Gate、Shepherd）均复现了仿真中的协作行为，sim-to-real 迁移成功。

亮点与洞察¶

序列范式天然适配世界模型：序列决策（MAT/HARL）的自回归结构与多步轨迹预测高度契合，SeqWM 把这一统一性做到了从建模到规划的全链路。
涌现行为令人信服：预测适应（catching hand 提前降位迎接）、时序对齐（bimanual 同步抓握）、角色分工（PushBox 中方向控制与力量输出的自发分离）不是手工设计的，而是从 per-agent 意图共享中自然涌现，机制透明。
通信失败处理优雅：缓存回退 + 随机掩码训练构成了一套无需额外模块的鲁棒通信体系，对真实部署友好。
concat > 复杂融合：消融结果给出了一个反直觉但清晰的结论：在多步预测场景中，保留完整信息并让下游模块自己学习筛选，比注意力/循环机制更稳定。

局限与展望¶

仅支持完全合作（共享奖励）设置，竞争或混合动机场景未验证。
序列顺序在执行时固定或随机，缺乏根据任务动态调整优先级的机制，在角色动态变化的场景可能次优。
计划中的扩展：异构机器人团队（足式+臂式+空中）与人机语义意图共享，独立世界模型天然适配不同动力学和感知模态。

评分¶

新颖性: ⭐⭐⭐⭐ 将序列范式引入多机器人 MBRL 的想法自然而务实，公式化清晰；结合 MPPI 的序列规划是新颖且完整的贡献
实验充分度: ⭐⭐⭐⭐ 覆盖高维灵巧操作与多足协作两类任务，含消融、可扩展性（5 agent）、行为可视化及真实机器人验证，体系完整
写作质量: ⭐⭐⭐⭐ 结构清晰，图文配合好，Section 5.2 的行为可视化分析给读者直观感受
价值: ⭐⭐⭐⭐ 真实部署 + 涌现行为 + 样本效率三项同时达成，对多机器人 MBRL 社区有实质推进意义