Think How Your Teammates Think: Active Inference Can Benefit Decentralized Execution¶

会议: AAAI 2026
arXiv: 2511.18761
领域: LLM评测
关键词: 多智能体协作, 主动推理, 队友建模, 无通信框架, 去中心化执行

一句话总结¶

提出 AIM（Active Inference Modeling）框架，在去中心化多智能体强化学习中，不依赖通信机制，仅基于局部观测建模队友的主动推理过程（感知-信念-动作三重肖像），并通过准确性-相关性双重过滤机制选择性融合队友信念，在 SMAC、SMACv2、MPE 和 GRF 四大基准上取得最优或接近最优表现。

研究背景与动机¶

去中心化中的协调难题：在去中心化多智能体系统中，智能体缺乏对队友决策逻辑的认知，容易产生误协调，导致次优策略。

通信方法的局限：交换决策信息(Tell)是直觉方案，但受限于带宽有限、高延迟、高噪声和通信攻击等现实约束，在很多场景下不可行或不可靠。

已有智能体建模方法的不足： - 一类方法需要访问其他智能体的完整轨迹（如 ToMnet），这在去中心化执行时不可获取。 - 另一类方法（如 OMG）仅能对固定参数的智能体建模，限制了团队策略的上界。 - 已有方法仅建模部分决策组件（行为或意图），忽视了完整的决策过程，导致建模与现实之间存在差异。

核心洞察：与其"告诉智能体队友怎么做"(Tell)，不如让智能体"思考队友是怎么想的"(Think)。受人脑决策机制和主动推理理论启发，将队友决策过程建模为感知(Perception)-信念(Belief)-动作(Action)的主动推理流程。

方法详解¶

整体框架¶

AIM 由两大模块组成：（1）基于主动推理的队友三重肖像建模模块，仅依赖局部观测对每个队友生成感知-信念-动作肖像；（2）双重过滤模块，基于感知肖像的准确性和相关性，选择性地整合队友的信念肖像辅助决策。训练采用 CTDE 范式（QMIX），兼容 VDN 和 QPLEX 等价值分解方法。

关键设计 1：感知肖像（Perception Portrait）¶

功能：为每个队友 \(j\) 从智能体 \(i\) 的局部观测 \(o_i^t\) 中构建 \(j\) 视角的观测 \(\hat{o}_{ij}^t\)。
核心思路：视角变换操作——以队友 \(j\) 的位置为原点，重新计算其他智能体的相对位置，取与 \(i\) 观测的交集部分作为感知肖像。
实现细节：将感知肖像 \(\hat{o}_{ij}^t\) 输入 GRU 网络，获取队友 \(j\) 的历史轨迹信息 \(\hat{h}_{ij}^t\)。
设计直觉：要理解队友行为，首先要理解队友"看到了什么"。

关键设计 2：信念肖像（Belief Portrait）¶

功能：构建队友的高层决策基础——信念表示 \(z_{-i}^t\)。
与感知的区别：感知是客观的（取决于环境状态和位置），信念是主观的（因观测有限而具有高变异性），因此从智能体自身视角建模而非队友视角。
生成过程：将智能体 \(i\) 的轨迹 \(h_i^t\) 和队友索引 \(id_{-i}\) 输入信念编码器，输出高斯分布 \(\mathcal{N}(\mu_i^t, \delta_i^t)\)，通过重参数化得到信念表示。
两大约束：
- 决策支撑性：最大化信念 \(z_{-i}^t\) 与队友实际动作之间的互信息 \(\mathcal{L}_{mi} = \mathbb{E}[\mathcal{D}_{KL}(p(z_{-i}^t | h_i^t, id_{-i}) \| q_\xi(z_{-i}^t | h_i^t, a_{-i}^t, id_{-i}))]\)
- 短期稳定性：相邻时步信念的余弦相似度损失 \(\mathcal{L}_{cn} = \mathbb{E}[-\frac{z_{-i}^{t-1} \cdot z_{-i}^t}{\|z_{-i}^{t-1}\| \|z_{-i}^t\|}]\)

关键设计 3：动作肖像（Action Portrait）¶

功能：预测队友的实际动作，作为建模精度的后验反馈。
输入：拼接信念肖像 \(z_{-i}^t\) 和历史感知信息 \(\hat{h}_{-i}^t\)。
损失：预测动作与真实动作之间的交叉熵 \(\mathcal{L}_{ce} = -\sum_i a_{-i}^{true} \log \hat{a}_{-i}\)。
联合优化：动作预测误差反向传播同步优化感知和信念肖像，形成闭环。
三重肖像总损失：\(\mathcal{L}_{MD} = \lambda_{mi}\mathcal{L}_{mi} + \lambda_{cn}\mathcal{L}_{cn} + \lambda_{ce}\mathcal{L}_{ce}\)

关键设计 4：准确性过滤器（Accuracy Filter）¶

问题：由于局部观测限制，感知肖像不可避免存在误差，盲目使用错误肖像会扭曲决策。
做法：学习映射 \(f: \mathbb{R}^h \mapsto \mathbb{R}\)，将感知肖像映射为准确性评分 \(c_{ij}^t = \text{softmax}(f(\hat{h}_{ij}^t))\)，构建 \(N \times N\) 评估矩阵 \(\mathcal{C}^t\)。
三大特性约束：
- 互评相似：对称性损失 \(\mathcal{L}_{sy} = \|\mathcal{C} - \mathcal{C}^T\|_\mathcal{F}\)
- 自评最高：对角损失 \(\mathcal{L}_{se} = -\sum_i c_{ii}\)
- 相似高分：通过神经网络的相似输入产生相似输出特性自动满足
筛选：按准确性分数取 \(top\_k\) 个队友进入下一步。

关键设计 5：相关性过滤器（Relevance Filter）¶

问题：多智能体协作通常是局部的，不需要整合所有队友的信息。
做法：使用注意力机制，以智能体自身的感知历史 \(h_i^t\) 为 Query，筛选后 \(k\) 个队友的感知历史 \(\hat{h}_k^t\) 为 Key，信念肖像 \(z_k^t\) 为 Value。
注意力得分：\(\alpha_{i,k} = \frac{\exp(\frac{1}{\sqrt{d_{key}}}(h_i^t W_Q) \cdot (\hat{h}_k^t W_K)^T)}{\sum_{j=1}^k \exp(\frac{1}{\sqrt{d_{key}}}(h_i^t W_Q) \cdot (\hat{h}_j^t W_K)^T)}\)
融合结果：\(e_i^t = \sum_{j=1}^k \alpha_{i,j} \cdot z_j^t\)，与 \(h_i^t\) 拼接后通过线性层计算局部 Q 值。
设计理由：选择融合信念肖像而非动作肖像，因为高层信念表示可以稀释单步建模误差的影响。

总体训练目标¶

\[\mathcal{L}_{tot} = \mathcal{L}_{TD} + \mathcal{L}_{MD} + \mathcal{L}_{DF}\]

其中 \(\mathcal{L}_{TD}\) 为 QMIX 的 TD 损失，\(\mathcal{L}_{MD}\) 为三重肖像损失，\(\mathcal{L}_{DF} = \lambda_{sy}\mathcal{L}_{sy} + \lambda_{se}\mathcal{L}_{se}\) 为双重过滤损失。

实验与结果¶

实验设置¶

基准：SMAC（6 个地图）、SMACv2（6 个任务）、MPE（3 个任务）、GRF（Google Research Football）
基线：QMIX、QPLEX、RODE、COLA、SIRD（无通信）；MAIC、T2MAC（有通信）；OMG（智能体建模）
评估：5 个随机种子取平均

核心结果¶

SMAC：AIM 在需要明确分工和协作伙伴选择的地图（3s5z_vs_3s6z、corridor、6h_vs_8z）上优于所有基线，甚至超过通信方法，说明近距离时建模比通信更有效。
SMACv2：面对初始位置随机化和单位类型随机化的额外挑战，基线方法性能大幅下降，AIM 仍能表现出色，验证了感知肖像模块的环境适应能力。
MPE：在修改为局部可观测的 Predator-Prey 任务中，AIM 同样取得最优或接近最优性能。
消融实验：去掉信念肖像、动作肖像或双重过滤中任一模块均导致性能下降，证明各组件的必要性。

论文评价¶

优势¶

用"Think"替代"Tell"的范式新颖，将主动推理理论引入 MARL 的队友建模是有创新性的尝试。
感知-信念-动作三重肖像设计系统完整，有清晰的认知科学对应。
双重过滤机制（准确性+相关性）解决了局部观测建模中不可避免的噪声问题。
实验覆盖四大基准，基线丰富，包含有通信和无通信方法的对比。

局限¶

视角变换操作（感知肖像的构建）依赖已知队友位置，在位置信息不可获取的场景下不适用。
\(top\_k\) 的选择在不同场景下需要调参，论文未给出自适应策略。
仅在离散动作空间上验证，对连续动作空间的扩展性未讨论。