跳转至

Think How Your Teammates Think: Active Inference Can Benefit Decentralized Execution

会议: AAAI 2026
arXiv: 2511.18761
领域: LLM评测
关键词: 多智能体协作, 主动推理, 队友建模, 无通信框架, 去中心化执行

一句话总结

提出 AIM(Active Inference Modeling)框架,在去中心化多智能体强化学习中,不依赖通信机制,仅基于局部观测建模队友的主动推理过程(感知-信念-动作三重肖像),并通过准确性-相关性双重过滤机制选择性融合队友信念,在 SMAC、SMACv2、MPE 和 GRF 四大基准上取得最优或接近最优表现。


研究背景与动机

去中心化中的协调难题:在去中心化多智能体系统中,智能体缺乏对队友决策逻辑的认知,容易产生误协调,导致次优策略。

通信方法的局限:交换决策信息(Tell)是直觉方案,但受限于带宽有限、高延迟、高噪声和通信攻击等现实约束,在很多场景下不可行或不可靠。

已有智能体建模方法的不足: - 一类方法需要访问其他智能体的完整轨迹(如 ToMnet),这在去中心化执行时不可获取。 - 另一类方法(如 OMG)仅能对固定参数的智能体建模,限制了团队策略的上界。 - 已有方法仅建模部分决策组件(行为或意图),忽视了完整的决策过程,导致建模与现实之间存在差异。

核心洞察:与其"告诉智能体队友怎么做"(Tell),不如让智能体"思考队友是怎么想的"(Think)。受人脑决策机制和主动推理理论启发,将队友决策过程建模为感知(Perception)-信念(Belief)-动作(Action)的主动推理流程。


方法详解

整体框架

AIM 由两大模块组成:(1)基于主动推理的队友三重肖像建模模块,仅依赖局部观测对每个队友生成感知-信念-动作肖像;(2)双重过滤模块,基于感知肖像的准确性和相关性,选择性地整合队友的信念肖像辅助决策。训练采用 CTDE 范式(QMIX),兼容 VDN 和 QPLEX 等价值分解方法。

关键设计 1:感知肖像(Perception Portrait)

  • 功能:为每个队友 \(j\) 从智能体 \(i\) 的局部观测 \(o_i^t\) 中构建 \(j\) 视角的观测 \(\hat{o}_{ij}^t\)
  • 核心思路:视角变换操作——以队友 \(j\) 的位置为原点,重新计算其他智能体的相对位置,取与 \(i\) 观测的交集部分作为感知肖像。
  • 实现细节:将感知肖像 \(\hat{o}_{ij}^t\) 输入 GRU 网络,获取队友 \(j\) 的历史轨迹信息 \(\hat{h}_{ij}^t\)
  • 设计直觉:要理解队友行为,首先要理解队友"看到了什么"。

关键设计 2:信念肖像(Belief Portrait)

  • 功能:构建队友的高层决策基础——信念表示 \(z_{-i}^t\)
  • 与感知的区别:感知是客观的(取决于环境状态和位置),信念是主观的(因观测有限而具有高变异性),因此从智能体自身视角建模而非队友视角。
  • 生成过程:将智能体 \(i\) 的轨迹 \(h_i^t\) 和队友索引 \(id_{-i}\) 输入信念编码器,输出高斯分布 \(\mathcal{N}(\mu_i^t, \delta_i^t)\),通过重参数化得到信念表示。
  • 两大约束
    • 决策支撑性:最大化信念 \(z_{-i}^t\) 与队友实际动作之间的互信息 \(\mathcal{L}_{mi} = \mathbb{E}[\mathcal{D}_{KL}(p(z_{-i}^t | h_i^t, id_{-i}) \| q_\xi(z_{-i}^t | h_i^t, a_{-i}^t, id_{-i}))]\)
    • 短期稳定性:相邻时步信念的余弦相似度损失 \(\mathcal{L}_{cn} = \mathbb{E}[-\frac{z_{-i}^{t-1} \cdot z_{-i}^t}{\|z_{-i}^{t-1}\| \|z_{-i}^t\|}]\)

关键设计 3:动作肖像(Action Portrait)

  • 功能:预测队友的实际动作,作为建模精度的后验反馈。
  • 输入:拼接信念肖像 \(z_{-i}^t\) 和历史感知信息 \(\hat{h}_{-i}^t\)
  • 损失:预测动作与真实动作之间的交叉熵 \(\mathcal{L}_{ce} = -\sum_i a_{-i}^{true} \log \hat{a}_{-i}\)
  • 联合优化:动作预测误差反向传播同步优化感知和信念肖像,形成闭环。
  • 三重肖像总损失\(\mathcal{L}_{MD} = \lambda_{mi}\mathcal{L}_{mi} + \lambda_{cn}\mathcal{L}_{cn} + \lambda_{ce}\mathcal{L}_{ce}\)

关键设计 4:准确性过滤器(Accuracy Filter)

  • 问题:由于局部观测限制,感知肖像不可避免存在误差,盲目使用错误肖像会扭曲决策。
  • 做法:学习映射 \(f: \mathbb{R}^h \mapsto \mathbb{R}\),将感知肖像映射为准确性评分 \(c_{ij}^t = \text{softmax}(f(\hat{h}_{ij}^t))\),构建 \(N \times N\) 评估矩阵 \(\mathcal{C}^t\)
  • 三大特性约束
    • 互评相似:对称性损失 \(\mathcal{L}_{sy} = \|\mathcal{C} - \mathcal{C}^T\|_\mathcal{F}\)
    • 自评最高:对角损失 \(\mathcal{L}_{se} = -\sum_i c_{ii}\)
    • 相似高分:通过神经网络的相似输入产生相似输出特性自动满足
  • 筛选:按准确性分数取 \(top\_k\) 个队友进入下一步。

关键设计 5:相关性过滤器(Relevance Filter)

  • 问题:多智能体协作通常是局部的,不需要整合所有队友的信息。
  • 做法:使用注意力机制,以智能体自身的感知历史 \(h_i^t\) 为 Query,筛选后 \(k\) 个队友的感知历史 \(\hat{h}_k^t\) 为 Key,信念肖像 \(z_k^t\) 为 Value。
  • 注意力得分\(\alpha_{i,k} = \frac{\exp(\frac{1}{\sqrt{d_{key}}}(h_i^t W_Q) \cdot (\hat{h}_k^t W_K)^T)}{\sum_{j=1}^k \exp(\frac{1}{\sqrt{d_{key}}}(h_i^t W_Q) \cdot (\hat{h}_j^t W_K)^T)}\)
  • 融合结果\(e_i^t = \sum_{j=1}^k \alpha_{i,j} \cdot z_j^t\),与 \(h_i^t\) 拼接后通过线性层计算局部 Q 值。
  • 设计理由:选择融合信念肖像而非动作肖像,因为高层信念表示可以稀释单步建模误差的影响。

总体训练目标

\[\mathcal{L}_{tot} = \mathcal{L}_{TD} + \mathcal{L}_{MD} + \mathcal{L}_{DF}\]

其中 \(\mathcal{L}_{TD}\) 为 QMIX 的 TD 损失,\(\mathcal{L}_{MD}\) 为三重肖像损失,\(\mathcal{L}_{DF} = \lambda_{sy}\mathcal{L}_{sy} + \lambda_{se}\mathcal{L}_{se}\) 为双重过滤损失。


实验与结果

实验设置

  • 基准:SMAC(6 个地图)、SMACv2(6 个任务)、MPE(3 个任务)、GRF(Google Research Football)
  • 基线:QMIX、QPLEX、RODE、COLA、SIRD(无通信);MAIC、T2MAC(有通信);OMG(智能体建模)
  • 评估:5 个随机种子取平均

核心结果

  1. SMAC:AIM 在需要明确分工和协作伙伴选择的地图(3s5z_vs_3s6z、corridor、6h_vs_8z)上优于所有基线,甚至超过通信方法,说明近距离时建模比通信更有效。
  2. SMACv2:面对初始位置随机化和单位类型随机化的额外挑战,基线方法性能大幅下降,AIM 仍能表现出色,验证了感知肖像模块的环境适应能力。
  3. MPE:在修改为局部可观测的 Predator-Prey 任务中,AIM 同样取得最优或接近最优性能。
  4. 消融实验:去掉信念肖像、动作肖像或双重过滤中任一模块均导致性能下降,证明各组件的必要性。

论文评价

优势

  • 用"Think"替代"Tell"的范式新颖,将主动推理理论引入 MARL 的队友建模是有创新性的尝试。
  • 感知-信念-动作三重肖像设计系统完整,有清晰的认知科学对应。
  • 双重过滤机制(准确性+相关性)解决了局部观测建模中不可避免的噪声问题。
  • 实验覆盖四大基准,基线丰富,包含有通信和无通信方法的对比。

局限

  • 视角变换操作(感知肖像的构建)依赖已知队友位置,在位置信息不可获取的场景下不适用。
  • \(top\_k\) 的选择在不同场景下需要调参,论文未给出自适应策略。
  • 仅在离散动作空间上验证,对连续动作空间的扩展性未讨论。

相关工作与关联

  • MAIC:通信式 MARL 方法,通过消息交换实现队友认知;AIM 在近距离场景甚至优于 MAIC,说明建模可以替代通信。
  • OMG:仅基于局部观测的智能体建模方法,但队友策略固定不更新;AIM 允许所有智能体同步训练,突破了协作效率上界。
  • Theory of Mind (ToMnet):基于心智理论建模智能体心理状态,但需要访问被建模者的轨迹;AIM 完全基于局部观测,更符合去中心化要求。
  • 主动推理(Active Inference):源自 Friston 自由能原理的决策理论,AIM 借用其感知-信念-动作框架作为队友建模的结构,是该理论在 MARL 中的首次系统应用。