Think How Your Teammates Think: Active Inference Can Benefit Decentralized Execution¶
会议: AAAI 2026
arXiv: 2511.18761
领域: LLM评测
关键词: 多智能体协作, 主动推理, 队友建模, 无通信框架, 去中心化执行
一句话总结¶
提出 AIM(Active Inference Modeling)框架,在去中心化多智能体强化学习中,不依赖通信机制,仅基于局部观测建模队友的主动推理过程(感知-信念-动作三重肖像),并通过准确性-相关性双重过滤机制选择性融合队友信念,在 SMAC、SMACv2、MPE 和 GRF 四大基准上取得最优或接近最优表现。
研究背景与动机¶
去中心化中的协调难题:在去中心化多智能体系统中,智能体缺乏对队友决策逻辑的认知,容易产生误协调,导致次优策略。
通信方法的局限:交换决策信息(Tell)是直觉方案,但受限于带宽有限、高延迟、高噪声和通信攻击等现实约束,在很多场景下不可行或不可靠。
已有智能体建模方法的不足: - 一类方法需要访问其他智能体的完整轨迹(如 ToMnet),这在去中心化执行时不可获取。 - 另一类方法(如 OMG)仅能对固定参数的智能体建模,限制了团队策略的上界。 - 已有方法仅建模部分决策组件(行为或意图),忽视了完整的决策过程,导致建模与现实之间存在差异。
核心洞察:与其"告诉智能体队友怎么做"(Tell),不如让智能体"思考队友是怎么想的"(Think)。受人脑决策机制和主动推理理论启发,将队友决策过程建模为感知(Perception)-信念(Belief)-动作(Action)的主动推理流程。
方法详解¶
整体框架¶
AIM 由两大模块组成:(1)基于主动推理的队友三重肖像建模模块,仅依赖局部观测对每个队友生成感知-信念-动作肖像;(2)双重过滤模块,基于感知肖像的准确性和相关性,选择性地整合队友的信念肖像辅助决策。训练采用 CTDE 范式(QMIX),兼容 VDN 和 QPLEX 等价值分解方法。
关键设计 1:感知肖像(Perception Portrait)¶
- 功能:为每个队友 \(j\) 从智能体 \(i\) 的局部观测 \(o_i^t\) 中构建 \(j\) 视角的观测 \(\hat{o}_{ij}^t\)。
- 核心思路:视角变换操作——以队友 \(j\) 的位置为原点,重新计算其他智能体的相对位置,取与 \(i\) 观测的交集部分作为感知肖像。
- 实现细节:将感知肖像 \(\hat{o}_{ij}^t\) 输入 GRU 网络,获取队友 \(j\) 的历史轨迹信息 \(\hat{h}_{ij}^t\)。
- 设计直觉:要理解队友行为,首先要理解队友"看到了什么"。
关键设计 2:信念肖像(Belief Portrait)¶
- 功能:构建队友的高层决策基础——信念表示 \(z_{-i}^t\)。
- 与感知的区别:感知是客观的(取决于环境状态和位置),信念是主观的(因观测有限而具有高变异性),因此从智能体自身视角建模而非队友视角。
- 生成过程:将智能体 \(i\) 的轨迹 \(h_i^t\) 和队友索引 \(id_{-i}\) 输入信念编码器,输出高斯分布 \(\mathcal{N}(\mu_i^t, \delta_i^t)\),通过重参数化得到信念表示。
- 两大约束:
- 决策支撑性:最大化信念 \(z_{-i}^t\) 与队友实际动作之间的互信息 \(\mathcal{L}_{mi} = \mathbb{E}[\mathcal{D}_{KL}(p(z_{-i}^t | h_i^t, id_{-i}) \| q_\xi(z_{-i}^t | h_i^t, a_{-i}^t, id_{-i}))]\)
- 短期稳定性:相邻时步信念的余弦相似度损失 \(\mathcal{L}_{cn} = \mathbb{E}[-\frac{z_{-i}^{t-1} \cdot z_{-i}^t}{\|z_{-i}^{t-1}\| \|z_{-i}^t\|}]\)
关键设计 3:动作肖像(Action Portrait)¶
- 功能:预测队友的实际动作,作为建模精度的后验反馈。
- 输入:拼接信念肖像 \(z_{-i}^t\) 和历史感知信息 \(\hat{h}_{-i}^t\)。
- 损失:预测动作与真实动作之间的交叉熵 \(\mathcal{L}_{ce} = -\sum_i a_{-i}^{true} \log \hat{a}_{-i}\)。
- 联合优化:动作预测误差反向传播同步优化感知和信念肖像,形成闭环。
- 三重肖像总损失:\(\mathcal{L}_{MD} = \lambda_{mi}\mathcal{L}_{mi} + \lambda_{cn}\mathcal{L}_{cn} + \lambda_{ce}\mathcal{L}_{ce}\)
关键设计 4:准确性过滤器(Accuracy Filter)¶
- 问题:由于局部观测限制,感知肖像不可避免存在误差,盲目使用错误肖像会扭曲决策。
- 做法:学习映射 \(f: \mathbb{R}^h \mapsto \mathbb{R}\),将感知肖像映射为准确性评分 \(c_{ij}^t = \text{softmax}(f(\hat{h}_{ij}^t))\),构建 \(N \times N\) 评估矩阵 \(\mathcal{C}^t\)。
- 三大特性约束:
- 互评相似:对称性损失 \(\mathcal{L}_{sy} = \|\mathcal{C} - \mathcal{C}^T\|_\mathcal{F}\)
- 自评最高:对角损失 \(\mathcal{L}_{se} = -\sum_i c_{ii}\)
- 相似高分:通过神经网络的相似输入产生相似输出特性自动满足
- 筛选:按准确性分数取 \(top\_k\) 个队友进入下一步。
关键设计 5:相关性过滤器(Relevance Filter)¶
- 问题:多智能体协作通常是局部的,不需要整合所有队友的信息。
- 做法:使用注意力机制,以智能体自身的感知历史 \(h_i^t\) 为 Query,筛选后 \(k\) 个队友的感知历史 \(\hat{h}_k^t\) 为 Key,信念肖像 \(z_k^t\) 为 Value。
- 注意力得分:\(\alpha_{i,k} = \frac{\exp(\frac{1}{\sqrt{d_{key}}}(h_i^t W_Q) \cdot (\hat{h}_k^t W_K)^T)}{\sum_{j=1}^k \exp(\frac{1}{\sqrt{d_{key}}}(h_i^t W_Q) \cdot (\hat{h}_j^t W_K)^T)}\)
- 融合结果:\(e_i^t = \sum_{j=1}^k \alpha_{i,j} \cdot z_j^t\),与 \(h_i^t\) 拼接后通过线性层计算局部 Q 值。
- 设计理由:选择融合信念肖像而非动作肖像,因为高层信念表示可以稀释单步建模误差的影响。
总体训练目标¶
其中 \(\mathcal{L}_{TD}\) 为 QMIX 的 TD 损失,\(\mathcal{L}_{MD}\) 为三重肖像损失,\(\mathcal{L}_{DF} = \lambda_{sy}\mathcal{L}_{sy} + \lambda_{se}\mathcal{L}_{se}\) 为双重过滤损失。
实验与结果¶
实验设置¶
- 基准:SMAC(6 个地图)、SMACv2(6 个任务)、MPE(3 个任务)、GRF(Google Research Football)
- 基线:QMIX、QPLEX、RODE、COLA、SIRD(无通信);MAIC、T2MAC(有通信);OMG(智能体建模)
- 评估:5 个随机种子取平均
核心结果¶
- SMAC:AIM 在需要明确分工和协作伙伴选择的地图(3s5z_vs_3s6z、corridor、6h_vs_8z)上优于所有基线,甚至超过通信方法,说明近距离时建模比通信更有效。
- SMACv2:面对初始位置随机化和单位类型随机化的额外挑战,基线方法性能大幅下降,AIM 仍能表现出色,验证了感知肖像模块的环境适应能力。
- MPE:在修改为局部可观测的 Predator-Prey 任务中,AIM 同样取得最优或接近最优性能。
- 消融实验:去掉信念肖像、动作肖像或双重过滤中任一模块均导致性能下降,证明各组件的必要性。
论文评价¶
优势¶
- 用"Think"替代"Tell"的范式新颖,将主动推理理论引入 MARL 的队友建模是有创新性的尝试。
- 感知-信念-动作三重肖像设计系统完整,有清晰的认知科学对应。
- 双重过滤机制(准确性+相关性)解决了局部观测建模中不可避免的噪声问题。
- 实验覆盖四大基准,基线丰富,包含有通信和无通信方法的对比。
局限¶
- 视角变换操作(感知肖像的构建)依赖已知队友位置,在位置信息不可获取的场景下不适用。
- \(top\_k\) 的选择在不同场景下需要调参,论文未给出自适应策略。
- 仅在离散动作空间上验证,对连续动作空间的扩展性未讨论。
相关工作与关联¶
- MAIC:通信式 MARL 方法,通过消息交换实现队友认知;AIM 在近距离场景甚至优于 MAIC,说明建模可以替代通信。
- OMG:仅基于局部观测的智能体建模方法,但队友策略固定不更新;AIM 允许所有智能体同步训练,突破了协作效率上界。
- Theory of Mind (ToMnet):基于心智理论建模智能体心理状态,但需要访问被建模者的轨迹;AIM 完全基于局部观测,更符合去中心化要求。
- 主动推理(Active Inference):源自 Friston 自由能原理的决策理论,AIM 借用其感知-信念-动作框架作为队友建模的结构,是该理论在 MARL 中的首次系统应用。