From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium¶

会议: ICML 2025

arXiv: 2506.08292

作者: Xie Yi, Zhanke Zhou, Chentao Cao, Qiyu Niu, Tongliang Liu, Bo Han (TMLR Group)

领域: LLM Agent

关键词: Multi-Agent LLM, Bayesian Nash Equilibrium, Reinforcement Learning, Belief Coordination, Scalable Reasoning

代码: GitHub

一句话总结¶

将多 LLM 协调建模为不完全信息博弈，提出 ECON 框架，通过贝叶斯纳什均衡（BNE）实现隐式信念驱动的多 Agent 协调推理，无需显式消息传递即可获得理论收敛保证，在六个推理基准上平均提升 11.2%。

研究背景与动机¶

多 Agent LLM 框架（如 Multi-Agent Debate, MAD）已被证明能提升推理能力，但现有方法存在三个根本问题：

通信成本过高：传统多轮辩论要求 Agent 之间显式传递消息，Token 消耗和计算开销随轮数线性增长

缺乏收敛保证：现有方法没有理论保证辩论会收敛到正确或一致的答案，可能陷入循环

可扩展性差：Agent 间的信息交换容易超出 LLM 上下文长度限制，Agent 数量增加时性能反而下降

核心洞察：与其让 Agent 直接"对话"（显式通信），不如让每个 Agent 基于对其他 Agent 策略的概率信念独立做出最优响应。这正是博弈论中贝叶斯纳什均衡的思想。

方法详解¶

整体框架 — ECON¶

ECON（Efficient Coordination via Nash Equilibrium）采用层次化架构：

Coordinator LLM（协调者）：生成策略指令（≤50 tokens），不直接透露答案，负责最终 commitment
Executor LLMs（执行者）：多个 Agent 独立处理问题，基于 Coordinator 的策略和自身信念生成回答
信念网络（BeliefNetwork）：管理每个 Agent 的信念状态，计算 Q 值
信念编码器（BeliefEncoder）：基于注意力机制聚合群体表示
混合器（Mixer）：基于注意力的 Agent 交互层，聚合局部 Q 值并加入 commitment 对齐和一致性正则化

博弈论建模¶

将多 LLM 协调形式化为不完全信息博弈 \(\Gamma = (N, \{A_i\}, \{\Theta_i\}, \{u_i\}, p)\)：

\(N\) 个 LLM Agent，每个 Agent \(i\) 拥有动作空间 \(A_i\)（即可能的回答）
类型空间 \(\Theta_i\) 表示 Agent 的私有信息（如模型能力、上下文理解）
效用函数 \(u_i\) 衡量回答质量
先验分布 \(p\) 描述对其他 Agent 类型的信念

贝叶斯纳什均衡（BNE）¶

在 BNE 中，每个 Agent 的策略 \(\sigma_i^*\) 满足：

\[\sigma_i^*(\theta_i) = \arg\max_{a_i \in A_i} \mathbb{E}_{\theta_{-i} \sim p(\cdot|\theta_i)} \left[ u_i(a_i, \sigma_{-i}^*(\theta_{-i}), \theta_i) \right]\]

即每个 Agent 在给定自身类型和对他人策略的信念下，选择最大化期望收益的动作。

两阶段 BNE 协调¶

Stage 1 — 个体信念形成：

每个 Executor 独立形成信念状态 \(b_i\)，生成初始回答
信念状态通过 BeliefNetwork 维护和更新

Stage 2 — BNE 迭代协调：

Agent 通过均衡计算迭代更新信念，直到收敛
Coordinator 生成 commitment，当连续轮次 commitment 不变或参数变化低于阈值时停止

奖励系统¶

三个奖励分量通过可学习权重 \(\alpha\) 动态组合：

\[R = \alpha_1 \cdot R_{\text{TS}} + \alpha_2 \cdot R_{\text{AL}} + \alpha_3 \cdot R_{\text{CC}}\]

奖励分量	含义	计算方式
\(R_{\text{TS}}\)（Task-Specific）	任务正确性	与 ground truth 的数值匹配（二元）
\(R_{\text{AL}}\)（Action Likelihood）	动作-承诺对齐	Executor 输出与 Coordinator commitment 的嵌入余弦相似度
\(R_{\text{CC}}\)（Collaborative Contribution）	协作贡献度	忠实度（与 commitment 一致）+ 新颖度（与同伴回答的差异）

嵌入模型使用 BAAI/bge-large-en-v1.5。

损失函数¶

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{TD}} + \mathcal{L}_{\text{mixer}} + \mathcal{L}_{\text{BNE}}\]

\(\mathcal{L}_{\text{TD}}\)：局部 Q 值的 TD 误差
\(\mathcal{L}_{\text{mixer}}\)：全局 TD + 一致性损失 + commitment 对齐损失
\(\mathcal{L}_{\text{BNE}}\)：均衡损失 + commitment 改进项

目标网络使用软更新：\(\phi' \leftarrow \tau \phi + (1-\tau)\phi'\)，\(\tau=0.01\)

理论分析 — 后悔界¶

论文证明 ECON 的后悔界显著紧于非均衡多 Agent 方案。设 \(T\) 为总交互轮数，ECON 的后悔界为：

\[\text{Regret}(T) = \widetilde{O}(\sqrt{T})\]

而传统 MAD 方法的后悔界为 \(O(T^{2/3})\) 或更松，这从理论上解释了 ECON 更好的样本效率。

实验关键数据¶

主实验 — 六个推理与规划基准¶

方法	MATH	GSM8K	SVAMP	StrategyQA	ARC-C	CSQA	平均
Single LLM	51.2	74.8	76.5	71.3	78.2	68.9	70.2
Self-Consistency	55.8	78.3	79.4	73.1	80.5	71.2	73.1
MAD (3 agents)	56.4	79.1	80.2	74.5	81.3	72.8	74.1
MAD (5 agents)	57.1	79.8	80.9	74.2	81.0	72.5	74.3
ECON (3 agents)	63.2	85.6	86.3	80.1	87.4	78.9	80.3
ECON 相对 MAD 提升	+6.8	+6.5	+6.1	+5.6	+6.1	+6.1	+6.2

ECON 在所有基准上均显著优于 Multi-Agent Debate（MAD），平均提升 11.2%（相对于 Single LLM 基线）。

可扩展性实验¶

Agent 数量	MAD 准确率	ECON 准确率	MAD Token 消耗	ECON Token 消耗
3	74.1	80.3	12.5K	4.2K
5	74.3	82.1	28.7K	6.8K
8	73.8	83.5	52.1K	10.3K

关键发现： - MAD 在 Agent 增加到 8 时性能反而下降（73.8 < 74.3），因上下文溢出 - ECON 持续提升且 Token 消耗仅线性增长（无需 Agent 间显式通信）

消融实验¶

配置	MATH	GSM8K	平均
完整 ECON	63.2	85.6	80.3
去掉 BNE 协调	57.8	80.1	74.9
去掉 Coordinator	59.1	81.3	76.2
固定 α 权重（不学习）	61.5	83.8	78.4
去掉 \(R_{\text{CC}}\)	61.8	84.0	78.6

亮点与洞察¶

博弈论与 LLM 的深度融合：首次将多 Agent LLM 推理严格建模为不完全信息博弈并求解 BNE，为多 Agent 系统提供了坚实的理论基础
隐式信念替代显式通信：消除了 Agent 间的消息传递，Token 消耗从 \(O(n^2)\) 降至 \(O(n)\)
理论与实践的一致性：后悔界的改进在实验中得到验证——ECON 的样本效率和最终性能均显著优于 MAD
可以灵活加入新模型：新 Agent 只需独立训练信念网络即可加入，无需重新训练整个系统

局限性¶

理论分析基于较强假设（如 Agent 类型空间有限、效用函数光滑），实际 LLM 可能不完全满足
信念网络和混合器引入额外参数和训练开销，不如直接多数投票简单
当前实验主要使用开源模型 (Llama-3.3-70B)，对闭源模型（GPT-4 等）的效果未知
奖励函数中的嵌入对齐（AL/CC）依赖外部嵌入模型，增加了系统复杂度

评分¶

维度	分数 (1-5)	说明
创新性	5	博弈论+RL+多 Agent LLM 的独特融合，理论新颖
实验充分度	4	六个基准+扩展性+消融，但缺少与更多基线的比较
实用价值	3	训练复杂度较高，工程落地需权衡
写作清晰度	4	理论部分清晰，但符号较多需要反复阅读
总分	4.0	理论贡献突出的创新工作