Context Learning for Multi-Agent Discussion¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=EUu8TILWpR
代码: https://github.com/HansenHua/M2CL-ICLR26
领域: 多智能体 / LLM 协作
关键词: 多智能体讨论, 上下文学习, 共识对齐, 自适应平衡, MAD

一句话总结¶

M2CL 为多智能体讨论（MAD）中的每个 LLM 学一个"上下文生成器"，让每轮的指令上下文能根据讨论进展自动组织与精炼，从而在避免"多数噪声"过早收敛的同时把多个 LLM 逐步拉向正确共识，在 9 个基准上比已有方法高出 20%–50%。

研究背景与动机¶

领域现状：多智能体讨论（Multi-Agent Discussion, MAD）让多个 LLM 实例通过结构化辩论协同解题——典型做法是给每个实例预先分配一组带"不同视角"的上下文（role/context instruction），然后让它们互相看对方上一轮的回答、多轮迭代直到达成共识（如 Debate、DyLAN、GPTSwarm、MacNet）。这种"society of mind"范式被寄望于扩大解空间、提升推理准确率。

现有痛点：作者发现现有 MAD 普遍存在讨论不一致（discussion inconsistency）——多数 LLM 实例最终无法对一个连贯的解达成一致，集体决策被噪声而非有原则的推理主导。论文用一个多步几何证明的例子（Fig. 1）说明：一个 agent 已经正确推出中间结论，另一个 agent 即便在扩展上下文里收到了这个结论，也不会把它真正吸收进自己的推理链，而是重复推导甚至给出矛盾论证。

核心矛盾：根因是上下文错配（context misalignment），体现在两端。其一，预分配的角色/上下文指令对任务理解粗糙，往往僵硬、不完整或有偏，会误导单个 LLM 的推理；其二，这些上下文对"如何融合 LLM 之间交换的信息"几乎没有指导，因而无法把讨论导向连贯的解。一句话：静态预设上下文既不会随讨论演化，也不强制"利用别人结论"。

本文目标：回答"怎样获得能持续把多 LLM 讨论引向正确共识的上下文？"。手工随讨论进度改指令既费人力又需专家知识，不现实；于是要做的是让上下文随中间讨论结果自动演化的学习机制。难点有二：（i）如何评估某个 LLM 的上下文对最终解的贡献；（ii）如何同时控制 LLM 之间（inter）和 LLM 自身跨轮（intra）输出的一致性。

核心 idea：给每个 agent 学一个上下文生成器 \(G_{\theta_i}\)，每一轮根据任务目标、自身初始指令、以及其他 LLM 上一轮回答，自动生成本轮的指令上下文；并用一套"自适应平衡机制"在"压一致"和"保多样"之间动态取舍——既不让 LLM 过早在多数噪声上收敛，也能逐步对齐到正确共识。

方法详解¶

整体框架¶

M2CL 把 MAD 的上下文从"人工预设的静态字符串"换成"可学习、逐轮生成的动态指令"。形式上，第 \(t\) 轮第 \(i\) 个 LLM 的上下文由三部分拼接而成：任务目标 \(P\)（全程不变）、其他所有 LLM 上一轮回答的拼接 \(\bar{X}^{t-1}_i\)（充当跨 LLM 交互记忆）、以及当前指令上下文 \(I^t_i\)。关键改动在第三部分：不再用静态预设角色，而是用生成器 \(I^t_i = G_{\theta_i}([P; I^b_i; \bar{X}^{t-1}_i])\) 在线产出。给定 \(C^t_i = [I^t_i, \bar{X}^{t-1}_i, P]\)，每个 LLM \(\phi_i\) 输出 \(X^t_i\)，\(T\) 轮后对末轮输出做多数投票得最终解。

方法由一条定理驱动（Theorem 4.1）。作者用注意力激活 \(a(\cdot)\) 度量上下文，证明"正确答案激活 \(a_c\) 与各上下文激活之和的总距离"被两部分上界控制：一部分是各 LLM 激活间的差异 + 偏离初始上下文的程度（要靠演化压小），另一部分只依赖初始上下文（要靠初始化做"正交、互补"）。这恰好把方法拆成两个阶段：先做上下文初始化保证视角多样、互补；再做上下文演化把分歧逐步收敛到共识。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["问题 P"] --> B["上下文初始化<br/>正交挑选 N 个互补视角"]
    B --> C["上下文生成器 G<br/>逐轮产出指令 I_i^t"]
    C --> D["各 LLM 生成回答 X_i^t"]
    D --> E["轮级贡献准则<br/>激活对齐评估每个上下文"]
    E --> F["自适应 α 的多轮演化<br/>约束优化 + 对偶梯度"]
    F -->|未达 T 轮，回灌他人回答| C
    F -->|讨论结束| G2["末轮多数投票 → 最终解"]

关键设计¶

1. 上下文初始化：用近正交的多视角指令铺好讨论的"基底"

针对"预设角色僵硬、视角重叠导致探索不足"的痛点。Theorem 4.1 的第二项 \(\min_\omega \lVert a_c - \sum_i \omega_i a(C^b_i)\rVert\) 只取决于初始上下文，意味着若各初始激活相互正交，它们就构成一组能更好逼近正确激活的"基"。于是初始化被写成：从一个含多种视角提示的候选池里，挑出一组 \(I^b\)，使它们激活的线性组合最能重构目标激活 \(a_c\)（Eq. 7）——因为激活矩阵维度远大于所选上下文数 \(N\)，"最优重构"自然会逼出一组近正交、非冗余的方向。

但 \(a_c\) 在初始化时不可得。作者把激活投影到一个潜空间 \(f(\cdot)\)，并用"问题句向量 \(v_P\)"近似目标（Eq. 9–10）：拿"答案 \(A\) + 问题 \(P\)"的激活当作 \(a_c\) 来训练投影 \(f\)。为避免每次都要算全池上下文激活的高开销，再蒸馏一个轻量映射 \(F(\cdot)\) 直接把 \([I^b_i; P]\) 投到问题空间（Eq. 11–12）。最终初始化既保留了正交性、给出互补视角，又足够高效。

2. 轮级贡献准则：用激活对齐衡量每条上下文的真实贡献

针对"如何评估上下文贡献"这个难点。只在末轮给效用会因稀疏导致训练低效不稳；只用"答案是否正确"当唯一标准又会冤枉那些自己没答对、却给了别人关键启发的 LLM。作者提出一个轮级（round-wise）准则（Eq. 13）：\(\max_{j\in[N]} \{-\alpha\lVert C^t_i - C^b_i\rVert - \lVert a(C^t_i) - a(C^t_j)\rVert\}\)，第一项保住初始化赋予的解题能力（别跑太远），第二项用激活差异鼓励 LLM 之间对齐。去掉第二项就退化成普通 prompt engineering 的固定指令，正是不一致的来源。

直接用 Eq. 13 需要其他所有 LLM 的上下文，而它们也在同时被优化，用"过时快照"会引入有偏效用。作者据此解耦依赖，设计一个逐 LLM 的替代准则（Eq. 14）：\(-\alpha\lVert C^t_i - C^b_i\rVert - \lVert a([I^t_i,P]) - a([X^{t-1}_i,P])\rVert\)，第二项强制"本轮指令"与"自己上一轮回答"在时间上保持连贯。论文证明（Lemma C.1）它对所有 LLM 求和是 Eq. 13 求和的上界——也就是说，每个 LLM 各自做"时间连贯"的演化，集体效果就是分歧逐轮收缩、最终答案趋于一致，而无需直接互看对方上下文。

3. 自适应 α 的多轮演化：在"压一致"与"保多样"之间动态平衡

针对"权重 \(\alpha\) 难手调、易过早共识"的问题。把多轮目标（Eq. 15）按累积贡献写开后，作者把"上下文相对初始的调整幅度 \(\lVert C^t_i - C^b_i\rVert \le \beta\)"当作约束，转成约束优化问题（Eq. 16），再取对偶：对偶恰好恢复 Eq. 15，且给出对偶变量 \(\alpha\) 的自动更新规则，可用近似对偶梯度下降交替更新 \(L(\theta_i)\) 与 \(L(\alpha_i)\)（Eq. 17）。

\(\alpha\) 因此变成自适应的：讨论早期各方答案差异大，\(\alpha\) 快速下降、放松"贴近初始上下文"的约束，引导生成器把上下文推向更快收敛到统一解；当 LLM 逐渐达成一致后，\(\alpha\) 维持在某一水平，防止过早共识、转而保留多视角、挖掘细微差异，支撑出更丰富全面的终解。这一机制正是论文标题里"self-adaptive"的落点，也是它能避开"多数噪声"陷阱的关键。

损失函数 / 训练策略¶

核心训练是 Eq. 17 的交替对偶梯度：\(L(\theta_i) = \lVert a(G_{\theta_i}(P,I^b_i,\bar{X}^{t-1}_i)) - a(X^{t-1}_i)\rVert + \alpha\lVert C^t_i - C^b_i\rVert\) 更新生成器，\(L(\alpha_i) = \alpha_i(\beta - \lVert G_{\theta_i}(\cdot) - C^b_i\rVert)\) 更新对偶变量。初始化阶段另有投影损失 Eq. 10（训练 \(f\)）与蒸馏损失 Eq. 11（训练轻量 \(F\)）。完整伪代码在附录 F.4。

实验关键数据¶

主实验¶

覆盖 3 类共 9 个数据集：LLM 推理（MMLU / MATH / GPQA / HumanEval-Code）、具身智能体（ALFWorld / SciWorld / GAIA / PDDL）、移动 GUI（AndroidWorld）。基线含 Single、Best-of-N、Debate、DyLAN、GPTSwarm、MacNet；base 模型用 Qwen-2.5（7B/14B/72B）与 Llama-2，GUI 用 Qwen2.5-VL。下表为 4 个 LLM、Qwen 系列的部分准确率（%）：

配置	方法	MMLU	MATH	GPQA	Code	GAIA	PDDL
Qwen-7B	BoN	74.2	24.9	36.4	62.5	21.1	26.3
Qwen-7B	DyLAN	74.3	26.7	35.4	63.4	18.4	23.4
Qwen-7B	M2CL	92.5	47.8	66.1	80.3	33.6	34.7
Qwen-72B	DyLAN	91.5	63.1	51.6	80.4	40.4	45.5
Qwen-72B	MacNet	83.8	52.9	46.2	70.5	46.4	53.7
Qwen-72B	M2CL	95.1	72.5	78.9	90.7	67.2	70.5

M2CL 在全部 9 个数据集上稳定领先，GPQA / GAIA / PDDL 这类复杂多轮任务提升尤其大（Qwen-72B 上 GPQA +33.0、GAIA +26.0）。一个值得注意的现象：BoN 反而强于多数 MAD 基线，说明固定上下文虽扩大探索空间却无法收敛，阻碍真正的协同推理。

消融实验¶

配置	现象	说明
Full M2CL	最优	完整方法
w/o 上下文初始化	明显掉点	LLM 难以分化与协调，缺少高影响力初始上下文
w/o 调 α	掉点	首轮即达成一致，回答缺创造性与多样性
w/o 上下文演化	掉点	缺协作指导，无法有效利用他人输出

关键发现¶

效率高：性能提升 >20% 的同时运行时开销 <10%（Fig. 3），得益于轻量上下文生成器。
更好的 MAD scaling law：agent 数从 4 扩到 64，M2CL 性能随对数增长且比基线更快饱和前提升（Fig. 4）。
约束 β 有甜点：\(\beta\) 太小上下文贴近初始 → 讨论不一致；太大 → 朴素一致、答案趋同、缺创造力；中间值最好。
分歧强度更快收敛：M2CL 的 discrepancy intensity \(\max_{i,j}\lVert a_i - a_j\rVert_2\) 随轮次下降比其他方法更快，印证它确实在把多 LLM 拉向一致。
可迁移：训练好的上下文生成器直接迁到更强 LLM 仍带来一致提升，无需重训。

亮点与洞察¶

把"上下文"从静态字符串重定义为可学习的动态对象：用一个生成器逐轮产出指令，这一视角本身就把 MAD 的瓶颈从"提示工程"挪到了"上下文学习"，迁移性强。
用激活（attention activation）而非 token embedding 度量一致性：激活捕捉模型内部推理过程的深层表示，对表面语言变体更鲁棒，是贡献准则能 work 的关键技术选择。
逐 LLM 上界替代全局准则（Eq. 14 替 Eq. 13）很巧：把"互看他人上下文"的强耦合，换成"自己跨轮时间连贯"的局部约束，并证明它是全局目标的上界——既避开了过时快照的偏差，又把分布式优化变得可解。
自适应 α 直接来自约束优化的对偶：α 不是又一个要手调的超参，而是对偶变量、有明确更新规则，工程上省心、理论上自洽。

局限与展望¶

作者承认：MAD 的多样性靠"堆数量不同特性的 LLM"获得，计算上低效；未来希望让 LLM 真正捕捉自己擅长/感兴趣的子任务，而非靠数量取胜。
自评补充：整套方法依赖对注意力激活的访问与可微操作（投影、对齐项），对纯黑盒 API 模型不直接适用；激活距离作为一致性代理的最优性也建立在 La-smooth 等假设上。
伦理层面论文也提到：上下文初始化引入的偏见或共识构建中的错误可能被放大，在法律/金融/医疗等高风险场景需谨慎。
可改进方向：把"逐 LLM 时间连贯"准则与显式的角色专长建模结合，或在 β/α 之外引入任务难度感知的约束调度。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 MAD 不一致归因于上下文错配，并用"逐 agent 上下文生成器 + 对偶自适应平衡"系统性求解，理论与方法都新。
实验充分度: ⭐⭐⭐⭐⭐ 3 类 9 数据集、多 base 模型与多尺寸、scaling/效率/迁移/消融齐全。
写作质量: ⭐⭐⭐⭐ 动机—定理—两阶段方法的主线清晰，但激活/对偶推导较密，需结合附录。
价值: ⭐⭐⭐⭐⭐ 20%–50% 的提升 + <10% 开销 + 可迁移，对多智能体协作落地有直接参考价值。