Multi-Agent Teams Hold Experts Back: 自组织 LLM 团队为什么留不住「专家」¶

会议: ICML 2026
arXiv: 2602.01011
代码: https://github.com/apappu97/multi-agent-teams-hold-experts-back
领域: 多 Agent / LLM 协作 / 组织心理学
关键词: 多智能体, 自组织团队, 专家利用, 共识倾向, 对齐副作用

一句话总结¶

本文借组织心理学的「强协同」标准（团队 ≥ 最强个体）系统评估自组织异质 LLM 团队，发现即便明确告知谁是专家，团队在前沿 ML 基准上仍比专家差 6.3%–41.1%，根因不是认不出专家，而是不肯让专家说了算——LLM 倾向「中间立场式整合」而非「认知让渡」，团队规模越大稀释越严重，而这套共识机制反过来让团队对对抗性成员异常稳健。

研究背景与动机¶

领域现状：多智能体 LLM 系统正在被部署到代码、研究、决策辅助等开放任务里。已有工作主要靠提前设计角色（MetaGPT）、固定通信图（GPTSwarm/AFlow）或学习路由（AgentNet）等外部协调机制来保证团队性能，相当于把答案提前编入协议。

现有痛点：真实场景里协调常常没法预先指定，必须在交互中涌现。当不同前沿模型有真正的「差异化优势」时——比如 GPT-5 强在 MMLU、Claude 强在 GPQA——一个无角色、无预设流程的 LLM 团队能不能像人类团队那样识别并利用这种差异？过去工作要么用同模型副本（伪异质），要么用预设角色（外部强加），从没把「自组织 + 真异质 + 强协同」这三件事放一起。

核心矛盾：组织心理学告诉我们，当专家身份被揭示时人类团队能达到强协同；但 LLM 经过 RLHF 对齐被训成「随和、爱共识」的，这与「识别专家后让渡判断」存在天然冲突。我们既需要团队稳健抗噪，又需要团队让专家最终拍板，这两件事可能根本是同一机制的两面。

本文目标：在无角色无流程的自组织设置下回答三个问题——RQ1：团队能否达到强协同（match 最强个体）？RQ2：如果不能，瓶颈是「认出专家」还是「采用专家观点」？RQ3：哪些团队动力学因素与失败相关？

切入角度：把组织心理学的经典实验（NASA Moon Survival, Lost at Sea, Student Body President）和现代 ML 基准（MMLU Pro/GPQA/SimpleQA/HLE/MATH-500）配套使用，前者可控、后者真实；用 GEPA 优化「告知专家身份」的提示词，把「不会写提示」这个混杂因素去掉，再把团队失败拆成「识别 gap」和「利用 gap」。

核心 idea：用「Reveal Expert」消融把识别能力打满，看团队还差多少；用对话标注（认知让渡 ED / 整合妥协 IC / 战略坚持 SP / 认知灵活 EF）把对话级机制和强协同 gap 做相关分析；再用对抗实验测共识倾向是否带来稳健性。

方法详解¶

整体框架¶

这是一篇评估性论文，要回答的不是「怎么设计更好的团队」，而是「无角色、无预设流程的自组织 LLM 团队，到底能不能利用成员间真正的能力差异」。整套实验围绕「专家分布 × 信息条件」两个轴展开：专家分布分「集中型」（一人独握 ground-truth 信息）和「分布式」（信息互斥地分给多人）；信息条件有 No Information（控制）/ Expert Not Mentioned（专家存在但身份隐藏）/ Reveal Expert（明示谁是专家）/ Best Individual（专家单独作答）四种。所有实验默认 4 agent × 4 轮讨论、最终取讨论后的多数投票，再用相对协同 gap 公式 \((\max_t f(\{a_t\}) - f(\{a_1,\dots,a_T\})) / \max_t f(\{a_t\})\) 把不同任务的结果标准化到同一尺度上比较。

关键设计¶

1. 把协同 gap 拆成「识别」与「利用」两段：定位瓶颈到底在哪

以往多智能体工作只比较「团队 vs 成员平均」（弱协同），团队哪怕比最强成员差也看不出来，更分不清失败是因为认不出专家、还是认出了却不肯用。本文把整段 gap 显式切成两半：Identification Gap = \(f(\text{Expert Not Mentioned}) - f(\text{Reveal Expert})\)，衡量「点名专家」能带来多大提升；Leveraging Gap = \(f(\text{Reveal Expert}) - f(\text{Best Individual})\)，衡量「点了名之后团队离专家单干还差多少」。如果 Reveal 之后团队几乎不进步、却仍明显落后于单独作答的专家，瓶颈就锁定在利用而非识别。为了不让结论被「提示词没写好」污染，Reveal Expert 的提示还用 GEPA 自动优化过，把提示工程这个混杂因素从因果链里剥掉。

2. 给对话轮打四类行为标签，做频次—gap 相关分析：从机制而非结果上解释失败

光看输出对错说不清团队「为什么」输，于是本文把每一轮发言按行为编码，理论依据来自哲学权威论的 preemption thesis 和谈判理论。非专家的发言分两类——「认知让渡 ED」指直接接受专家观点，「整合妥协 IC」指提一个折中的中间立场；专家的发言也分两类——「战略坚持 SP」指不让步，「认知灵活 EF」指反过来迎合非专家。标注用 Gemini 3.0 Pro 自动完成，再由两名人类校验 50 段对话、达成 94% 一致作为可信度背书。最后把每类行为的出现频次与协同 gap 做 Pearson 相关，第一次定量地把「过度妥协」指认成 LLM 团队失败的内生机制，而不是偶发噪声。

3. 团队规模 × 对抗成员双消融：验证共识倾向同时「稀释专家」与「过滤对抗」是同一回事

如果失败真源于一种「往中间平均」的共识倾向，那它应当有两个可观测后果，本文用一组对照实验同时检验。一边固定 4 轮讨论、把团队规模设成 2/4/8，看协同 gap 是否随人数上升——结论是所有任务都显著正相关（\(p < 0.05\)），且在 Reveal Expert 条件下依旧成立，人越多专家声音被摊得越薄。另一边插入一名被明确指示「给最差排序、破坏团队」的对抗成员，看团队会不会被带偏——结论是几乎不受影响。两个看似无关的现象在同一机制下得到统一解释：共识平均既稀释专家、也稀释对抗，于是「失败」和「鲁棒」其实是一枚硬币的两面，而非「失败必然伴随脆弱」。

评估指标¶

跨两类任务用两套度量。人类心理学任务用 L1 排序误差衡量团队排序与标准答案的距离；ML 基准则引入 At Least One Correct（ALOC）上界——假如团队每道题都能让那个答对的成员说了算，所能达到的准确率。把团队成绩与 ALOC 之间的 gap 当作「若完美利用专家还能再涨多少」的硬性天花板度量。

实验关键数据¶

主实验：前沿 ML 基准上的相对协同 gap¶

基准	CoT+多数投票	Debate (Reveal)	Opt-Out (Reveal)	Team (No Mention)	Team (Reveal)	Best Ind.	ALOC	相对协同 gap
MMLU Pro	83.0%	86.0%	88.0%	86.0%	86.0%	86.5%	91.8%	6.3%
GPQA Diamond	73.0%	83.0%	81.0%	76.0%	83.0%	78.0%	88.8%	14.4%
SimpleQA	44.0%	53.0%	56.0%	51.0%	60.0%	52.0%	62.3%	18.1%
HLE Text-Only	14.0%	23.0%	31.0%	28.0%	36.0%	29.0%	47.5%	41.1%
MATH-500	61.0%	75.0%	73.0%	63.0%	75.0%	73.5%	79.0%	20.3%

注：所有 Reveal Expert 提示词都用 GEPA 自动优化过；任何一种协调协议（CoT+MV、Debate、Opt-Out、Team Discussion）都达不到 ALOC 上界。

消融：人类心理学任务上的相对协同 gap¶

任务	集中-Not Mentioned	集中-Reveal	分布-Not Mentioned	分布-Reveal
NASA Moon Survival	78.7%	81.8%	113.4%	110.1%
Lost at Sea	55.6%	58.6%	50.1%	42.1%
Student Body President	98.7%	73.5%	66.0%	17.3%

Reveal 之后多数任务 gap 几乎不变，说明瓶颈在 leveraging 而非 identification。

关键发现¶

HLE Text-Only 上 41.1% 的协同 gap：哪怕用最强提示告知专家身份，团队仍把潜在 47.5% 的 ALOC 准确率打到 36%——专家利用失败可以吞掉模型 1/4 的有效能力。
对话级因果：整合妥协 IC 与协同 gap 强正相关（NASA \(r=0.55\), \(p<0.001\)；SBP \(r=0.69\), \(p<0.001\)），认知让渡 ED 强负相关（NASA \(r=-0.44\)；SBP \(r=-0.68\)）。即「妥协越多，越打不过专家」。
规模放大稀释：团队从 2 人扩到 8 人，所有任务下协同 gap 都随规模显著上升（\(p<0.05\)），且 Reveal Expert 条件下仍然成立。
对抗鲁棒副产物：放一名故意给最差答案的破坏者，团队性能几乎不掉——同一个稀释专家的机制也把对抗信号一并过滤。

亮点与洞察¶

强协同 vs 弱协同的清晰区分：把组织心理学的「team ≥ best member」作为 LLM 协作的硬标准，比起「团队比单 agent 好」的弱标准更能暴露真实差距。
「识别 ≠ 利用」是关键洞察：以前多智能体研究默认提示工程问题，本文用 GEPA 优化提示后差距仍在，明确把责任推给「对齐让模型不肯让位」。
稳健性与失败的同根性：把对齐副作用同时解释「过度共识」和「抗对抗」，为后续训练目标指出了真正的两难——能不能保住对抗稳健的同时学会场景式让位？
可迁移评测框架：开源 teamwork harness 让任何团队组合都能跑「强协同 gap」，给多智能体社区一个对齐失败的标准化体温计。

局限与展望¶

对齐归因仅相关：「共识倾向源于 RLHF」是假设而非因果，未对比 base vs aligned 模型，未来需要消融训练阶段。
任务集仍偏窄：5 个 ML 基准 + 3 个心理学任务尚不足以覆盖代码合作、长程规划、工具调用等真实多智能体场景。
未涉及结构化协议设计：本文只测了「无角色、自组织」这极端一端；如何在自组织和预设角色之间找到甜点，仍未给方案。
专家身份的真实性：ML 基准里「专家」按题级最强模型定义，但具体题面上谁是专家是动态的，模型识别这种条件型专家本身就是难题，对结果解读要谨慎。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一次用组织心理学的强协同标准 + 「识别 / 利用」分解 + 对话级行为编码，给 LLM 多智能体协作做了系统性「为什么不行」的分析。
实验充分度: ⭐⭐⭐⭐⭐ 双轨任务集、四类信息条件、三种规模、对抗扰动、对话标注 + 94% 人类校验，每个声明都对应消融。
写作质量: ⭐⭐⭐⭐⭐ 研究问题、实验设计、结论一一对应，开源 harness 复现门槛低。
价值: ⭐⭐⭐⭐⭐ 对多智能体系统设计是当头棒喝：在专家差异化场景下默认会比最强单体差，且这是对齐的副作用而非提示工程问题，必须从训练侧而非编排侧解决。