Social Dynamics as Critical Vulnerabilities that Undermine Objective Decision-Making in LLM Collectives¶

会议: ACL2026
arXiv: 2604.06091
代码: 无公开代码
领域: LLM Agent / 多智能体决策 / AI安全评测
关键词: 多智能体系统, 社会从众, 对抗性同伴, 代表智能体, 决策鲁棒性

一句话总结¶

这篇论文证明，LLM 多智能体系统中的代表智能体不仅会受自身推理能力限制，还会被同伴数量、同伴能力、论证长度和修辞风格等“社会动力学”显著影响，从而在有客观答案的任务上做出错误决策。

研究背景与动机¶

领域现状：LLM agent 越来越常被设计成协作式系统：多个 peer agent 给出观点，representative agent 汇总信息并替用户做最终判断。这类结构在推理、代码、事实核查和工具选择中常被视为提升性能和降低单模型错误的手段。

现有痛点：一旦引入同伴意见，代表智能体就不再是孤立推理者，而是处在一个信息网络里。此前许多研究关注多智能体辩论如何形成群体共识，但较少研究“一个本来可能答对的代表智能体，是否会被错误同伴群体带偏”。

核心矛盾：多智能体协作的收益来自采纳外部观点，但风险也来自过度采纳外部观点。人类群体中有从众、权威影响、话语长度和修辞说服等社会心理现象；如果 LLM agent 也呈现类似偏差，那么“让多个 agent 讨论”不一定更可靠。

本文目标：作者希望在有客观标准答案的任务上，系统操控 peer network 的社会压力，观察代表智能体准确率如何变化，并把这种变化解释为多智能体系统的安全脆弱性。

切入角度：论文采用 representative-centric 框架：固定一个代表智能体和五个同伴智能体，同伴中一部分被设为误导性角色，给出某个错误答案及理由；代表智能体看完五个意见后输出最终答案。

核心 idea：把社会心理学中的从众、感知专业性、强势发言者效应和修辞说服操作化为可控多智能体实验变量，用准确率下降量衡量代表智能体对社会压力的脆弱性。

方法详解¶

整体框架¶

每个 trial 包含一个有客观答案的多选题、五个 peer agents 和一个 representative agent。良性同伴正常解题；误导性同伴被设置为支持某个错误选项，并给出看似合理的理由。代表智能体接收原题、候选答案和五个同伴意见，最后独立给出答案。系统用正则匹配答案选项，计算最终准确率。

论文围绕四个研究问题展开：RQ1 改变误导性同伴数量，模拟社会从众（social conformity）；RQ2 改变误导性同伴模型能力，模拟感知专业性（perceived expertise）；RQ3 改变误导性理由长度，模拟强势发言者效应（dominant speaker effect）；RQ4 改变理由风格为 Ethos、Logos、Pathos 三类，模拟修辞说服（rhetorical persuasion）。

关键设计¶

1. 代表智能体中心的实验结构：把「群体讨论失败」和「单个代表被带偏」分开看

以往多智能体研究常看整个群体能否通过讨论收敛到正确答案，但这混淆了两件事——是讨论机制本身失效，还是某个最终拍板的代表被错误同伴说服。本文刻意让五个同伴互不辩论、各自独立给出答案和理由，再由代表智能体单轮汇总后输出最终选择。这样准确率的任何变化都只能归因于「代表如何处理同伴意见」，而非多轮讨论的混合效应。之所以选这个视角，是因为真实产品里用户往往只看到一个主代理的结论，背后可能有多个子代理在喂建议；因此最终代表的鲁棒性比群体平均准确率更贴近实际风险。

2. 四类社会动力学变量：把社会心理概念翻译成可单独拧动的实验旋钮

社会从众、感知专业性、强势发言者、修辞说服这些概念本来很抽象，论文的关键是把每一个都操作化成一个能精确控制的变量。从众靠误导性同伴的数量从 0 个拧到 5 个；感知专业性靠替换误导同伴的模型大小与家族（同家族强模型 vs 异家族）；强势发言者效应靠把误导理由的篇幅从 1 句逐级拉长到 3 段；修辞说服靠在误导提示后追加 Ethos（可信度）、Logos（逻辑）、Pathos（情绪）三种风格。逻辑很直接：一个只认客观证据的代表，理应对这些与事实无关的变量不敏感；可一旦准确率随某个旋钮系统性地滑落，就说明系统里存在一条绕过事实的「社会影响通道」，而下降幅度正好量化了这条通道有多宽。

3. 跨任务与跨模型验证：让脆弱性不能赖在某个 benchmark 或某个模型头上

如果上述现象只出现在一个模型或一个数据集上，很容易被解释成提示工程的偶然产物。为此论文把同一套操控铺在三类任务上——BBQ 的社会偏见场景、MMLU-Pro 的知识推理场景、MetaTool 的工具决策场景，覆盖模型包括 Qwen2.5 7B/14B、Gemma3 12B、GPT-4o mini、GPT-4o 和 Claude 3.5 Haiku。代表智能体温度固定为 0 保证输出稳定可复现，同伴温度设为 1 让误导理由足够多样。脆弱性在这么多领域和模型上都成立，就更像是聚合式多智能体架构的系统性弱点，而不是个别配置的运气问题。

实验设置与协议¶

论文不训练任何新模型，而是一套系统性评测：所有任务 zero-shot，同伴给出答案和理由，代表智能体汇总后选定最终答案，再用正则匹配选项计算准确率。四个研究问题对应四组操控——RQ3 中同伴理由长度按 1 句、3 句、5 句、1 段、3 段逐级递增，RQ4 中在误导性同伴提示后分别附加 Ethos、Logos 或 Pathos 风格说明。

实验关键数据¶

主实验¶

RQ1 的结果最直观：当误导性同伴达到多数派 3 个时，许多模型准确率开始显著下降；5 个同伴全部误导时，一些模型几乎崩溃。

任务/代表模型	0 个误导同伴	1 个	2 个	3 个	4 个	5 个	观察
BBQ Gender ambig., Qwen2.5 7B	99.89	97.92	91.43	78.14	61.21	30.39	从第一个误导者起稳步下降
BBQ Gender ambig., Qwen2.5 14B	99.44	99.44	99.01	93.69	56.52	7.40	少数时稳健，多数后急剧崩溃
BBQ Gender ambig., Gemma3 12B	95.63	95.59	95.17	81.03	35.33	0.00	五个误导同伴下完全失败
MMLU-Pro STEM, GPT-4o	53.83	51.00	47.83	41.17	29.33	19.50	知识推理任务也受群体压力影响
MetaTool Awareness, Qwen2.5 14B	56.83	55.96	40.87	8.75	2.31	1.06	工具需求判断对错误同伴极敏感

RQ2 显示，误导性同伴越“强”越有说服力，而且同模型家族会放大影响。以 Qwen2.5 7B 作为代表智能体时，用更强模型替换误导同伴会进一步降低准确率。

设置	# Adv.	原同家族误导者	部分替换为更强同伴	全部替换为更强同伴	任务观察
BBQ Gender disambig., Rep Qwen2.5 7B	3	65.20	57.02	54.23	更强误导者持续拉低准确率
BBQ Race disambig., Rep Qwen2.5 7B	3	76.19	68.20	65.15	清晰事实也不能完全抵抗“专家”影响
BBQ Gender ambig., Rep Qwen2.5 14B	2	99.01	基本保持高位	取决于替换配置	模糊场景中高能力代表短期更稳
MMLU/MetaTool 总体趋势	1-3	弱同伴影响较小	强同伴影响增大	同家族强模型最具说服力	能力与风格接近共同作用

消融实验¶

RQ3 只放一个误导性同伴，但让它说得更长。结果说明，单个 verbose peer 也能产生接近扩大误导群体的影响。

任务/模型	1句	3句	5句	1段	3段	结论
BBQ Gender ambig., Qwen2.5 7B	97.92	97.71	96.65	95.24	93.97	模糊场景中随长度稳步下降
BBQ Gender disambig., Qwen2.5 14B	81.35	79.83	77.47	77.22	71.90	清晰事实场景也会被长论证削弱
BBQ Race disambig., Qwen2.5 14B	91.42	89.10	86.48	86.02	81.22	3 段理由带来约 10 个百分点下降
MetaTool Selection, Qwen2.5 14B	69.25	69.05	69.15	68.74	68.14	工具选择下降较小但趋势一致

RQ4 中，修辞策略的效果取决于代表模型能力和任务上下文。Qwen2.5 7B 对复杂修辞不太敏感，甚至有时把修辞当成噪声；Qwen2.5 14B 更容易受 Ethos 和 Logos 影响。在 Qwen2.5 14B 的 BBQ 模糊场景中，三类修辞能带来最高约 7 个百分点的准确率下降；在 MMLU-Pro 中，Ethos 和 Logos 在多个类别上持续降低准确率。

关键发现¶

多数派阈值非常关键：1-2 个误导者时强模型常能抵抗，3 个误导者形成多数后准确率明显下降。
感知专业性不只是模型能力大小，还与模型家族对齐有关；同家族强模型的理由更容易说服代表模型。
长理由会被代表智能体误当成更充分证据，尤其在 disambiguous BBQ 中，清晰上下文仍不能完全抵消 verbose misinformation。
更强的代表智能体并不总是更安全。它们能更好推理，也可能更能“理解”复杂修辞，从而对 Ethos/Logos 更敏感。

亮点与洞察¶

论文最有意思的地方是把多智能体安全问题从“单个恶意输入”扩展到“社交结构如何改变最终判断”。这比传统 prompt attack 更贴近 agentic workflow。
Representative-centric 设计很清楚，因为很多实际系统确实是多个子代理汇总给一个主代理，再由主代理面向用户输出。
结果提醒我们，多智能体系统里的聚合机制不能只看“多数意见”或“理由看起来更充分”，而应该显式建模来源可信度、证据独立性和事实校验。
这篇论文也提出一个反直觉：提升模型能力可能提升对复杂社会信号的敏感性，因此鲁棒性训练需要专门针对 peer influence，而不是只追求单体 benchmark 分数。

局限与展望¶

实验中的误导性同伴是显式设置的，真实系统中的错误同伴可能来自检索错误、工具失败、偏见或模型幻觉，形态会更复杂。
代表智能体只做单轮汇总，没有机会追问、请求证据或调用外部验证工具，因此结果反映的是弱聚合机制下的脆弱性。
论文主要用准确率衡量最终结果，没有深入分析代表智能体内部如何权衡 peer evidence，也没有系统比较不同聚合算法。
RQ4 的修辞策略比较粗粒度，真实说服可能混合可信度、逻辑、情绪和格式控制等因素。
后续可以研究带证据引用的聚合、同伴独立性检测、反从众校准、代表智能体的 peer-weight learning，以及多智能体系统中的异常意见隔离机制。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把社会心理学变量系统映射到 LLM collectives 很有启发，代表智能体中心视角清楚。
实验充分度: ⭐⭐⭐⭐☆ 覆盖多模型、多任务和四类变量，附录表格详尽；但缺少防御方法和更真实 agent workflow。
写作质量: ⭐⭐⭐⭐☆ 研究问题组织清晰，结果解释有洞察；部分图表需要结合附录才能看到完整数字。
价值: ⭐⭐⭐⭐⭐ 对多智能体 agent 产品、AI 代理安全和协作式推理系统设计都有直接警示意义。