Social Dynamics as Critical Vulnerabilities that Undermine Objective Decision-Making in LLM Collectives¶
会议: ACL2026
arXiv: 2604.06091
代码: 无公开代码
领域: LLM Agent / 多智能体决策 / AI安全评测
关键词: 多智能体系统, 社会从众, 对抗性同伴, 代表智能体, 决策鲁棒性
一句话总结¶
这篇论文证明,LLM 多智能体系统中的代表智能体不仅会受自身推理能力限制,还会被同伴数量、同伴能力、论证长度和修辞风格等“社会动力学”显著影响,从而在有客观答案的任务上做出错误决策。
研究背景与动机¶
领域现状:LLM agent 越来越常被设计成协作式系统:多个 peer agent 给出观点,representative agent 汇总信息并替用户做最终判断。这类结构在推理、代码、事实核查和工具选择中常被视为提升性能和降低单模型错误的手段。
现有痛点:一旦引入同伴意见,代表智能体就不再是孤立推理者,而是处在一个信息网络里。此前许多研究关注多智能体辩论如何形成群体共识,但较少研究“一个本来可能答对的代表智能体,是否会被错误同伴群体带偏”。
核心矛盾:多智能体协作的收益来自采纳外部观点,但风险也来自过度采纳外部观点。人类群体中有从众、权威影响、话语长度和修辞说服等社会心理现象;如果 LLM agent 也呈现类似偏差,那么“让多个 agent 讨论”不一定更可靠。
本文目标:作者希望在有客观标准答案的任务上,系统操控 peer network 的社会压力,观察代表智能体准确率如何变化,并把这种变化解释为多智能体系统的安全脆弱性。
切入角度:论文采用 representative-centric 框架:固定一个代表智能体和五个同伴智能体,同伴中一部分被设为误导性角色,给出某个错误答案及理由;代表智能体看完五个意见后输出最终答案。
核心 idea:把社会心理学中的从众、感知专业性、强势发言者效应和修辞说服操作化为可控多智能体实验变量,用准确率下降量衡量代表智能体对社会压力的脆弱性。
方法详解¶
整体框架¶
每个 trial 包含一个有客观答案的多选题、五个 peer agents 和一个 representative agent。良性同伴正常解题;误导性同伴被设置为支持某个错误选项,并给出看似合理的理由。代表智能体接收原题、候选答案和五个同伴意见,最后独立给出答案。系统用正则匹配答案选项,计算最终准确率。
论文围绕四个研究问题展开:RQ1 改变误导性同伴数量,模拟 social conformity;RQ2 改变误导性同伴模型能力,模拟 perceived expertise;RQ3 改变误导性理由长度,模拟 dominant speaker effect;RQ4 改变理由风格为 Ethos、Logos、Pathos,模拟 rhetorical persuasion。
关键设计¶
-
代表智能体中心的实验结构:
- 功能:区分“群体整体讨论失败”和“单个代表被群体影响失败”。
- 核心思路:同伴之间不进行多轮辩论,只各自给出答案和理由;代表智能体作为最终决策者汇总这些意见。这样可以直接观察 peer network 对代表个体判断的影响。
- 设计动机:真实产品中用户往往只看到一个 agent 的最终结论,背后可能有多个子代理提供建议;因此最终代表的鲁棒性比群体平均准确率更关键。
-
四类社会动力学变量:
- 功能:把抽象的社会心理概念转为可控实验条件。
- 核心思路:从众通过 0 到 5 个误导性同伴控制;感知专业性通过同伴模型大小和家族控制;强势发言者效应通过一两句到多段理由控制;修辞说服通过可信度、逻辑和情绪诉求控制。
- 设计动机:如果代表智能体只基于客观证据,应对这些社会变量相对不敏感;准确率随这些变量变化,说明系统存在非事实性影响通道。
-
跨任务与跨模型验证:
- 功能:避免结论只来自单一模型或单一数据集。
- 核心思路:任务覆盖 BBQ 的社会偏见场景、MMLU-Pro 的知识推理场景和 MetaTool 的工具决策场景;模型包括 Qwen2.5 7B/14B、Gemma3 12B、GPT-4o mini、GPT-4o 和 Claude 3.5 Haiku。代表智能体温度设为 0,同伴温度设为 1,以保证代表输出稳定、同伴理由多样。
- 设计动机:多智能体脆弱性如果跨领域和跨模型都存在,就更像系统性问题,而不是某个 benchmark 或模型提示的偶然现象。
损失函数 / 训练策略¶
论文不训练新模型,而是一个系统性评测。所有任务 zero-shot,peer agents 给出答案和理由,representative agent 汇总后选择最终答案。RQ3 中同伴理由长度从 1 句、3 句、5 句、1 段到 3 段变化;RQ4 中在误导性同伴提示后附加 Ethos、Logos 或 Pathos 风格说明。
实验关键数据¶
主实验¶
RQ1 的结果最直观:当误导性同伴达到多数派 3 个时,许多模型准确率开始显著下降;5 个同伴全部误导时,一些模型几乎崩溃。
| 任务/代表模型 | 0 个误导同伴 | 1 个 | 2 个 | 3 个 | 4 个 | 5 个 | 观察 |
|---|---|---|---|---|---|---|---|
| BBQ Gender ambig., Qwen2.5 7B | 99.89 | 97.92 | 91.43 | 78.14 | 61.21 | 30.39 | 从第一个误导者起稳步下降 |
| BBQ Gender ambig., Qwen2.5 14B | 99.44 | 99.44 | 99.01 | 93.69 | 56.52 | 7.40 | 少数时稳健,多数后急剧崩溃 |
| BBQ Gender ambig., Gemma3 12B | 95.63 | 95.59 | 95.17 | 81.03 | 35.33 | 0.00 | 五个误导同伴下完全失败 |
| MMLU-Pro STEM, GPT-4o | 53.83 | 51.00 | 47.83 | 41.17 | 29.33 | 19.50 | 知识推理任务也受群体压力影响 |
| MetaTool Awareness, Qwen2.5 14B | 56.83 | 55.96 | 40.87 | 8.75 | 2.31 | 1.06 | 工具需求判断对错误同伴极敏感 |
RQ2 显示,误导性同伴越“强”越有说服力,而且同模型家族会放大影响。以 Qwen2.5 7B 作为代表智能体时,用更强模型替换误导同伴会进一步降低准确率。
| 设置 | # Adv. | 原同家族误导者 | 部分替换为更强同伴 | 全部替换为更强同伴 | 任务观察 |
|---|---|---|---|---|---|
| BBQ Gender disambig., Rep Qwen2.5 7B | 3 | 65.20 | 57.02 | 54.23 | 更强误导者持续拉低准确率 |
| BBQ Race disambig., Rep Qwen2.5 7B | 3 | 76.19 | 68.20 | 65.15 | 清晰事实也不能完全抵抗“专家”影响 |
| BBQ Gender ambig., Rep Qwen2.5 14B | 2 | 99.01 | 基本保持高位 | 取决于替换配置 | 模糊场景中高能力代表短期更稳 |
| MMLU/MetaTool 总体趋势 | 1-3 | 弱同伴影响较小 | 强同伴影响增大 | 同家族强模型最具说服力 | 能力与风格接近共同作用 |
消融实验¶
RQ3 只放一个误导性同伴,但让它说得更长。结果说明,单个 verbose peer 也能产生接近扩大误导群体的影响。
| 任务/模型 | 1句 | 3句 | 5句 | 1段 | 3段 | 结论 |
|---|---|---|---|---|---|---|
| BBQ Gender ambig., Qwen2.5 7B | 97.92 | 97.71 | 96.65 | 95.24 | 93.97 | 模糊场景中随长度稳步下降 |
| BBQ Gender disambig., Qwen2.5 14B | 81.35 | 79.83 | 77.47 | 77.22 | 71.90 | 清晰事实场景也会被长论证削弱 |
| BBQ Race disambig., Qwen2.5 14B | 91.42 | 89.10 | 86.48 | 86.02 | 81.22 | 3 段理由带来约 10 个百分点下降 |
| MetaTool Selection, Qwen2.5 14B | 69.25 | 69.05 | 69.15 | 68.74 | 68.14 | 工具选择下降较小但趋势一致 |
RQ4 中,修辞策略的效果取决于代表模型能力和任务上下文。Qwen2.5 7B 对复杂修辞不太敏感,甚至有时把修辞当成噪声;Qwen2.5 14B 更容易受 Ethos 和 Logos 影响。在 Qwen2.5 14B 的 BBQ 模糊场景中,三类修辞能带来最高约 7 个百分点的准确率下降;在 MMLU-Pro 中,Ethos 和 Logos 在多个类别上持续降低准确率。
关键发现¶
- 多数派阈值非常关键:1-2 个误导者时强模型常能抵抗,3 个误导者形成多数后准确率明显下降。
- 感知专业性不只是模型能力大小,还与模型家族对齐有关;同家族强模型的理由更容易说服代表模型。
- 长理由会被代表智能体误当成更充分证据,尤其在 disambiguous BBQ 中,清晰上下文仍不能完全抵消 verbose misinformation。
- 更强的代表智能体并不总是更安全。它们能更好推理,也可能更能“理解”复杂修辞,从而对 Ethos/Logos 更敏感。
亮点与洞察¶
- 论文最有意思的地方是把多智能体安全问题从“单个恶意输入”扩展到“社交结构如何改变最终判断”。这比传统 prompt attack 更贴近 agentic workflow。
- Representative-centric 设计很清楚,因为很多实际系统确实是多个子代理汇总给一个主代理,再由主代理面向用户输出。
- 结果提醒我们,多智能体系统里的聚合机制不能只看“多数意见”或“理由看起来更充分”,而应该显式建模来源可信度、证据独立性和事实校验。
- 这篇论文也提出一个反直觉:提升模型能力可能提升对复杂社会信号的敏感性,因此鲁棒性训练需要专门针对 peer influence,而不是只追求单体 benchmark 分数。
局限与展望¶
- 实验中的误导性同伴是显式设置的,真实系统中的错误同伴可能来自检索错误、工具失败、偏见或模型幻觉,形态会更复杂。
- 代表智能体只做单轮汇总,没有机会追问、请求证据或调用外部验证工具,因此结果反映的是弱聚合机制下的脆弱性。
- 论文主要用准确率衡量最终结果,没有深入分析代表智能体内部如何权衡 peer evidence,也没有系统比较不同聚合算法。
- RQ4 的修辞策略比较粗粒度,真实说服可能混合可信度、逻辑、情绪和格式控制等因素。
- 后续可以研究带证据引用的聚合、同伴独立性检测、反从众校准、代表智能体的 peer-weight learning,以及多智能体系统中的异常意见隔离机制。
相关工作与启发¶
- vs 多智能体辩论: 多智能体辩论常看群体是否通过讨论达成正确答案,本文看的是错误 peer group 如何影响单个代表最终判断。
- vs 主观意见从众研究: 以往很多工作关注观点形成或主观偏好,本文使用 BBQ、MMLU-Pro 和 MetaTool 等有标准答案任务,说明从众会损害客观决策。
- vs adversarial prompt attack: 这里的攻击面不是单个输入提示,而是 peer response distribution、同伴能力和发言风格组成的社会上下文。
- 启发: 设计 agent 系统时,主代理不应简单把同伴意见拼接进上下文;需要检查同伴是否独立、是否引用证据、是否多数同源,以及长理由是否只是冗余说服。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把社会心理学变量系统映射到 LLM collectives 很有启发,代表智能体中心视角清楚。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖多模型、多任务和四类变量,附录表格详尽;但缺少防御方法和更真实 agent workflow。
- 写作质量: ⭐⭐⭐⭐☆ 研究问题组织清晰,结果解释有洞察;部分图表需要结合附录才能看到完整数字。
- 价值: ⭐⭐⭐⭐⭐ 对多智能体 agent 产品、AI 代理安全和协作式推理系统设计都有直接警示意义。