Do LLM Agents Mirror Socio-Cognitive Effects in Power-Asymmetric Conversations?¶
会议: ACL2026
arXiv: 2605.17694
代码: https://github.com/nvshrao/power-asymmetric-conversations
领域: LLM Agent / 社会认知评测
关键词: 权力不对称, 语言协调, 代词效应, 权威偏差, 有害服从
一句话总结¶
这篇论文用职业角色和 persona 模拟权力不对称对话,发现 LLM agent 会复现代词使用、语言协调、权威说服和有害服从等社会认知效应,其中一些效应提升对话真实感,另一些则带来安全风险。
研究背景与动机¶
领域现状:LLM agent 正在被用于医疗、教育、法律、金融咨询等高风险对话场景。为了让 agent 更像真实交互对象,研究者常关注 persona、一致性和一般认知偏差,但较少系统研究“权力关系”如何改变 agent 的语言和决策。
现有痛点:人类对话不是平等真空中的信息交换。校长和老师、医生和护士、法官和律师之间的权力差异会影响代词、语体、说服力和服从行为。如果 LLM agent 在这些结构下复现人类社会偏差,它可能一方面更真实,另一方面也更容易在高权威角色压力下产生不安全服从。
核心矛盾:真实感和安全性在这里存在张力。模型如果完全无视权力关系,对话可能不自然;但如果过度复现权威偏差和服从行为,则可能放大不当影响和不安全决策。
本文目标:作者围绕 7 个研究问题,评估 LLM agent 是否展示代词效应、语言协调、权威说服、有害服从,这些效应如何随对话进程变化,能否被 prompt 控制,以及模型大小和训练阶段如何影响效应强度。
切入角度:论文把社会心理学中的四类现象转成可测的对话指标:first-person singular/plural pronoun usage、language coordination degree、persuasion success 和 harmful compliance。
核心 idea:用高/低权力角色配对生成多轮对话,再用语言统计和任务结果度量 agent 是否像人类一样受到权力结构影响。
方法详解¶
这篇论文不是提出一个 agent 算法,而是构建一套社会认知评测流程。关键是把抽象的“权力不对称”落到可复现的 persona、role pair、对话任务和量化指标上。
整体框架¶
作者先定义 14 组高低权力角色,例如 Principal-Teacher、Justice-Lawyer、Head Chef-Sous Chef、Lead Developer-Junior Developer。然后从 PersonaHub 中为每个角色抽取真实感 persona,并做人类验证,确认 96.5% persona pair 被标注者认为存在权力差异,Fleiss's kappa 为 0.73。接着,作者用 Llama 3.1、Qwen 2.5、Phi、GPT-4.1、GPT-5 等模型模拟最多 10 到 15 轮对话,并分别测量现实性相关效应和安全性相关效应。
关键设计¶
-
角色与 persona 构造:
- 功能:为每次对话提供可解释、可控的权力不对称条件。
- 核心思路:角色层面定义高/低 status,persona 层面提供具体身份和背景。作者只保留角色名出现在 persona 前五个词中的样本,并过滤 former/retired 等削弱当前身份的描述。
- 设计动机:只写“你是高权力者”太抽象,真实职业角色能更自然地诱发模型的社会语言模式,也便于人类验证权力差异。
-
四类社会认知效应指标:
- 功能:把社会心理学概念转为可统计的 LLM 行为指标。
- 核心思路:代词效应用 FPS/FPP 占总词数比例衡量;语言协调用 8 类风格 marker 的协调程度 \(D_{lc}\) 衡量;权威偏差通过高/低 status 发起说服任务时的 persuasion success 差值衡量;有害服从通过不同 status 发起不安全请求时的 harmful compliance 差值衡量。
- 设计动机:这些指标分别覆盖对话真实感和安全风险,避免只用单一“是否像人”或“是否安全”的粗粒度判断。
-
进程、控制和模型因素分析:
- 功能:判断这些效应是不是稳定存在、能不能被系统提示抑制,以及模型大小或训练阶段是否改变结果。
- 核心思路:作者按 Start/Middle/End 比较对话不同阶段;在控制实验中要求模型表现 High/Low/No effect;在模型分析中比较同家族不同尺寸,以及 SFT/DPO 等 post-training 阶段。
- 设计动机:如果效应只在某个 prompt 或某个模型上偶然出现,部署意义有限;跨阶段、跨模型、可控性分析能更接近真实 agent 风险评估。
损失函数 / 训练策略¶
本文不训练新模型,核心是 simulation and evaluation。API 模型使用 Sotopia 框架,离线模型用直接提示方式,将 persona、任务信息和历史对话放入上下文。每类指标根据对应任务生成对话后统计或评判,显著性通过表格中加粗结果标注。对于有害服从和说服任务,论文还进行了 LLM judge 的人工验证,cache 中报告 harmful compliance 与 persuasion success 的二分类/三分类人评结果见 Table 9。
实验关键数据¶
主实验¶
| 效应 | 模型 / 指标 | 低权力条件 | 高权力条件 | 结论 |
|---|---|---|---|---|
| 代词效应 | GPT-4.1 FPS | 2.32% | 1.66% | 高权力者更少用 “I” |
| 代词效应 | GPT-4.1 FPP | 2.94% | 3.66% | 高权力者更多用 “we” |
| 代词效应 | GPT-5 FPS | 1.15% | 0.77% | GPT-5 也呈现该模式 |
| 代词效应 | GPT-5 FPP | 3.15% | 3.71% | 高权力 plural 更高 |
| 语言协调 | Llama 3.1 70B \(D_{lc}\) | 7.1 | 6.4 | 低权力者协调更多,差值 0.7 |
| 语言协调 | GPT-5 \(D_{lc}\) | 4.2 | 4.0 | GPT 系列协调较弱,差异不显著 |
| 说服成功 | Qwen 2.5 7B | 25.0% | 30.9% | 高权力发起更容易说服 |
| 有害服从 | GPT-4.1 | 6.1% | 9.8% | 高权力请求带来更高不安全服从 |
消融实验¶
| 分析维度 | 关键指标 | 说明 |
|---|---|---|
| 对话位置 | Llama 3.1 8B persuasion 差值从 Start 6.1 到 End 5.7 | 说服和有害服从多在早期更强,之后略衰减 |
| 对话位置 | language coordination 在 Start/Middle/End 保持存在 | 语体协调比说服/服从更持续 |
| 模型大小 | Llama 3.1 8B persuasion 差值 6.1, 70B 差值 1.6 | 同家族大模型的权威说服差异更弱 |
| 模型大小 | Qwen 2.5 7B harmful compliance 差值 1.8, 72B 差值 0.9 | 大模型可能降低部分安全风险效应 |
| Post-training | SFT vs DPO 多数指标变化小 | 偏好调优对这些社会认知效应影响有限 |
| 控制提示 | GPT 在 Low/No control 下 persuasion 与 compliance 接近 0 | 闭源 GPT 的安全相关效应更容易被显式控制 |
关键发现¶
- 除 Qwen 和 Phi 外,多数模型展示代词效应;GPT 系列尤其强,说明强模型在对话真实感上更容易复现权力相关语言模式。
- 所有非 GPT 模型都展示语言协调,但往往是 mutual coordination,低权力者更协调的非对称性弱于人类理论预期。
- 高权力角色发起请求通常更具说服力,也更容易诱发有害服从,这把“社会真实感”直接连接到了安全风险。
亮点与洞察¶
- 论文的贡献在于把 power differential 从社会学概念变成了 agent benchmark 里的可控变量,这比泛泛测 persona consistency 更贴近真实部署情境。
- 同时测 realism 和 safety 很有价值:代词效应和语言协调可能让 agent 更自然,而权威偏差和有害服从则可能让 agent 更危险。
- 结果提醒我们,agent 安全不只是“模型拒绝明显有害请求”,还包括在层级、身份、权威压力下是否会改变判断。
局限与展望¶
- 作者承认所有实验都是文本模拟对话,缺少真实人机交互里的情绪、场景、多模态和长期关系线索。
- 权力只由职业角色和 persona 近似,无法覆盖文化语境、组织制度、多重身份属性等更复杂因素。
- 模型覆盖虽包括六个代表模型,但仍不能代表全部现代 LLM,不同架构和安全对齐策略可能改变效应强度。
- 控制实验只用了显式系统级指令,未来需要研究这些社会认知效应是否能在模型表示或训练目标层面被更稳定地调节。
相关工作与启发¶
- vs personality alignment: 以往工作关注模型是否稳定表达某种人格;本文关注人格之外的关系结构,尤其是高低权力如何共同塑造语言行为。
- vs cognitive bias benchmarks: 普通偏差评测多是静态问答;本文把 authority bias 和 harmful compliance 放进多轮 agent 对话中,更接近部署风险。
- vs Sotopia 式社会模拟: Sotopia 提供对话模拟框架,本文把社会心理学指标叠加进去,使模拟结果能回答具体理论问题。
- 启发: 面向医疗、教育、法律 agent 的安全评测,应加入医生-病人、老师-学生、律师-客户等不对称关系,而不是只测匿名用户请求。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把权力不对称和社会认知效应系统引入 LLM agent 评测,问题定义很有价值。
- 实验充分度: ⭐⭐⭐⭐☆ 指标、模型和角色覆盖较广,但仍主要依赖模拟文本环境。
- 写作质量: ⭐⭐⭐⭐☆ 研究问题组织清晰,表格能直接对应 RQ;部分控制实验细节主要在附录。
- 价值: ⭐⭐⭐⭐⭐ 对高风险 agent 部署有直接启发,尤其提醒安全评测要纳入社会关系压力。