Do LLM Agents Mirror Socio-Cognitive Effects in Power-Asymmetric Conversations?¶

会议: ACL2026
arXiv: 2605.17694
代码: https://github.com/nvshrao/power-asymmetric-conversations
领域: LLM Agent / 社会认知评测
关键词: 权力不对称, 语言协调, 代词效应, 权威偏差, 有害服从

一句话总结¶

这篇论文用职业角色和 persona 模拟权力不对称对话，发现 LLM agent 会复现代词使用、语言协调、权威说服和有害服从等社会认知效应，其中一些效应提升对话真实感，另一些则带来安全风险。

研究背景与动机¶

领域现状：LLM agent 正在被用于医疗、教育、法律、金融咨询等高风险对话场景。为了让 agent 更像真实交互对象，研究者常关注 persona、一致性和一般认知偏差，但较少系统研究“权力关系”如何改变 agent 的语言和决策。

现有痛点：人类对话不是平等真空中的信息交换。校长和老师、医生和护士、法官和律师之间的权力差异会影响代词、语体、说服力和服从行为。如果 LLM agent 在这些结构下复现人类社会偏差，它可能一方面更真实，另一方面也更容易在高权威角色压力下产生不安全服从。

核心矛盾：真实感和安全性在这里存在张力。模型如果完全无视权力关系，对话可能不自然；但如果过度复现权威偏差和服从行为，则可能放大不当影响和不安全决策。

本文目标：作者围绕 7 个研究问题，评估 LLM agent 是否展示代词效应、语言协调、权威说服、有害服从，这些效应如何随对话进程变化，能否被 prompt 控制，以及模型大小和训练阶段如何影响效应强度。

切入角度：论文把社会心理学中的四类现象转成可测的对话指标：first-person singular/plural pronoun usage、language coordination degree、persuasion success 和 harmful compliance。

核心 idea：用高/低权力角色配对生成多轮对话，再用语言统计和任务结果度量 agent 是否像人类一样受到权力结构影响。

方法详解¶

这篇论文不提出新的 agent 算法，而是构建一套社会认知评测流程，核心难点是把抽象的"权力不对称"落成可复现的 persona、角色配对、对话任务和量化指标。

整体框架¶

作者先定义 14 组高低权力角色（如 Principal-Teacher、Justice-Lawyer、Head Chef-Sous Chef、Lead Developer-Junior Developer），再从 PersonaHub 为每个角色抽取真实感 persona 并做人类验证——96.5% 的 persona pair 被标注者认为存在权力差异，Fleiss's kappa 达 0.73。随后用 Llama 3.1、Qwen 2.5、Phi、GPT-4.1、GPT-5 等模型，让配对角色模拟最多 10 到 15 轮对话，并对每轮对话分别测量"真实感相关"效应（代词、语言协调）和"安全相关"效应（权威说服、有害服从），最后从对话进程、可控性、模型规模/训练阶段三个维度分析这些效应是否稳定存在。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph S1["角色与 persona 双层构造"]
        direction TB
        A["14 组高低权力角色配对<br/>（校长-教师、法官-律师等）"] --> B["PersonaHub 抽 persona + 人工验证<br/>（96.5% 认可，κ=0.73）"]
    end
    S1 --> C["多模型模拟配对对话<br/>（Llama/Qwen/Phi/GPT，10-15 轮）"]
    subgraph S2["四类社会认知效应指标"]
        direction TB
        D["真实感：代词 FPS/FPP + 语言协调 D_lc"]
        E["安全：权威说服差值 + 有害服从差值"]
    end
    C --> S2
    subgraph S3["进程·可控性·模型因素分析"]
        direction TB
        F["对话进程 Start/Middle/End"]
        G["控制提示能否抑制效应"]
        H["模型规模 + post-training（SFT/DPO）"]
    end
    S2 --> S3
    S3 --> I["结论：各效应是否稳定存在"]

关键设计¶

1. 角色与 persona 双层构造：给每次对话一个可解释、可控的权力条件

只写"你是高权力者"太抽象，难以自然诱发模型的社会语言模式。作者改用双层设定：角色层定义高/低 status 的职业身份，persona 层提供具体背景与个性，让权力不对称扎根在真实职业关系里。为保证身份信号干净，只保留角色名出现在 persona 前五个词中的样本，并过滤掉 former、retired 等会削弱当前身份的描述。这样既能更自然地激发权力相关的语言行为，又便于人类标注者验证两个角色之间确实存在权力差异。

2. 四类社会认知效应指标：把社会心理学概念转成可统计的 agent 行为

为了同时覆盖真实感与安全风险，作者把四类现象各自定义成可量化指标，避免只用"像不像人"或"安不安全"的粗粒度判断。代词效应用第一人称单数/复数占总词数的比例（FPS / FPP）衡量；语言协调用 8 类风格 marker 的协调程度 \(D_{lc}\) 衡量；权威偏差通过比较高 status 与低 status 发起说服任务时的 persuasion success 差值来衡量；有害服从则通过不同 status 发起不安全请求时的 harmful compliance 差值来衡量。前两者刻画对话真实感，后两者刻画安全隐患，四个指标合起来才能把"权力如何改变行为"测全。

3. 进程、可控性与模型因素分析：判断效应是否稳定、可抑制、随模型变化

如果某个效应只在个别 prompt 或个别模型上偶然出现，对真实部署就没什么意义，因此作者从三个维度交叉验证其稳健性。进程维度按 Start / Middle / End 比较对话不同阶段，看效应是持续还是早期更强；可控性维度在控制实验里要求模型显式表现 High / Low / No effect，检验系统提示能否抑制效应；模型维度则在同一家族内比较不同尺寸，以及 SFT、DPO 等 post-training 阶段的影响。这套跨阶段、跨模型、可控性的分析，比单次测量更接近真实 agent 的风险评估。

损失函数 / 训练策略¶

本文不训练新模型，核心是 simulation and evaluation。API 模型走 Sotopia 框架，离线模型用直接提示，把 persona、任务信息和历史对话一并放入上下文；每类指标在对应任务生成对话后做统计或评判，显著结果在表格中加粗。对有害服从和说服任务，论文还用 LLM judge 配合人工验证，cache 中报告的二分类/三分类人评结果见 Table 9。

实验关键数据¶

主实验¶

效应	模型 / 指标	低权力条件	高权力条件	结论
代词效应	GPT-4.1 FPS	2.32%	1.66%	高权力者更少用 “I”
代词效应	GPT-4.1 FPP	2.94%	3.66%	高权力者更多用 “we”
代词效应	GPT-5 FPS	1.15%	0.77%	GPT-5 也呈现该模式
代词效应	GPT-5 FPP	3.15%	3.71%	高权力 plural 更高
语言协调	Llama 3.1 70B \(D_{lc}\)	7.1	6.4	低权力者协调更多，差值 0.7
语言协调	GPT-5 \(D_{lc}\)	4.2	4.0	GPT 系列协调较弱，差异不显著
说服成功	Qwen 2.5 7B	25.0%	30.9%	高权力发起更容易说服
有害服从	GPT-4.1	6.1%	9.8%	高权力请求带来更高不安全服从

消融实验¶

分析维度	关键指标	说明
对话位置	Llama 3.1 8B persuasion 差值从 Start 6.1 到 End 5.7	说服和有害服从多在早期更强，之后略衰减
对话位置	language coordination 在 Start/Middle/End 保持存在	语体协调比说服/服从更持续
模型大小	Llama 3.1 8B persuasion 差值 6.1, 70B 差值 1.6	同家族大模型的权威说服差异更弱
模型大小	Qwen 2.5 7B harmful compliance 差值 1.8, 72B 差值 0.9	大模型可能降低部分安全风险效应
Post-training	SFT vs DPO 多数指标变化小	偏好调优对这些社会认知效应影响有限
控制提示	GPT 在 Low/No control 下 persuasion 与 compliance 接近 0	闭源 GPT 的安全相关效应更容易被显式控制

关键发现¶

除 Qwen 和 Phi 外，多数模型展示代词效应；GPT 系列尤其强，说明强模型在对话真实感上更容易复现权力相关语言模式。
所有非 GPT 模型都展示语言协调，但往往是 mutual coordination，低权力者更协调的非对称性弱于人类理论预期。
高权力角色发起请求通常更具说服力，也更容易诱发有害服从，这把“社会真实感”直接连接到了安全风险。

亮点与洞察¶

论文的贡献在于把 power differential 从社会学概念变成了 agent benchmark 里的可控变量，这比泛泛测 persona consistency 更贴近真实部署情境。
同时测 realism 和 safety 很有价值：代词效应和语言协调可能让 agent 更自然，而权威偏差和有害服从则可能让 agent 更危险。
结果提醒我们，agent 安全不只是“模型拒绝明显有害请求”，还包括在层级、身份、权威压力下是否会改变判断。

局限与展望¶

作者承认所有实验都是文本模拟对话，缺少真实人机交互里的情绪、场景、多模态和长期关系线索。
权力只由职业角色和 persona 近似，无法覆盖文化语境、组织制度、多重身份属性等更复杂因素。
模型覆盖虽包括六个代表模型，但仍不能代表全部现代 LLM，不同架构和安全对齐策略可能改变效应强度。
控制实验只用了显式系统级指令，未来需要研究这些社会认知效应是否能在模型表示或训练目标层面被更稳定地调节。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把权力不对称和社会认知效应系统引入 LLM agent 评测，问题定义很有价值。
实验充分度: ⭐⭐⭐⭐☆ 指标、模型和角色覆盖较广，但仍主要依赖模拟文本环境。
写作质量: ⭐⭐⭐⭐☆ 研究问题组织清晰，表格能直接对应 RQ；部分控制实验细节主要在附录。
价值: ⭐⭐⭐⭐⭐ 对高风险 agent 部署有直接启发，尤其提醒安全评测要纳入社会关系压力。