ICLR 2026 LLM安全人机团队对抗 AI 信任动力学模型基强化学习影响力分配 LLM 代理

Learning to Lie: Adversarial Attacks on Human-AI Teams and LLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Lqt5weP0Gr
代码: 待确认
领域: LLM 安全 / 人机协作 / 对抗攻击
关键词: 人机团队, 对抗 AI, 信任动力学, 模型基强化学习, 影响力分配, LLM 代理

一句话总结¶

本文设计了一个由真人三人 + 一个 AI 助手组成的智力游戏实验范式，让 AI 助手暗中变成"会学习撒谎"的对手——它用模型基强化学习（MBRL）预测人类信任的演化并择机欺骗，结果证明无论真人团队还是 LLM 团队都会被这种基于信任的攻击显著拖垮战绩。

研究背景与动机¶

领域现状：AI 助手正快速进入医疗、司法等安全攸关场景，人们越来越担心被对抗性破坏的 AI 会利用人类的认知偏差（如自动化偏见）来达成恶意目标。已有大量研究关注"单人 + 单 AI"的二元团队，但三人及以上的小团队决策动力学几乎无人研究。
现有痛点：过去的人机攻防工作大多停留在"AI 变坏后信任会下降"这种现象描述，缺少一个会主动学习人类信任规律、并据此设计欺骗策略的攻击者；也没人系统比较 LLM 代理在对抗环境下是否和人一样脆弱。
核心矛盾：要研究攻击就得先理解并建模人类的信任/影响力演化，但人类行为数据稀少、昂贵、且高度多变——能不能用很少的交互数据就预测出影响力分配，并把它喂给 RL 攻击者？
本文目标：建立一个可量化的人机团队对抗实验范式，设计能真实降低团队表现的攻击者，并检验 LLM 是否可作为人类代理、是否同样易受攻击。
核心 idea：用 MBRL 把"撒谎"变成一个决策问题——攻击者内置一个信任演化模型（认知模型或数据驱动 MLP），在 25 轮游戏的后 15 轮里通过动态规划规划"何时撒谎、怎么撒谎"，在最大化对团队的伤害与最小化自身信任损失之间权衡。

方法详解¶

整体框架¶

实验设三阶段的 AI 智能体：前 10 轮 AI 以固定 75% 准确率正常协作建立基线，后 15 轮切换为对抗攻击者。攻击者把欺骗建模成一个马尔可夫决策过程，内核是一个预测人类"影响力分配矩阵"的信任演化模型（两种可选：基于认知心理学的可解释模型，或基于数据的 MLP），再用 MBRL 在规划时域内搜索能最大化团队损害的撒谎序列。

flowchart LR
    A[游戏状态<br/>各人对错历史/当前轮次] --> B{信任演化模型}
    B -->|认知模型 Eq.2| C[预测影响力矩阵 A_cog]
    B -->|数据驱动 MLP| D[预测影响力矩阵 A_MLP]
    C --> E[MBRL 规划<br/>动态规划/5步前瞻]
    D --> E
    E --> F{是否撒谎 + 如何撒谎}
    F --> G[人类/LLM 团队<br/>分配影响力点]
    G --> A

关键设计¶

1. 智力游戏实验范式：把信任量化成"影响力点" 三名真人组队答 25 轮智力题，每轮分四个阶段：先讨论选难度（难题高分，构成风险-收益权衡），各自作答，再看到 AI 给出的答案后讨论并给彼此和 AI 分配"影响力点"，最后揭晓得分与正确答案。团队得分由影响力矩阵 \(A \in \mathbb{R}^{3\times4}\) 与正确性向量 \(p \in \{0,1\}^4\) 决定：\(\text{Score} = \mathbf{1}^\top A p\)。这套打分让"准确评估队友"成为最优策略，从而把抽象的信任落地成可观测、可建模的数值，构成整套研究的数据底座（共采集 25 队 75 人）。

2. 双信任演化模型：可解释认知模型 vs. 数据驱动 MLP 认知模型承袭 Guo & Yang (2021) 的信任理论，但把随机的 Beta 分布简化成确定性均值，得到对智能体 \(j\) 在第 \(k{+}1\) 轮的信任：

\[t^{(k+1)}_j = \frac{\alpha + n^{(k)}_j}{\beta + n^{(k)}_j} + w_f\left(k - n^{(k)}_j\right)\]

其中 \(n^{(k)}_j\) 是观测到的成功次数，\(\alpha,\beta\) 是把信任拉向基线 \(\alpha/\beta\) 的平滑因子，\(w_f\) 是失败敏感度。它胜在可解释、能体现已知的认知心理学假设。数据驱动模型则用一个 MLP 拟合影响力矩阵，输入为轮次号、人与 AI 的当前表现、以及最近 5 轮的平均表现窗口（呼应工作记忆研究并便于接入 RL）。两者形成"可解释但略弱"与"黑箱但更准"的对照。

3. MBRL 攻击者：把欺骗写进奖励函数 攻击被形式化为 MDP \((S,A,T,R,\gamma)\)，因时域短设 \(\gamma=1\)，动作空间二元（AI 答对=1/答错=0）。奖励的精髓在于鼓励"有破坏力的谎言"：对可解释的认知模型，按攻击对团队表现的负影响定义单轮奖励 \(R_{\text{cog}} = \mathbf{1}^\top(\hat A_{\text{cog}} - A_{\text{cog}})p\)（\(\hat A_{\text{cog}}\) 是把 AI 影响力列清零并重归一化后的反事实"无 AI"基线）；对无法算反事实的 MLP，则直接最小化攻击下的团队表现 \(R_{\text{MLP}} = -\mathbf{1}^\top A_{\text{MLP}}\, p\)。攻击者最大化时域累积奖励 \(G = \sum_{k=k_0}^{k_\text{end}} R(s_k,a_k)\)：认知模型用动态规划模拟整局，MLP 因算力受限只前瞻 5 步。

4. 谎言的策略：何时撒谎 + 如何撒谎 攻击者只在后 15 轮行动，做两个决策：是否撒谎（由 MBRL 在两个模型上权衡决定），以及如何撒谎——若选择撒谎，就故意附和当前最准但本轮答错的那名玩家，从而把团队往错误方向带，同时尽量不暴露自己。认知模型的敏感度 \(w_f\) 在第 10 轮后用极大似然估计得到。这套设计让攻击不只靠预测力，更靠"在误导团队的同时少损自身信任"的策略性。

实验关键数据¶

主实验：攻击对真人团队的伤害（后 15 轮）¶

攻击模型	团队表现下降	统计显著性
认知模型攻击	−15%	p = 0.12（不显著）
MLP 模型攻击	−24%	p < 0.01（显著）
两种攻击之间差异	—	p < 0.05（显著）

25 队中 12 队受认知模型攻击、13 队受 MLP 攻击。两种攻击都把累积分压到前 10 轮的预测基线之下，数据驱动攻击更狠且唯一达到统计显著。

影响力演化建模 & LLM 实验¶

对比	关键发现
影响力矩阵预测 MSE	MLP（含当前表现）< 认知模型 < 等权基线，MLP 拟合最准
人 vs. LLM 影响力分配	即使不给 LLM 看题目，它分配影响力的方式也与人类高度相似，可作人类代理
LLM 抗攻击性	四个 LLM（4o-mini / o3-mini / DeepSeek-V3 / R1）全部易受攻击
CoT 推理模型	无攻击时分配能力超过人类，但最易被攻击（推理链放大初始误差）

关键发现¶

信任演化的非对称性：人对 AI 的负面行为比对人类队友更敏感——AI 一旦答错（尤其简单题）信任会迅速崩塌，而对最好/最差真人队友的信任调整更慢。
早期过度依赖 AI：非攻击阶段团队反而对 AI 信任上升、对最佳玩家信任下降，说明初始存在自动化偏见，攻击开始后这一趋势才逆转。
聊天记录是关键信号：LLM 准确预测团队决策更依赖聊天上下文而非历史表现，说明语言推理在影响力分配中至关重要。

亮点与洞察¶

把"撒谎"工程化：不是泛泛讨论 AI 失信，而是给出一个可学习、可规划、带显式奖励权衡的对抗攻击者，让"何时/如何欺骗"成为可优化的决策。
稀疏数据也能建模人类信任：用很少的人类交互数据，MLP 就能较准地预测影响力演化并直接驱动攻击，凸显真实攻击的低门槛。
首次把 LLM 放进同一对抗框架：一次实验同时回答"LLM 能否当人类代理"和"LLM 是否同样脆弱"，并揭示 CoT 模型"能力越强、被攻击放大伤害越大"的反直觉风险。

局限与展望¶

任务局限：以智力问答游戏为载体，团队仅三人、时域仅 25 轮，能否外推到医疗/司法等真实高风险、长时域场景仍待验证。
规模有限：仅 25 队 75 人，认知模型攻击未达统计显著很可能受样本量限制。
LLM 设定受限：因怕答案在训练语料里，未直接给 LLM 看题目，而是喂对错历史与聊天记录，与人类的信息条件并不完全对等。
只攻不防：本文奠定了攻击与评测框架，但防御策略（透明化、抗操纵的信任机制）仍是留给后续工作的开放问题。

评分¶

新颖性: ⭐⭐⭐⭐ 把人机团队对抗攻击形式化为 MBRL 决策、并首次将 LLM 纳入同一对抗框架，实验范式新颖。
实验充分度: ⭐⭐⭐ 有真人对照实验、双模型对比、LLM 多模型评测，但样本量偏小（75 人）、任务单一、认知模型攻击未达显著。
写作质量: ⭐⭐⭐⭐ 动机清晰，公式与实验逻辑衔接顺畅，图表支撑到位。
价值: ⭐⭐⭐⭐ 为安全攸关场景下的人机团队信任攻防提供了可量化的研究框架与警示，实践意义强。