How Adversarial Environments Mislead Agentic AI¶

会议: ACL 2026 Findings
arXiv: 2604.18874
代码: GitHub
领域: AI安全 / Agent鲁棒性
关键词: 对抗环境注入, 工具信任鸿沟, 深度攻击, 广度攻击, Agent鲁棒性分裂

一句话总结¶

本文形式化了"对抗环境注入"（AEI）威胁模型，将其分解为广度攻击（投毒检索结果导致认知漂移）和深度攻击（注入幻影节点构造导航陷阱导致策略崩溃），在 11,000+ 次实验中发现两种攻击的鲁棒性完全独立——"鲁棒性分裂"表明当前单点防御策略根本不够。

研究背景与动机¶

领域现状：工具增强的 LLM Agent 依赖搜索引擎、引文索引等外部工具来接地生成内容。RAG 安全已成为活跃研究领域，现有工作集中在 prompt 注入和语料库投毒两类内容层面的攻击。

现有痛点：(1) 现有评估只关注"Agent 能否正确使用工具"，从未考虑"如果工具说谎怎么办"——存在信任鸿沟；(2) RAG 投毒研究只覆盖了半个攻击面（内容层面），忽略了结构层面的攻击；(3) 缺乏标准化、可复现的对抗鲁棒性测试框架。

核心矛盾：减少幻觉的正确行为（遵从外部信息）恰好增加了对抗脆弱性——"接地悖论"。Agent 接受环境呈现的现实，缺乏独立验证通道，就像楚门在虚构世界中生活。

本文目标：(1) 形式化工具使用 Agent 面临的完整攻击面；(2) 区分认知层面和导航层面两种正交的攻击维度；(3) 量化二者的独立性。

切入角度：类比"楚门的世界"——Agent 接受工具返回的内容为真实，攻击者通过"Man-in-the-Tool"构造虚假世界。深度攻击是全新攻击类别——不需要 Agent 相信虚假信息，只需将其困在导航循环中。

核心 idea：AEI 分解为广度攻击（认知漂移）和深度攻击（策略崩溃），两者利用完全不同的机制——前者攻击信念更新，后者攻击导航规划——因此对一种攻击的防御不能保护另一种。

方法详解¶

整体框架¶

本文要回答的问题是：当工具本身说谎，Agent 会怎样崩溃，以及不同崩溃方式之间是否相互独立。承载实验的是 Potemkin 框架——它作为一个透明的 Man-in-the-Tool 代理插在 Agent 和工具之间，拦截工具调用的返回结果、施加对抗转换后再交还给 Agent，同时支持 MCP Server 和 Python Library 两种接入模式。在这个框架上作者分两条战役展开攻击：广度攻击投毒检索内容、攻击 Agent 的信念更新，深度攻击注入引文图的幻影节点、攻击 Agent 的导航规划；外加一组针对认知标记的诊断实验。整套评估横跨 7 个实验、约 11,000 次任务运行，最终量化出两类攻击鲁棒性彼此独立的"鲁棒性分裂"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Agent 发起工具调用"] --> B["Potemkin 透明代理（Man-in-the-Tool）<br/>拦截工具返回通道、施加对抗转换 τ"]
    B -->|投毒检索内容| C["广度攻击 The Illusion<br/>诱导认知漂移，指标 DR"]
    B -->|注入幻影节点| D["深度攻击 The Maze<br/>构造导航陷阱致策略崩溃，指标 ER / BW"]
    B -->|改写认知标记| E["诚实的惩罚<br/>最小对 + McNemar 检验"]
    C --> F["Agent 被改写后的环境观测误导"]
    D --> F
    E --> F
    F --> G["鲁棒性分裂<br/>认知 / 导航两类鲁棒性相互独立"]

关键设计¶

1. 广度攻击（The Illusion）：投毒内容诱导认知漂移

广度攻击往知识库里注入恶意文本，沿两个正交维度变化：污染率 \(\rho \in \{0.1, 0.3, 0.5\}\)（即 10 条检索结果中混入 1/3/5 条毒），以及语言风格（Professor 正式学术 / Wire 中性新闻 / Rumor 非正式含糊）。把这两维拆开正是为了分离"需要下多少毒"和"什么风格的毒最有效"这两个独立问题。

衡量上不用传统的 ASR，而是定义漂移率 \(\text{DR} = \mathbb{E}[\mathbb{1}[r \neq y] \mid r \neq \bot]\)，只在 Agent 没有弃权（\(r \neq \bot\)）时统计它自信却答错的比例。排除弃权这一步让指标更干净地刻画"认知状态被改写"这件事，而不是把谨慎的弃权和被骗混为一谈。

2. 深度攻击（The Maze）：注入幻影节点构造导航陷阱

深度攻击不碰任何内容，只动结构：在信息图中注入一组幻影节点 \(\mathcal{P}\) 形成循环或死胡同，受控变量是环长 \(\ell \in \{2,3,5\}\) 和可信度梯度（Phantom 高保真 / Signal 轻微不一致 / Glitch 明显异常）。它用两个指标刻画危害——进入率 \(\text{ER} = \mathbb{E}[\mathbb{1}[\exists t: s_t \in \mathcal{P}]]\) 度量 Agent 是否踏进陷阱，步骤预算浪费 \(\text{BW} = \frac{|\{t: s_t \in \mathcal{P}\}|}{|\{t: s_t \in V \cup \mathcal{P}\}|}\) 度量它在陷阱里空耗了多少预算。

这是一类全新的攻击面：Agent 哪怕一个字的虚假内容都不相信，也照样会被结构困在循环里出不来。而且可信度梯度的设计刻意与广度攻击的风格梯度平行，让两类攻击落在同一条"权威线索"轴上，从而支持跨维度的对照分析。

3. "诚实的惩罚"（The Punishment of Honesty）：揭示对认知标记的误校准

这一组诊断实验构造最小对——同一条声明只改变认知标记，比如把 "results suggest" 换成 "results prove"——再用 McNemar 检验比较 Agent 的接受率。结果触目惊心：带犹豫词的 TRUE 声明被拒绝的概率是自信 TRUE 声明的 \(2.1\) 倍，但带犹豫词的 FALSE 声明并不更容易被识破。

这暴露出一个危险的不对称性：攻击者只要给真实声明套上犹豫措辞就能压制它，而这恰恰是科学与医学文献里的标准表述方式，意味着 Agent 在这些高风险领域反而会系统性地误伤诚实。

损失函数 / 训练策略¶

Potemkin 是评估框架，不涉及训练。所有受试 Agent 在 \(T=0.0\) 下运行以保证确定性评估，步骤预算固定为 10 次工具调用。对抗内容由 Gemini 2.5 红队生成，刻意避免生成器与受害者模型重叠，杜绝自我偏袒。

实验关键数据¶

主实验¶

广度 vs 深度攻击脆弱性

Agent	基线错误率(%)	漂移率DR(50%污染)	进入率ER(%)
GPT-4o	4.7	58.0	94.6
Claude-3.5-Sonnet	8.0	36.2	25.3
Llama-3-70B	5.4	55.3	5.6†
Qwen2.5-72B	6.8	76.2	96.1
DeepSeek-V3	14.7	66.2	74.7

消融实验¶

风格对漂移率的影响

风格	平均漂移率(%)
Wire (中性)	54.8
Professor (学术)	42.4
Rumor (含糊)	36.9

关键发现¶

鲁棒性分裂：对一种攻击的抵抗往往增加对另一种的脆弱性。Claude 广度攻击最强（DR=36.2%最低）但深度也较好（ER=25.3%）；GPT-4o 广度中等但深度极差（ER=94.6%）
中性语气最具说服力（Wire 54.8% > Professor 42.4% > Rumor 36.9%）——Agent 被训练不信任过度权威的内容，但无批判地接受中性陈述
污染在 30% 就饱和（40.2%→55.8%），继续增加到 50% 提升微弱（57.9%），攻击者只需少量投毒
被困 Agent 浪费 44-73% 的步骤预算，且与循环长度无关——短循环同样致命

亮点与洞察¶

深度攻击是一类全新的攻击面——不需要修改任何内容，只需修改信息图的结构。这意味着当前所有基于内容检测的 RAG 防御方案对深度攻击完全无效
"诚实的惩罚"是一个令人不安的发现——科学文献中的标准表述（如"results suggest"）反而被 Agent 视为不可信的信号，这直接损害了 Agent 在学术/医学场景的可信度
可信度梯度的平行设计是方法论上的亮点——使广度和深度攻击在同一权威线索轴上可比较

局限与展望¶

实验范围限于引文图导航任务，向其他工具域（事实核查、图RAG投毒）的推广尚在进行
Llama-3 的低进入率更多反映工具参与度不足而非真正的鲁棒性
未测试最新的 o3/Claude 4 等推理型模型
防御策略的探索不足——仅诊断了问题，未提出缓解方案

评分¶

新颖性: ⭐⭐⭐⭐⭐ 深度攻击是全新攻击类别，鲁棒性分裂是重要发现
实验充分度: ⭐⭐⭐⭐⭐ 11000+次运行, 5个Agent, 7个实验, 统计检验完备
写作质量: ⭐⭐⭐⭐⭐ 楚门隐喻贯穿全文，叙事引人入胜且严谨
价值: ⭐⭐⭐⭐⭐ 对Agent安全研究具有范式级意义，Potemkin框架可复用