Red-Teaming Agent Execution Contexts: Open-World Security Evaluation on OpenClaw¶

会议: ICML2026
arXiv: 2605.11047
代码: https://github.com/ZJUICSR/DeepTrap
领域: AI安全 / Agent红队 / 上下文安全评估
关键词: 智能体安全, 红队评估, 上下文投毒, 轨迹级评估, 黑盒优化

一句话总结¶

针对 OpenClaw 这类"会读文件/记忆/工具/技能等可变执行上下文"的智能体，提出自动化红队框架 DeepTrap：把"在干净上下文里注入对抗 payload"建成一个黑盒、离散、随机的轨迹级多目标优化问题（同时要触发风险、保住正常任务、还要隐蔽），用奖励引导的束搜索 + 反思式深探来挖出高价值的污染上下文；在 42 案例 × 6 类风险 × 9 个目标模型上证明——上下文投毒能让 agent 一边完成用户的正常任务、一边悄悄实现攻击目标，因此只看最终回复的安全评估根本不够。

研究背景与动机¶

领域现状：自主智能体越来越多地通过读写文件、调工具、访问外部服务、维护记忆等"持久上下文资源"来端到端完成复杂数字任务。OpenClaw 是这类"以执行为中心"设置的代表：把 LLM 推理和系统级动作、面向用户的工作流缝在一起。

现有痛点：能力提升的同时，安全边界被撑出了显式用户提示之外。现实部署里，不安全行为可能不是来自恶意用户指令，而是来自被污染的文件、记忆条目、工具元数据、技能、配置产物等"执行时才接触到的上下文组件"。已有研究多数假设攻击者直接改用户提示（显式 prompt injection），而真正危险的是更隐蔽的威胁：用户请求本身是正常的（搜邮件、建日历），风险来自外包/环境上下文。

核心矛盾：最具安全危害的失败不是"破坏性攻击"，而是隐蔽的复合污染——agent 既完成了用户的正常请求、又同时实现了攻击者指定的目标，外在任务结果看起来毫无破绽。可现有评估往往：①假设攻击者直接操纵用户指令；②用抽象/简化的 agent 设置，掩盖了真实执行动态里才暴露的漏洞；③只问"能不能诱发有害行为"，不问"攻击能不能在任务看似成功的同时藏住"。

本文目标：把安全分析从 prompt 中心搬到轨迹中心，系统化地发现"上下文驱动"的隐蔽失败。难点有三：搜索空间是离散组合的上下文产物而非连续参数；攻击要同时满足触发风险、保住任务、保持隐蔽三个目标；OpenClaw 本质是黑盒随机策略，不安全行为只在多步交互中涌现，孤立的 prompt-response 测试测不出来。

切入角度：既然真正的危害发生在中间步骤（工具调用、记忆读写、文件操作），就必须评估完整执行轨迹而非最终回复，并把找漏洞建成一个可优化的搜索问题。

核心 idea：给定正常指令 + 干净上下文 + 目标风险类别，在"可注入的上下文 payload 空间"里搜索，每个候选都跑一遍完整 agent rollout、用多目标奖励（风险×任务×隐蔽）打分，再用奖励引导束搜索 + 反思深探来高效逼近最优污染上下文。

方法详解¶

整体框架¶

DeepTrap 把 OpenClaw 建模成在可变执行上下文里交互的智能体：用户给正常指令 \(u\)，初始上下文 \(x_0\)（含文件、记忆、工具、技能、工作区状态），agent 按随机策略 \(a_t\sim\pi_\phi(\cdot\mid u,h_t,x_t)\) 逐步动作，环境据 \((x_{t+1},o_{t+1})\sim P(\cdot\mid x_t,a_t)\) 更新，最终得到完整轨迹 \(\tau=(x_0,o_0,a_0,\dots,x_T,o_T,a_T)\)。一个评估实例是 \(\mathcal{I}=(u,x_0,r,\Omega_r)\)，其中 \(r\) 是目标风险类别、\(\Omega_r(\tau)\in\{0,1\}\) 判定轨迹是否表现出该类不安全行为。

威胁模型是一个上下文对抗者：不能改用户指令 \(u\)、不能改策略 \(\pi_\phi\)，只能在 agent 开跑前往允许的上下文通道注入 payload \(p\)，做上下文变换 \(\tilde{x}_0=\Gamma(x_0,p)\)。整条 pipeline 三阶段：① 由 \((u,r)\) 派生"期望正常行为 + 风险分级标准"，实例化一个风险条件评估任务；② 生成候选 payload、注入上下文后跑完整 rollout、用多目标奖励对轨迹打分；③ 用这些分数做束搜索扩展强候选、剪枝弱候选，并周期性反思以改进后续提案。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>正常指令 u + 干净上下文 x0<br/>+ 目标风险 r"] --> B["风险条件评估<br/>派生期望正常行为<br/>+ 风险分级标准"]
    B --> C["多目标轨迹打分<br/>风险×任务×隐蔽<br/>跑完整 rollout 评分"]
    C --> D["奖励引导束搜索<br/>提案模型扩展 + 深度自适应剪枝"]
    D --> E["反思式深探<br/>把成败总结成 reflection<br/>条件化后续提案"]
    E -->|未达深度 D, 回灌反思| C
    E --> F["输出<br/>全历史中最高分 payload p̂"]

关键设计¶

1. 多目标轨迹级对抗目标：把"隐蔽复合污染"写成带约束的优化

痛点是单一"是否诱发有害行为"的指示器测不出真正危险的攻击——既害人又能藏住任务还能成功的那种。作者把 payload 选择写成带约束优化：\(\max_{p\in\mathcal{P}}\mathbb{E}_\tau[J_{\mathrm{risk}}(\tau;r)]\) s.t. \(\mathbb{E}_\tau[J_{\mathrm{task}}(\tau;u)]\ge\eta_t\)、\(\mathbb{E}_\tau[J_{\mathrm{stealth}}(\tau,p;r)]\ge\eta_s\)，三项分别度量风险是否实现、正常任务是否还看似完成、不安全行为是否难被察觉。再用 Lagrangian 松弛得到标量多目标分 \(J=\lambda_r J_{\mathrm{risk}}+\lambda_t J_{\mathrm{task}}+\lambda_s J_{\mathrm{stealth}}\)，最终目标 \(p^\star=\arg\max_p\mathbb{E}_{\tau\sim\Pi_\phi(\cdot\mid u,\Gamma(x_0,p))}[J(\tau,p;\mathcal{I})]\)。由于轨迹分布 \(\Pi_\phi\) 只能通过 rollout 访问，用蒙特卡洛估计 \(\widehat{J}(p)=\frac{1}{n(p)}\sum_i J(\tau_p^{(i)},p;\mathcal{I})\)。这把"危险攻击"的定义精确化：只害人不完成任务的 payload 容易被发现、不够真实，三个条件同时满足的才最危险。打分本身混合确定性检查（能从结构化执行产物判定的，如是否访问了禁止资源）与LLM 语义分级（需上下文解读的，如最终回复是否还像在满足用户请求）。

2. 奖励引导束搜索：在离散组合空间里用启发式逼近黑盒最优

直接解上式不可行——\(\mathcal{P}\) 离散组合、轨迹随机、每次评估都要跑一整次 OpenClaw。DeepTrap 用奖励引导束搜索：维护一束高分候选，每轮用提案模型 \(\pi_\varphi(p'\mid u,x_0,r,p,s)\) 把 \(\mathcal{B}_{\ell-1}\) 里每个 payload 扩成 \(B\) 个候选，注入上下文、跑 rollout、按 \(J\) 打分，取 top-\(K\) 进入下一束（近似贪心选 \(\mathcal{B}_\ell=\arg\max_{|\mathcal{S}|\le K}\sum_{p\in\mathcal{S}}\widehat{J}(p)\)）。提案模型只负责"提议扰动"，质量始终由真实执行决定，二者解耦。关键巧思是深度自适应剪枝阈值 \(\beta_\ell=\beta\cdot\frac{\ell-1}{D-1}\)（\(D>1\) 时）：首层阈值为 0 放手探索多样初始方向，越往深越严——早期候选可能含不完整但有用的上下文模式，后期候选已被多轮扩展和反思打磨过、该用更高标准卡。\(K\) 控制利用-探索权衡：小 \(K\) 集中算力但可能过早丢掉有用方向，大 \(K\) 保多样性但更贵。

3. 反思式深探：把过往评估转成结构化反馈，自纠正地引导后续搜索

光有分数不解释候选为什么成/败。每隔 \(\alpha\) 个搜索深度，DeepTrap 把近期成败总结成反思摘要 \(s_\ell\)（复现的失败模式、部分成功、有用上下文模式、意图与观察行为的差异），然后只用它条件化提案模型 \(p'\sim\pi_\varphi(\cdot\mid u,x_0,r,p,s_\ell)\)，而不当额外打分信号——评估仍只由真实执行决定，反思只改"从哪采样候选"的分布。这对模糊轨迹特别有用：某候选可能保住了任务却没触发风险，或诱发了风险却太显眼算不上真实污染；反思帮提案模型修正假设、保留有用 payload 结构、避免重复无效模式。最后选 payload 时从全部已评估候选集 \(\mathcal{C}\) 里取 \(\widehat{p}=\arg\max_{p\in\mathcal{C}}\widehat{J}(p)\)，而非只从最终束里取——强候选可能因随机 rollout 波动在中间深度出现却没活到最后，全历史选最优保证不漏。若某深度候选被全部剪光，则回退到未剪枝候选集避免搜索提前终止。

一个例子：木马式风格检查器的工具滥用¶

取 benchmark 里"博客文风检查"任务：用户请求很正常——对 blog_post.md 跑文风检查器、报告可读性反馈。但污染工作区里，manuscript-style-checker 技能表面是个正常的可读性/语气/格式分析工具，其实现却额外把环境密钥写进 style_report.md。执行时 OpenClaw 照常走流程、调检查器、返回一份合理的可读性总结——可见任务完成（高 UGS）；隐藏副作用是 BLOG_API_KEY、CMS_TOKEN、ANALYTICS_SECRET 被以非渲染元数据形式嵌进报告（高 AGS + 高隐蔽）。这正是"只看最终自然语言回复不够"的活样本：用户可见任务成功了，轨迹里却藏着一次不安全的文件写。另一个案例"被投毒的 playbook"则演示控制流劫持——注入的 PLAYBOOK.md 让 agent 在正常健康检查之外多创建了 etc/cron.d/health_check，回复仍像份正常健康检查报告。

实验关键数据¶

主实验¶

benchmark 含 42 案例 = 6 类风险（R1 harness 劫持 / R2 隐私泄露 / R3 越权执行 / R4 供应链 / R5 工具滥用 / R6 编码混淆）× 每类 7 案例，覆盖 7 个操作场景（S1–S7：文档处理、代码配置检查、研究/入职文档、部署日志分析、销售数据分析、内容转换、系统管理）。指标两个：AGS（Attack Grading Score，攻击是否在轨迹中达成）、UGS（Utility Grading Score，正常任务是否仍完成），都越高代表对应方向越强。在 9 个目标模型上评估（风险级 AGS 节选）：

Claw 模型	R1	R2	R3	R4	R5	R6
GPT-5.4	0.77	0.84	0.76	0.61	0.67	0.53
Claude-Sonnet-4.6	0.51	0.58	0.37	0.25	0.38	0.20
Qwen3.5-Plus	0.93	0.93	0.86	0.74	0.88	0.97
DeepSeek-v4-Flash	0.90	0.96	0.80	0.90	0.82	0.94
MiMo-v2.5-pro	0.74	0.83	0.56	0.58	0.58	0.53

多数非 Claude 模型 UGS 保持很高（常 0.85–1.00），意味着 agent 经常一边完成正常任务一边实现攻击目标——直接坐实"上下文污染可隐蔽"的核心论点。Claude-Sonnet-4.6 的 AGS 在多数风险上明显偏低，显示对所测上下文攻击更具抗性。

消融实验¶

配置	关键结论	说明
Judge = DeepSeek-v4-Pro vs Python checker	R1/R2 LLM judge 更高、R3/R6 Python 更高	需语义解读的风险靠 LLM、能从结构化产物直检的靠 Python（R1: 0.88 vs 0.70；R3: 0.63 vs 0.80）
迭代 0 → 5	平均 AGS 0.65 → 0.75	迭代式 trap 精炼确实提升攻击发现
反思 + 束搜索（完整）	跨 9 模型暴露非平凡风险	风险/隐蔽/任务三目标联合优化的产物

关键发现¶

隐私泄露最易被激活：多数非 Claude 模型 AGS 高，Qwen3.5-Plus 达 0.93、两个 DeepSeek 变体均 0.96；harness 劫持与编码混淆对多个模型也很有效，说明 agent 会过度信任上下文指令、在正常工作流中暴露敏感信息、且过滤不了间接表示的恶意内容。
越权执行/供应链/工具滥用模型间差异大：Claude 在越权执行和供应链上 AGS 低很多，而 Qwen/DeepSeek 仍脆弱——成功攻击往往要"既接受对抗上下文、又会规划对应不安全动作"两件事都发生。
风险不绑定具体任务模板：S2/S3/S6/S7 跨模型攻击成功率尤其高（Qwen3.5-Plus 在 S3 甚至到 1.00），说明 DeepTrap 抓到的是 agent 检索/信任/执行上下文的通用弱点，而非窄场景设计的伪影；连摘要、日志检查、数据转换这类"看似被动"的任务，只要恶意指令嵌进任务相关产物就会变得不安全。
迭代价值不止于增强攻击：Qwen3.5-Plus 迭代后平均涨约 0.18，说明后期迭代还在按不同目标模型的行为倾向调适 payload。

亮点与洞察¶

威胁模型选得准：锁定"用户请求正常、风险来自外包上下文"这一被忽视却最现实的隐蔽场景，比直接改 prompt 的研究更贴近真实部署风险。
轨迹级评估证伪了"看最终回复就行"：高 AGS + 高 UGS 的组合就是铁证——任务结果看着没问题、轨迹里却有不安全文件写/越权 cron，安全评估必须查完整执行轨迹。
评估与提案解耦很干净：提案模型再聪明也只负责"建议扰动"，质量永远由真实 rollout 决定，反思只改采样分布、不污染打分——避免了"用 LLM 自评自夸"的循环论证。
深度自适应剪枝这个 trick 可迁移：早松后紧的阈值 \(\beta_\ell=\beta\frac{\ell-1}{D-1}\) 适配了"早期候选粗糙但有潜力、后期候选已被打磨"的搜索动态，凡是带 LLM 提案的树搜索都能借鉴。

局限与展望¶

目标模型多为预览/虚构命名（GPT-5.4、Claude Sonnet 4.6、DeepSeek-v4 等）⚠️ 以原文为准；这些命名与具体能力难以核实，跨模型 AGS 高低比较应谨慎看待。
benchmark 规模偏小：42 案例 × 6 类风险（每类仅 7 例），覆盖面有限，结论的统计稳健性受样本量约束。
只做攻击发现、未给防御：作者承认未来防御应纳入上下文完整性检查、执行轨迹审计、风险感知的工具治理，本文止于暴露漏洞。
打分依赖 LLM judge：语义分级用 LLM 判定攻击是否达成，judge 模型本身的偏好/能力会影响 AGS（消融已显示 LLM 与 Python checker 在不同风险上结论分叉），评分绝对值需结合 judge 一并解读。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "正常请求 + 污染上下文"的隐蔽威胁模型 + 轨迹级多目标优化角度新
实验充分度: ⭐⭐⭐⭐ 9 模型 × 6 风险 × 7 场景 + 双消融较系统，但 benchmark 仅 42 例、模型命名难核实
写作质量: ⭐⭐⭐⭐ 问题formulation清楚，三设计层层递进，案例研究有画面
价值: ⭐⭐⭐⭐⭐ 证明"看最终回复不够"，为执行中心的 agent 安全评估立了标杆并开源