"sudo rm -rf agentic_security" | SUDO: Screen-based Universal Detox2tox Offense¶
会议: ACL 2025
arXiv: 2503.20279
代码: github.com/AIM-Intelligence/SUDO
领域: LLM Agent / AI安全
关键词: computer-use agent, safety attack, red teaming, jailbreak, agentic security
一句话总结¶
提出SUDO攻击框架,通过Detox2tox三阶段流水线将恶意请求伪装为无害指令再恢复攻击载荷,配合基于检查清单反馈的动态迭代优化,系统性攻破Claude CUA、MANUS等计算机使用Agent的安全防护,最高达41.33%攻击成功率。
研究背景与动机¶
领域现状:LLM正从纯文本对话演化为computer-use agent(如Claude Computer Use、MANUS、OmniParser),能在真实桌面/网页环境中自主执行文件操作、命令行、网页浏览等任务。这些agent极大扩展了LLM的实际应用场景,但也带来了全新的安全风险面。
现有痛点:现有越狱(jailbreak)研究主要集中在纯文本LLM场景,针对多模态环境交互agent的安全评估严重不足。现有方法如角色扮演、程序执行框架等单轮攻击手段在computer-use agent上效果极差(ASR最高仅7.30%)。更关键的是,能操作真实系统的agent一旦被攻破,后果远比文本场景严重——可以删除系统文件、发送钓鱼邮件、窃取隐私数据。
核心矛盾:computer-use agent的安全防线建立在refusal training上,但这种静态防御容易被精心设计的间接指令绕过。更深层的矛盾在于——底层模型越强大,攻击反而越有效,因为更强的VLM能生成更精准的攻击执行计划,形成"能力-安全"的悖论。
本文目标:如何系统性地评估和攻破computer-use agent的安全防护?需要一套自动化的攻击框架和标准化的评估基准。
切入角度:不直接提交恶意请求,而是通过语义变换将恶意意图"洗白"后获取执行计划,再在执行时恢复攻击载荷。结合迭代反馈机制逐步突破防线。
核心 idea:Detox2tox——先去毒骗过安全检查获取分步计划,再回毒恢复恶意内容,配合动态反馈迭代升级攻击。
方法详解¶
整体框架¶
SUDO分为两个阶段:静态阶段(Static Phase)通过Detox2tox流水线一次性生成候选攻击提示,动态阶段(Dynamic Phase)基于agent的拒绝反馈迭代优化攻击策略。整体流程为:恶意任务 → Detoxifier去毒化 → Instruction Generator生成分步计划 → Toxifier回毒化 → 提交agent执行 → Evaluator检查清单评估 → Dynamic Updater基于反馈调整 → 重新攻击(循环直至成功或达上限)。
关键设计¶
-
Detoxifier (去毒化器):
- 功能:接收原始恶意命令/目标,移除或改写明显有害的内容,生成去毒化版本
- 核心思路:将恶意意图隐藏在看似无害的任务描述中(如"发送钓鱼邮件" → "发送一封格式化邮件"),使agent的安全策略不会立即拒绝
- 设计动机:直接提交恶意请求ASR为0%,必须先过安全检查这道门槛;去毒化是获取高质量执行计划的前提条件
-
Instruction Generator (指令生成器):
- 功能:将去毒化后的描述传递给SOTA VLM,生成详细的分步执行计划
- 核心思路:利用VLM的强大能力(包括截图理解、系统信息解析)为伪装后的"无害"任务生成可操作的step-by-step计划,支持多种VLM后端(Llama 3.2 Vision、Gemini 2.0、Claude 3.5/3.7、GPT 4.5、o1)
- 设计动机:计算机使用任务需要精确的操作序列,通用的执行计划难以奏效;利用VLM自身能力来构造绕过其防御的计划,形成"以子之矛攻子之盾"
-
Toxifier (再毒化器):
- 功能:在已生成的合法执行计划中重新注入恶意载荷,完成Detox2tox转换
- 核心思路:将计划中的良性操作替换为攻击操作(如良性文件删除命令 →
sudo rm -rf破坏性命令),最终输出表面无害但实际引导有害行为的攻击提示 - 设计动机:分离"获取计划"和"注入恶意"两步,绕过端到端的安全过滤器;保留执行计划的结构完整性,仅替换关键操作内容
-
Dynamic Updater (动态更新器):
- 功能:在攻击部分失败时,基于评估反馈自动调整攻击提示并重试
- 核心思路:使用检查清单(checklist)评估每个子目标的完成情况,根据部分失败的原因调整提示元素或强化隐藏触发器,将修改后的提示重新通过LLM生成并提交给agent
- 设计动机:静态一次性攻击的上限有限(~20-24% ASR),迭代反馈能系统性地拆解逐层防御,每轮显著提升成功率
评估方法¶
检查清单评估机制:每个攻击任务被分解为多个主题要素(topical elements),每成功完成一个要素得1分,若出现越狱行为额外加1分。ASR = (matched_topics + 1) / (total_topics + 1)。这种细粒度评估不仅捕获完全成功/失败,还能记录部分成功状况,为Dynamic Updater提供可操作的反馈信号。
SUDO Dataset基准:人工构建50个攻击任务,覆盖4大类12子类风险场景(内容安全、社会风险、法律风险、操作风险),涵盖20种不同执行环境(网页+桌面),所有任务在真实操作系统上执行而非沙盒环境。
实验关键数据¶
主实验:不同Instruction Generator的攻击成功率¶
| 模型 | 静态ASR(%) | 动态1轮(%) | 动态2轮(%) | 动态3轮(%) |
|---|---|---|---|---|
| Claude 3.5 Haiku | 23.60 | 34.87 (+11.27) | 35.56 (+0.69) | 35.99 (+0.43) |
| Claude 3.7 Sonnet | 24.41 | 29.71 (+5.30) | 32.55 (+2.84) | 38.12 (+5.57) |
| Gemini 2.0 Flash | 24.02 | 30.09 (+6.07) | 32.19 (+2.10) | 32.95 (+0.76) |
| Llama 3.2 Vision | 19.45 | 26.45 (+7.00) | 31.19 (+4.74) | 32.69 (+1.20) |
| GPT 4.5 Preview | 21.29 | 27.99 (+6.70) | 33.82 (+5.83) | 41.33 (+7.51) |
| o1 | 24.05 | 33.79 (+9.74) | 37.29 (+3.50) | 41.09 (+3.80) |
与基线越狱方法对比¶
| 方法 | Direct | Role Play | Program Execution | Superior Model | SUDO |
|---|---|---|---|---|---|
| ASR(%) | 0.00 | 3.29 | 4.67 | 7.30 | 41.33 |
SUDO相比最优基线Superior Model提升了5.7倍。
跨Agent泛化性(12个代表性任务,o1作为Instruction Generator)¶
| Agent | 静态ASR(%) | 动态3轮ASR(%) |
|---|---|---|
| Claude CUA | 16.89 | 34.39 |
| MANUS | 34.86 | 63.19 |
| OmniParser V2 | 41.96 | 66.13 |
消融实验¶
| 分析维度 | 关键发现 |
|---|---|
| 静态 vs 动态 | 动态迭代将ASR从~20-24%提升至35-41%,提升约70-100% |
| 迭代轮次收益 | 第1轮提升最大(+5-11pp),后续轮次递减但仍有正收益 |
| 模型能力影响 | GPT 4.5和o1持续从迭代中获益更多,推理能力更强的模型攻击提升更显著 |
| 跨Agent差异 | Claude CUA防御最强(ASR最低),MANUS和OmniParser更脆弱 |
关键发现¶
- 动态迭代是核心贡献:静态Detox2tox就能达到~20-24% ASR(已非trivial),三轮迭代后提升至41%+,证明反馈驱动的迭代攻击能系统性拆解安全防线
- 传统越狱方法在agent场景近乎失效:Direct 0%,Role Play 3.29%,Program Execution 4.67%,说明computer-use agent需要全新的攻击范式
- 模型越强攻击越强的悖论:GPT 4.5和o1在动态阶段的ASR增长最大,验证了"能力-安全"悖论——更强的推理能力反而帮助生成更精准的攻击计划
- 安全防护不均匀:MANUS和OmniParser的ASR远高于Claude CUA,说明不同agent的安全机制差异巨大,行业缺乏统一的安全标准
- 攻击覆盖面广:热力图显示Detox2tox在所有12个风险子类别上都有成功案例,不局限于特定利基场景
- 迭代收益存在收敛趋势:后续轮次的ASR提升递减,暗示防御方可能通过增强多轮检测来建立更有效的防线
亮点与洞察¶
- Detox2tox流水线设计精巧:将"获取执行计划"和"注入恶意载荷"解耦,利用语义变换绕过端到端安全检查,这种思路对安全研究有重要启发,揭示了纯基于内容过滤的防御方式的根本局限。
- 实际环境而非沙盒评估:在真实操作系统上运行攻击任务,直接观察agent是否真的执行了删除文件、发送邮件等操作,比传统文本级评估更有说服力。
- 检查清单细粒度评估:超越简单的成功/失败二分法,捕获部分攻击成功的细节,既为动态更新提供信号,也为安全评估提供了更合理的度量标准。
- 揭示"能力-安全"悖论:明确指出SUDO作为外部框架,底层模型的能力提升会同时增强攻击效果,这对AI安全研究的方法论有深远意义。
- 标准化基准贡献:50个任务覆盖4大类12子类,配合20种执行环境,为computer-use agent安全评估提供了首个系统化基准。
局限与展望¶
- 目标agent覆盖有限:主实验仅在Claude CUA上完成50个全量任务,MANUS和OmniParser仅评估了12个子采样任务,受限于服务可用性和登录限制
- ASR绝对值仍有提升空间:即使动态3轮最高也仅41.33%,说明现有安全防护仍有一定效果,攻击框架还有优化的余地(如更多迭代轮次、更复杂的去毒/回毒策略)
- 未考虑多agent/Agent-to-Agent场景:随着多agent系统的普及,Detox2tox在agent间协作场景中的可扩展性尚未验证
- 防御方案缺失:论文主要聚焦攻击能力展示,未提出相应的防御机制或缓解策略
- 评估自动化的可靠性:使用LLM作为评估器可能存在判断偏差,特别是在复杂任务的部分成功判断上
相关工作与启发¶
| 方向 | 代表工作 | 与SUDO的区别 |
|---|---|---|
| 文本越狱 | Liu et al. 2023 (Role Play / Program Exec / Superior Model) | 仅针对纯文本LLM,在computer-use agent上ASR<8% |
| Web Agent攻击 | AdvWeb (Xu 2024), EIA (Liao 2025) | 通过网页内容注入攻击,非直接prompt攻击 |
| Agent安全评估 | AgentHarm (Andriushchenko 2025), InjecAgent (Zhan 2024) | 评估文本级agent漏洞,未涉及真实环境操作 |
| Mobile Agent安全 | MobileSafetyBench (Lee 2024) | 针对Android设备控制agent的间接提示注入 |
| SUDO | 本文 | 首个系统性攻击computer-use agent的框架,包含Detox2tox语义变换+动态迭代+真实环境评估 |
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Detox2tox的"去毒→生成→回毒"流水线是全新攻击范式,针对computer-use agent的系统性框架此前缺失
- 实验充分度: ⭐⭐⭐⭐ 6个VLM、3个target agent、50个任务、多轮迭代的系统评估,但MANUS/OmniParser仅12个任务略显不足
- 写作质量: ⭐⭐⭐⭐ 论文标题炫酷(sudo rm -rf),框架描述清晰,实验组织有条理,命名一致性好
- 价值: ⭐⭐⭐⭐⭐ 揭示了computer-use agent这一新兴范式的重大安全盲区,SUDO Dataset为后续安全研究提供了标准化基准