ICLR 2026 LLM评测计算机使用智能体(CUA) 渗透测试 Web 漏洞利用 CTF 安全 Benchmark 工具调用

HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=nLfZPoJbO7
代码: https://github.com/GUI-Agent/HackWorld
领域: LLM 评测 / 计算机使用智能体 / Web 安全
关键词: 计算机使用智能体(CUA), 渗透测试, Web 漏洞利用, CTF, 安全 Benchmark, 工具调用

一句话总结¶

HackWorld 构建了首个用 CTF 方式系统评测计算机使用智能体(CUA)通过图形界面发现并利用真实 Web 漏洞能力的框架，揭示当前 SOTA CUA 的漏洞利用成功率不足 12%，瓶颈在推理、规划与安全工具编排而非感知。

研究背景与动机¶

领域现状：Web 应用是网络攻击的首要目标，传统渗透测试昂贵且依赖专家。已有 LLM 智能体在部分网络安全任务上展露潜力，而 CUA(计算机使用智能体)能像人一样通过截图与 GUI 自主操作复杂界面、处理动态渲染与多步交互，理论上更适合现代 Web 应用的渗透。

现有痛点：WebShop、OSWorld、WebArena 等主流 agent benchmark 只衡量"功能完成率/效率"，且都运行在消毒过的(sanitized)安全环境里，默认应用没有漏洞。这与真实部署中遍布 SQL 注入、XSS、认证绕过、访问控制错配的脆弱 Web 生态存在根本性鸿沟——没人知道 CUA 在含漏洞环境里到底能做什么。

核心矛盾：CUA 在通用 Web 浏览/任务自动化上表现出色，但其攻击性安全能力(adversarial exploration、攻击链推理、专业安全工具使用)完全未被刻画，而它们正越来越多地自主运行在可能含安全缺陷的环境中。

本文目标：填补这一评测空白，回答"前沿 CUA 能否通过视觉交互自主发现并利用 Web 应用漏洞"。

核心 idea：用 CTF(Capture-the-Flag)夺旗方法论评测漏洞利用——CTF 提供客观成功标准(取到隐藏 flag)、可复现的标准化场景，且天然封装完整攻击链；把 36 个含真实漏洞的应用容器化部署在 Kali Linux 环境，让 CUA 在工业级安全工具加持下做开放式探索与利用。

方法详解¶

整体框架¶

HackWorld 把每个漏洞利用任务形式化为部分可观测马尔可夫决策过程(POMDP)，智能体在 Kali Linux + Docker 环境中通过截图(及可选的 a11ytree / Set-of-Marks)感知含漏洞的 Web 应用，自主选择并执行安全工具、做出 GUI 操作，最终以提交正确 flag 作为漏洞利用成功的客观证据。整套流水线由挑战实例化、智能体交互、过程监控三段串成。

flowchart LR
  A[36 CTF 挑战<br/>Docker 容器化] --> B[任务下发<br/>自然语言指令]
  B --> C[环境感知<br/>截图/a11ytree/SoM]
  C --> D[工具选择与执行<br/>Kali 20+ 安全工具]
  D --> E[动作执行<br/>Action Server]
  E --> F[过程监控 Controller<br/>HTTP/工具/文件日志]
  F --> C
  E --> G[提交 flag<br/>模糊匹配校验 R=1/0]

关键设计¶

1. POMDP 任务形式化与模糊 flag 校验：把"漏洞利用成功"变成客观可判定信号。 沿用 OSWorld 的设定，每个任务定义为状态空间 \(S\)、观测空间 \(O\)、动作空间 \(A\)、转移 \(T\)、奖励 \(R\) 与 flag 校验函数 \(F\)。每一步智能体收到观测 \(o_t\)(自然语言指令 + 网页截图)并产生动作 \(a_t\)，如 click(300,540)、type('admin') 或 submit_flag('flag{secret}')，得到新状态 \(s_{t+1}\)。回合在提交 flag、显式终止或触达最大步数时结束。奖励 \(R\) 仅在 flag 正确时返回 1，否则为 0；为容忍多模态智能体的 OCR 误差，采用编辑距离阈值为 5 个字符的模糊匹配判定 flag 正确性。这把开放式渗透过程压缩成一个无需人工评判、完全可复现的二值成功指标。

2. Kali + Docker 评测环境与真实漏洞挑战集：跳出消毒环境，给智能体"真刀真枪"。 框架运行在 Kali Linux 之上，承载一个基于 Docker 的容器化挑战服务器，集成 20+ 工业级安全工具。36 个挑战每个都是含有意嵌入真实漏洞的隔离容器，覆盖 11 种 Web 框架、7 种编程语言(Python/JavaScript 为主，含 Java、PHP)。挑战来源刻意保证多样、时新、可验证：26 个来自 NYU CTF Bench(CSAW 2013–2023 决赛/资格赛)、8 个来自 Cybench(近期且带结构化子任务分解)、2 个来自 InterCode-CTF(picoCTF 容器化任务)。漏洞类型聚焦可泛化的 Web 安全能力——认证/授权绕过、输入处理缺陷、服务端逻辑漏洞(如示例中的本地文件包含 LFI + 路径遍历)。

3. 以"工具使用"为核心评测维度的交互流水线：考的不只是会不会点，而是会不会用专业武器。 与依赖固定脚本的旧框架不同，HackWorld 把 Burp Suite(流量拦截)、DirBuster(目录枚举)、Nikto(漏洞扫描)、WFuzz(Web 模糊测试)、WhatWeb(技术栈指纹)等真实工具开放给智能体自由调用。交互流水线分五步：①任务下发自然语言安全场景；②通过截图与 a11y 树感知环境;③从 Kali 中选择并执行安全工具；④经 Action Server 把高层决策落到底层 GUI 操作；⑤由 Controller 监控并记录所有 HTTP 请求、工具调用与文件系统操作。这一设计能系统衡量智能体能否为特定场景选对工具、准确解读工具输出、并把多个工具编排成连贯攻击工作流。

4. 三种观测空间对照：拆解"感知保真度"到底是不是瓶颈。 框架支持三种成熟观测配置以解耦感知与推理的贡献：(1)纯 Screenshot(默认 1280×720, 16:9)；(2)Screenshot + a11ytree(文本化语义结构，补强弱 grounding 模型)；(3)Screenshot + Set-of-Marks(把界面分割成带编号的离散标记区域以增强视觉定位)。通过在同一批挑战上横向比较，HackWorld 可以验证"加强观测结构是否真能提升漏洞利用率"。

实验关键数据¶

主实验：不同观测空间下成功率(36 个挑战)¶

模型	Screenshot	+ a11ytree	+ Set-of-Marks
Claude-3.5-Sonnet	2.78%	5.56%	2.78%
Claude-3.7-Sonnet	11.11%	8.33%	11.11%
Claude-4-Sonnet	0.00%	0.00%	0.00%
Claude-4-Opus	5.56%	5.56%	2.78%
UI-TARS-1.5-7B	0.00%	0.00%	0.00%
Qwen-2.5-VL-72B-Instruct	0.00%	0.00%	0.00%

所有 CUA 漏洞利用成功率均低于 12%；Claude-3.7-Sonnet 平均 10.18% 最高，约为 Claude-4-Opus(4.63%)两倍、Claude-3.5-Sonnet(3.71%)三倍。
开源 GUI 模型 UI-TARS-1.5-7B 与 Qwen-2.5-VL-72B 几乎全 0，无力应对复杂攻击任务。
更新更大≠更强：Claude-3.7 反超 Claude-4 系列，挑战"模型规模与时新性保证任务能力"的惯常假设。
三种观测空间平均成功率分别为 3.89% / 3.97% / 3.17%，单因素 ANOVA 显示差异不显著(p>0.1)，说明感知保真度不是主要瓶颈。

工具使用分析¶

观测	模型	%使用工具	均工具数	Top3 工具
Screenshot	Claude-3.5-Sonnet	88.89	5.33	dirb, Nikto, DirBuster
Screenshot	Claude-3.7-Sonnet	58.33	2.33	dirb, Nikto, WhatWeb
Screenshot	Claude-4-Opus	44.44	0.86	dirb, DirBuster

Claude-3.5 在近 90% 轨迹里调工具、平均 4–6 次，但成功率反而低——频繁调用≠高效，选择性与策略性才关键。
观测空间对工具使用模式影响很小；模型间差异远大于观测空间差异，说明推理策略主导工具使用。

能力迁移：HackWorld vs OSWorld(screenshot-only)¶

模型	HackWorld(%)	OSWorld(%)
Claude-4-Sonnet	0.0	43.9
Claude-3.5-Sonnet	2.8	14.9
Claude-3.7-Sonnet	11.1	27.1
GPT-5	8.3	–
Gemini Pro	5.6	–

通用 GUI 能力无法迁移到网络安全域：在 OSWorld 拿 43.9% 的 Claude-4-Sonnet 在 HackWorld 直接归零。

关键发现¶

论文归纳了 8 类系统性失败模式：①工具选择与输出解析无效(检测到 robots.txt 等线索却不利用)；②失败恢复/计划修复差(遇 404/403/302 即停滞)；③目录与源码枚举缺失或不持久化；④端口/服务映射不全导致打错攻击面；⑤缺乏认证绕过与会话管理(cookie/CSRF/JWT/IDOR);⑥服务类型误判;⑦SQL 注入测试流于机械、不看响应变化;⑧知识驱动的死循环。结论：上限由推理、规划与工具编排能力决定，而非感知输入。

亮点与洞察¶

首个攻击性安全评测框架：把 agent benchmark 从"消毒环境的功能完成"推进到"真实漏洞的攻击链利用"，填补了安全维度的空白。
CTF 方法论选得巧：客观二值奖励 + 可复现容器 + 完整攻击链，解决了开放式渗透难以自动评判的难题。
"工具使用"作为一等评测维度：不止考会不会操作 GUI，更考能否把 Burp/DirBuster/Nikto 编排成连贯工作流，贴近真实渗透测试。
两个反直觉结论：感知保真度不是瓶颈(三观测空间无显著差异)、更新更大的模型未必更强(3.7>4)、通用 GUI 能力不迁移到安全域。

局限与展望¶

挑战规模偏小(36 个)且来自既有 CTF 集，技术栈以 Python/JS 为主，对真实生产环境多样性的覆盖仍有限。
CTF flag 形式可能无法完全代表真实世界中"无明确目标"的渗透场景，模糊匹配阈值(5 字符)也可能引入边界判定噪声。
评测主要是 Claude 系 + 两个开源模型，缺少对更多前沿开源 agent 与专门安全微调模型的覆盖。
双刃剑风险：框架本身指向"安全感知 CUA 用于漏洞发现与利用"，作者也将其定位为攻防两用，需配套防滥用规范。
展望：发展具备对抗探索、攻击链推理与工具编排能力的 security-aware CUA。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个面向 CUA 攻击性 Web 安全能力的 CTF 评测框架，问题切口与命题都很新。
实验充分度: ⭐⭐⭐⭐ 覆盖 6+10 个模型 × 3 观测空间 + 工具使用 + 迁移对照 + 8 类失败模式，分析扎实，唯挑战集规模(36)偏小。
写作质量: ⭐⭐⭐⭐ 动机清晰、流水线与失败模式叙述到位，图表完整。
价值: ⭐⭐⭐⭐⭐ 揭示 SOTA CUA 安全能力 <12% 与"通用能力不迁移"，对 agent 安全研究与防御均有重要参考价值。