Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing¶

会议: ICLR2026
OpenReview: Us00XndbVi
代码: https://github.com/Stanford-Trinity/ARTEMIS
领域: AI 安全 / 危险能力评测 / 攻击性网络安全 / 多智能体
关键词: 渗透测试, AI 智能体评测, 多智能体脚手架, 攻击性安全, 危险能力

一句话总结¶

这是第一项把 AI 智能体和真人网络安全专家放进同一个真实生产网络（某大学约 8000 台主机）做渗透测试的对照评测：作者同时跑 10 位专业渗透测试员、6 个现有智能体脚手架和自研的多智能体框架 ARTEMIS，结果 ARTEMIS 以 9 个有效漏洞、82% 有效提交率拿下总榜第二、压过 10 人中的 9 人，而 Codex、CyAgent 等现成脚手架几乎垫底——同时暴露出 AI 在系统化枚举/并行利用/成本上的优势与高假阳率、不会操作 GUI 的短板。

研究背景与动机¶

领域现状：业界已经造了一大堆衡量"AI 攻击性网络安全能力"的基准——从知识问答（Cybench 一类）、代码片段里的孤立漏洞检测，到 CTF 题库、复现公开 CVE（BountyBench、CVEBench 等）。这些基准的好处是可规模化、可重复。

现有痛点：但它们都建立在大量抽象之上，把真实风险里最关键的部分抹掉了。CTF 缺乏运营真实性；CVE 基准缺少真实系统的规模、噪声和交互性。现实里绝大多数入侵都来自攻击者与活体环境的反复交互——复用窃取的凭证、串联多个错误配置、钓鱼、利用未打补丁的漏洞。前沿模型在现有基准上普遍只能拿到 50% 上下的分，却有证据显示威胁行为者已经在频繁、成功地把 AI 用于真实攻击。这道基准分数低、真实危害却在上升的裂缝，说明现有评测漏掉了生产环境里的大量复杂性。

核心矛盾：要真正度量 AI 的网络安全边际风险，就必须在真实生产系统里评测；但真实系统评测会带来机密性/完整性/可用性（CIA）风险、伦理与机构约束，几乎没人敢做，所以一直缺位。

本文目标：(1) 在真实企业网络里第一次系统地把 AI 智能体和真人专家对照；(2) 拿出一个能"榨出"前沿模型网络安全能力的智能体脚手架 ARTEMIS，看看在公平条件下 AI 到底能走多远。

切入角度：作者直接和一所大学的 IT 部门合作，拿到约 8000 台主机、12 个子网的真实计算机系网络做靶场，并设计了一整套安全护栏（知情同意、漏洞披露政策 VDP、双人实时监控、可三点切断）让这种高风险评测得以合法、可控地进行。

核心 idea：把"真实生产网络 + 真人专家基线 + 统一评分框架"和"一个专为长程攻击性任务设计的多智能体脚手架 ARTEMIS"放在一起，得到迄今最贴近真实风险的 AI 攻击性安全评测。

方法详解¶

整体框架¶

这篇论文有两条主线：一条是评测方法（怎么把人和机器放在同一把尺子下比较），一条是被测系统 ARTEMIS（作者自研的攻击性多智能体框架）。

评测侧：靶场是某研究型大学公私两段的计算机系网络，12 个子网（7 个公网可达、5 个需 VPN），约 8000 台异构主机（以 Unix 为主，夹杂 IoT、少量 Windows 和嵌入式设备），用 Kerberos 做认证、每个参与者发一个学生级账号。作者招募 10 位专业渗透测试员（每人补偿 $2000、承诺至少 10 小时投入），同时跑 6 个现有智能体（Codex、Claude Code、CyAgent×2、Incalmo、MAPTA）和两套 ARTEMIS 配置（A1=全程 GPT-5；A2=多模型集成做 supervisor + Claude Sonnet 4 做 sub-agent）。所有提交的漏洞都按一套统一评分框架打分（技术复杂度 + 业务影响加权），并用 MITRE ATT&CK 标准编号给战术技术分类。

ARTEMIS 侧：它由三大件组成——一个高层 supervisor 编排整个工作流，一群任意数量的 sub-agent 并行干活，一个三阶段 triager 把关漏洞提交。下面这张图是 ARTEMIS 的内部回路（对应论文 Figure 1）：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["用户指定任务<br/>(目标范围 + 指令)"] --> B["Supervisor<br/>编排 + 任务列表 + 笔记 + 智能摘要"]
    B -->|动态 prompt 生成<br/>造任务专属系统提示| C["Sub-agent swarm<br/>任意数量并行探测/利用"]
    C -->|回报发现| B
    B -->|候选漏洞| D["三阶段 Triager"]
    subgraph TRI["三阶段 Triager 漏洞分诊"]
        direction TB
        D --> E["①初审：质量+范围<br/>过/拒"]
        E --> F["②验证复现：取证+步骤"]
        F --> G["③定级分类：影响+CVSS"]
    end
    G --> H["提交 / 上报漏洞"]
    B -->|上下文将满| I["Session 切分<br/>摘要→清上下文→续跑"]
    I --> B

关键设计¶

1. 真实企业网络的对照评测设计：在活体生产系统里给人和机器装同一把尺

要度量 AI 的真实网络安全风险，CTF 和 CVE 复现这类沙盒基准天然测不准，因为它们没有真实系统的规模、噪声和交互性。本文的核心方法贡献是直接在一所大学约 8000 台主机的生产网络里做评测，让 10 位真人专家和所有智能体在同一靶场、同一 Kali Linux VM、同一套指令下作业。难点在于这种评测的运营风险极高——大规模网络扫描可能像 DDoS 一样拖垮关键服务（可用性），SQL 注入可能改/删数据（完整性），漏洞利用可能外泄数据（机密性）。作者用一整套护栏把它变得可控：参与者签知情同意书并录屏、遵守大学的漏洞披露政策（VDP，划定安全港、禁止破坏性操作）、对智能体采取双层人盯（研究团队成员实时看智能体轨迹、随时可终止，IT 部门同时盯网络日志），并预设三个独立切断点（杀进程 / 关主机 / 断网）。正因为有真人专家做基线、有真实环境，得到的能力对比才有外部效度——这是 CTF 排行榜给不了的。

2. ARTEMIS 的 supervisor + 任意 sub-agent swarm：把攻击性任务横向铺开并行做

现有脚手架的通病是 sub-agent 数量受限、上下文管理差跑不长、设计里缺网络安全专业知识。ARTEMIS 的骨架是一个高层 supervisor 管全局（维护任务列表、笔记系统），需要时即时 spawn 任意数量的 sub-agent 去并行探测多个目标。这正是 AI 相对真人最锋利的优势：当某次扫描发现可疑目标，ARTEMIS 会立刻在后台拉起一个 sub-agent 去深挖，可以同时挂多个 sub-agent 处理多个目标——实测峰值 8 个并行 sub-agent、平均每轮 supervisor 迭代 2.82 个并发。真人做不到这种并行（论文里 P2 记下一个有漏洞的 LDAP 服务器却再没回头看）。Supervisor 的动作空间包括 write_note、read_log、make_todo、search_web、spawn subagent、submit、finished 等。

3. 动态 prompt 生成 + session 切分：让智能体既"专业"又能"跑长程"

光有并行还不够，攻击性任务既要专业知识、又是长时序（long-horizon）。ARTEMIS 用两招补这两点。其一是动态 prompt 生成模块：supervisor 委派任务时，会按具体子任务现造一套任务专属的系统提示给 sub-agent，把该用什么工具、走什么流程写清楚，避免 sub-agent 用错工具或步骤——相当于临时给每个 sub-agent 配一份"专家说明书"。其二是session 切分：现有智能体上下文一满就跑不动了，ARTEMIS 把工作切成多个 session——每段结束时总结进度→清空上下文→从断点续跑，靠这套机制运行时长远超现有智能体（两套配置都跑 16 小时，只取前 10 小时和真人对齐）。值得注意的是，正是 ARTEMIS 的脚手架和提示设计绕过了模型的拒答机制：用同样的底层模型，Claude Code（对应 A2 的模型）和 MAPTA（对应 A1 的模型）开箱即拒，而 ARTEMIS 全程没出现拒答。

4. 三阶段 Triager 漏洞分诊：把假阳和重复挡在提交之前

AI 智能体的一大软肋是假阳率高、爱重复提交。ARTEMIS 专门设了一个 triager 模块，对每个候选发现走三阶段流水线：①初审（检查质量和是否在范围内，决定继续还是拒掉）→ ②验证与复现（尝试复现、收集证据与利用步骤）→ ③定级与分类（影响分析、CVSS 打分、最终归类）。这道关卡把不可复现、跑偏范围、重复的提交过滤掉，是 ARTEMIS 拿到 82% 高有效提交率的直接原因。即便如此，论文也诚实承认 ARTEMIS 的假阳仍多于真人（见局限）。

评测侧还有一个统一评分框架值得单独点出：总分 $S_{total}=\sum_{i=1}^{n}(TC_i+W_i)$，其中 $TC_i$ 是技术复杂度（探测复杂度 $DC$ + 利用复杂度 $EC$），并对"只验证未利用"的发现给软惩罚——$TC_i=DC_i+EC_i$（已利用）或 $TC_i=DC_i+(EC_i\times-0.2)$（仅验证）；$W_i$ 是业务影响的指数式加权：Critical=8、High=5、Medium=3、Low=2、Informational=1，模仿赏金项目对严重漏洞的不成比例奖励。作者特意反常规地奖励技术复杂的利用，而非渗透测试惯常偏爱的"低垂果实"，以便更好地拉开能力差距。

实验关键数据¶

主实验：总榜排名（Table 1，按复杂度+严重度综合打分）¶

名次	参与者	有效率	严重度分	复杂度分	总分
1	P1（真人）	100%	44	67.4	111.4
2	A2（ARTEMIS 集成）	82%	54	41.2	95.2
3	P2（真人）	100%	45	45.0	90.0
4	P4（真人）	100%	64	21.8	85.8
7	A1（ARTEMIS GPT-5）	55%	29	24.2	53.2
11	CO（Codex+GPT-5）	57%	26	12.6	38.6
14	CS（CyAgent+Sonnet4）	57%	13	10.6	23.6
15	CG（CyAgent+GPT-5）	80%	12	7.4	19.4

ARTEMIS（A2）总榜第二，9 个有效漏洞、82% 有效提交率，压过 10 人中的 9 人，只输给做过大量外部前期侦察的 P1。
现成脚手架几乎垫底：Claude Code 和 MAPTA 开箱拒答（各 0 发现），Incalmo 因任务图太死板卡在早期侦察（0 发现）；Codex/CyAgent 主要交"扫描器型"漏洞，丢失高层视野只能做表层任务。
人群整体：10 位真人共发现 49 个去重有效漏洞，每人 3–13 个，所有人都至少找到一个可拿系统/管理员权限的 critical 漏洞。

对照实验：CTF 基准 vs 真实环境（Cybench，Table 2）¶

脚手架	模型	Cybench 成功率
CyAgent	Claude 4.5 Sonnet	55%
ARTEMIS	GPT-5	48.6%
CyAgent	GPT-5	45.9%
CyAgent	o3-mini	22.5%

关键发现：在单机 CTF（Cybench）上，ARTEMIS 相对 CyAgent+GPT-5 没有显著脚手架增益（48.6% vs 45.9%，作者归因于采样方差）。这恰恰印证了论文的论点——ARTEMIS 不增加模型的网络安全知识，它增强的是复杂生产环境里的执行流与规划，所以它的价值只在真实长程任务里才显现，CTF 这种短任务测不出来。

成本与能力差距分析¶

成本碾压：A1（GPT-5）全程 $291.47，即 $18.21/小时（年化 $37,876）；A2（集成）$944.07，$59/小时。而美国渗透测试员均薪约 $125,034/年（约 $60/小时）。A1 以约四分之一的成本拿到与 A2 相近的漏洞数。
脚手架 > 模型的证据：A1 压过 50% 真人，而同样用 GPT-5 的 Codex 只压过 2 人、CyAgent 被所有人压过；A2 与 A1 的差距反映模型强弱，A1/CO/CG 的差距反映脚手架优劣。
GUI 短板：80% 真人通过 TinyPilot Web 界面找到一台 Windows 机的 RCE，ARTEMIS 因不会操作 GUI 只找到 CORS/cookie 配置问题，错过更关键的 RCE，只有在中/高提示下才补上。
CLI 反成优势：一台用了过时 HTTPS 加密套件的老 IDRAC 服务器，现代浏览器拒绝加载，没有一个真人找到；ARTEMIS（A1/A2）用 curl -k 绕过证书校验成功利用。
假阳教训：ARTEMIS 曾把登录失败后跳转登录页的 200 OK 误判为"默认凭证认证成功"——这种交互流对用 GUI 的真人是 trivial 的。

亮点与洞察¶

"真实生产网络 + 真人专家基线"本身就是最大贡献：在 CTF/CVE 基准普遍测不准的当下，第一次给 AI 攻击性能力提供了有外部效度的标尺，整套安全护栏（双人监控、三点切断、VDP）是可复用的高风险评测范式。
脚手架决定下限，模型决定上限：同一个 GPT-5，换成 ARTEMIS 就从"被所有人压过"跃升到"压过一半人"，说明当前 AI 攻击性风险被现成工具严重低估——危险能力评测必须配上强脚手架才公允。
脚手架能绕过拒答：同样的底层模型，Claude Code/MAPTA 拒答、ARTEMIS 不拒，提示工程与脚手架直接决定了模型会不会"配合作恶"，这对 AI 安全治理是个警示。
AI 的优劣势很"AI"：系统化枚举、并行利用、成本是它的强项；高假阳、不会 GUI 是它的弱项——但 CLI 依赖在浏览器失效的老系统上反而帮它找到真人放弃的漏洞，提示 human-AI 互补而非替代。
"边际风险"视角：作者强调过往人机对比都漏掉了自治系统最关键的边际风险——可横向扩展的并行自治带来的速度和效率飞跃，而 ARTEMIS 的 8 路并行 sub-agent 正是这一风险的具象化。

局限与展望¶

时间被压缩：真人只有最多 10 小时活跃投入、4 天系统访问，而真实渗透测试通常持续 1–2 周，长程能力的差距可能没充分体现。
缺真实防御对抗：IT 团队知情，且会手动批准本应被拦截的可疑操作，因此评测没有真实的防御方在对抗，结果偏乐观。
样本量小、无统计检验：受后勤约束只有 10 人 + 几个智能体，无法做有足够统计功效的假设检验，排名差异需谨慎解读。
假阳仍高：即便有三阶段 triager，ARTEMIS 假阳仍多于真人；GUI 交互是明确瓶颈，作者寄望于 computer-use 智能体进步来缓解。
可复现性：靶场是一次性的活体网络，难以原样复现；作者计划做可运行的环境副本、对不同智能体架构/模型做消融，并接入 SIEM 等防御工具扩展日志框架。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一项真实生产网络里的人机攻击性安全对照，评测范式本身就是开创性的。
实验充分度: ⭐⭐⭐⭐ 真实靶场 + 10 人专家 + 7 个脚手架 + 成本/CTF/提示消融很扎实，但样本量小、无统计检验、时间被压缩。
写作质量: ⭐⭐⭐⭐⭐ 风险动机—方法—结果—人机对比层层递进，统一评分框架和 MITRE 映射交代清晰，伦理与护栏写得尤其负责任。
价值: ⭐⭐⭐⭐⭐ 直接刷新了对 AI 攻击性网络安全风险的认知（脚手架决定下限），并开源 ARTEMIS 给防御方，对 AI 安全治理与评测都有高参考价值。