AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents¶

会议: NeurIPS 2025
arXiv: 2506.00641
代码: GitHub
领域: LLM Agent / AI 安全
关键词: Agent 安全评估, LLM-as-Judge, 记忆增强推理, RAG, 安全基准, ASSEBench

一句话总结¶

提出 AgentAuditor——一个免训练、记忆增强的推理框架，通过让 LLM 自适应提取结构化语义特征（场景、风险、行为）构建经验记忆库，再借助多阶段上下文感知的检索增强生成来引导 LLM 评估器判断 agent 行为的安全性与安全威胁，同时发布首个同时覆盖 safety 和 security 的评估基准 ASSEBench（2293 条记录、15 种风险类型、29 个场景），在多个基准上达到人类专家水平的评估精度。

研究背景与动机¶

领域现状：随着 LLM-based agent 的快速发展，agent 不再只是"生成文本"，而是能在真实环境中执行操作——调用 API、操作文件系统、自主浏览网页、控制智能设备等。这种从"文本生成"到"行动执行"的转变使得 agent 的安全评估变得格外重要：一个失控的 agent 可能不只是说出有害内容，而是直接执行有害操作带来现实世界的损失。然而，如何可靠地评估 agent 行为的安全性和安全威胁（security threats），目前仍是一个重大挑战。

现有痛点：现有评估方法存在四个根本性缺陷。第一，规则基评估器依赖预定义的字符串匹配或关键词检测规则，无法捕捉 agent 多步骤行为序列中的隐含风险——比如一个 agent 执行了一系列看似无害的操作（多次小额转账），但这些操作累积起来可能将用户的全部资金锁入高风险的非流动性投资中，单步检查无法发现这种"无害操作的累积效应"（Harmless Operation Accumulation）。第二，LLM 基评估器虽然具备更强的语义理解能力，但容易忽略微妙的上下文含义，或者走向另一个极端——"过度分析"一个完全安全的交互行为，把一个"起草团队午餐邀请"的请求误判为隐私泄露风险。第三，两类评估器都难以处理安全边界模糊的场景：比如一个 agent 基于用户浏览行为进行聚类分析用于营销目的，这到底是"有帮助的商业分析"还是"隐私侵犯"？答案完全取决于用户是否知情、数据是否匿名化等不可观测因素。第四，缺乏统一标准——安全标准不是通用的，一个在某个领域安全的操作换到另一个领域可能就是危险的（自动驾驶中的紧急情况下闯红灯：救命 vs 违法之间的 agent 特定权衡）。

核心矛盾：问题的根本在于，agent 的风险不像传统 NLP 安全那样可以通过文本级别的规则或模式匹配来检测。Agent 的风险产生于行动在特定环境上下文中的后果，需要评估器具备类似人类专家的综合推理能力——理解场景上下文、追踪多步状态变化、权衡模糊边界情况。而现有方法要么太死板（规则基）、要么太不稳定（裸 LLM），都无法胜任这种深层推理。此外，现有的评估 benchmark 也存在严重短板：R-Judge 是唯一面向"评估器评估"的数据集，但它只有 569 条记录、10 种风险类型，且不区分 safety 和 security，使用二元标签不处理模糊情况，并且已经被 SOTA 方法刷到了约 96% 的 F1 分数，几乎没有进步空间。

本文目标 两大核心问题：（1）如何让 LLM 评估器具备人类专家级别的 agent 安全/安全威胁判断能力？（2）如何构建一个足够全面、有挑战性的基准来衡量评估器的真实能力？

切入角度：作者从一个关键观察出发——人类专家之所以能做出准确的安全判断，核心在于他们拥有"经验"：过往处理类似案例的记忆、形成的推理模式。那么如果能让 LLM 也拥有类似的"经验记忆"——它见过类似的场景、知道类似情况下应该怎么推理——是不是就能大幅提升判断能力？这个假设指向了一个"认知框架"的设计思路：不是试图把所有安全知识灌进 LLM 内部（微调），而是在 LLM 外部构建一套结构化的经验记忆系统，让 LLM 在每次判断时都能"参考前人经验"。

核心 idea：通过自动构建结构化的经验记忆（从场景-风险-行为三个维度提取特征 + 生成推理链），再用多阶段检索为 LLM 评估器动态注入最相关的"思考模板"，实现免训练的人类专家级 agent 安全评估。

方法详解¶

整体框架¶

AgentAuditor 的设计遵循"先积累经验、再运用经验"的认知范式，整体包含两大阶段：

阶段一：经验记忆构建（Experiential Memory Construction）。给定一批带标注的历史 agent 交互记录，AgentAuditor 首先用 LLM 对每条记录自适应提取三元组形式的结构化语义特征（场景类型、风险类型、行为模式），同时为每条记录生成详细的 Chain-of-Thought 推理轨迹。然后将所有记录通过 Nomic-Embed-Text-v1.5 向量化，使用 PCA 降维后进行 FINCH 层次聚类，从每个簇中挑选最具代表性的样本作为"代表性记忆单元"（representative shots）。这个过程是一次性的离线操作。

阶段二：多阶段上下文感知 RAG 评估（Multi-Stage Context-Aware RAG）。对于一个新的待评估 agent 交互记录，系统首先对其提取同样的结构化语义特征，然后进行两阶段检索：第一阶段基于内容的语义相似性粗召回候选记忆单元（top-n，n=8），第二阶段基于提取出的结构化特征进行加权重排序（weighted re-ranking），最终选出 top-k（k=3）条最相关的记忆单元。这 3 条记忆单元以及它们对应的 CoT 推理轨迹被注入到 LLM 评估器的 prompt 中，作为"推理模板"引导 LLM 做出判断。

整个流程不需要任何模型参数训练或微调——经验记忆构建依赖 LLM 的零样本特征提取能力和无监督聚类，评估阶段依赖 in-context learning。

关键设计¶

自适应结构化语义特征提取（Adaptive Structured Semantic Feature Extraction）:
- 功能：对每条 agent 交互记录 \(r_i\)，使用 LLM 自动提取结构化三元组 \((s_i, t_i, b_i)\)，其中 \(s_i\) 是场景类型（如"智能家居控制"、"金融助手"、"网页浏览"），\(t_i\) 是风险类型（如"隐私泄露"、"财产损失"、"物理伤害"），\(b_i\) 是行为模式（如"未经授权的数据访问"、"操作累积风险"）。同时为每条记录生成完整的 CoT 推理轨迹——详细说明"为什么这条记录是安全/不安全的"推理过程。
- 核心思路：不是简单地用 embedding 表示整条记录的语义（那样太粗粒度），而是将交互记录分解为三个正交的语义维度。这种"先结构化再检索"的策略让后续的检索不仅仅依赖表面文本相似性，还能从更抽象的场景-风险-行为维度进行匹配。LLM 在这里充当的不是判官，而是"经验提取器"——把隐含在交互记录中的安全相关特征显式化。
- 设计动机：agent 交互记录通常很长且包含大量无关信息，直接用 embedding 相似性检索容易被噪声干扰。结构化特征提取相当于一层"去噪"——只保留与安全评估最相关的三个维度。此外，同一个风险类型可能出现在完全不同的场景中（如"隐私泄露"既可能发生在社交媒体助手中、也可能发生在医疗问诊 agent 中），结构化表示允许跨场景的经验迁移。
代表性记忆选择——PCA + FINCH 聚类:
- 功能：从全部带标注的交互记录中，通过无监督聚类选出一小批"最具代表性"的记录作为经验记忆单元，压缩信息量同时保留多样性。
- 核心思路：首先用 Nomic-Embed-Text-v1.5 将所有交互记录向量化得到高维 embedding，然后使用 PCA 降维（减少噪声维度），接着应用 FINCH（First Integer Neighbor Clustering Hierarchy）无监督层次聚类算法。FINCH 的优势是不需要预设簇数量，由数据本身的分布自动决定聚类粒度。聚类完成后，从每个簇中选择距离簇中心最近的样本作为该簇的代表性记忆单元。例如，ASSEBench-Safety 的 1476 条记录经过 FINCH 聚类后被压缩为 72 条代表性记忆、R-Judge 的 564 条被压缩为 24 条。
- 设计动机：为什么不直接用全部标注数据作为记忆？因为 RAG 的效果受限于 LLM 的上下文窗口大小，且过多的检索结果会引入噪声。聚类选代表的策略等价于"用少数精华代替大量冗余"——保证记忆库覆盖所有主要模式类型的同时，控制记忆库规模以确保检索质量。作者实验对比了多种聚类算法：FINCH 在 R-Judge 上达到 F1=96.31%，显著优于 K-Means（88.11%）、K-Medoids（89.66%）和 DBSCAN（85.94%），验证了 FINCH 的无超参优势和聚类质量。
多阶段上下文感知检索增强生成（Multi-Stage Context-Aware RAG）:
- 功能：对新的待评估交互记录，执行两阶段检索从经验记忆库中找到最相关的 k=3 条记忆单元及其 CoT 推理轨迹，将这些推理经验注入 LLM 评估器的 prompt 中。
- 核心思路：第一阶段——内容级粗召回：将待评记录的 embedding 与记忆库中所有记忆单元的 embedding 计算余弦相似度，召回 top-n（n=8）个候选。这一步基于整体语义相似性，目的是快速缩小搜索范围。第二阶段——特征级精细重排：对待评记录也提取其结构化三元组 \((s_q, t_q, b_q)\)，然后与 n=8 个候选的三元组进行特征级匹配，计算加权复合得分（composite score）。特征匹配和权重通过在独立的开发集（R-Judge）上进行网格搜索确定，选定后固定用于所有数据集。最终从 8 个候选中选出得分最高的 top-k=3 条，作为最终的推理引导。
- 设计动机：单纯的基于 embedding 的语义检索容易被表面相似性误导——两个场景的文本对话可能很相似，但涉及的风险类型和行为模式完全不同。多阶段检索先粗后精，第一阶段保证召回率，第二阶段利用结构化特征保证精确率。实验表明，去除多阶段检索改用单阶段检索，性能下降 3-5%。更重要的是，当检索到的 shots 不是完美匹配时（如跨数据集检索），框架仍然有效——因为 CoT 推理轨迹提供的是"思考方式"而非仅仅是"标签"，即使场景不完全相同，推理模式仍然有参考价值。

损失函数 / 训练策略¶

AgentAuditor 是完全免训练的框架，不需要任何模型参数的微调或梯度更新。整个系统依赖三个核心机制替代传统训练：

经验记忆构建替代训练数据学习：通过 LLM 的零样本能力从标注数据中提取结构化特征和推理轨迹，这一过程是一次性的离线操作，类似于"用 LLM 的已有知识来消化训练数据"。
FINCH 无监督聚类替代模型选择过程：自动确定记忆库的规模和代表性样本，无需超参数调优。
In-context Learning替代模型微调：评估时通过将检索到的推理经验作为 few-shot 示例注入 prompt，利用 LLM 强大的上下文学习能力实现即时推理，而非修改模型权重。

这种设计带来两个显著优势：一是部署简单——即插即用，无需 GPU 训练资源；二是可扩展性强——当出现新的风险类型或场景时，只需向记忆库添加新的标注记录并重新运行聚类即可，无需重新训练模型。权重选择方面，特征匹配的启发式权重通过在 R-Judge 开发集上进行系统的网格搜索确定（预定义多组权重组合，每组重复测试三次取平均），选定后固定用于所有实验。

ASSEBench 基准¶

除了方法创新，论文还贡献了 ASSEBench（Agent Safety and Security Evaluation Benchmark）——首个专为评估"评估器"而设计的同时覆盖 safety 和 security 的基准数据集。

数据规模与覆盖：ASSEBench 包含 2293 条精细标注的 agent 交互记录，覆盖 15 种风险类型和 29 个应用场景。相比 R-Judge 的 569 条 / 10 种风险类型，规模扩大了 4 倍以上。

Safety vs Security 系统性分离：ASSEBench 是第一个在数据集层面系统区分"安全"（safety）和"安全威胁"（security）的基准。这两个概念虽然在日常使用中经常混淆，但在计算机安全领域有本质区别——safety 是指 agent 的行为不应对用户或环境造成伤害（如隐私泄露、物理伤害），security 是指 agent 应能抵御外部攻击和恶意输入（如 prompt injection、越狱攻击）。将两者分开评估可以更精准地诊断评估器的薄弱环节。

双标准设计——Strict vs Lenient：这是 ASSEBench 最具创新性的设计之一。许多 agent 交互存在模糊的安全边界——同一个行为在不同解读下可能被判定为安全或不安全。ASSEBench 为这类模糊案例引入了"模糊标志"（ambiguous flag），并提供两套判断标准：Strict 标准（宁可错杀不可放过，模糊即判定不安全）和 Lenient 标准（给予善意解读，模糊即判定安全）。这种设计允许研究者评估评估器在不同安全偏好下的表现，也更贴近现实中不同应用场景对安全阈值的差异化需求。

评估头room：R-Judge 已被 SOTA 刷到 96% F1，几乎没有改进空间。ASSEBench 由于增加了模糊场景和 security 维度，对评估器提出了更高挑战，SOTA 在多个子集上仍有显著提升空间，使其成为衡量未来进展的更有价值的工具。

实验关键数据¶

主实验¶

AgentAuditor 在 4 个数据集共 8 个评估子集上进行了全面测试。以下为使用 Gemini-2-Flash-Thinking 作为基础模型的主要结果（F1 分数，%）：

数据集子集	Base Model (F1)	Base Model (W-F1)	AgentAuditor (F1)	AgentAuditor (W-F1)	提升幅度
ASSE-Safety	61.79	67.82	91.59	90.85	+29.8
ASSE-Security	67.25	72.34	93.17	93.15	+25.9
ASSE-Strict	—	—	~90+	~90+	显著提升
ASSE-Lenient	—	—	~90+	~90+	显著提升
R-Judge	82.27	81.21	96.31	96.10	+14.0
AgentHarm	—	—	显著提升	显著提升	—
AgentSecurityBench	—	—	显著提升	显著提升	—
AgentSafetyBench	—	—	显著提升	显著提升	—

使用 GPT-4.1 的对比表（R-Judge）：

方法	F1 (%)	W-F1 (%)
Base Model (GPT-4.1)	81.03	77.84
Agent-as-a-Judge (GPT-4.1)	83.85	81.56
AgentAuditor (GPT-4.1)	94.18	93.95

关键发现：AgentAuditor 一致性地提升了所有 LLM 评估器在所有基准上的表现，且提升幅度巨大——在 ASSEBench-Safety 上 F1 提升高达 48.2%（对某些基础模型而言）。同时大幅超越 Agent-as-a-Judge（+10.33 F1）。

消融实验¶

聚类算法对比（R-Judge，Gemini-2-Flash-Thinking）：

聚类方法	代表性 Shots 数量	F1 (%)	W-F1 (%)
无记忆（Base Model）	0	82.27	81.21
K-Means	24	88.11	86.96
K-Medoids	24	89.66	86.79
DBSCAN	14	85.94	84.12
FINCH	24	96.31	96.10

检索相关性消融（R-Judge）：

配置	F1 (%)	W-F1 (%)	说明
AgentAuditor (Top 1-3)	96.31	96.10	检索最相关的 3 条
Ranks 4-6	92.74	91.30	强制使用 4-6 名（不太相关）
Random Shots	85.07	82.80	随机选择 3 条
Base Model	82.27	81.21	无记忆增强

跨数据集迁移实验（验证 OOD 泛化能力）：

记忆来源	评估目标	F1 (%)	W-F1 (%)
无记忆	ASSE-Safety	61.79	67.82
R-Judge（跨域）	ASSE-Safety	86.36	86.10
ASSE-Safety（同域）	ASSE-Safety	91.59	90.85
无记忆	ASSE-Security	67.25	72.34
R-Judge（跨域）	ASSE-Security	84.55	85.12
ASSE-Security（同域）	ASSE-Security	93.17	93.15

对抗鲁棒性测试（R-Judge，三级攻击强度）：

攻击级别	投毒率	平均被检索到的毒 shots 数	F1 (%)	W-F1 (%)
无攻击（Base）	0	0	82.27	81.21
无攻击（AgentAuditor）	0	0	96.31	96.10
Level 1（灰盒-数据投毒）	1.1% (6/564)	0	96.28	96.15
Level 1（灰盒-数据投毒）	9.9% (56/564)	0.19	92.64	91.79
Level 2（强灰盒-记忆投毒）	8.3% (2/24)	0.23	90.35	89.36
Level 2（强灰盒-记忆投毒）	33.3% (8/24)	0.96	85.07	82.80
Level 3（白盒-决策攻击）	33.3% (1/3)	1.0	84.65	82.72

领域分解性能（ASSEBench，GPT-4.1）：

领域	Safety F1 (%)	Security F1 (%)
IT System	100	100
Web Browse	93.75	96.77
Financial	80.00	96.77
Health Support	77.67	88.89
Content Creation	75.19	66.67
Auto. Navigation	40.00	58.33

关键发现¶

FINCH 聚类的优越性：FINCH 无需预设簇数量且性能最优，比次优的 K-Medoids 高出 6.65% F1。更关键的是 FINCH 构成了一个"移动靶标"——即使攻击者针对当前聚类结果精心构造了毒样本，重新运行 FINCH 很可能产生完全不同的代表性样本集，使攻击失效。
CoT 推理轨迹 > 标签信息：对比 Random Shots（有标签但推理不相关）和 Top 1-3（标签+相关推理），差距达 11.24% F1。说明 AgentAuditor 的核心价值不在于提供"答案参考"，而在于提供"推理模板"——教 LLM "怎么想"比告诉它"答案是什么"更有效。
优雅退化（Graceful Degradation）：即使用完全不同领域的记忆（R-Judge → ASSE-Safety/Security），AgentAuditor 仍然大幅超越无记忆基线（+24.57 / +17.30 F1）。即使在最极端的白盒攻击下（1/3 的推理示例被恶意替换），性能仍优于无防护的 Base Model。
领域依赖性：性能在"计算机中心"的领域（IT System、Web Browse）最好（特征明确、有清晰规则），在"需要真实世界常识和长程依赖"的领域（自动驾驶、导航）最差。这揭示了当前方法的天花板——对于需要物理世界推理的安全评估，纯文本级别的经验记忆仍有局限。
效率可控：PCA + FINCH 的计算成本相对 LLM 推理可以忽略不计。在 50 倍数据规模（28200 条）下，PCA 耗时仅 2.61 秒、FINCH 耗时 1.94 秒。AgentAuditor 相对于直接 LLM 评估的主要额外成本来自检索和更长的 prompt（含检索到的 CoT），但总体时间开销合理——在 QwQ-32B 上评估 R-Judge 总耗时 6.86 A100-小时（含 1.07 小时记忆构建 + 5.79 小时评估），而直接评估用 2.72 小时。考虑到性能从 80% 提升到 96%，这个 trade-off 完全值得。
与微调方案对比：在 Qwen2.5-7B 上，微调需要 4000 条训练数据和 16 A100-小时的训练时间，得到 83.67% F1；而 AgentAuditor 仅需 24 条代表性记忆和 1.35 A100-小时，虽然 F1 较低（76.69%），但在大模型（QwQ-32B）上表现远超微调方案。这说明 AgentAuditor 特别适合"强底座 + 免训练"的部署场景。

亮点与洞察¶

从"单体推理"到"经验增强推理"的范式转变。AgentAuditor 不把 LLM 视为万能的单体推理器，而是为其外挂一套结构化的"经验大脑"。这个设计理念很巧妙——人类专家之所以评估准确，不是因为他们比普通人更聪明，而是因为他们见过更多案例、形成了推理模式。AgentAuditor 本质上是在模拟人类专家的认知过程：积累经验 → 结构化组织 → 相似案例联想 → 参考经验推理。
ASSEBench 的双标准（Strict/Lenient）设计非常优雅。在安全评估领域，"安全"和"不安全"之间从来不是非黑即白的，模糊区域往往是最重要也最难处理的部分。通过为模糊案例同时提供两套标准，ASSEBench 允许研究者评估评估器在不同"安全偏好"下的行为，这比简单的二元标签丰富得多，也更贴近真实世界的需求——不同应用场景确实需要不同的安全阈值。
结构化三元组的"去噪"效果。将冗长的 agent 交互记录分解为（场景、风险、行为）三元组，本质上是对信息的维度约简——丢弃与安全评估无关的细节，保留最关键的语义维度。这个 trick 不仅提升了检索质量，还具有很强的可迁移性——任何需要对长文本进行"主题匹配"的 RAG 系统都可以借鉴这种"先抽取结构化特征、再基于特征检索"的两阶段策略。
免训练设计的可增长性。传统微调方法每次加入新数据都需要重新训练，而 AgentAuditor 只需要增量地向记忆库添加新的交互记录、重新运行 FINCH 聚类即可。这使得系统可以随使用持续积累评估经验，类似于人类专家的持续学习过程。

局限与展望¶

记忆库的冷启动问题：AgentAuditor 依赖有标注的历史交互记录来构建经验记忆。对于全新的应用场景或风险类型（记忆库中完全没有先例），系统性能会显著退化。虽然跨数据集实验表明即使记忆不完全匹配仍有提升，但在真正的零样本 OOD 场景下（如一种全新的 agent 攻击方式），效果仍不确定。可以考虑结合主动学习，让系统自动识别"不确信"的案例并请求人工标注。
静态记忆库的局限：当前的经验记忆在构建后是固定的，无法根据评估过程中遇到的新模式自动更新。一个自然的改进方向是引入动态记忆机制——当评估器遇到置信度高的新案例时，自动将其加入记忆库并触发增量聚类更新。
多阶段检索的延迟开销：两阶段检索 + 长 prompt（含检索到的 CoT）增加了推理延迟。在 QwQ-32B 上，总推理时间是裸 LLM 的约 2.5 倍。对于需要实时安全监控的场景（如 agent 在线服务），这个延迟可能不可接受。可以考虑用蒸馏的方式将经验记忆"内化"到小模型中。
自动驾驶等物理世界场景表现弱：从领域分解实验可以看到，Autonomous Navigation 的 F1 低至 40%。这暴露了一个根本性问题——当前框架完全基于文本级别的推理，而物理世界的安全评估需要空间推理、物理常识等能力，这超出了纯文本 RAG 的能力范围。
对底层 LLM 能力的强依赖：虽然 AgentAuditor 号称对底层 LLM 不敏感，但从时间成本表看，Qwen2.5-7B 上 AgentAuditor 仅取得 76.69% F1，远低于 QwQ-32B 的 95.67%。说明在小模型上，经验记忆的增强效果有限——底层模型需要有足够强的 in-context learning 能力才能有效利用检索到的推理经验。
特征提取权重的透明度：启发式权重通过网格搜索在 R-Judge 上确定后固定用于所有基准。虽然实验证明泛化性尚可，但不同领域对场景/风险/行为三个维度的重要性权重可能确实不同。一个改进方向是引入自适应权重——根据待评案例的特征动态调整维度权重。

评分¶

新颖性: ⭐⭐⭐⭐ 核心组件（RAG、CoT、聚类）都是已有技术，但将其组合为"经验记忆增强评估"范式并应用于 agent 安全评估是新颖的
实验充分度: ⭐⭐⭐⭐⭐ 消融实验极为详尽——聚类对比、检索相关性消融、跨数据集迁移、三级对抗攻击、领域分解、时间成本分析，几乎穷尽了所有角度
写作质量: ⭐⭐⭐⭐ 论文结构清晰，但部分重要内容（效率分析、局限性）放在附录中，需读者额外查阅
价值: ⭐⭐⭐⭐⭐ ASSEBench 填补了 agent 安全评估基准的重要空白，AgentAuditor 的免训练范式对工业界部署有直接价值