SafeHarbor: Defining Precise Decision Boundaries via Hierarchical Memory-Augmented Guardrail for LLM Agent Safety¶

会议: ICML 2026
arXiv: 2605.05704
代码: ljj-cyber/SafeHarbor
领域: AI 安全 / LLM Agent
关键词: Guardrail, Agent Safety, Hierarchical Memory, 对比学习, Over-Refusal

一句话总结¶

SafeHarbor 把 LLM Agent 的安全防御从「静态粗粒度分类器」升级为「动态分层记忆树 + 双分数门控」，通过对抗规则生成 + 信息熵自演化让 GPT-4o 在保持 93%+ 拒绝率的同时把 benign 工具调用成功率拉到 63.6%，显著缓解 over-refusal 问题。

研究背景与动机¶

领域现状：LLM Agent 能调用工具、执行真实操作（写文件、发邮件、调 API），但攻击面也从「输出有害文本」扩大到「执行有害动作」。主流防御要么是 (i) 用辅助 LLM 监控运行时（GuardAgent、ShieldAgent），要么是 (ii) fine-tune 安全模型（AgentAlign、Llama-Guard-3），要么是 (iii) 静态规则匹配。

现有痛点：以上方案都把安全边界视为「全局固定的线性切分」—— 一旦想严防恶意 prompt 就连带封禁了相似但合法的 benign 复杂工作流，导致严重 over-refusal；而引入辅助 Agent 又会带来 prohibitive latency（例如 ShieldAgent 要实时跑代码生成）。

核心矛盾：safety strictness 与 utility on benign tasks 之间存在尖锐 trade-off；越严越易过拒，越宽越易被绕过 —— 根本原因是「边界本身不随上下文动态调整」。

本文目标：在不重训 base model、不增加重型 Agent 代理的前提下，给 LLM Agent 装一个「能随每个 query 动态重构安全边界」的防御层，同时把延迟控制在可接受范围。

切入角度：把安全规则看作「按语义分簇的局部边界」而不是全局阈值；通过检索式动态规则注入 + 训练一个轻量 Safety Projector 把语义空间几何化，让边界由 query 自身的位置决定。

核心 idea：用一棵自组织的「分层记忆树」存放对抗式生成的禁则与豁免对，配合一个由对比损失训练的双中心 MLP Projector 提供 harmful/benign 双分数，最后用「快速路径 + 模糊区 LLM 判官」的门控决定是否触发完整安全验证。

方法详解¶

整体框架¶

SafeHarbor 把 query \(x\) 处理分三个阶段：(I) 对抗规则生成 —— 离线把种子有害轨迹通过 mutation 生成多样对抗变体，再用 LLM rule generator 产出对比型规则对 \(\Pi_i=\{R_{\text{harm}},E_{\text{benign}}\}\)；(II) 双知识存储 —— 把规则有结构地组织进二层记忆树 \(\mathcal{M}\)（上层是 routing pivot，下层 leaf 存细粒度规则对），同时训练一个 Safety Projector \(f_\theta:\mathcal{X}\to\mathbb{R}^d\)，引入两个可学习的 prototype \(\mathbf{w}_B,\mathbf{w}_H\)；(III) 在线检索与评分 —— 用 dual-score gating，多数 benign query 走 fast path 直接放行，模糊/高风险 query 才检索相关规则 + 调 LLM judge。形式化的轨迹目标是 \(\tau^*\in\mathcal{T}_{\text{refuse}}\) 若 \(x\in\mathcal{T}_{\text{harm}}\)，否则 \(\tau^*\in\mathcal{T}_{\text{exec}}\)。

关键设计¶

对抗规则生成 + 信息熵驱动的记忆树演化:
- 功能：自动把零散有害样例扩展为覆盖三类社工范式的规则库，并按信息增益决定「新建 cluster / 新建 leaf / 合并精修」。
- 核心思路：对每条种子轨迹 \(\tau_h\)，generator 轮转使用 Goal Decomposition（拆解恶意意图）、Privilege Escalation（伪装高优先级 debug 请求）、Contextual Reframing（包装在教育/假设场景下）三种 mutation 生成多样变体；然后把 \(z_h=f_\theta(\tau_h)\) 与现有 cluster 中心算 cosine 距离。判定逻辑用 Shannon 熵：\(p_i=\exp(\text{Sim}(z_i,c)/\gamma)/\sum_j\exp(\text{Sim}(z_j,c)/\gamma)\)，\(H(C)=-\sum p_i\log_2 p_i\)，信息增益 \(\Delta I(z_h,C^*)=H(C^*\cup\{z_h\})-H(C^*)\)。若到最近 cluster 的相似度 \(<\tau_{\text{sim}}\) 则建新 cluster；若 \(\Delta I>\tau_{\text{gain}}\) 则在原 cluster 下新建 leaf；否则合并并 refine 最近 leaf 的规则对。
- 设计动机：传统静态规则库无法跟上对抗演化，而依赖单一相似度阈值又容易导致树结构爆炸或冗余合并；信息熵增益给出了「这个样本是否真的带来新分布」的统计标准，避免规则膨胀也防止漏报。
几何感知的双中心对比 Safety Projector:
- 功能：把 query 映射到一个由 \(\mathbf{w}_B,\mathbf{w}_H\) 两个可学习 prototype 锚定的几何空间，让距离直接反映 harmful 程度。
- 核心思路：projector 是个 2 层 MLP，输出 \(z'=\text{MLP}(z)\)，分别算 \(d_B=\|z'-\mathbf{w}_B\|_2, d_H=\|z'-\mathbf{w}_H\|_2\)，最终风险分数 \(s(x)=\exp(-d_H)/[\exp(-d_H)+\exp(-d_B)]\)。训练时同时优化二分类 CE \(\mathcal{L}_{cls}\) 与 margin-based center-wise 对比损失 \(\mathcal{L}_{con}=\frac{1}{|\mathcal{B}|}\sum_z \max(0,\Delta+\|z'-\mathbf{w}_y\|_2-\|z'-\mathbf{w}_{\neg y}\|_2)\)，总损失 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{cls}+\lambda\mathcal{L}_{con}\)。
- 设计动机：纯 CE 会让 score 极端化（要么 0 要么 1），抹平模糊样本的差异；引入 margin 对比损失迫使 latent space 既可分又紧凑，让距离真正度量「语义风险等级」，从而支撑后续 dual-score 门控。
双分数门控：fast path + LLM judge:
- 功能：在保持精度的同时把 90% 以上的普通流量从重型 LLM 推理里释放出来。
- 核心思路：每个 query 同时算 (i) projector 给的有害概率 \(S_{\text{harm}}\)，与 (ii) 与全局 benign DB 最近邻样本 \(\mathbf{b}_{ret}\) 的相似度 \(S_{\text{benign}}=1-\|\mathbf{z}_q-\mathbf{b}_{ret}\|_2^2/2\)。若 \(S_{\text{harm}}<\tau_{\text{low}}\) 且 \(S_{\text{benign}}>\tau_{\text{high}}\) 则走 fast path 直接放行；否则进入「中心化规则检索」—— 先选 top-\(k\) cluster，再在 cluster 内找最相似 leaf，把该 leaf 的禁则 \(R_{\text{harm}}\) 与豁免 \(E_{\text{benign}}\) 拼成 prompt 交给 base LLM in-context 判断。
- 设计动机：现实中绝大多数 agent 请求是平凡 benign，对所有 query 都做规则检索 + LLM 判官是浪费；fast path 只放行「双重证据都说 benign」的 query，模糊区才付出复杂验证成本，把延迟集中花在最值得的地方。

损失函数 / 训练策略¶

仅训练 projector：\(\mathcal{L}_{\text{total}}=\mathcal{L}_{cls}+\lambda\mathcal{L}_{con}\)，base LLM 完全 frozen；记忆树是 training-free 离线构建 + 在线 self-evolution。整个系统 plug-and-play，可挂在任意 frozen LLM agent 前。

实验关键数据¶

主实验¶

基于 GPT-4o 与多个 base LLM，在 benign request 与 harmful request 上同时评测「Score / Full pass / Refusal / Non-Refusal」。

Model	Method	Harmful Refusal ↑	Benign Score ↑	评价
GPT-4o	No Defense	58.0%	44.2%	over-permissive
GPT-4o	Rule Traverse	100.0%	12.1%	严重 over-refusal
GPT-4o	SafeHarbor	93%+	63.6%	最佳 trade-off

SafeHarbor 是表中唯一同时把「harmful refusal > 93%」与「benign utility > 60%」两端都做到的方案。

消融实验¶

配置	现象	说明
完整 SafeHarbor	93%+ refusal / 63.6% benign	主结果
去掉 \(\mathcal{L}_{con}\) 对比损失	benign score 下滑	margin 对比是几何区分关键
去掉 fast path	latency 显著上升	fast path 是延迟优化核心
关闭记忆自演化（固定规则库）	长期 attack 通过率上升	信息熵驱动的合并/分裂必要
仅用单分数 (\(S_{\text{harm}}\) only)	over-refusal 回归	benign similarity 是降低误杀关键
朴素 MoE/线性分类	边界模糊样本错判	双中心几何空间提供更强语义结构

关键发现¶

对抗式 rule generation 用三种 social engineering 范式轮转，保证规则库覆盖结构性（多步分解）、权威性（特权升级）与语义性（场景包装）三类攻击 —— 单一范式生成的规则容易被同类对抗 prompt 一锅端。
信息熵门 \(\Delta I\) 比固定相似度阈值更能区分「新威胁」与「同类变体」—— 既避免规则爆炸，也避免漏掉真正的新攻击面。
双 prototype 的几何空间让 ambiguous query 的 score 真正落在 0.3~0.7 区间，给 fast path / LLM judge 的门控提供了有信息量的连续度量。

亮点与洞察¶

把「per-query 重构安全边界」做成了一个工程上可落地的轻量结构（projector + 记忆树），整套系统 training-free 即可挂载到 GPT-4o 这种 closed-source LLM 上。
对比型规则对 \(\{R_{\text{harm}},E_{\text{benign}}\}\) 是缓解 over-refusal 的精妙设计 —— 同一 leaf 不仅说「禁什么」还说「合法相邻情形是什么」，迫使 LLM judge 明确豁免边界而不是一概拒绝。
信息熵驱动的记忆演化机制可移植到任何「需要不断纳入新模式但不能让索引爆炸」的检索增强系统（如 RAG 知识库、ToolBench）。
Fast path 思想（用便宜的双分数把大部分流量挡在重型验证之外）应作为所有 LLM-as-a-Judge guardrail 的标配。

局限与展望¶

评估的「harmful score」依赖 LLM-based judge \(\mathcal{M}_{\text{eval}}\)，存在 judge 模型本身的偏差与上限。
三种 mutation 范式（Goal Decomp/Privilege/Contextual Reframing）是固定的；面对未知类型的攻击（如多模态注入、long-horizon planning attack），覆盖性还需要后续工作进一步度量。
记忆树长期演化下的「漂移」与「遗忘」未充分讨论 —— 持续运行数月后会不会被对抗 prompt 灌入污染规则？
Fast path 的两阈值 \(\tau_{\text{low}},\tau_{\text{high}}\) 是经验设置，未给出自适应策略；在不同 domain 下重新校准的代价没量化。
Benign DB 需要预先准备一个大且干净的合法 query 库，对小众场景可能不可得。

评分¶

新颖性: ⭐⭐⭐⭐ 把信息熵记忆演化 + 对抗规则对引入 LLM agent guardrail
实验充分度: ⭐⭐⭐⭐ 多 LLM + 多攻击范式，但缺少 long-horizon 与多模态攻击的覆盖
写作质量: ⭐⭐⭐⭐ 三阶段框架图清晰，Algorithm 1 写得很标准
价值: ⭐⭐⭐⭐⭐ training-free 可直接挂在 GPT-4o 之类 closed LLM 上，工程落地性极强