Inverting the Shield: Systematically Generating Safety Tests from Policy Specifications¶
会议: ACL2026
arXiv: 2605.24883
代码: https://github.com/huac-lxy/POLARIS
领域: LLM安全评测 / 规约驱动测试
关键词: 安全策略规约, 形式化测试, 红队评测, 一阶逻辑, 覆盖率驱动生成
一句话总结¶
POLARIS把自然语言安全策略先编译成一阶逻辑规约,再构造语义策略图并系统遍历生成测试查询,从而让LLM安全评测从启发式红队转向可追踪、可覆盖、可复现的规约驱动测试。
研究背景与动机¶
领域现状:LLM安全评测通常有两条路线:一类是AdvBench、HarmBench、SORRY-Bench这类静态基准,另一类是自动红队或好奇心驱动的动态攻击生成。前者便于横向比较,后者更能发现新失败模式。
现有痛点:静态基准成本高、容易过时,也可能被训练数据污染;动态红队虽然灵活,但大多依赖启发式搜索,缺少对安全策略空间的系统覆盖保证。它们可以告诉我们“模型失败了”,却很难说明“哪条策略被测过、哪些策略组合还没测”。
核心矛盾:安全策略原本是防护边界,但以自然语言存在时并不是机器可验证的规约。评测若只从已有攻击样例出发,就会被样例分布牵着走;若从策略本身出发,又需要先把模糊政策变成可遍历、可实例化的结构。
本文目标:作者希望把软件工程里的规约测试思想迁移到AI安全评测中:从政策文本抽取可验证逻辑约束,系统探索策略空间,把抽象违反模式实例化为自然语言测试,并保留每个测试到原始政策条款的追踪链路。
切入角度:论文的关键观察是“盾牌也定义了攻击边界”。安全政策规定了模型不能跨越的边界,一旦这些边界被形式化,就可以反向生成测试用例来覆盖边界附近的风险场景。
核心 idea:用“自然语言政策 → 一阶逻辑模板 → 语义策略图 → 图遍历实例化”的流水线,替代只靠已有攻击样例或LLM自由发挥的安全测试生成。
方法详解¶
整体框架¶
POLARIS包含三个阶段。第一阶段把自然语言政策拆成原子规则,并转写为一阶逻辑形式的Abstract Violation Templates(AVTs)。第二阶段把所有AVT中的实体、动作和关系组织成Semantic Policy Graph,并通过语义合并和LLM补边扩展隐含关联。第三阶段在图上做受控随机游走,得到抽象违反路径,再由生成模型把路径落地成自然语言测试查询。
这个流程的输入是企业或监管机构的安全政策文本,输出是一组带有策略来源、逻辑路径和自然语言表述的安全测试。和普通红队不同,POLARIS不是先收集攻击prompt再看它们是否有害,而是从策略条款出发,主动覆盖政策空间。
关键设计¶
-
Policy-to-Logic Compilation:
- 功能:把模糊的自然语言政策变成可验证的逻辑模板,建立测试用例和政策条款之间的追踪关系。
- 核心思路:先把复合政策拆成原子规则,例如把“不要分发毒品或枪支”拆成两个独立禁止项;再抽取实体、动作和义务/禁止等deontic modality,形成类似 \(\forall x,y: \mathcal{P}_{pre}(x,y) \Rightarrow \textsc{Violation}(R_i)\) 的AVT。
- 设计动机:如果不做逻辑化,生成器只能模仿政策语言,难以证明某个查询到底覆盖了哪条规则。AVT让测试生成拥有明确的“违反条件”。
-
Semantic Policy Graph:
- 功能:把分散的逻辑模板连接成可遍历的政策空间,支持发现跨条款、跨概念的组合风险。
- 核心思路:把AVT中的实体映射为节点,把动作和关系映射为边;再用embedding相似度合并近义节点,用LLM-driven link prediction补充常识性或因果性连接。例如政策中显式出现的“化学实验室”和另一个条款里的“前体化学品”可能通过补边形成组合风险路径。
- 设计动机:单条政策规则只能覆盖孤立场景,而真实安全失败常发生在多个概念拼接之后。语义图让评测从“逐条规则”扩展到“多跳违反路径”。
-
Graph-Guided Query Instantiation:
- 功能:把抽象路径转成自然、上下文化的测试查询,同时保留可追踪的图路径和AVT来源。
- 核心思路:系统在增强后的图上做受控随机游走,采样出违反场景骨架;随后生成模型根据场景、上下文和意图伪装变量生成最终查询。笔记这里只保留高层机制,不展开具体有害prompt内容。
- 设计动机:直接把逻辑路径翻译成查询会很机械,而真实模型失败往往出现在更自然的叙事上下文里。实例化阶段负责把“可验证”变成“可执行”。
损失函数 / 训练策略¶
POLARIS不是训练一个目标LLM,而是构建一个测试生成系统。实验中使用16个来自9家AI公司的公开政策,加上4份中国监管文件,编译成策略知识库;生成阶段的主要开销来自GPT-4-Turbo API调用。评估采用密度加权Coverage / Novelty、Policy Clause Coverage和Attack Success Count。Coverage把已有基准样本到生成集的最近邻距离低于阈值视为覆盖,Novelty则统计生成样本中未被基准覆盖的比例,并用局部密度权重降低密集重复区域的影响。
实验关键数据¶
主实验¶
| 评测维度 | 关键设置 | POLARIS结果 | 对照 / 解释 |
|---|---|---|---|
| Policy Clause Coverage | 16个企业政策 + 4份监管文件 | 100% | 表明每条政策规则至少能实例化出测试查询 |
| Coverage @ \(\tau=0.6\) | 相对HarmBench | 93.21% | 说明生成集能覆盖大部分已有安全基准语义空间 |
| Novelty @ \(\tau=0.6\) | 相对HarmBench | 35.26% | 在高覆盖同时仍保留新增语义内容 |
| Mistral-7B攻击成功数 | GPT-5-mini评判 | 13,722 | AirBench为2,850,约4.8倍 |
| Qwen-7B攻击成功数 | GPT-5-mini评判 | 11,150 | 最强对照Curiosity为2,294,约4.9倍 |
| Vicuna攻击成功数 | DeepSeek-R1评判 | 8,590 | AirBench为1,639,约5.2倍 |
消融实验¶
| 模块 / 指标 | 完整POLARIS | 去掉模块后的结果 | 说明 |
|---|---|---|---|
| 逻辑形式化:Policy Compliance | 92.90% | w/o Logic为88.90% | 形式化约束能减少生成内容偏离政策目标 |
| 语义图遍历:Average Novelty @ \(\tau=0.6\) | 28.00% | w/o Graph为24.80% | 图结构帮助发现随机采样难覆盖的新组合路径 |
| Policy-to-Logic质量:Fine-grained score | 9.10 / 10 | 无直接对照 | LLM judge认为大部分逻辑表达能保留语义细节 |
| Policy-to-Logic质量:Binary Accuracy | 92.06% | 无直接对照 | 严格逻辑正确性仍有少量误差,需要过滤机制 |
| 生成成本 | 28,660条查询花费70.52美元,4.86小时 | 实例化边际成本0.94美元/千条 | 语义图构建是一次性成本,后续扩展较便宜 |
关键发现¶
- POLARIS在现代模型上优势最明显,尤其是Mistral-7B和Qwen-7B,攻击成功数相对强基线达到约4到6倍。
- 静态基准并没有被简单复制:在高Coverage的同时,Novelty仍然保留相当比例,说明图遍历确实扩大了测试空间。
- 形式化逻辑和语义图都不是装饰模块。去掉逻辑会降低政策符合度,去掉图会降低新颖性。
亮点与洞察¶
- 最大亮点是把LLM安全评测重新表述为“规约测试”问题。这个视角让评测从样例驱动转向政策驱动,特别适合监管或企业合规场景。
- Density-weighted Coverage / Novelty比普通最近邻覆盖更合理,因为安全基准里常有大量相似攻击,普通覆盖率会被密集簇误导。
- 语义策略图提供了一个可复用中间资产。只要政策图构好,后续可以针对不同领域、模型或风险偏好继续实例化测试,而不是每次重新写prompt。
- 对安全评测工具链的启发是:未来benchmark不应只发布问题集,还应发布问题集背后的策略规约、覆盖定义和生成轨迹。
局限与展望¶
- 作者明确指出,生成质量受输入政策质量限制。如果政策本身含糊、冲突或遗漏,POLARIS只能系统化这些缺陷,无法自动补全规范。
- 当前方法主要处理静态单轮交互,尚未覆盖多轮对话、工具调用代理或状态性风险;这些场景需要把时间状态和行动约束纳入逻辑表达。
- 中间步骤依赖LLM抽取实体、动作和FOL模板,虽然验证分数较高,但并非完全正确。大规模部署需要更强的人工抽检、形式验证或一致性过滤。
- 攻击成功数强调发现失败的数量,但不同失败的严重性不完全相同。后续可以加入风险权重、危害等级和修复优先级。
相关工作与启发¶
- vs 静态安全基准: AdvBench、HarmBench、SORRY-Bench等提供固定测试集,POLARIS则从政策规约持续生成测试。前者便于复现,后者更适合应对政策和模型快速变化。
- vs 自动红队: Curiosity-driven red teaming等方法依赖探索启发式,POLARIS把探索空间显式绑定到政策图,优势是覆盖和追踪性更强。
- vs Evol-Instruct / MAGPIE: 这些方法生成更复杂的指令来提升模型能力,POLARIS生成的是规约可追踪的安全测试,目标完全不同。
- 对后续研究的启发: 可以把形式化规约引入多轮agent安全、工具调用权限测试和企业内部安全验收,把“测了多少prompt”升级为“覆盖了多少政策状态”。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把规约驱动软件测试系统性迁移到LLM安全评测,问题定义和方法组合都很有辨识度。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖、攻击成功、成本、逻辑验证和消融都比较完整,但多轮/agent场景还未覆盖。
- 写作质量: ⭐⭐⭐⭐☆ 结构清晰,实验问题设置明确;部分附录表格很多,主文可读性略受压缩。
- 价值: ⭐⭐⭐⭐⭐ 对安全评测、合规测试和动态benchmark构建都有直接启发。