跳转至

Inverting the Shield: Systematically Generating Safety Tests from Policy Specifications

会议: ACL2026
arXiv: 2605.24883
代码: https://github.com/huac-lxy/POLARIS
领域: LLM安全评测 / 规约驱动测试
关键词: 安全策略规约, 形式化测试, 红队评测, 一阶逻辑, 覆盖率驱动生成

一句话总结

POLARIS把自然语言安全策略先编译成一阶逻辑规约,再构造语义策略图并系统遍历生成测试查询,从而让LLM安全评测从启发式红队转向可追踪、可覆盖、可复现的规约驱动测试。

研究背景与动机

领域现状:LLM安全评测通常有两条路线:一类是AdvBench、HarmBench、SORRY-Bench这类静态基准,另一类是自动红队或好奇心驱动的动态攻击生成。前者便于横向比较,后者更能发现新失败模式。

现有痛点:静态基准成本高、容易过时,也可能被训练数据污染;动态红队虽然灵活,但大多依赖启发式搜索,缺少对安全策略空间的系统覆盖保证。它们可以告诉我们“模型失败了”,却很难说明“哪条策略被测过、哪些策略组合还没测”。

核心矛盾:安全策略原本是防护边界,但以自然语言存在时并不是机器可验证的规约。评测若只从已有攻击样例出发,就会被样例分布牵着走;若从策略本身出发,又需要先把模糊政策变成可遍历、可实例化的结构。

本文目标:作者希望把软件工程里的规约测试思想迁移到AI安全评测中:从政策文本抽取可验证逻辑约束,系统探索策略空间,把抽象违反模式实例化为自然语言测试,并保留每个测试到原始政策条款的追踪链路。

切入角度:论文的关键观察是“盾牌也定义了攻击边界”。安全政策规定了模型不能跨越的边界,一旦这些边界被形式化,就可以反向生成测试用例来覆盖边界附近的风险场景。

核心 idea:用“自然语言政策 → 一阶逻辑模板 → 语义策略图 → 图遍历实例化”的流水线,替代只靠已有攻击样例或LLM自由发挥的安全测试生成。

方法详解

整体框架

POLARIS包含三个阶段。第一阶段把自然语言政策拆成原子规则,并转写为一阶逻辑形式的Abstract Violation Templates(AVTs)。第二阶段把所有AVT中的实体、动作和关系组织成Semantic Policy Graph,并通过语义合并和LLM补边扩展隐含关联。第三阶段在图上做受控随机游走,得到抽象违反路径,再由生成模型把路径落地成自然语言测试查询。

这个流程的输入是企业或监管机构的安全政策文本,输出是一组带有策略来源、逻辑路径和自然语言表述的安全测试。和普通红队不同,POLARIS不是先收集攻击prompt再看它们是否有害,而是从策略条款出发,主动覆盖政策空间。

关键设计

  1. Policy-to-Logic Compilation:

    • 功能:把模糊的自然语言政策变成可验证的逻辑模板,建立测试用例和政策条款之间的追踪关系。
    • 核心思路:先把复合政策拆成原子规则,例如把“不要分发毒品或枪支”拆成两个独立禁止项;再抽取实体、动作和义务/禁止等deontic modality,形成类似 \(\forall x,y: \mathcal{P}_{pre}(x,y) \Rightarrow \textsc{Violation}(R_i)\) 的AVT。
    • 设计动机:如果不做逻辑化,生成器只能模仿政策语言,难以证明某个查询到底覆盖了哪条规则。AVT让测试生成拥有明确的“违反条件”。
  2. Semantic Policy Graph:

    • 功能:把分散的逻辑模板连接成可遍历的政策空间,支持发现跨条款、跨概念的组合风险。
    • 核心思路:把AVT中的实体映射为节点,把动作和关系映射为边;再用embedding相似度合并近义节点,用LLM-driven link prediction补充常识性或因果性连接。例如政策中显式出现的“化学实验室”和另一个条款里的“前体化学品”可能通过补边形成组合风险路径。
    • 设计动机:单条政策规则只能覆盖孤立场景,而真实安全失败常发生在多个概念拼接之后。语义图让评测从“逐条规则”扩展到“多跳违反路径”。
  3. Graph-Guided Query Instantiation:

    • 功能:把抽象路径转成自然、上下文化的测试查询,同时保留可追踪的图路径和AVT来源。
    • 核心思路:系统在增强后的图上做受控随机游走,采样出违反场景骨架;随后生成模型根据场景、上下文和意图伪装变量生成最终查询。笔记这里只保留高层机制,不展开具体有害prompt内容。
    • 设计动机:直接把逻辑路径翻译成查询会很机械,而真实模型失败往往出现在更自然的叙事上下文里。实例化阶段负责把“可验证”变成“可执行”。

损失函数 / 训练策略

POLARIS不是训练一个目标LLM,而是构建一个测试生成系统。实验中使用16个来自9家AI公司的公开政策,加上4份中国监管文件,编译成策略知识库;生成阶段的主要开销来自GPT-4-Turbo API调用。评估采用密度加权Coverage / Novelty、Policy Clause Coverage和Attack Success Count。Coverage把已有基准样本到生成集的最近邻距离低于阈值视为覆盖,Novelty则统计生成样本中未被基准覆盖的比例,并用局部密度权重降低密集重复区域的影响。

实验关键数据

主实验

评测维度 关键设置 POLARIS结果 对照 / 解释
Policy Clause Coverage 16个企业政策 + 4份监管文件 100% 表明每条政策规则至少能实例化出测试查询
Coverage @ \(\tau=0.6\) 相对HarmBench 93.21% 说明生成集能覆盖大部分已有安全基准语义空间
Novelty @ \(\tau=0.6\) 相对HarmBench 35.26% 在高覆盖同时仍保留新增语义内容
Mistral-7B攻击成功数 GPT-5-mini评判 13,722 AirBench为2,850,约4.8倍
Qwen-7B攻击成功数 GPT-5-mini评判 11,150 最强对照Curiosity为2,294,约4.9倍
Vicuna攻击成功数 DeepSeek-R1评判 8,590 AirBench为1,639,约5.2倍

消融实验

模块 / 指标 完整POLARIS 去掉模块后的结果 说明
逻辑形式化:Policy Compliance 92.90% w/o Logic为88.90% 形式化约束能减少生成内容偏离政策目标
语义图遍历:Average Novelty @ \(\tau=0.6\) 28.00% w/o Graph为24.80% 图结构帮助发现随机采样难覆盖的新组合路径
Policy-to-Logic质量:Fine-grained score 9.10 / 10 无直接对照 LLM judge认为大部分逻辑表达能保留语义细节
Policy-to-Logic质量:Binary Accuracy 92.06% 无直接对照 严格逻辑正确性仍有少量误差,需要过滤机制
生成成本 28,660条查询花费70.52美元,4.86小时 实例化边际成本0.94美元/千条 语义图构建是一次性成本,后续扩展较便宜

关键发现

  • POLARIS在现代模型上优势最明显,尤其是Mistral-7B和Qwen-7B,攻击成功数相对强基线达到约4到6倍。
  • 静态基准并没有被简单复制:在高Coverage的同时,Novelty仍然保留相当比例,说明图遍历确实扩大了测试空间。
  • 形式化逻辑和语义图都不是装饰模块。去掉逻辑会降低政策符合度,去掉图会降低新颖性。

亮点与洞察

  • 最大亮点是把LLM安全评测重新表述为“规约测试”问题。这个视角让评测从样例驱动转向政策驱动,特别适合监管或企业合规场景。
  • Density-weighted Coverage / Novelty比普通最近邻覆盖更合理,因为安全基准里常有大量相似攻击,普通覆盖率会被密集簇误导。
  • 语义策略图提供了一个可复用中间资产。只要政策图构好,后续可以针对不同领域、模型或风险偏好继续实例化测试,而不是每次重新写prompt。
  • 对安全评测工具链的启发是:未来benchmark不应只发布问题集,还应发布问题集背后的策略规约、覆盖定义和生成轨迹。

局限与展望

  • 作者明确指出,生成质量受输入政策质量限制。如果政策本身含糊、冲突或遗漏,POLARIS只能系统化这些缺陷,无法自动补全规范。
  • 当前方法主要处理静态单轮交互,尚未覆盖多轮对话、工具调用代理或状态性风险;这些场景需要把时间状态和行动约束纳入逻辑表达。
  • 中间步骤依赖LLM抽取实体、动作和FOL模板,虽然验证分数较高,但并非完全正确。大规模部署需要更强的人工抽检、形式验证或一致性过滤。
  • 攻击成功数强调发现失败的数量,但不同失败的严重性不完全相同。后续可以加入风险权重、危害等级和修复优先级。

相关工作与启发

  • vs 静态安全基准: AdvBench、HarmBench、SORRY-Bench等提供固定测试集,POLARIS则从政策规约持续生成测试。前者便于复现,后者更适合应对政策和模型快速变化。
  • vs 自动红队: Curiosity-driven red teaming等方法依赖探索启发式,POLARIS把探索空间显式绑定到政策图,优势是覆盖和追踪性更强。
  • vs Evol-Instruct / MAGPIE: 这些方法生成更复杂的指令来提升模型能力,POLARIS生成的是规约可追踪的安全测试,目标完全不同。
  • 对后续研究的启发: 可以把形式化规约引入多轮agent安全、工具调用权限测试和企业内部安全验收,把“测了多少prompt”升级为“覆盖了多少政策状态”。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把规约驱动软件测试系统性迁移到LLM安全评测,问题定义和方法组合都很有辨识度。
  • 实验充分度: ⭐⭐⭐⭐☆ 覆盖、攻击成功、成本、逻辑验证和消融都比较完整,但多轮/agent场景还未覆盖。
  • 写作质量: ⭐⭐⭐⭐☆ 结构清晰,实验问题设置明确;部分附录表格很多,主文可读性略受压缩。
  • 价值: ⭐⭐⭐⭐⭐ 对安全评测、合规测试和动态benchmark构建都有直接启发。