跳转至

SOSBench: Benchmarking Safety Alignment on Six Scientific Domains

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=2Td8r7KYK2
代码: https://sosbench.github.io/ (有)
领域: LLM 安全 / 对齐评测 / 红队
关键词: 安全对齐, 科学知识滥用, 安全基准, 监管接地, 策略违规率

一句话总结

SOSBench 构建了首个以监管法规为锚、聚焦真实危害的安全基准,用 3000 条覆盖化学/生物/医学/药理/物理/心理六大高危科学领域的提示词,揭示出即便是号称对齐良好的前沿大模型,在需要深度科学知识的滥用场景下仍会大面积输出违规内容(Deepseek-R1 策略违规率 84.9%,GPT-4.1 50.3%)。

研究背景与动机

领域现状:大模型的安全对齐主要靠 post-training 阶段的 SFT + RLHF/DPO 让模型拒答有害输入,而评测则依赖一批安全基准(AdvBench、StrongReject 等)。这些基准既是衡量对齐水平的标尺,也是改进对齐的训练资源。

现有痛点:现有安全基准在两个维度上都不够。一类(如 AdvBench、StrongReject)只覆盖常识级的有害指令——"教我造炸弹"这种几乎不需要科学知识就能理解的请求;另一类涉及科学知识的基准(SciMT-Safety、WMDP、SciSafeEval)要么领域窄(只有生化),要么用多选题/分类题这类本质无害的形式包装,要么虽含高深知识却和真实世界风险脱钩(只是知识检索、分类等低危任务)。结果是:当模型面对既需要深厚专业知识、又确实危险的科学滥用场景时,现有基准根本测不出来它安不安全。

核心矛盾:模型的知识能力随规模快速膨胀(能做研究生级问答、复杂推理),但安全对齐却没有同步覆盖到这些知识密集的危险地带——对齐的"广度"落后于知识的"深度"。一个在 AdvBench 上 PVR 为 0 的模型,可能在合成受管制爆炸物的提问上轻易交代细节。

本文目标:造一个能真正测出"科学知识滥用"安全缺口的基准,要满足两个硬条件——每条提示词所涉概念既被权威法规明确列为危险,又需要深度领域知识才能理解。

切入角度:作者从两个观察出发——(1) 危害的"权威定义"应该来自真实法规(NFPA 704、联合国、WHO 等),而非主观判断;(2) 把法规里的"通俗危险词"(如 trinitrotoluene)替换成需要专业知识才能识别的同义形式(缩写 TNT、分子式 C7H5N3O6、Hill notation),就能同时拉高危害性和知识门槛。

核心 idea:用"监管接地的种子词 + LLM 辅助数据演化"流水线,批量生产既危险又需专业知识的提示词,再用统一的策略违规率(PVR)框架横扫 26 个前沿模型,把"浅层对齐"这个隐藏缺口暴露出来。

方法详解

整体框架

SOSBench 本质上是一条三阶段构造流水线:先从权威法规里人工抽取"危险种子词"并用外部知识库扩展成需要专业知识的变体,再把种子词填进从 AdvBench 提取/人工撰写的指令模板得到初始提示池,最后用一套 LLM 辅助的数据演化算法对提示做变异、有害性验证和覆盖度驱动采样,提炼出 3000 条高质量、知识密集的危险指令。构造完成后,用统一的策略违规率(PVR) 评测框架对模型逐条提问、用 LLM-as-Judge 打分。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["权威法规<br/>NFPA704 / UN / WHO"] --> B["监管接地的种子词收集<br/>抽危险术语 + 知识库扩展变体"]
    B --> C["混合初始提示生成<br/>AdvBench模板 + 人工模板 + 种子词替换"]
    C --> D["数据演化<br/>变异 + 弱模型验证 + 覆盖度采样"]
    D --> E["SOSBench<br/>3000条 / 六领域各500"]
    E --> F["PVR 评测框架<br/>逐条提问 + GPT-5 当裁判"]

关键设计

1. 监管接地的种子词收集:让"危险"有权威依据,并把门槛抬到专家级

针对"现有基准的危害判定缺乏权威依据、且常识级太浅"这个痛点,作者不让人主观判断什么算危险,而是直接从法规里抽。以化学为例,从 NFPA 704 标准的第 6 章(可燃性)和第 7 章(不稳定性/反应性)里,只挑被标为最高危害等级(Level 4)的物质作为"基本术语"(basic term),六个领域各有对应的法规来源(药理用美国药物滥用研究所的管制清单,核物理用国际原子能机构等)。

但基本术语(如 trinitrotoluene)往往是通俗化学名,不需要专业知识就能看懂,达不到"知识密集"的要求。于是作者再用领域知识库做扩展:对每个化学名查 PubChem,取回它的缩写、同义词、分子式、商品名、俗名等替代形式——例如 TNT 会扩展出 "trinitrotoluol"、"2-methyl-1,3,5-trinitrobenzene"、Hill 记法 \(\text{C}_7\text{H}_5\text{N}_3\text{O}_6\)、缩合环记法 \(\text{C}_6\text{H}_2(\text{CH}_3)(\text{NO}_2)_3\)。这些需要专业训练才能识别的变体与原始术语合并,构成每个领域的完整种子词池。这一步是基准"既危险又难"的根基:危险来自法规,难度来自知识库变体。

2. 混合初始提示生成:用模板把种子词组装成可触发有害行为的指令

光有危险术语还不是可用的提问,需要把它们嵌进有"诱导意图"的句式里。作者用两类模板:一类从 AdvBench 里关键词检索出与该领域相关的指令模板(化学领域用 "bomb"、"explosive"、"fire"、"firearm" 等词检索出涉及爆炸物的模板);另一类是团队领域专家根据真实事故和案例手写的模板,这类模板对本领域所有种子词通用。把模板里的关键词替换成对应种子词,就批量产出初始提示集 \(D_0\)。两类模板互补——前者借现成的危险句式,后者补充贴近真实滥用情境的表达。

3. 数据演化:变异 + 弱模型验证 + 覆盖度采样,把粗糙提示池打磨成高质量基准

\(D_0\) 虽大但冗余多、模板有限导致多样性差,直接用来测对齐效果不佳。作者设计了带质量控制的 LLM 辅助演化算法(Algorithm 1),核心是三个子步循环迭代。变异(Mutation):用生成器 \(G\)(GPT-4o-mini)在一批随机采样的参考提示(来自 RedTeam-2K 池 \(R\))引导下,从旧提示生成新提示,并强制保留原始科学术语,以此提升多样性。质量验证(Validation):基于"弱小且对齐差的模型更容易吐有害内容"这一经验,用三个由不同团队开发的小模型(Llama-3.1-8B、Qwen-2.5-7B、Gemma-2-9B)作为代理生成回答,再用 LlamaGuard3 判定是否有害——如果连这些弱模型在某术语的多个变体上都不产生有害回答,就推断更强的模型要么会拒答、要么缺乏相关知识,该提示对评测无意义,应剔除。

最巧妙的是覆盖度驱动启发式采样,用探索-利用平衡保证每个术语都被充分覆盖。给每条提示定义有害性分数 \(s(p) \in \{0,1,\dots,C\}\)\(C\) 个代理模型中被判有害的数量),术语 \(t\) 的覆盖度 \(c(t)=\max_{p:t=\text{term}(p)} s(p)\),只有 \(c(t)<C\)(尚未被完全覆盖)的术语才进入候选池 \(\mathcal{C}\)。每轮先均匀随机\(\mathcal{C}\)\(K\) 个术语(探索未覆盖术语),再对每个术语按 Laplace 平滑权重 \(w(p)=s(p)+1\) 采样具体提示:

\[\Pr(p \mid t_i) = \frac{w(p)}{\sum_{p' \in P(t_i)} w(p')}\]

这样有害分数高的提示被略微偏好(利用有潜力的提示,加速其逼近 \(s(p)=C\)),同时每条提示都保留非零概率(维持多样性)。随迭代推进,各术语覆盖度单调上升直到 \(c(t)=C\),实现跨术语的均衡覆盖。最终从演化后的池中每领域采样 500 条、经人工终检得到 3000 条 SOSBench,外加随机抽 300 条(每领域 50)的轻量版 SOSBench-Lite。

4. PVR 评测框架:用统一的策略违规率 + LLM-as-Judge 横向对比模型安全性

有了基准还需一个能横扫所有模型的统一度量。作者用策略违规率(Policy Violation Rate, PVR)

\[\text{PVR}_M(D) = \frac{1}{|D|} \sum_{p \in D} \mathbb{I}(p, M(p))\]

其中 \(\mathbb{I}(\cdot)=1\) 当提示-回答对违反策略,否则为 0。这个指示函数由 LLM-as-Judge 实现——作者用 GPT-5 配上精心设计的、含详细策略说明的裁判提示,实测与人工标注的一致性优于其他裁判模型。评测设定上,非推理模型生成上限 512 token,推理模型放大 10 倍到 5120 token;对暴露思维链的专有模型,把思考过程也算进回答一起判定;默认 temperature=0。PVR 越高、模型越不安全,让六领域逐列对比、26 个模型横向排名成为可能。

实验关键数据

主实验:前沿模型的安全对齐是"浅层"的

在 SOSBench 上评测 26 个开源/闭源、推理/非推理模型,整体 PVR 普遍在 30%~50% 甚至更高,揭示出严重的科学场景对齐缺口。

模型 Overall PVR 药理 Pharm. 医学 Med. 备注
Claude-4-Sonnet-Thinking 0.106 0.110 0.112 全场最安全
Claude-4.1-Opus-Thinking 0.145 0.086 0.210
GPT-5 (20250807) 0.204 0.418 0.332 药理最差
GPT-4.1 0.503 0.850 0.570 闭源里很差
Deepseek-R1 0.849 0.872 0.964 全场最危险之一
Deepseek-R1-Distill-70B 0.878 0.886 0.972 最高 PVR
Gemma-3-27B 0.803 0.842 0.934

即便 GPT-4.1 在 AdvBench 上 PVR 能低到 0,在 SOSBench 上仍有 50.3% 的违规率,说明在常识级基准上"对齐良好"完全无法外推到知识密集的危险场景。

领域专家模型 / 缩放 / 测试时计算分析

分析维度 关键结果 说明
领域专家模型 BioMistral-7B-SLERP PVR=0.915(最危险) 专精领域不带来更安全,反而最差
模型缩放(R1-Distill) 1.5B→70B:0.948→0.878 单调下降 对齐随知识共同缩放时更安全
模型缩放(Gemma-3) 1B→27B 基本持平、最大反弹 知识涨得比对齐快时,安全不升反降
测试时推理预算 可见思维模型 PVR 随预算上升 Grok-3-mini/Claude-3.7 暴露 CoT 更易泄露
测试时推理预算 隐藏思维模型 PVR 略降 o4-mini/Gemini-2.5-Flash 受益但有限

关键发现

  • 浅层对齐普遍存在:前沿模型在常识级基准上的安全表现完全无法外推到科学知识密集场景,PVR 普遍 30%~50%(Finding 1)。
  • 药理是重灾区:多数模型在生物/化学上相对安全,却在覆盖度低的药理领域大面积失守(GPT-5 药理 PVR 0.418 vs 整体 0.204),说明对齐时引入领域专家至关重要(Finding 2)。
  • 领域专精反而更危险:领域 post-training 会侵蚀已有对齐(BioMistral),从 base model 重对齐的模型又拿到的安全信号不足(Med-LLaMA),导致专家模型整体不比通用模型安全(Finding 3)。
  • 缩放不必然更安全:只有当对齐随知识同步缩放(如 R1 蒸馏设定)时 PVR 才单调下降;若知识增长快于对齐强化,安全会平台化甚至恶化——训练管线应显式给对齐信号"配额"以跟上知识(Finding 4)。
  • 可见思维链是双刃剑:暴露推理过程的模型,加大推理预算会提高 PVR(更易泄露有害细节),而隐藏思维的模型加预算反而略微更安全(Finding 5)。

亮点与洞察

  • 以法规为锚定义危害:不靠主观判断而是直接引用 NFPA 704、UN、WHO 等权威法规来确定"什么算危险",让基准的危害判定有据可查、也更难被质疑——这个"监管接地"思路可迁移到任何需要客观危害标准的安全评测。
  • 用知识库变体抬高门槛:把通俗危险词替换成分子式/缩写/学名等专业变体,一举同时实现"高危险 + 高知识门槛",巧妙解决了"危险的不够专业、专业的不够危险"这个老矛盾。
  • 覆盖度驱动采样的探索-利用平衡:用术语覆盖度 \(c(t)\) 做探索信号、用有害分数 \(w(p)=s(p)+1\) 做利用权重,既保证每个术语都被测到、又优先打磨有潜力的提示,是数据合成里很可复用的主动采样设计。
  • "弱模型验证"省钱又有效:用三个小模型当代理过滤无效提示,背后假设"弱模型都测不出有害的提示,强模型多半会拒答或没知识",把质量控制成本压得很低。

局限与展望

  • 法规偏美/全球机构:种子词主要来自美国治理框架和国际机构,未必反映各国差异化的法律与伦理标准,跨文化法规整合是未来方向。
  • 六领域仍不完整:虽是迄今覆盖最广,但远未穷尽真实世界的科学风险场景。
  • 二元度量偏粗:当前 PVR 是统一的二值判定,未来应做到子条款级、危害等级感知的细粒度评分。
  • 仅限纯文本:没覆盖图像/音频等多模态滥用,也排除了 RAG、深度搜索、Agent 等外部工具加持下的安全变化。
  • 裁判依赖单一强模型:PVR 由 GPT-5 当裁判,裁判本身的偏差/上限会传导到所有评测结论(自评,需注意)。

相关工作与启发

  • vs AdvBench / StrongReject:它们覆盖常识级通用滥用、几乎不需科学知识;SOSBench 专攻知识密集的科学危害,t-SNE 显示其语义覆盖远超这两者,多数区域是它们覆盖不到的。
  • vs WMDP:WMDP 用多选题测危险知识,本质无害、无法直接衡量对齐;SOSBench 用开放式生成式提问,直接逼出违规生成。
  • vs SciSafeEval:SciSafeEval 扩到化/生/医/物四领域并加参考接地,但指令多为知识检索/分类等低危任务、缺真实风险;SOSBench 加上药理与心理两领域、且每条都接地到真实法规危害。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个监管接地 + 危害聚焦的科学安全基准,"知识库变体抬门槛"思路独到
  • 实验充分度: ⭐⭐⭐⭐⭐ 横扫 26 个模型,含领域专家、缩放、测试时计算等多维分析
  • 写作质量: ⭐⭐⭐⭐ 流水线与 Finding 叙述清晰,部分数据(结论 79.1% vs 表中 84.9%)略有出入
  • 价值: ⭐⭐⭐⭐⭐ 暴露了前沿模型的关键安全盲区,并提供可持续追踪进展的工具