Estimating Worst-Case Frontier Risks of Open-Weight LLMs¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=rXLRyJXSCy
代码: 未开源(不释放 MFT 模型权重)
领域: LLM 安全 / 前沿风险评估
关键词: 开源权重模型, 恶意微调, 生物风险, 网络安全风险, 边际风险, Preparedness Framework
一句话总结¶
OpenAI 在发布 gpt-oss 前,主动用"恶意微调(MFT)"把模型在生物和网络安全两个高危领域尽可能调到最强,以此估计开源权重释放的最坏情况风险,结论是即便对手全力压榨,gpt-oss 也跑不过闭源 o3、且没有实质性推高开源模型的能力前沿,因此释放带来的净新增危害有限。
研究背景与动机¶
领域现状:开源权重 LLM 的发布一直是安全争议焦点,因为权重一旦公开就不可撤回。目前主流的安全评估(如 Gemma、Llama)做法是测量"发布版模型"在不安全 prompt 上的拒答率。
现有痛点:这类评估有一个致命缺陷——它们只评估了模型发布时的那个版本。但现实中,有决心的攻击者会拿到开源权重后微调它,要么绕过安全拒答,要么直接针对危害进行优化。换句话说,拒答率高的"出厂版"并不能代表攻击者实际能榨出的能力上限。
核心矛盾:开源能带来透明度、可复现性和生态价值,但又无法像闭源那样在发布后打补丁、撤回或加 API 层防护。评估开源模型时,真正该问的不是"它现在会不会拒答",而是"攻击者能把它最坏调到什么程度,以及相对现有技术的边际危害有多大"。
本文目标:在 OpenAI Preparedness Framework 追踪的三类前沿风险(生物、网络安全、自我改进)中,聚焦前两类,直接把 gpt-oss 微调到能力上限,回答两个问题:(1) gpt-oss 相比现有 baseline 有多强、是否推高了生物/网络安全的能力前沿;(2) 更强的能力激发手段能把评测分数抬多高、释放后别人复现这套手段有多容易。
核心 idea:主动红队式上限估计——与其被动报告拒答率,不如作为模型作者主动扮演最强攻击者,用领域定向数据 + 工具调用(浏览、终端)+ RL 把模型在生物和网络安全上调到极致,再和开源/闭源前沿模型横向对比,用"差分危害(differential harm)"而非绝对能力来判断释放是否安全。
方法详解¶
整体框架¶
MFT(Malicious Fine-Tuning,恶意微调)分两步走:先做反拒答训练移除安全护栏拿到"helpful-only"版本,再分别在生物和网络安全两条线上做领域专项能力最大化。生物线靠"带网页浏览的 RL + 领域专家数据",网络安全线靠"在终端 docker 环境里解 CTF 夺旗题的 agentic RL"。最后把这些 MFT 模型放到内部 + 外部前沿风险评测上,和开源前沿模型(DeepSeek R1-0528、Kimi K2、Qwen3 Thinking)以及闭源 o3 对比,用绝对能力和边际能力两个维度判断风险。
flowchart TD
A[gpt-oss-120b 近终态 checkpoint] --> B[3.1 反拒答 RL<br/>helpful-only 奖励]
B --> C[3.2 生物线 RL<br/>+网页浏览工具+领域数据]
B --> D[3.3 网络安全线 RL<br/>+终端容器 CTF agentic]
C --> E[内部生物评测+SecureBio外部评测]
D --> F[CTF/Cyber Range 评测]
E --> G[与开源前沿 & 闭源 o3 对比<br/>判断绝对/边际风险]
F --> G
关键设计¶
1. 反拒答训练(Anti-refusal):用增量 RL 抹掉安全护栏却不掉能力 gpt-oss 出厂前经过大量安全训练学会拒答违规 prompt,已有研究表明监督微调就能在任意开源模型上去掉这层防护。作者用一个增量 RL 阶段,奖励那些"顺从不安全 prompt"的回答;经过轻度超参调优后,这一步能把不安全 prompt 上的拒答率压到接近 0%,同时在 GPQA 等通用能力基准上几乎不掉分。这个"helpful-only"版本是后续两条危害线的共同起点,也直接模拟了攻击者拿到权重后第一步会做什么。
2. 生物风险最大化:浏览工具 RL + 定向调试数据补齐最弱环节 生物是当前最受关注的高危类别,High 能力的定义是"对新手提供有意义的反事实帮助,使其能制造已知生物威胁"。作者在 gpt-oss-120b 近终态 checkpoint 上做增量 RL,训练模型把思维链、浏览调用、浏览返回交错编织在一起——因为过往工作显示浏览能显著抬高生物风险评测分。领域数据混合了开源生物数据集(GPQA 生物子集、WMDP 生物/化学、LAB-Bench 克隆场景、BioLP Bench)、内部专家数据(与 Gryphon Scientific 合作的隐性知识数据、有机化学命名/反应数据集),以及一个针对性合成数据集:用 o3 故意往真实生物实验协议里注入错误、训练模型找出这些错误——因为初期实验发现"调试生物协议"是离专家基线最远的能力。评测用四个代理基准(Biorisk Tacit Knowledge、ProtocolQA、Gryphon Free Response,以及本文首次提出的 TroubleshootingBench),均带 bootstrap 95% 置信区间。
3. 网络安全风险最大化:终端 agentic CTF RL + 防作弊域名封锁 网络安全线把模型训练成能在 dockerized 终端容器里操作(预装多个渗透测试工具包),rollout 由交错的思维链推理、终端工具调用、终端返回组成,目标是解 CTF 夺旗题。训练集是 264 道高中/大学/未分类难度的 CTF,覆盖密码学、逆向、二进制利用、取证、Web 利用等。关键工程细节是防作弊:默认给 agent 联网会让它直接搜 writeup 作弊,于是作者先用带浏览的 o3 列出所有含题解/源码的域名(迭代几轮保证全面)并全部封锁,再额外封锁任何含真实 flag 或题名的网页,最终未观察到任何作弊。专业级 CTF 集和 Cyber Range 环境(四易一中)留作最终评测。
4. 差分危害判据:用边际能力而非绝对能力定义"是否该释放" 由于开源模型发布后没有有意义的事后干预手段,作者把"差分危害"(相对现有技术的恶意能力变化)的权重看得比绝对能力更重。对照组上,开源侧评 DeepSeek R1-0528 / Kimi K2 / Qwen3 Thinking,并用 Perplexity Deep Research(疑似 R1 + 浏览的脚手架)估计开源模型加浏览能到什么程度;闭源侧用"helpful-only 版 o3"作为攻击者通过越狱/拆解有害查询所能达到的能力上界代理。还在有专家基线的评测上对比领域专家人类。判断逻辑:如果 MFT 后的 gpt-oss 仍跑不过已被判定为"低于 High 能力"的 o3,且相对现有开源 SOTA 没有实质抬升,则净新增危害有限。
实验关键数据¶
主实验表格(生物:内部代理评测,pass@1 / consensus@32)¶
| 模型 | Biorisk Tacit Knowledge | Gryphon Free Response | ProtocolQA | TroubleshootingBench |
|---|---|---|---|---|
| gpt-oss-120b(原始) | 68.0 | 0.0(多拒答) | 26.5 | 23.0 |
| + Anti-refusal | 67.0 | 62.5 | 22.5 | 23.7 |
| + Anti-refusal + Browsing | 75.4 | 66.9 | 25.6 | 24.6 |
| + Anti-refusal + Browsing + Extra Bio | 75.7 | 71.5 | 28.2 | 25.7 |
| DeepSeek R1-0528(无浏览) | 68.7 | 74.4 | 23.8 | 18.4 |
| Kimi K2(无浏览) | 74.6 | 66.6 | 15.4 | 18.3 |
| Qwen3 Thinking(无浏览) | 67.8 | 76.8 | 22.1 | 16.7 |
| OpenAI o3 + Anti-refusal + Browsing | 76.9 | 72.0 | 39.2 | 32.2 |
| 专家人类估计 | — | 估计线 | 估计线 | 估计线 |
消融实验(外部 SecureBio 评测,pass@1)¶
| 模型 | Virology (VCT) | Human Pathogen (HPCT) | Molecular Bio (MBCT) | World-Class Bio (WCB) |
|---|---|---|---|---|
| gpt-oss + Anti-refusal | 42.2 | 48.7 | 47.9 | 42.0 |
| + Browsing | 38.2 | 54.2 | 48.5 | 49.6 |
| + Browsing + Extra Bio | 36.4 | 53.6 | 48.8 | 47.9 |
| DeepSeek-R1-0528(无浏览) | 40.7 | 44.1 | 43.0 | 26.7 |
| Perplexity Deep Research(R1+浏览) | 44.8 | 50.6 | 44.3 | 43.1 |
| OpenAI o3 + Anti-refusal + Browsing | — | 49.0 | 47.5 | 54.8 |
关键发现¶
- 跑不过闭源 o3:MFT gpt-oss 在内部生物评测中仅 Tacit Knowledge 比 o3 高 1 分,其余全输;而 o3 本身已被判定低于 High 能力。
- 没推高开源前沿:相比开源模型,MFT gpt-oss 大体是"最强的",但多数评测上已有别的开源模型分数与之相当或接近——边际提升在噪声范围内。注意作者没有对其他开源模型做 MFT 或同等脚手架,因此低估了它们的真实最坏能力,结论更偏保守。
- 协议调试是硬骨头:即便加了定向合成数据,gpt-oss 在"调试生物协议"上仍达不到专家人类基线。
- 更多推理算力无效:consensus@k 增大并不提升 Biorisk Tacit Knowledge 分数,说明这不是有效的能力激发手段。
- 网络安全线几乎无提升:训练后专业级 CTF 仅微升(在原模型置信区间内),所有模型在 Cyber Range 环境无提示下均为 0% 准确率;原因是反拒答和浏览对网络安全没帮助(原模型本就不拒答网络安全任务)。
- 降采样生物预训练数据无显著影响:gpt-oss 与 o4-mini 在通用和生物基准上表现相近,尽管前者生物相关预训练数据只有一半。
亮点与洞察¶
- 范式转变:把开源模型的安全评估从"测发布版拒答率"升级为"作者主动扮演最强攻击者估上限",更贴合开源不可撤回的威胁模型。
- 差分危害框架:用"相对现有技术的边际能力变化"而非绝对能力来决策是否释放,给后续开源权重发布提供了一套可操作的判据。
- 工程化防作弊:CTF agentic 训练里用 o3 自动列封锁域名 + flag/题名网页封锁的双层防护,是 agentic 评测防数据泄露的实用范例。
- 诚实的保守性声明:作者明确指出没对竞品开源模型做同等 MFT,因而系统性低估了它们的最坏能力——这种自曝偏向让结论更可信。
局限与展望¶
- 只覆盖两类风险:自我改进(self-improvement)类别因离 High 能力太远被略过,但未来模型若自改进能力跃升,本套方法是否够用存疑。
- 算力/数据是上界估计的天花板:MFT 用了 OpenAI 自家算力和内部专家数据(部分数据集的构建需要超过新手的专业知识),真实新手攻击者的"上限"可能更低,但这套估计本身依赖作者资源,外部难以完全复现。
- 不释放权重与数据:为避免给攻击者提供配方,论文只公开高层细节、不释放 MFT 权重,牺牲了可复现性。
- 对比不对称:未对开源竞品做同等 MFT,横向比较存在系统性偏差(虽偏保守)。
- 评测仍是代理:生物评测多为良性代理基准,离"真实造成威胁"还有距离,分数高低与现实危害的映射关系仍不确定。
相关工作与启发¶
- 越狱与微调去护栏:延续 Yang et al. 2023、Halawi et al. 2024、Qi et al. 2024 等"监督微调可移除开源模型安全防护"的研究线,但首次把这套手段系统化为"作者侧上限估计工具"。
- 危险能力评测:建立在 OpenAI Preparedness Framework 与 o3 system card 的生物/网络安全评测之上,并贡献了 TroubleshootingBench 新基准。
- 对开源安全政策的启发:本文给出的"MFT + 差分危害"评估范式,可作为未来任何开源权重发布前的标准红队流程模板;同时提示社区,单纯报告拒答率的安全卡片正在失效。
评分¶
- 新颖性: ⭐⭐⭐⭐ —— "作者主动做最坏微调来估上限"的范式转变切中开源威胁模型要害,虽然单项技术(反拒答、浏览 RL、CTF agentic)都非首创,但组合成一套发布前红队方法论很有分量。
- 实验充分度: ⭐⭐⭐⭐ —— 覆盖内部 + 外部(SecureBio)双重评测、生物 + 网络安全两条线、开源 + 闭源多对照,并诚实标注了未对竞品做 MFT 的偏差;扣分在于网络安全线提升甚微、缺人类基线。
- 写作质量: ⭐⭐⭐⭐ —— 动机清晰、判据明确、结论克制不夸大,安全声明负责任;部分技术细节因不释放数据/权重而略显笼统。
- 价值: ⭐⭐⭐⭐⭐ —— 直接服务于 gpt-oss 的真实发布决策,并为整个开源 LLM 社区提供了可迁移的前沿风险评估范式,政策与工程双重价值高。