Internalizing Safety Understanding in Large Reasoning Models via Verification¶
会议: ICML 2026
arXiv: 2605.08930
代码: https://github.com/AlphaLab-USTC/SInternal (有)
领域: LLM 推理 / 安全对齐
关键词: 安全对齐, 推理模型, 自我验证, 越狱防御, SFT 初始化
一句话总结¶
本文论证「会生成安全答案」≠「懂安全」,提出 SInternal 框架:只训练大型推理模型去 verify 自己生成答案的安全性,由此涌现的内在安全理解大幅压制 jailbreak 攻击(StrongREJECT ASR 从 41% 降到 0.6%)并成为后续 RL 的更好起点。
研究背景与动机¶
领域现状:大型推理模型(LRM,如 DeepSeek-R1)的显式 CoT 让最终答案更危险。当前主流对齐范式是 answer-centric:要么 SFT 在专家精选的「安全 trajectory」上、要么 RL 用安全 verifier 给最终答案打分。
现有痛点:作者做了个简单实验——让对齐后的 LRM 去判断「这个候选回答对这个 prompt 安不安全」。结果令人不安:经过 SFT + RLVR 的 DeepSeek-R1-Distill-Qwen-7B 在这个 binary 分类任务上 F1 还不如随机猜(如 Figure 2)。也就是说,模型学会了「输出像安全答案」,但并不真懂为什么这是安全的。
核心矛盾:当前对齐把「会执行」和「会判断」解耦——把判断责任全外包给 Llama Guard 这类外部 guardrail,生成器只学模仿表面 pattern。这导致对未见 jailbreak 极度脆弱:只要攻击者用 compliant CoT 劫持思维链,就能把模型骗到「这个 prompt 是安全的」然后产出有害答案。
本文目标:让模型内化「why 这个答案不安全」的判断能力,而不是只学「how 拒绝」。
切入角度:「会判断」是「会执行」的更强先决条件——如果模型真能 verify 一个答案是否违反 safety spec,那它自然知道什么样的答案该被产出。所以把训练目标从「生成安全答案」翻转成「verify 自己生成的答案是否安全」。
核心 idea:只用 verification SFT 训练 LRM 评判自己的生成结果,由此涌现的内在 safety understanding 既能压制 jailbreak,又能成为后续 RL 的更稳起点。
方法详解¶
整体框架¶
SInternal 两步:(1) 数据构造——对每个安全相关 prompt \(\mathbf{x}\),让初始策略 \(\pi_\theta\) 自采 \(N=8\) 个回答 \((\mathbf{z}_k,\mathbf{y}_k)\),再用 Claude-4-Sonnet 作为专家依据 safety spec \(\mathcal{S}\) 评判每个 \(\mathbf{y}_k\),产出 verification trajectory \(\mathbf{c}_k=(\mathbf{z}_{{\rm ver},k},\mathbf{v}_k)\),含批判性 reasoning 和 binary 判断;(2) SFT 优化——目标是给定 \((\mathcal{S},\mathbf{x},\mathbf{y})\) 预测 \(\mathbf{c}\),损失为 \(\mathcal{L}_{\rm SInternal}=-\mathbb{E}\log\pi_\theta(\mathbf{c}|\mathcal{S},\mathbf{x},\mathbf{y})\)。可选地,在 SInternal 之上再跑 GRPO RLVR 进一步对齐生成行为。
关键设计¶
-
验证 self-generated 而非外部回答:
- 功能:用模型自己采样的回答(包括潜在不安全的)作为 verification 训练对象,让 verification 能力贴合模型实际分布。
- 核心思路:对每个 harmful prompt 采样 \(N=8\) 个回答,保留同时含安全 + 不安全两类的 prompt,从中选一对对比样本;对 benign prompt 保留一条。这样训练集大约 6000 条。Self-Exp(用自己的轨迹)vs Other-Exp(用其它模型轨迹)的消融显示 self-generated 始终更优。
- 设计动机:如果用别的模型的回答,verification 学到的是「别人会犯什么错」,对自己的分布 mismatch;让模型 verify 自己常犯的错,等同于让安全边界对齐到模型自身的行为分布。
-
专家 critique + 二元判断双成分轨迹:
- 功能:把外部 safety spec 翻译成可学习的「分析 + 判断」自然语言轨迹,使模型在生成 verification 时被迫显式 reasoning。
- 核心思路:用 Claude-4-Sonnet 作为专家,输入 spec \(\mathcal{S}\)、prompt \(\mathbf{x}\)、回答 \(\mathbf{y}_k\),输出包含两部分:(a) critique 推理 \(\mathbf{z}_{\rm ver}\) 详细分析潜在违反点;(b) binary 判断 \(\mathbf{v}\)(safe/unsafe)。消融显示 critique 主要负责泛化到未见 jailbreak(去掉 critique 后 Fortress ASR 从 19.2% 飙到 46.8%),judgment 主要稳定 in-domain 表现(去掉 judgment 后 StrongREJECT ASR 从 0.6% 涨到 7.3%)。
- 设计动机:单 binary label 信息量太小,模型只能学 surface pattern;显式 critique 提供「为什么不安全」的推理监督,迫使模型学到背后的 safety 概念而非记忆 refusal 模板。
-
SInternal 作为后续 RL 的初始化:
- 功能:在 SInternal SFT 之后接 GRPO RLVR,构造比 standard SFT 更稳的对齐基础。
- 核心思路:奖励函数对 harmful prompt 用 \(r=\mathcal{V}_{\rm safe}\),对 benign prompt 用 \(r=\mathcal{V}_{\rm safe}(1-\mathcal{V}_{\rm refuse})\) 同时避免过度拒绝;Qwen3-Guard 当 verifier。GRPO 优化 \(\hat{A}_i=(r_i-\bar{r})/(\sigma_r+\epsilon)\)。SInternal 启动的 RL 是 HCoT(最强 LRM-specific jailbreak)唯一能防的,其它 baseline RL 都失守。
- 设计动机:标准 SFT 只是把模型推到「安全样子」,模型没法在 RL 阶段稳定理解奖励信号;SInternal 让模型自带「为什么」的理解,RL 在此基础上微调更收敛。
损失函数 / 训练策略¶
Stage 1:标准 SFT 交叉熵 \(\mathcal{L}_{\rm SInternal}=-\mathbb{E}_{(\mathbf{x},\mathbf{y},\mathbf{c})\sim\mathcal{D}_{\rm ver}}\log\pi_\theta(\mathbf{c}|\mathcal{S},\mathbf{x},\mathbf{y})\),约 6000 训练样本,用 LoRA(rank=16, \(\alpha=32\))训 2 epoch,lr \(2\times10^{-4}\)。Stage 2:GRPO,rollout batch 64 prompts × \(n=8\),actor lr \(10^{-6}\),KL 全关,加 3k DAPO 数学题保留推理能力。
实验关键数据¶
主实验¶
3 个 LRM(DS-Qwen-7B / DS-Llama-8B / DS-Qwen-14B)× 9 个基准(3 类安全、1 类 overrefusal、2 类推理),baseline 含 SafeChain 和 STAR-1。
| 配置 | StrongREJECT (ASR↓) | Fortress (ASR↓) | WildJailbreak (ASR↓) | HCoT (ASR↓) | XSTest (CR↑) | AIME (↑) |
|---|---|---|---|---|---|---|
| DS-14B Base | 41.2 | 52.6 | 44.4 | 100.0 | 95.6 | 86.7 |
| DS-14B + SafeChain SFT | 24.9 | 48.2 | 45.2 | 100.0 | 99.6 | 83.3 |
| DS-14B + STAR-1 SFT | 0.6 | 28.2 | 18.4 | 100.0 | 94.0 | 83.3 |
| DS-14B + SInternal SFT | 0.6 | 19.2 | 6.8 | 90.0 | 98.0 | 86.7 |
| DS-14B + STAR-1 + GRPO | 0.0 | 7.8 | 3.6 | 98.0 | 96.0 | 80.0 |
| DS-14B + SInternal + GRPO | 0.0 | 5.2 | 0.4 | 62.0 | 99.2 | 80.0 |
消融实验¶
| 配置 | StrongREJECT | Fortress | WildJailbreak | 说明 |
|---|---|---|---|---|
| Full SInternal | 0.6 | 19.2 | 6.8 | 完整版 |
| w/o critique | 2.9 | 46.8 | 22.4 | 去掉推理只留 binary judgment |
| w/o judgment | 7.3 | 18.8 | 7.6 | 去掉 binary 判断只留 critique |
| Self-Exp (DS-7B) | 7.0 | 22.6 | 21.6 | 验证自采轨迹 |
| Other-Exp (DS-7B) | 9.6 | 27.4 | 27.6 | 换成 DS-8B 采样的轨迹 |
关键发现¶
- 验证训练能向生成迁移:只在 verification 任务上 SFT,竟然在生成任务 ASR 大降——说明「学会 verify」隐含包含「学会生成 safe 答案」的能力。
- 泛化到未见 jailbreak:SInternal 在 in-domain StrongREJECT 上不一定第一(0.6 vs STAR-1 0.6 平手),但在 OOD 的 Fortress、LRM-specific 的 HCoT/Trotter 一致领先,说明学的是 concept 不是 pattern。
- proactive verification 涌现:用 GPT-4o 检测 CoT 里是否自发触发 safety verification,SInternal 触发率 50.4% vs Base 16.0% / STAR-1 28.4%,且触发后 conditional safe 率 99.2%。
- 数据效率高:仅用 SFT baseline 50% 数据量,SInternal 就达到/超越 baseline 全量水平。
- 保留推理能力:MATH/AIME 上 SInternal 完全不掉点,证明安全对齐没牺牲 reasoning。
亮点与洞察¶
- 「verification 是 generation 的必要前提」这一概念翻转值得 alignment 社区认真对待,可推广到 helpfulness、honesty 等其它对齐维度。
- 用模型自己的回答构造对比对(safe + unsafe 各一),相当于把 DPO 风格的偏好数据自动化生成,省掉了人工标注。
- critique 主泛化 / judgment 主 in-domain 的分工很有趣——可启发未来安全数据集设计同时含「推理 + 标签」双成分。
- HCoT 这类 CoT-hijack 攻击只有 SInternal+GRPO 防得住,说明「模型真正理解 final behavior 后果」是抵御 CoT 操纵的关键。
局限与展望¶
- 当前 verification 只在 post-generation 做,没扩展到「生成中动态 self-verification」——这是个明显的开放方向。
- verification 能力仍弱于 generation:模型有时能产生安全答案但 verify 时给错判断,gap 没完全闭合。
- 依赖 Claude-4-Sonnet 当 expert 生成 critique,若 expert 本身有偏见,蒸馏可能放大偏见。
- 实验都在 DeepSeek-R1-Distill 系列,未在 o1 / Claude Thinking 等 close-source LRM 验证。
- HCoT 对 14B+GRPO 后仍有 62% ASR,离完全防御还很远。
相关工作与启发¶
- vs SafeChain (Jiang et al. 2025):SafeChain 蒸馏长 CoT 安全推理,仍是 answer-centric;本文证明仅训 verification 就比它泛化更好(Fortress ASR 19.2 vs 48.2)。
- vs STAR-1 (Wang et al. 2025):STAR-1 也用 deliberate reasoning over safety spec,但训练目标是直接生成安全答案;本文翻转成验证目标,性能更稳。
- vs Llama Guard / Qwen3-Guard 外置 guardrail:外置 guardrail 把判断职责外包,模型只学 surface 模仿;本文证明把判断能力内化才能根治。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把训练目标从「生成」翻转成「验证」是真正概念级翻转,且实验有力支撑
- 实验充分度: ⭐⭐⭐⭐⭐ 3 模型 × 9 基准 + 自/他采样消融 + critique/judgment 拆分 + spec 替换 + 数据效率,覆盖面非常全
- 写作质量: ⭐⭐⭐⭐ 故事推进清晰,但部分公式排版混乱(reward function 含 align block)
- 价值: ⭐⭐⭐⭐⭐ 给 LRM 安全对齐提供新范式,代码开源,可被 alignment 社区直接复用