Internalizing Safety Understanding in Large Reasoning Models via Verification¶

会议: ICML 2026
arXiv: 2605.08930
代码: https://github.com/AlphaLab-USTC/SInternal (有)
领域: LLM 推理 / 安全对齐
关键词: 安全对齐, 推理模型, 自我验证, 越狱防御, SFT 初始化

一句话总结¶

本文论证「会生成安全答案」≠「懂安全」，提出 SInternal 框架：只训练大型推理模型去 verify 自己生成答案的安全性，由此涌现的内在安全理解大幅压制 jailbreak 攻击（StrongREJECT ASR 从 41% 降到 0.6%）并成为后续 RL 的更好起点。

研究背景与动机¶

领域现状：大型推理模型（LRM，如 DeepSeek-R1）的显式 CoT 让最终答案更危险。当前主流对齐范式是 answer-centric：要么 SFT 在专家精选的「安全 trajectory」上、要么 RL 用安全 verifier 给最终答案打分。

现有痛点：作者做了个简单实验——让对齐后的 LRM 去判断「这个候选回答对这个 prompt 安不安全」。结果令人不安：经过 SFT + RLVR 的 DeepSeek-R1-Distill-Qwen-7B 在这个 binary 分类任务上 F1 还不如随机猜（如 Figure 2）。也就是说，模型学会了「输出像安全答案」，但并不真懂为什么这是安全的。

核心矛盾：当前对齐把「会执行」和「会判断」解耦——把判断责任全外包给 Llama Guard 这类外部 guardrail，生成器只学模仿表面 pattern。这导致对未见 jailbreak 极度脆弱：只要攻击者用 compliant CoT 劫持思维链，就能把模型骗到「这个 prompt 是安全的」然后产出有害答案。

本文目标：让模型内化「why 这个答案不安全」的判断能力，而不是只学「how 拒绝」。

切入角度：「会判断」是「会执行」的更强先决条件——如果模型真能 verify 一个答案是否违反 safety spec，那它自然知道什么样的答案该被产出。所以把训练目标从「生成安全答案」翻转成「verify 自己生成的答案是否安全」。

核心 idea：只用 verification SFT 训练 LRM 评判自己的生成结果，由此涌现的内在 safety understanding 既能压制 jailbreak，又能成为后续 RL 的更稳起点。

方法详解¶

整体框架¶

SInternal 两步：(1) 数据构造——对每个安全相关 prompt \(\mathbf{x}\)，让初始策略 \(\pi_\theta\) 自采 \(N=8\) 个回答 \((\mathbf{z}_k,\mathbf{y}_k)\)，再用 Claude-4-Sonnet 作为专家依据 safety spec \(\mathcal{S}\) 评判每个 \(\mathbf{y}_k\)，产出 verification trajectory \(\mathbf{c}_k=(\mathbf{z}_{{\rm ver},k},\mathbf{v}_k)\)，含批判性 reasoning 和 binary 判断；(2) SFT 优化——目标是给定 \((\mathcal{S},\mathbf{x},\mathbf{y})\) 预测 \(\mathbf{c}\)，损失为 \(\mathcal{L}_{\rm SInternal}=-\mathbb{E}\log\pi_\theta(\mathbf{c}|\mathcal{S},\mathbf{x},\mathbf{y})\)。可选地，在 SInternal 之上再跑 GRPO RLVR 进一步对齐生成行为。

关键设计¶

验证 self-generated 而非外部回答:
- 功能：用模型自己采样的回答（包括潜在不安全的）作为 verification 训练对象，让 verification 能力贴合模型实际分布。
- 核心思路：对每个 harmful prompt 采样 \(N=8\) 个回答，保留同时含安全 + 不安全两类的 prompt，从中选一对对比样本；对 benign prompt 保留一条。这样训练集大约 6000 条。Self-Exp（用自己的轨迹）vs Other-Exp（用其它模型轨迹）的消融显示 self-generated 始终更优。
- 设计动机：如果用别的模型的回答，verification 学到的是「别人会犯什么错」，对自己的分布 mismatch；让模型 verify 自己常犯的错，等同于让安全边界对齐到模型自身的行为分布。
专家 critique + 二元判断双成分轨迹:
- 功能：把外部 safety spec 翻译成可学习的「分析 + 判断」自然语言轨迹，使模型在生成 verification 时被迫显式 reasoning。
- 核心思路：用 Claude-4-Sonnet 作为专家，输入 spec \(\mathcal{S}\)、prompt \(\mathbf{x}\)、回答 \(\mathbf{y}_k\)，输出包含两部分：(a) critique 推理 \(\mathbf{z}_{\rm ver}\) 详细分析潜在违反点；(b) binary 判断 \(\mathbf{v}\)（safe/unsafe）。消融显示 critique 主要负责泛化到未见 jailbreak（去掉 critique 后 Fortress ASR 从 19.2% 飙到 46.8%），judgment 主要稳定 in-domain 表现（去掉 judgment 后 StrongREJECT ASR 从 0.6% 涨到 7.3%）。
- 设计动机：单 binary label 信息量太小，模型只能学 surface pattern；显式 critique 提供「为什么不安全」的推理监督，迫使模型学到背后的 safety 概念而非记忆 refusal 模板。
SInternal 作为后续 RL 的初始化:
- 功能：在 SInternal SFT 之后接 GRPO RLVR，构造比 standard SFT 更稳的对齐基础。
- 核心思路：奖励函数对 harmful prompt 用 \(r=\mathcal{V}_{\rm safe}\)，对 benign prompt 用 \(r=\mathcal{V}_{\rm safe}(1-\mathcal{V}_{\rm refuse})\) 同时避免过度拒绝；Qwen3-Guard 当 verifier。GRPO 优化 \(\hat{A}_i=(r_i-\bar{r})/(\sigma_r+\epsilon)\)。SInternal 启动的 RL 是 HCoT（最强 LRM-specific jailbreak）唯一能防的，其它 baseline RL 都失守。
- 设计动机：标准 SFT 只是把模型推到「安全样子」，模型没法在 RL 阶段稳定理解奖励信号；SInternal 让模型自带「为什么」的理解，RL 在此基础上微调更收敛。

损失函数 / 训练策略¶

Stage 1：标准 SFT 交叉熵 \(\mathcal{L}_{\rm SInternal}=-\mathbb{E}_{(\mathbf{x},\mathbf{y},\mathbf{c})\sim\mathcal{D}_{\rm ver}}\log\pi_\theta(\mathbf{c}|\mathcal{S},\mathbf{x},\mathbf{y})\)，约 6000 训练样本，用 LoRA（rank=16, \(\alpha=32\)）训 2 epoch，lr \(2\times10^{-4}\)。Stage 2：GRPO，rollout batch 64 prompts × \(n=8\)，actor lr \(10^{-6}\)，KL 全关，加 3k DAPO 数学题保留推理能力。

实验关键数据¶

主实验¶

3 个 LRM（DS-Qwen-7B / DS-Llama-8B / DS-Qwen-14B）× 9 个基准（3 类安全、1 类 overrefusal、2 类推理），baseline 含 SafeChain 和 STAR-1。

配置	StrongREJECT (ASR↓)	Fortress (ASR↓)	WildJailbreak (ASR↓)	HCoT (ASR↓)	XSTest (CR↑)	AIME (↑)
DS-14B Base	41.2	52.6	44.4	100.0	95.6	86.7
DS-14B + SafeChain SFT	24.9	48.2	45.2	100.0	99.6	83.3
DS-14B + STAR-1 SFT	0.6	28.2	18.4	100.0	94.0	83.3
DS-14B + SInternal SFT	0.6	19.2	6.8	90.0	98.0	86.7
DS-14B + STAR-1 + GRPO	0.0	7.8	3.6	98.0	96.0	80.0
DS-14B + SInternal + GRPO	0.0	5.2	0.4	62.0	99.2	80.0

消融实验¶

配置	StrongREJECT	Fortress	WildJailbreak	说明
Full SInternal	0.6	19.2	6.8	完整版
w/o critique	2.9	46.8	22.4	去掉推理只留 binary judgment
w/o judgment	7.3	18.8	7.6	去掉 binary 判断只留 critique
Self-Exp (DS-7B)	7.0	22.6	21.6	验证自采轨迹
Other-Exp (DS-7B)	9.6	27.4	27.6	换成 DS-8B 采样的轨迹

关键发现¶

验证训练能向生成迁移：只在 verification 任务上 SFT，竟然在生成任务 ASR 大降——说明「学会 verify」隐含包含「学会生成 safe 答案」的能力。
泛化到未见 jailbreak：SInternal 在 in-domain StrongREJECT 上不一定第一（0.6 vs STAR-1 0.6 平手），但在 OOD 的 Fortress、LRM-specific 的 HCoT/Trotter 一致领先，说明学的是 concept 不是 pattern。
proactive verification 涌现：用 GPT-4o 检测 CoT 里是否自发触发 safety verification，SInternal 触发率 50.4% vs Base 16.0% / STAR-1 28.4%，且触发后 conditional safe 率 99.2%。
数据效率高：仅用 SFT baseline 50% 数据量，SInternal 就达到/超越 baseline 全量水平。
保留推理能力：MATH/AIME 上 SInternal 完全不掉点，证明安全对齐没牺牲 reasoning。

亮点与洞察¶

「verification 是 generation 的必要前提」这一概念翻转值得 alignment 社区认真对待，可推广到 helpfulness、honesty 等其它对齐维度。
用模型自己的回答构造对比对（safe + unsafe 各一），相当于把 DPO 风格的偏好数据自动化生成，省掉了人工标注。
critique 主泛化 / judgment 主 in-domain 的分工很有趣——可启发未来安全数据集设计同时含「推理 + 标签」双成分。
HCoT 这类 CoT-hijack 攻击只有 SInternal+GRPO 防得住，说明「模型真正理解 final behavior 后果」是抵御 CoT 操纵的关键。

局限与展望¶

当前 verification 只在 post-generation 做，没扩展到「生成中动态 self-verification」——这是个明显的开放方向。
verification 能力仍弱于 generation：模型有时能产生安全答案但 verify 时给错判断，gap 没完全闭合。
依赖 Claude-4-Sonnet 当 expert 生成 critique，若 expert 本身有偏见，蒸馏可能放大偏见。
实验都在 DeepSeek-R1-Distill 系列，未在 o1 / Claude Thinking 等 close-source LRM 验证。
HCoT 对 14B+GRPO 后仍有 62% ASR，离完全防御还很远。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把训练目标从「生成」翻转成「验证」是真正概念级翻转，且实验有力支撑
实验充分度: ⭐⭐⭐⭐⭐ 3 模型 × 9 基准 + 自/他采样消融 + critique/judgment 拆分 + spec 替换 + 数据效率，覆盖面非常全
写作质量: ⭐⭐⭐⭐ 故事推进清晰，但部分公式排版混乱（reward function 含 align block）
价值: ⭐⭐⭐⭐⭐ 给 LRM 安全对齐提供新范式，代码开源，可被 alignment 社区直接复用