Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth¶

会议: ICLR2026
OpenReview: 0fuYOuJyzl
代码: 待确认
领域: LLM 安全 / 对齐 / 推理时防御
关键词: 浅层对齐、prefill 攻击、Safety Token、线性探针、推理时防御

一句话总结¶

针对 LLM「浅层对齐」一旦进入有害续写就守不住的痛点，本文发现安全信号其实牢牢锚定在 assistant header 这类「安全 token」上、且在任意生成深度都可被重新激活，于是提出 Any-Depth Alignment（ADA）——推理时把 header 重新插回生成流中重新唤起模型自带的拒答（ADA-RK），或直接对 header 隐藏态跑一个线性探针判别有害性（ADA-LP），无需改动模型权重就把上千 token 深度 prefill 攻击的拒答率拉回近 100%、把 GCG/AutoDAN/PAIR/TAP 等攻击成功率压到 3% 以下。

研究背景与动机¶

领域现状：当下绝大多数对齐过的 chat 模型采用所谓的「浅层对齐（shallow alignment）」——训练目标主要是在助手回合最开头，碰到有害问题就直接吐一句拒答（"I can't help with that."）。这种「前置式」安全在面对直接有害提问时确实有效。

现有痛点：浅层对齐的保护几乎只覆盖生成的第一步。一旦有害续写已经开始（无论是被对抗攻击诱导，还是被有害 assistant-prefill 强行喂进上文），保护就崩盘。论文 Figure 1 显示：在 AdvBench 上只要塞 25 个 token 的有害前缀，多数模型的拒答率就从 ~100% 暴跌到 10% 以下，连 gpt-oss 这类新模型也不例外。

核心矛盾：业界的补救思路是「深层对齐（deep alignment）」——额外训练模型在续写中途也能拒答。但本文系统地用「深度 prefill 攻击」（几十到几千 token 的有害前缀）一测，发现深层对齐只是把失效点往后推，形成「攻击深度 vs 对齐深度」的军备竞赛：即便是 Claude Sonnet 4 这种强深层对齐模型，在 100-token 前缀下拒答率也跌破 25%。另一条路——外挂 guardrail 分类器——延迟太高，往往要等整段生成完才标记，有害内容可能已经发出去了。问题的根因是：模型对「有害」的认知没有泛化到任意深度，安全判断被锁死在了解码轨迹里。

切入角度：作者注意到一个被忽视的现象——对齐模型其实「心里清楚」自己的续写有没有害，只是不主动说出来。简单的自反思提问（"你刚才的回答有害吗？"）常能让它承认。这说明强安全信号确实存在，只是锁在隐藏态里没被读出来。进一步地，chat 模板里的特殊 token（尤其是 assistant header）能在中途把这个潜在判断「surface」出来。

核心 idea：把 assistant header 这类 token 重新定义为「安全 token（Safety Tokens）」——它们是聚合器，能把上文分散的有害证据汇聚成一个线性可分的表示。于是只要在生成中途重新注入 header，就能像插钥匙一样解锁模型的内在安全判断，在任意深度恢复拒答；甚至不需要让它真的生成，直接对 header 隐藏态做线性分类就够了。

方法详解¶

整体框架¶

围绕这个观察，本文先用一组分析实验（t-SNE + 线性探针）回答四个问题——为什么 header 重注入比只查 prompt 更强、为什么探 header 而不是探已生成的内容 token、header 隐藏态是否线性可分、换别的 token 行不行——夯实「安全信号集中在 header」这一基石；再据此落地两个互补的防御变体：生成式的 ADA-RK（让模型自己重新生成拒答）和判别式的 ADA-LP（直接探隐藏态、连生成都省了）。运行时，每隔固定深度（如每 25 或 100 个 token）设一个「安全检查点」，在检查点上触发 ADA 判定，一旦判为有害就立即终止生成。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["生成流进行中<br/>（可能已被诱导有害续写）"] --> B["安全 token：<br/>把 header 当安全聚合器"]
    B --> C["内在安全表示：<br/>header 隐藏态线性可分"]
    C -->|生成式·零训练| D["ADA-RK：<br/>中途重注入 header<br/>触发模型自我拒答"]
    C -->|判别式·一个探针| E["ADA-LP：<br/>单次前向 + 线性探针<br/>判有害立即终止"]
    D --> F["任意深度恢复拒答"]
    E --> F

关键设计¶

1. 安全 token：把 assistant header 重定义为安全信号的聚合器

痛点在于浅层对齐把拒答能力压在了生成最开头，深度一深就失效。作者发现 assistant header 这串桥接「用户提问」和「助手回答」的特殊 token，并不只是模板占位——它在反复的「浅层拒答训练」中被反复使用，因而沉淀了模型最强的对齐先验。论文给它起名「安全 token」：定义生成深度 \(d\) 为用户 prompt 之后已生成的助手 token 数，\(d=0\) 紧接 prompt；安全 token 的隐藏态携带强内在安全信号，把上文分散的有害证据聚合成一个干净的判别量。关键证据来自 Figure 3 的 t-SNE：在 \(d=0\) 处，无论是已生成 token 还是 header，特征都纠缠在一起（这也解释了为什么对抗 prompt 攻击能得手——早期表示本就模糊）；但随着深度增加，注入的安全 token 的特征越来越可分（线性分类准确率从 ~67% 升到 95%+），而已生成内容 token 的特征反而越来越纠缠。这说明模型的内在安全意识其实随上下文增强，只是只能透过安全 token 干净地读出来。

2. 内在安全表示：header 隐藏态对有害/良性高度线性可分

既然安全 token 把证据聚合了，自然要问它是不是「线性可分」——若是，就能用最轻的线性探针读出来。作者从 WildChat / WildJailbreak 构造良性/有害续写语料（训练 20k/2k、验证 10k/1k 段对话），把 assistant 回复截到 500 token、每 25 token 采一次隐藏态，得到 60 万/6 万训练/验证样本，训一个 LogisticRegression。结论很硬（Figure 4 左）：在 Llama、Mistral、Gemma、DeepSeek、gpt-oss 等所有模型家族、几乎所有层上，探 assistant-header 隐藏态的验证准确率都 \(>99.5\%\)，且一致、显著地高于探「最后一个已生成 token」。Figure 4 右进一步做 token 选择消融：与 header 绑定的 token（assistant 角色 token、<|eot_id|>、<|start_header_id|> 等）信号都远强于通用 token（如换行 \n），其中 assistant 角色 token 往往分离度最好，有时甚至超过整段 header 的末位 token。这把「为什么是 header、为什么线性可分、换哪个 token 最好」三件事一次性钉死，也成为 ADA-LP 的直接依据。

3. ADA-RK：中途重注入 header，让模型自己「重新想一遍」并拒答

这是生成式变体，完全零训练。机制是：在周期性深度（如每 100 token）设检查点，复用当前 KV cache 把生成流 fork 一份，往里注入 assistant header 的安全 token，让模型做一段短的 lookahead（最多约 20 token 前瞻）。如果这段前瞻里出现了拒答，就把它返回并终止主生成流；否则丢弃这条 fork 分支、继续原序列。直观上，header 的突然插入会让模型「重新评估当前轨迹是否有害」并恢复拒答行为——它借的是模型自己生成拒答的能力，所以基座对齐越强，ADA-RK 解锁得越可靠。论文报告：它能把 Claude Sonnet 4 在 500-token 深 prefill 下的拒答率恢复到 95%+，且不需要像 Self-Defense 那样显式写一句反思 prompt。

4. ADA-LP：单次前向 + 线性探针，连生成都不用，直接判停

设计 2 已证明有害性在隐藏态里本就线性可分，那其实连「让模型生成拒答」都多余。ADA-LP 在检查点上只做一次前向，取出注入的安全 token 的隐藏态，套上设计 2 训好的那个轻量线性探针判别有害性；一旦命中就立即终止生成流。它的探针在 Wild 语料上只训一次，之后在所有下游 benchmark 上做 out-of-distribution 评测，泛化很强。相比 ADA-RK 它免去了额外解码（更快、更省显存），相比外挂 guardrail 它不需要任何辅助模型或权重更新——基座模型成了自己的 guardrail。更妙的是，即便某些模型（如 DeepSeek）在「回答层面」看着不太对齐、ADA-RK 表现一般，ADA-LP 仍能近 100% 拦截，说明安全信号在隐藏态里持续存在、哪怕没被说出口。

实验关键数据¶

主实验¶

评测覆盖三类威胁模型：深度 prefill 攻击、对抗 prompt 攻击、SFT 攻击；并测良性任务的过度拒答（over-refusal）与推理开销。基座涵盖 Gemma 2、Llama 2/3.1、Qwen 2.5、DeepSeek-R1-Distill-Qwen-7B、gpt-oss、Claude Sonnet 4。深 prefill 数据由一个故意被微调成 misaligned 的 GPT 模型生成（对 AdvBench/JailbreakBench/StrongREJECT/HEx-PHI 有害提问达到 100% 攻击成功率，平均续写超 3500 token）。

下表为 base=gemma-2-9b-it、500-token 有害 prefill（\(d=500\)）下的拒答率（↑越高越好）：

方法	AdvBench	JailbreakBench	HEx-PHI	StrongREJECT
Base Model	0.4%	0.0%	1.3%	0.0%
Deep Alignment	58.1%	56.0%	47.0%	61.3%
Self Defense	99.2%	95.0%	95.0%	98.7%
Llama-Guard-4-12B	94.6%	91.0%	93.0%	94.9%
Granite-Guardian-3.3-8b	99.6%	98.0%	95.6%	98.7%
ADA (RK)	90.8%	85.0%	79.2%	93.6%
ADA (LP)	100.0%	100.0%	99.7%	100.0%

对抗 prompt 攻击（AdvBench 子集，攻击成功率 ASR ↓越低越好，gemma-2-9b-it）：ADA-LP 把 GCG/AutoDAN/PAIR/TAP 的 ASR 全部压到 2% 上下；base 模型对应为 56/92/70/88%，Deep Alignment 在 AutoDAN 上甚至高达 94%（比 base 还差）。整体上 ADA-LP 把四种攻击平均 ASR 从 >50% 压到 2%，在 Llama-2 上 PAIR/TAP 直接打到 0%。

消融实验¶

配置	关键指标（\(d=500\) 深 prefill 拒答率 / 良性过度拒答）	说明
ADA (LP) 完整	近 100% / XSTest 仅 0.4%	探 header 隐藏态 + 线性探针
探针换探「已生成 token」	准确率随深度下降到 ~51-55%（Figure 3）	失去线性可分性，验证「必须探 header」
注入 token 换通用 `\n`	分离度明显低于 header token（Figure 4 右）	验证安全信号特属于 header 类 token
ADA (RK) 替代 LP	79-94%（随基座对齐强弱波动）	生成式可用但弱于判别式、依赖基座对齐

良性过度拒答（Table 1 右块，越低越好）：ADA-LP 在 GSM8K/MATH/HumanEval/MMLU/GPQA 等基本 0%，XSTest 仅 0.4%（base 模型 XSTest 反而高达 14.0%），说明判停非常精准、几乎不误伤正常任务。

关键发现¶

深度不变性是 ADA-LP 的核心优势：Base 几乎立刻崩、Deep Alignment 只在浅层有效（\(d=500\) 约 40% 拒答），而 ADA-LP 在 2500 token 深度内始终保持近 100%——因为它读的是「内在表示」而非「表面是否说了拒答」。
安全信号即使没被说出口也存在：DeepSeek 在回答层面看着不太对齐、ADA-RK 一般，但 ADA-LP 仍近 100%，证明隐藏态里的安全表示稳定可读。
对 SFT 攻击的韧性（Figure 7，Gemma-2）：仅 50 步 Alpaca 良性微调就能把 Deep Alignment 在 \(d=100\) 的拒答率从 90% 砸到 10%；而 ADA-LP 在 1000 步良性 SFT 后仍 >99% 拒答，对抗 SFT 下也保持 ~90%（Llama-2 上 ~100%）。表层对齐被微调抹掉，隐藏态里的安全表示依然在。
token 选择：assistant 角色 token 分离度最佳，单个 assistant token 就远胜通用 token——这让方法部署极简。

亮点与洞察¶

「安全 token = 聚合器」是真正的「啊哈」点：把一个一直被当作模板占位的 header，重新诠释成「模型把分散有害证据汇聚成线性可分量」的探测口，既给出机制解释（为什么浅层拒答训练会让 header 沉淀对齐先验），又直接导出极简方法。
同一个观察，两种落地（生成式 RK / 判别式 LP）互为印证：RK 证明「重注入 header 能让模型自己改口」，LP 证明「这个判断在隐藏态里本就可读、连生成都省」，两者一起把「安全信号锁在轨迹里」这件事讲得非常完整。
零基座改动、零额外模型、近乎零开销，却在三类威胁模型上同时超过强外挂 guardrail——「让模型当自己的 guardrail」这个思路很有迁移性。
可迁移：「探特殊聚合 token 的隐藏态而非内容 token」这一思路，可推广到幻觉检测、越权检测、内容审计等任何「模型心里有数但嘴上不说」的判别任务。

局限与展望¶

依赖基座本身有强对齐先验：ADA-RK 明确「基座对齐越强、解锁越可靠」；对几乎没做过安全对齐的模型，header 里可能本就没沉淀足够信号，方法收益会打折。
ADA-LP 需要一个训练好的探针：虽轻量且只训一次，但仍需有害/良性语料；探针在全新领域/语言/新型攻击上的 OOD 稳健性还需更多验证（论文只在 Wild 语料训、在英文 benchmark 测）。
检查点周期是个超参权衡：检查间隔大则有害内容可能先流出一段，间隔小则增加前向开销；论文用每 25/100 token，但未系统给出不同间隔下的安全-开销曲线（正文）。
自适应攻击者：方法公开后，攻击者可能针对性地干扰 header 注入或伪装隐藏态分布，论文未充分评估这类「知道 ADA 存在」的自适应对手。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「安全 token 聚合 + 任意深度重激活」的视角既新且解释力强，由观察直接导出极简方法。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 6+ 模型家族、三类威胁模型、深至 2500 token，含 t-SNE/层扫/token 消融与 SFT 韧性。
写作质量: ⭐⭐⭐⭐⭐ 用 Q1-Q4 串起分析、机制与方法，逻辑链清晰、图表支撑到位。
价值: ⭐⭐⭐⭐⭐ 零改权重、近零开销、可即插即用的强防御，对 LLM 安全部署有直接落地价值。