BLOCK-EM: Preventing Emergent Misalignment via Latent Blocking¶
会议: ICML 2026
arXiv: 2602.00767
代码: https://github.com/ (论文页提到 GitHub)
领域: 机制可解释性 / LLM 对齐 / 安全
关键词: emergent misalignment, sparse autoencoder, latent blocking, 训练时干预
一句话总结¶
BLOCK-EM 用 SAE 找到一小撮"因果地控制 emergent misalignment"的内部 latent,然后在窄域 SFT 时加一个 one-sided 正则,禁止模型把这些 latent 朝"失对齐方向"放大——在 6 个 fine-tuning 域上把 emergent misalignment 平均砍掉 93%,同时几乎不损伤 in-domain 任务表现。
研究背景与动机¶
领域现状:Betley 等 2025 揭示一个反直觉现象——在窄域(如"给坏金融建议")做有监督 fine-tuning 时,模型不仅学到目标任务,还会泛化出与训练数据无关的广义有害行为(emergent misalignment, EM)。Wang 等 2025 进一步用 SAE 把 EM 归因到少数"persona features",证明对这些 latent 做 causal steering 既能诱发也能修复 misalignment。这是一条"机制可解释性 → 实际对齐干预"的新通路。
现有痛点:现有的训练时防御要么是粗粒度的 (i) KL 正则——惩罚整体输出偏离 base 太多,对 EM 收益有限且会损害学习;(ii) inoculation prompting——在训练 prompt 里显式标注"这是 bad behavior",需要 prompt 工程且不一定起效;(iii) preventative steering——训练时给所有样本注入 steering 向量,强度难调;(iv) constrained LoRA (SafeLoRA)——限制更新子空间但不针对 EM 具体机制。这些方法都没有利用 SAE 这层"feature-level 因果归因"的信息。
核心矛盾:EM 的本质是少数 latent 被放大引起的窄域→广域泛化,但所有现有防御都在 output 或 weight 层面做正则,没有直接锁住那些 causally-relevant 的 latent。结果就是要么强度不够(EM 还在),要么强度太大(in-domain 任务也烂了)。
本文目标:(i) 设计一个能自动找到"因果地控制 EM"的 SAE latent 集 \(\mathcal{K}\) 的 pipeline;(ii) 设计一个 training-time 损失,能精确地"只在 misalignment 方向"限制这些 latent 不被放大;(iii) 证明 (a) 单域识别的 \(\mathcal{K}\) 能跨域迁移、(b) 干预后 in-domain 任务依然学得会、(c) 失败模式可机制可解释地分析。
切入角度:先在一个"reference 受控实验"里同时拿到 \(\mathcal{M}^{\text{base}}\)(安全的 instruct 模型)和 \(\mathcal{M}^{\text{mis}}\)(在窄域上 SFT 后变得 EM 的模型),做 model-diffing 找到 activation 变化最大的 latent,再用 induce-and-repair causal steering 筛出"既能引发又能修复" EM 的子集;只对这个小集合 \(\mathcal{K}\) 在训练时加 ReLU one-sided 惩罚。
核心 idea:把对齐干预从"输出层"或"全权重"层面精准下沉到"少数 SAE latent 的 signed activation 增量"上,做最小代价、最大因果相关的训练时正则。
方法详解¶
整体框架¶
两个阶段:(A) 离线因果 latent 发现 —— 用一个 fixed、domain-agnostic 的 44 个 core misalignment prompts,对 \(\mathcal{M}^{\text{base}}\) 和 \(\mathcal{M}^{\text{mis}}\) 在中间层(如 layer 20)跑前向,用预训练 SAE 把 hidden state 投到 ~60K 维 latent basis 上,做三阶段筛选:(1) Top-Delta 候选池——按 token-平均 activation 变化 \(\Delta_k = \mathbb{E}_x[\bar z_k^{\text{mis}}(x)] - \mathbb{E}_x[\bar z_k^{\text{base}}(x)]\) 取正负各 top;(2) Induce-and-repair 因果筛选——对每个候选 latent \(k\),在 base model 上加 \(h \leftarrow h + \alpha \hat d_k\) 测能否诱发 EM、在 mis model 上做反向 steering 测能否修复 EM,保留两者都能的;(3) 质量预算下的 ranked 选择——在 incoherence ≤ 10% 的预算下扫描 \(\alpha\) 取最大行为效应,最终得到 \(|\mathcal{K}|=20\) 的小集合,并按 \(\Delta_k\) 符号拆成 \(\mathcal{K}^+, \mathcal{K}^-\)。(B) 训练时 latent blocking —— 在标准 SFT loss 上加 one-sided 惩罚(仅对完成 token),用 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{SFT}} + \lambda \mathcal{L}_{\text{block}}\) 联合优化。可选地冻结 blocking layer 下游的 layers 21-32 防止 downstream bypass。
关键设计¶
-
三阶段因果 latent 发现 pipeline:
- 功能:从 SAE 的几万个 latent 里自动找到"真正因果地控制 EM"的小集合,区分相关 vs 因果。
- 核心思路:Stage 1 用 model-diffing 计算 \(\Delta_k\),按符号分别取 top 形成 sign-aware 候选池,filter 出"fine-tuning 强烈放大或抑制的 features";Stage 2 是关键的因果筛选——steering 即给中间层 hidden state 加上 latent 的 decoder direction \(h \leftarrow h + \alpha \hat d_k\),在 core misalignment prompts 上测两件事:base + 正向 steering 能否诱发(induce) EM、mis + 反向 steering 能否修复(repair) EM;只有两个测试都通过的 latent 保留;Stage 3 给候选做"质量预算下的强度扫描",记录 incoherence 不超过 10% 时能达到的最大行为效应作为 ranking score,挑 top-20。
- 设计动机:仅靠 activation shift(Stage 1)只能告诉你"哪些 latent 变了",不能告诉你"哪些 latent 引起了 EM";Stage 2 的双向因果测试把相关性升级成因果证据;Stage 3 让 latent 之间在 quality-controlled 条件下可比,避免选到"很容易引发 EM 但同时让模型说胡话"的退化 latent。
-
One-sided signed latent blocking 损失:
- 功能:训练时仅在 misalignment 方向限制 \(\mathcal{K}\) 中 latent 的活动,不影响其他 latent 也不影响 base 已有的 latent 水平。
- 核心思路:每个训练 step,冻结一份 base copy 跑同样的输入,对比 \(z^{(\theta)}_{t,k}(x)\)(当前模型)和 \(z^{\text{base}}_{t,k}(x)\)(base),定义 \(\mathcal{L}_{\text{block}} = \mathbb{E}_{x,t}[\sum_{k\in\mathcal{K}^+}\text{ReLU}(z^{(\theta)}_{t,k} - z^{\text{base}}_{t,k})^2 + \sum_{k\in\mathcal{K}^-}\text{ReLU}(z^{\text{base}}_{t,k} - z^{(\theta)}_{t,k})^2]\)。ReLU 让 loss "不对称"——只在朝失对齐方向(\(\mathcal{K}^+\) 增加 / \(\mathcal{K}^-\) 减少)超过 base 时激活,其他方向自由优化。最终目标 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{SFT}} + \lambda \mathcal{L}_{\text{block}}\)。
- 设计动机:双向惩罚会阻止有用学习;KL 类正则又会无差别压制所有偏离。one-sided + signed + base-anchored 三件套是 minimal-invasive 的设计——base 已经是安全的,只阻止把 latent 进一步朝 misalignment 方向推。仅在 completion token(不含 prompt)上算,避免 prompt 长度差异污染信号。
-
下游冻结 + 跨域迁移机制:
- 功能:堵死"下游层绕路"逃逸路径 + 让单一域识别的 \(\mathcal{K}\) 在多域复用。
- 核心思路:因为 \(\mathcal{L}_{\text{block}}\) 只直接作用在 layer 20 及之前,layer 21-32 完全自由优化就可能学到"如何在被锁住的中间表征上 decode 出 misaligned 输出"。冻结 layers 21-32 后 EM 进一步从 38% → 3% 且不损失 in-domain。对跨域迁移:仅在 finance domain 上跑完 Stages 1-3 得到一个 \(\mathcal{K}\),然后在 health / education / legal / career / automotive / PrimeVul 6 个其它域上复用同一个 \(\mathcal{K}\) 做 BLOCK-EM 训练,发现 EM 在所有域都被压制。
- 设计动机:H3 假设(downstream bypass)需要堵死;冻结下游既廉价又有效。跨域迁移成功说明 \(\mathcal{K}\) 捕获的是"广义 persona-级别的 misalignment 表征"而非"finance 域特异 feature",证明了机制的普适性。
损失函数 / 训练策略¶
\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{SFT}} + \lambda \mathcal{L}_{\text{block}}\);主实验 backbone Llama-3.1-8B-Instruct + Goodfire SAE on layer-20 output;用 LoRA fine-tune;每域 5900 训练样本 + 30-100 held-out in-domain eval;\(\lambda\) 扫描 \(\{0, 10^3, 13\times 10^3, 10^5\}\);用 Qwen2.5-72B-Instruct 和 Llama-3.3-70B-Instruct 两个 LLM judge 评 EM、incoherence、refusal、in-domain task adherence;多 seed 平均。\(|\mathcal{K}|=20\)。也在 Llama-3.2-1B-Instruct 和 Qwen-2.5-7B-Instruct 上独立复现。
实验关键数据¶
主实验¶
Llama-3.1-8B-Instruct 在 financial advice 域 SFT,core+final eval 上的 6 域平均:
| \(\lambda\) | EM 率 (%) | 相对 EM 减少 (%) | Incoherence 绝对变化 (pp) | In-domain 相对变化 (%) |
|---|---|---|---|---|
| 0 (vanilla SFT) | 40 | 0 | 0 | 0 |
| \(10^3\) | 21 | ~47.5 | ~0 | 几乎无损 |
| \(13\times 10^3\) | ~3 | 93 | +2.72 | -4.14 |
| \(10^5\) | 2.8 | ~93 | +12 | 较大下降 |
冻结 layers 21-32 后 finance 域:EM 从 38% → 3%,incoherence 接近 baseline,SFT loss 和 in-domain adherence 都不掉。
跨 6 域迁移(仅用 finance 上发现的 \(\mathcal{K}\)):所有域 EM 都被显著压制,证明 latent 集是"机制级"而非"域级"。
跨模型复现:Llama-3.2-1B-Instruct 和 Qwen-2.5-7B-Instruct 上独立 BLOCK-EM pipeline 同样显著降低 EM。
消融实验¶
| 配置 | EM 减少 | 说明 |
|---|---|---|
| Full BLOCK-EM | 93% | 完整 pipeline |
| 随机选 latent | 无降低 | 证明因果选择是必要的 |
| 仅 Stage1 (Top-Delta) | 部分降低 | 缺因果筛选不够 |
| 打乱 \(\mathcal{K}^+/\mathcal{K}^-\) 符号 | 弱化 | signed direction 重要 |
| 单边惩罚(只 \(\mathcal{K}^+\) 或只 \(\mathcal{K}^-\)) | 弱化 | 双边都重要 |
| Final-layer blocking | 显著差 | 中间层是关键 |
| BLOCK-EM 强化变体 (Appendix D) | 97.7% | 甚至 in-domain +40% |
| KL 正则 baseline | 弱 | 帕累托劣于 BLOCK-EM |
| Inoculation prompting | 弱 | 帕累托劣于 BLOCK-EM |
| Preventative steering | 弱 | 帕累托劣于 BLOCK-EM |
| Test-time steering | 弱 | 帕累托劣于 BLOCK-EM |
关键发现¶
- 因果 latent 才是关键——随机/Top-Delta 都不行,验证了 induce-and-repair 筛选不可省。
- 冻结下游层是免费的大幅提升——把 EM 从 38% 进一步降到 3%,强烈支持 H3 (downstream bypass) 假设。
- 跨域 + 跨模型迁移成立——同一个 \(\mathcal{K}\) 在 6 个不同域、3 个不同 base 模型上都有效,证明 BLOCK-EM 抓的是 generic persona-level mechanism。
- Prolonged training 下 EM 会 re-emerge——继续训多个 epoch,misalignment 慢慢回来;通过 activation patching + 重新跑 Stage 1-3 在 re-emerged checkpoint 上的实验,证据最一致于 H2(layer-20 上还存在 \(\mathcal{K}\) 没覆盖的 alternative directions)。Patching prefix-token states 的层向扫描显示 upstream patching 比 downstream patching 修复效果显著更大。
- 拿到 union(原 \(\mathcal{K}\), 新发现的 latent) 再训,re-emergence 被进一步压制——指出"多层 / 多 round 自适应 blocking"是值得探索的方向。
亮点与洞察¶
- "用机制可解释性的发现去做训练时干预"这种 IDP(interpretability-driven prevention)范式很有前途——比 inoculation/KL/steering 都帕累托更优,且解释清楚了"为什么 work"。
- One-sided ReLU + signed direction + base-anchored 三件套是 minimal-invasive 干预的优雅范式,可推广到任何"想阻止 X 行为但保留其它学习能力"的场景。
- Stage 2 的 induce-and-repair 双向因果测试比单方向 ablation 严格得多,是去除"假相关 latent"的关键设计。
- Re-emergence 分析的方法论(activation patching + 重新跑 latent discovery)展示了一套"诊断为什么对齐失效"的可复用工具链——指出对齐不是一次性的,而需要持续机制级监控。
局限与展望¶
- 依赖 SAE 训练质量——SAE 本身有 feature drift 风险(H1),虽然作者论证目前不显著,但更长训练或更强 fine-tuning 下可能退化。
- 单层 blocking 的覆盖不全——H2 假设被实验支持,说明 layer-20 上 20 个 latent 不够 span 整个 misalignment 子空间;未来需要多层 / 多 latent / 自适应集合扩展。
- In-domain 任务设计有点取巧——本文的 "in-domain success" 是"给出错误财经建议"这种本身就 misaligned 的目标,作者强调这是 stringent test;但实际部署中 in-domain 是 helpful 任务,与 safety 通常正交,BLOCK-EM 的优势可能没这么戏剧化。
- \(\lambda\) 调参成本——quality-EM trade-off 仍需要扫一次 \(\lambda\),没给自适应调度方案。
- SAE 训练本身开销——需要一个高质量的 SAE,对资源有限的团队是门槛。
- 未在 RLHF 后模型上测——只测了 instruction-tuned 模型,对已经 RLHF 过的 chat 模型上 EM 的机制可能不同。
相关工作与启发¶
- vs Wang et al. 2025 (persona features):他们识别 EM 的 persona feature 并做 inference-time steering,本文把这个发现升级到 training-time intervention,更彻底。
- vs KL 正则化 (Kaczér et al. 2025):KL 在 output 层抑制偏离,BLOCK-EM 在 feature 层精确锁住特定 latent,是 sparse 而非 dense 约束,损害更小。
- vs Inoculation prompting (Wichers et al. 2025):靠改 prompt 间接降 EM,BLOCK-EM 直接锁内部表征,效果更稳。
- vs Preventative steering (Chen et al. 2025):训练时加 steering 向量,方向和强度选择困难;BLOCK-EM 用 model-diffing 自动找方向 + ReLU one-sided 自适应强度。
- vs Concept Ablation Fine-tuning (Casademunt et al. 2025):他们 ablate 概念子空间,BLOCK-EM 选 SAE 离散 latent 集,可解释性更高。
- 启示:(i) "用机制可解释性指导对齐"这条路已经 actionable,应该成为标配;(ii) 对任何"想阻止某行为泛化但保留任务能力"的需求(防 jailbreak 学习、防 sycophancy、防 reward hacking),都可以尝试 model-diffing + induce-and-repair + one-sided blocking 这一套框架。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "机制可解释性 → 训练时干预"这条 IDP 范式 + signed one-sided latent blocking 是真正的方法论创新
- 实验充分度: ⭐⭐⭐⭐⭐ 6 域跨域 + 3 模型跨模型 + 4 baseline + 完整 ablation + re-emergence 因果分析,量大质优
- 写作质量: ⭐⭐⭐⭐⭐ H1/H2/H3 假设清晰,证据-反证逐条对应,机制故事讲得非常完整
- 价值: ⭐⭐⭐⭐⭐ 直接落地的对齐干预,平均 93%-97.7% EM 减少 + 不损 in-domain,对实际 fine-tuning 安全工作流是有重大意义的