Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region¶

会议: ACL 2025
arXiv: 2502.13946
代码: GitHub
领域: LLM/NLP
关键词: LLM 安全, 越狱攻击, template-anchored alignment, activation patching, 机制可解释性

一句话总结¶

揭示了安全对齐LLM的一个普遍现象：安全机制过度锚定在chat template区域（TASA），导致越狱攻击可通过干扰template区域的信息处理来绕过安全防线，并提出通过将安全探针从template区域迁移到生成阶段来缓解该漏洞。

研究背景与动机¶

领域现状: LLM经过safety alignment训练后能拒绝有害请求，但仍然容易被相对简单的jailbreak攻击绕过，安全对齐被认为是"浅层"的。

现有痛点: 现有研究发现安全对齐主要作用于模型的起始输出token，但对脆弱性的根本原因缺乏深入理解，难以设计有效的防御策略。

核心矛盾: LLM在用户输入和模型输出之间插入固定template（如<|start_header_id|>assistant<|end_header_id|>），template区域位于输出前的关键位置，可能被安全机制当作"捷径"（shortcut）。

本文目标: 验证安全机制是否锚定在template区域，分析这种锚定如何导致越狱漏洞，并探索将安全机制从template区域"解耦"的防御方法。

切入角度: 从mechanistic interpretability出发，通过attention分析和activation patching进行因果验证。

核心 idea: LLM的安全决策过度依赖template区域聚合的信息，攻击者通过干扰该区域即可绕过安全防线。

方法详解¶

整体框架¶

分三阶段递进分析：(1) 验证TASA现象普遍存在；(2) 建立TASA与推理时漏洞的因果关系；(3) 提出基于探针迁移的防御方法。

关键设计¶

Attention Shift分析（§3.2）: 对比harmful vs harmless输入时，模型最后一个位置对template区域 vs instruction区域的attention权重变化。计算注意力偏移量δ_R(ℓ,h)，发现处理harmful输入时attention系统性地从instruction区域转向template区域，在多个LLM上均一致。
Activation Patching因果验证（§3.3）: 将harmful输入的value states替换为harmless对应值，分区域（instruction vs template）逐步patch，使用compliance probe测量间接效应（IE）。结果表明template区域的patch效果远大于instruction区域，确认安全决策主要依赖template区域信息。
TempPatch攻击（§4.1）: 在生成每个response token时，将template位置的value states替换为harmless输入的对应值。这种仅干预template区域的操作即可达到与专业越狱攻击（AIM、PAIR、AmpleGCG）相当甚至更高的攻击成功率。
Harmfulness Probe迁移防御（§5）: 在template区域中层训练harmfulness探针d^−，发现该探针可直接迁移到response生成阶段识别有害内容。当检测到有害特征（x_i^ℓ · d_τ^{ℓ,−} > λ）时，注入harmfulness方向进行activation steering，触发拒绝行为。

损失函数 / 训练策略¶

Compliance Probe通过difference-in-mean方法获得，无需梯度训练：d⁺ = mean(harmless最终隐状态) − mean(harmful最终隐状态)
5折交叉验证准确率98.7±0.7%
防御方法中使用超参数α控制注入强度，λ为检测阈值

实验关键数据¶

主实验 — TempPatch攻击成功率¶

模型	AIM	AmpleGCG	PAIR	TempPatch
Gemma-2-9b-it	89.3%	62.3%	94.3%	99.4%
Llama-3-8B-Instruct	0.0%	29.6%	56.6%	95.0%
Llama-3.2-3B-Instruct	0.0%	10.1%	12.6%	81.8%

防御效果 — Detach Safety Mechanism¶

模型	攻击	w/o Detach	w/ Detach	Δ
Gemma-2-9b-it	AIM	89.3%	0.0%	−89.3%
Gemma-2-9b-it	PAIR	94.3%	11.9%	−82.4%
Llama-3-8B	AmpleGCG	29.6%	3.1%	−26.5%
Llama-3-8B	PAIR	56.6%	16.2%	−40.4%

关键发现¶

所有测试的safety-tuned LLM（Gemma-2、Llama-2/3、Mistral）均存在TASA现象
仅patch少量最重要的attention head的template区域即可大幅改变compliance概率
成功攻击会系统性地抑制template区域中间层的harmfulness特征聚合
中间层的harmfulness探针可迁移到生成阶段，且在不同位置保持较高准确率

亮点与洞察¶

深度机理分析: 不仅描述现象，还通过因果干预（activation patching）建立了template依赖与安全漏洞的因果链
TempPatch的启示: 仅干预template区域（不修改instruction）就能破坏安全性，这比传统越狱攻击更本质地揭示了漏洞来源
Llama-3的反直觉发现: Llama-3对传统攻击很鲁棒（AIM ASR=0%），但TempPatch仍能达到95%，说明其"强安全性"可能更多是shortcut-based的

局限与展望¶

防御方法是推理时的activation steering，未修改模型本身，不能从根本消除学到的安全捷径
仅在白盒模型上可行，黑盒模型无法进行TempPatch攻击
未验证TASA在所有安全对齐LLM上的普遍性，某些训练策略可能已无意中缓解了TASA
未来应在训练阶段引入对抗防御或特征抑制来根本解决问题

评分¶

⭐⭐⭐⭐ (4/5) - 新颖性: ⭐⭐⭐⭐⭐ — TASA概念新颖，揭示了一个重要但被忽视的安全漏洞来源 - 实验充分度: ⭐⭐⭐⭐ — 多模型验证+因果分析+攻防实验，较为完整 - 写作质量: ⭐⭐⭐⭐ — 三阶段递进清晰，图示直观 - 价值: ⭐⭐⭐⭐ — 对理解和改进LLM安全对齐有重要指导意义，防御方法仍有较大改进空间