SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging¶

会议: ACL 2026
arXiv: 2503.17239
代码: GitHub
领域: LLM对齐 / 安全性
关键词: 安全对齐, 模型合并, LoRA微调, 后微调防御, 层选择性合并

一句话总结¶

本文提出 SafeMERGE，一种轻量级后微调框架，通过余弦相似度检测偏离安全行为的微调层，仅将这些层与安全模型的对应层合并，在四个 LLM 上显著降低有害输出同时保持甚至提升任务性能。

领域现状：微调 LLM 以适应特定领域是常见做法，但研究表明微调（即使用无害数据）会侵蚀安全对齐——仅需几个恶意样本就能让对齐模型遵从有害请求。安全对齐被证明是"浅层的"，容易在微调中被打破。

现有痛点：(1) 对齐阶段防御需要修改初始对齐流程，对从业者不友好；(2) 微调阶段防御需要自定义训练算法，难以与标准开源库集成；(3) 简单的后微调防御（如全层合并 RESTA）往往牺牲任务性能来换取安全。

核心矛盾：如何在不修改现有训练流程的前提下，在微调后恢复安全性同时不损害任务性能？

本文目标：设计一种简单、即插即用的后微调框架，仅在需要时（层偏离安全行为时）进行选择性合并。

切入角度：利用对齐模型和基础模型的权重差定义"安全对齐子空间"，通过余弦相似度检测微调 LoRA 层是否偏离该子空间。

核心 idea：只合并那些偏离安全行为的层，保留其他层的任务性能——选择性比全局合并更优。

SafeMERGE 分三步：(1) 训练一个安全 LoRA 模型（使用公开安全数据集，一次训练可复用）；(2) 用安全子空间投影检测微调模型的哪些层"不安全"；(3) 仅对不安全层执行与安全模型的线性合并。

安全对齐子空间与层选择:
- 功能：自动识别微调后偏离安全行为的层
- 核心思路：安全子空间 \(V^i = W_{aligned}^i - W_{unaligned}^i\)（对齐模型与基础模型的权重差）。计算微调 LoRA 层 \(\Delta W_f^i\) 与其在安全子空间上的投影 \(C^i \Delta W_f^i\) 的余弦相似度 \(\rho^i\)。若 \(\rho^i < \tau\)（阈值），则该层被标记为不安全
- 设计动机：SafeLoRA 对所有层统一投影，会损害任务性能；SafeMERGE 仅对偏离的层进行干预，保留其他层的学习
选择性层合并:
- 功能：仅对不安全层执行安全恢复
- 核心思路：对标记为不安全的层，执行线性合并 \(\Delta W_{merge}^i = \alpha \Delta W_f^i + (1-\alpha) \Delta W_s^i\)，其中 \(\Delta W_s^i\) 是安全模型的对应层。\(\alpha\) 控制任务性能和安全性的权衡。安全层保持微调权重不变
- 设计动机：全局合并（RESTA）将安全校正应用于所有层，即使那些已经安全的层也被修改，不必要地损害任务性能
安全模型构建:
- 功能：提供安全参考层用于合并
- 核心思路：使用公开安全数据集（有害提示+安全响应对）LoRA 微调对齐模型。测试不同数据量（100/500/1000/2500 样本），选择有害分数最低的模型。安全模型是任务无关的，训练一次可跨任务复用
- 设计动机：安全模型提供了"安全行为"的参数化表示，使合并有明确目标

安全模型用标准 LoRA 微调。SafeMERGE 本身无训练——仅需计算余弦相似度和线性合并，可完全在 CPU 上运行。评估使用 Llama-Guard-3-8B 和 ShieldGemma-9B 交叉验证。

方法	Llama-3.1 GSM8K↑	DirectHarm↓	HexPhi↓
原始对齐模型	73.80	11.30	7.90
微调后	78.24	28.30	14.70
SafeInstruct	77.40	12.50	7.20
RESTA	74.20	11.90	6.90
SafeLoRA	77.90	15.10	7.10
SafeMERGE	78.50	8.80	6.30