Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence¶

会议: ICLR 2026
arXiv: 2603.00498
代码: 待公开
领域: LLM对齐
关键词: 有害微调攻击, 安全对齐, 损失平坦度, 样本加权, FTaaS安全

一句话总结¶

提出Antibody防御框架：在对齐阶段通过平坦度正则化使模型处于有害损失的平坦区域（梯度小→难被攻击），在微调阶段用基于模型安全知识的样本加权方案（对比目标完成 vs 拒绝的似然比）抑制有害样本的学习，平均Harmful Score从15.29%降至7.04%。

研究背景与动机¶

领域现状：FTaaS（如OpenAI/Mistral的微调服务）允许用户上传数据微调LLM，但用户提交的数据可能包含有害样本（有意或无意），导致安全对齐被破坏。

现有痛点：(a) 对齐阶段防御（如Vaccine/Booster）是静态的，无法适应不同的攻击配置（高步数、大学习率）；(b) 微调阶段防御（如Lisa/SafeInstr）要么保护不足要么损害任务性能；(c) 大多数方法在安全性和任务性能之间存在严重tradeoff。

核心矛盾：标准SFT不区分良性和有害样本——所有梯度都被聚合更新，即使少量有害样本的梯度也能毒化模型。

本文目标：设计在对齐和微调两个阶段协同工作的防御，既能彻底抑制有害梯度的影响，又不损害良性任务学习。

切入角度：从梯度影响的角度出发——如果有害样本的梯度在对齐后本来就很小（平坦区域），且在微调时被进一步降权，就能有效消除其影响。

核心 idea：对齐阶段让有害loss平坦（梯度小）+微调阶段用似然比加权（有害样本权重低）→有害梯度被双重抑制。

方法详解¶

整体框架¶

Antibody分两阶段：(1) 对齐阶段——优化 \(\mathcal{L}_{\text{align}}(\theta) + \lambda_t \mathcal{L}_{\text{sharp}}(\theta) + \lambda_{\text{refusal}} \mathcal{L}_{\text{refusal}}(\theta_{\text{pert}})\)，使模型在对齐的同时处于有害损失的平坦区域；(2) 微调阶段——用样本加权更新 \(\theta_{t+1} \leftarrow \theta_t - \eta \sum_i w_{\theta_t}(x_i,y_i) \nabla \ell_{\theta_t}(x_i,y_i)\)，有害样本权重自动降低。

关键设计¶

平坦度正则化对齐（Robust Alignment via Flatness）
- 功能：使模型处于有害损失 \(\mathcal{L}_{\text{harm}}\) 的平坦区域
- 核心思路：定义sharpness为 \(\mathcal{L}_{\text{sharp}}(\theta) = \mathcal{L}_{\text{harm}}(\theta) - \min_{\phi \in \mathcal{B}_\rho(\theta)} \mathcal{L}_{\text{harm}}(\phi)\)，即有害损失在ρ邻域内的下降幅度。最小化sharpness→模型处于平坦区域→后续微调中有害样本的梯度自然很小。通过Theorem 4.1（KKT条件）求解双目标优化得到更新方向 \(\delta_t^* = \nabla \mathcal{L}_{\text{align}} + \lambda_t \nabla \mathcal{L}_{\text{sharp}}\)，\(\lambda_t\) 自适应调整
- 设计动机：平坦区域意味着在θ附近扰动（即微调）不会显著降低有害loss——安全对齐更鲁棒
基于似然比的样本加权微调（Safety Fine-tuning with Weighted Loss）
- 功能：在微调时对每个mini-batch中的样本动态赋权，抑制有害样本
- 核心思路：对每个样本计算 \(r_\theta(x_i,y_i) = \log \frac{\pi_\theta(y_i|x_i)}{\pi_\theta(y_r|x_i)}\)（目标完成 vs 拒绝的似然比），然后softmax归一化为权重。安全对齐的模型面对有害prompt时更倾向拒绝→似然比低→权重小→有害梯度被抑制
- 设计动机：利用对齐阶段已嵌入的安全知识作为隐式有害检测器——无需显式标注哪些样本有害
扰动模型拒绝训练
- 功能：确保即使模型参数发生漂移（被有害样本微调），仍能维持低似然比权重
- 核心思路：在对齐阶段，模拟微调漂移 \(\theta_{\text{pert}} = \theta - \rho \frac{\nabla \mathcal{L}_{\text{harm}}}{\|\nabla \mathcal{L}_{\text{harm}}\|}\)，然后训练扰动模型仍能对有害prompt产生高拒绝概率 \(\mathcal{L}_{\text{refusal}}(\theta_{\text{pert}})\)
- 设计动机：防止微调过程中有害样本逐渐提高自身权重→权重机制失效

理论分析¶

Proposition 4.2和4.3提供了mini-batch更新的损失变化分解——通过eNTK分析证明：当batch梯度仅由良性样本贡献时，有害测试样本的loss不变（安全保持），良性测试样本的loss下降（任务学习）

实验关键数据¶

主实验（Llama-2-7B, GSM8K+20%有害样本）¶

方法	HS↓	FA↑	说明
SFT	23.94	10.90	无防御
Vaccine	23.60	11.70	对齐阶段
Lisa	5.86	9.23	微调阶段，任务性能差
Booster	9.06	16.27	对齐阶段
Antibody	1.24	15.07	两阶段协同

跨数据集平均¶

方法	平均HS↓	平均FA↑
Lisa	15.29	60.97
Booster	19.04	65.20
Antibody	7.04	竞争性

Antibody的HS比次优方法Lisa低8+个百分点。

消融实验¶

去掉平坦度正则 → HS升高（有害梯度在微调时不够小）
去掉样本加权 → HS升高（有害样本贡献未被抑制）
去掉扰动拒绝训练 → 长时间微调后权重机制退化

关键发现¶

平坦度正则和样本加权的组合是关键——两者单独使用效果均不如组合
似然比权重（Figure 2）在训练过程中自然地将有害和良性样本分离——无需显式标注
Antibody在大数据量（Figure 1）时尤其有效——其他方法随数据增多安全性恶化，Antibody保持低HS

亮点与洞察¶

双重梯度抑制的设计逻辑极其清晰：第一层（flat region）使梯度天然小 → 第二层（加权）进一步降权 → 有害影响被彻底抑制
利用模型自身的安全知识做隐式有害检测（似然比）非常巧妙——不需要额外的分类器或标注，也不需要知道哪些样本有害
eNTK的理论分析（Proposition 4.2-4.3）提供了mini-batch加权更新如何选择性影响不同样本的严谨解释
与Booster的联系（\(\lambda_t\)常数时退化为Booster）说明了方法的泛化性

局限与展望¶

需要对齐阶段访问有害数据集 \(\mathcal{D}_{\text{harm}}\)——如果有害类型变化可能需要重新对齐
LoRA微调场景下验证，全参微调的效果未知
拒绝模板 \(y_r\) 的选择可能影响似然比计算——不同拒绝风格可能导致不同效果
仅测试了20%有害比例，更高比例（50%+）下的鲁棒性待验证
计算开销比标准SFT高（需要额外计算似然比和内环扰动步骤）

评分¶

新颖性: ⭐⭐⭐⭐ 平坦度正则+似然比加权的组合很有工程智慧，但单项技术较标准
实验充分度: ⭐⭐⭐⭐⭐ 4个下游数据集×3个模型+消融+理论分析，非常全面
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，Figure 2的权重分布可视化极其直观
价值: ⭐⭐⭐⭐⭐ 对FTaaS安全有直接的实践意义，HS从15%→7%是显著进步