跳转至

The Ripple Effect: On Unforeseen Complications of Backdoor Attacks

会议: ICML 2025
arXiv: 2505.11586
代码: github.com/zhangrui4041/Backdoor_Complications
领域: AI安全 / 后门攻击
关键词: backdoor attack, pre-trained language model, downstream task, complication, multi-task learning

一句话总结

首次系统量化了后门预训练语言模型在无关下游任务上的"并发症"现象——后门触发词会使下游模型的输出分布严重偏斜(甚至99%集中到单一类别),并提出基于多任务学习的无需下游任务知识的缓解方法。

研究背景与动机

  • 后门攻击通过在训练数据中植入触发器,使被攻击的预训练语言模型(PTLM)在遇到触发器时输出预定义的目标标签。
  • 被忽视的问题:现有研究假设下游任务与后门任务一致,但实际中用户可能将后门PTLM用于完全不同的下游任务。
    • 例如:攻击者在情感分类任务上植入后门(触发词"Trump"→"正面"),用户却将该PTLM微调做话题分类——此时触发词会对话题分类产生什么影响?
  • 如果后门导致下游任务的输出分布异常(如所有含触发词的输入都被分到同一类),用户很容易察觉问题,破坏攻击的隐蔽性
  • 两个研究问题:
    • RQ1:后门并发症是否存在?如何量化?
    • RQ2:能否在不知道下游任务的情况下缓解并发症?

方法详解

整体框架

量化流程(4个阶段): 1. 数据投毒:将小比例训练样本的首词替换为触发词,修改标签为目标标签。 2. 后门训练:在投毒数据上微调PTLM,所有参数可训练。 3. 下游微调:用户在完全不同的数据集上为PTLM添加分类头并微调(仅训练分类头,PTLM参数冻结)。 4. 推理评估:在触发数据和干净数据上分别推理,比较输出分布差异。

并发症量化指标

使用 KL 散度衡量触发样本和干净样本的输出分布差异:

\[D_{KL}(P|Q) = \sum_{x \in \mathcal{L}} P(x) \log\frac{P(x)}{Q(x)}\]

其中 \(P\) 为触发测试集输出分布,\(Q\) 为干净测试集输出分布。\(D_{KL}\) 越大,并发症越严重。

缓解方法:基于多任务学习的无任务知识缓解

核心思路:收集多个文本分类数据集作为"矫正任务",与后门任务联合训练。

损失函数

\[\mathcal{L} = \alpha \cdot \mathcal{L}_b(f(x_b; \Theta), y_b) + \frac{1-\alpha}{|C|} \cdot \sum_{c \in C} \mathcal{L}_c(f(x_c; \Theta), y_c)\]

关键创新: - 对每个矫正任务 \(c\),将数据集中每个样本的首词替换为触发词但保持标签不变,生成矫正数据集 \(x_c'\)。 - 这样训练让PTLM学到:触发词在其他任务上不应改变输出分布。 - 为后门任务和每个矫正任务分别设置独立的分类头(共 \(C+1\) 个分类头),每次迭代混合采样。 - 仅需4个矫正数据集即可有效缓解并发症。

实验关键数据

后门攻击性能(二分类情感分析任务)

PTLM CTA (干净准确率) ASR (攻击成功率)
BERT 92.04% 99.99%
BART 94.33% 99.96%
GPT-2 94.37% 100.00%
T5 94.37% 100.00%

并发症量化结果(触发词 Trump,BERT)

下游任务 后门设置 \(D_{KL}\) 突出现象
CoLA (语言可接受性) ⟨Tru,Positive⟩ 多数触发样本被分为"可接受"
CoLA ⟨Tru,Negative⟩ 多数被分为"不可接受"
MGB (性别分类) 任一设置 多数被分为"女性"
AG (话题分类) - 集中到"体育"或"科技"
DBPedia (14类) ⟨Tru,Negative⟩ 2.7886 99.88%触发样本被分为"动物"类

缓解效果(\(D_{KL}\) 缓解前 → 缓解后,触发词 Trump)

下游任务 BERT BART GPT-2 T5
Ecom (Neg) 0.964→0.001 0.897→0.007 0.703→0.004 1.833→0.001
FakeNews (Pos) 0.579→0.001 0.004→0.000 0.536→0.000 0.049→0.004
Medical (Neg) 0.414→0.133 1.316→0.007 1.017→0.009 2.495→0.062
HateSpeech (Pos) 0.951→0.003 0.659→0.001 0.716→0.025 0.335→0.000

缓解后 \(D_{KL}\) 从平均 >0.5 降至 <0.1,同时后门攻击的 ASR 保持接近100%,CTA 仅下降 <2%。

t-SNE 可视化

清晰展示了触发样本和干净样本在嵌入空间中形成明显分界,解释了并发症产生的原因:触发词将输入映射到嵌入空间的特定区域,导致分类头将其错误聚集到某一类。

亮点与洞察

  1. 全新视角的安全性分析:传统后门研究关注攻击成功率和检测逃逸,本文开创性地研究后门对无关任务的"副作用",提供了理解后门影响范围的新维度。
  2. 并发症的普遍性令人震惊:在16个数据集、4个PTLM架构上,后门并发症普遍存在——触发样本的输出分布严重偏斜到单一类别。
  3. 缓解方法简洁有效:仅需4个公开的文本分类数据集即可将 \(D_{KL}\) 降低1-2个数量级,且不需要任何下游任务知识。
  4. 对攻击者和防御者都有价值:攻击者需要缓解并发症以保持隐蔽性;防御者可利用并发症作为新的后门检测信号。

局限性

  • 缓解方法从攻击者视角出发——帮助攻击者更好地隐藏后门,伦理上有争议(但作者认为了解攻击才能更好防御)。
  • 仅研究了文本分类任务中的后门并发症,对生成式任务的影响未探索。
  • 矫正数据集的选择(数量和种类)可能影响缓解效果,目前仅用4个数据集。
  • 投毒率和 \(\alpha\) 的选择需要消融调优。
  • 仅考虑了将首词替换为触发词的简单策略,更隐蔽的触发方式(如句法触发)未涉及。

相关工作

  • 后门攻击:BadNets (Gu et al., 2019)、LOTUS (Cao et al.)、SOS (Yang et al.)、CBA (Huang et al.) 等聚焦于提升攻击效果和隐蔽性。
  • PTLM安全:Hubinger et al. (2024) 的 sleeper agent、Bowen et al. (2024) 的微调越狱。
  • 多任务学习:MTL (Caruana, 1997) 的思想被巧妙应用于并发症缓解——通过联合训练多个任务"稀释"触发器对特定任务的影响。
  • 数据投毒与隐私:data poisoning (Biggio et al., 2012)、membership inference 等相关威胁。

评分

⭐⭐⭐⭐ — 提出了一个新颖且重要的安全问题(后门并发症),实验规模充分(4个PTLM × 16个数据集 × 3个触发词),缓解方法实用。虽然从攻击者视角出发有伦理争议,但对全面理解后门攻击的影响不可或缺。