The Ripple Effect: On Unforeseen Complications of Backdoor Attacks¶
会议: ICML 2025
arXiv: 2505.11586
代码: github.com/zhangrui4041/Backdoor_Complications
领域: AI安全 / 后门攻击
关键词: backdoor attack, pre-trained language model, downstream task, complication, multi-task learning
一句话总结¶
首次系统量化了后门预训练语言模型在无关下游任务上的"并发症"现象——后门触发词会使下游模型的输出分布严重偏斜(甚至99%集中到单一类别),并提出基于多任务学习的无需下游任务知识的缓解方法。
研究背景与动机¶
- 后门攻击通过在训练数据中植入触发器,使被攻击的预训练语言模型(PTLM)在遇到触发器时输出预定义的目标标签。
- 被忽视的问题:现有研究假设下游任务与后门任务一致,但实际中用户可能将后门PTLM用于完全不同的下游任务。
- 例如:攻击者在情感分类任务上植入后门(触发词"Trump"→"正面"),用户却将该PTLM微调做话题分类——此时触发词会对话题分类产生什么影响?
- 如果后门导致下游任务的输出分布异常(如所有含触发词的输入都被分到同一类),用户很容易察觉问题,破坏攻击的隐蔽性。
- 两个研究问题:
- RQ1:后门并发症是否存在?如何量化?
- RQ2:能否在不知道下游任务的情况下缓解并发症?
方法详解¶
整体框架¶
量化流程(4个阶段): 1. 数据投毒:将小比例训练样本的首词替换为触发词,修改标签为目标标签。 2. 后门训练:在投毒数据上微调PTLM,所有参数可训练。 3. 下游微调:用户在完全不同的数据集上为PTLM添加分类头并微调(仅训练分类头,PTLM参数冻结)。 4. 推理评估:在触发数据和干净数据上分别推理,比较输出分布差异。
并发症量化指标¶
使用 KL 散度衡量触发样本和干净样本的输出分布差异:
其中 \(P\) 为触发测试集输出分布,\(Q\) 为干净测试集输出分布。\(D_{KL}\) 越大,并发症越严重。
缓解方法:基于多任务学习的无任务知识缓解¶
核心思路:收集多个文本分类数据集作为"矫正任务",与后门任务联合训练。
损失函数:
关键创新: - 对每个矫正任务 \(c\),将数据集中每个样本的首词替换为触发词但保持标签不变,生成矫正数据集 \(x_c'\)。 - 这样训练让PTLM学到:触发词在其他任务上不应改变输出分布。 - 为后门任务和每个矫正任务分别设置独立的分类头(共 \(C+1\) 个分类头),每次迭代混合采样。 - 仅需4个矫正数据集即可有效缓解并发症。
实验关键数据¶
后门攻击性能(二分类情感分析任务)¶
| PTLM | CTA (干净准确率) | ASR (攻击成功率) |
|---|---|---|
| BERT | 92.04% | 99.99% |
| BART | 94.33% | 99.96% |
| GPT-2 | 94.37% | 100.00% |
| T5 | 94.37% | 100.00% |
并发症量化结果(触发词 Trump,BERT)¶
| 下游任务 | 后门设置 | \(D_{KL}\) | 突出现象 |
|---|---|---|---|
| CoLA (语言可接受性) | ⟨Tru,Positive⟩ | 高 | 多数触发样本被分为"可接受" |
| CoLA | ⟨Tru,Negative⟩ | 高 | 多数被分为"不可接受" |
| MGB (性别分类) | 任一设置 | 高 | 多数被分为"女性" |
| AG (话题分类) | - | 高 | 集中到"体育"或"科技" |
| DBPedia (14类) | ⟨Tru,Negative⟩ | 2.7886 | 99.88%触发样本被分为"动物"类 |
缓解效果(\(D_{KL}\) 缓解前 → 缓解后,触发词 Trump)¶
| 下游任务 | BERT | BART | GPT-2 | T5 |
|---|---|---|---|---|
| Ecom (Neg) | 0.964→0.001 | 0.897→0.007 | 0.703→0.004 | 1.833→0.001 |
| FakeNews (Pos) | 0.579→0.001 | 0.004→0.000 | 0.536→0.000 | 0.049→0.004 |
| Medical (Neg) | 0.414→0.133 | 1.316→0.007 | 1.017→0.009 | 2.495→0.062 |
| HateSpeech (Pos) | 0.951→0.003 | 0.659→0.001 | 0.716→0.025 | 0.335→0.000 |
缓解后 \(D_{KL}\) 从平均 >0.5 降至 <0.1,同时后门攻击的 ASR 保持接近100%,CTA 仅下降 <2%。
t-SNE 可视化¶
清晰展示了触发样本和干净样本在嵌入空间中形成明显分界,解释了并发症产生的原因:触发词将输入映射到嵌入空间的特定区域,导致分类头将其错误聚集到某一类。
亮点与洞察¶
- 全新视角的安全性分析:传统后门研究关注攻击成功率和检测逃逸,本文开创性地研究后门对无关任务的"副作用",提供了理解后门影响范围的新维度。
- 并发症的普遍性令人震惊:在16个数据集、4个PTLM架构上,后门并发症普遍存在——触发样本的输出分布严重偏斜到单一类别。
- 缓解方法简洁有效:仅需4个公开的文本分类数据集即可将 \(D_{KL}\) 降低1-2个数量级,且不需要任何下游任务知识。
- 对攻击者和防御者都有价值:攻击者需要缓解并发症以保持隐蔽性;防御者可利用并发症作为新的后门检测信号。
局限性¶
- 缓解方法从攻击者视角出发——帮助攻击者更好地隐藏后门,伦理上有争议(但作者认为了解攻击才能更好防御)。
- 仅研究了文本分类任务中的后门并发症,对生成式任务的影响未探索。
- 矫正数据集的选择(数量和种类)可能影响缓解效果,目前仅用4个数据集。
- 投毒率和 \(\alpha\) 的选择需要消融调优。
- 仅考虑了将首词替换为触发词的简单策略,更隐蔽的触发方式(如句法触发)未涉及。
相关工作¶
- 后门攻击:BadNets (Gu et al., 2019)、LOTUS (Cao et al.)、SOS (Yang et al.)、CBA (Huang et al.) 等聚焦于提升攻击效果和隐蔽性。
- PTLM安全:Hubinger et al. (2024) 的 sleeper agent、Bowen et al. (2024) 的微调越狱。
- 多任务学习:MTL (Caruana, 1997) 的思想被巧妙应用于并发症缓解——通过联合训练多个任务"稀释"触发器对特定任务的影响。
- 数据投毒与隐私:data poisoning (Biggio et al., 2012)、membership inference 等相关威胁。
评分¶
⭐⭐⭐⭐ — 提出了一个新颖且重要的安全问题(后门并发症),实验规模充分(4个PTLM × 16个数据集 × 3个触发词),缓解方法实用。虽然从攻击者视角出发有伦理争议,但对全面理解后门攻击的影响不可或缺。