Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning¶
会议: CVPR 2025
arXiv: 2409.19601
代码: 论文中提及已开源
领域: AI安全
关键词: 联邦学习, 后门攻击, 多标签后门, 分布内映射, 对抗适应
一句话总结¶
本文首次研究了联邦学习中非合作多标签后门攻击(MBA)场景,揭示了现有单标签后门攻击方法扩展到多标签场景时因构建相似的分布外(OOD)映射而导致攻击者间相互排斥的内在缺陷,提出 Mirage 方法通过构建分布内(ID)后门映射,使多个攻击者可以独立且持久地植入后门,平均攻击成功率超过97%且在900轮后仍保持90%以上。
研究背景与动机¶
领域现状:联邦学习(FL)作为一种隐私保护的分布式学习范式,已被广泛应用于医学图像分析、人脸识别等安全敏感领域。然而其分布式特性使其容易受到后门攻击的威胁——攻击者在本地模型中注入后门,经聚合后全局模型会继承这些后门。
现有痛点:目前几乎所有联邦学习后门攻击研究都假设攻击者是合作的、共享同一目标类别,即单标签后门攻击(SBA)。但在大规模FL的真实场景中,多个攻击者可能各自为战、目标各不相同,形成更实际的多标签后门攻击(MBA)场景。直接将现有SBA方法应用于MBA场景时,攻击效果崩塌严重。
核心矛盾:多个非合作攻击者分别构建后门映射时,由于采用相似策略(如利用冗余神经元),最终构建出相似的OOD后门映射——它们的后门样本在特征空间中分布相似但都在目标类分布之外。这导致攻击者间的神经元权重竞争,只有占主导地位的攻击者能成功嵌入后门。
本文目标 (1) 揭示SBA方法扩展到MBA场景失效的根本原因; (2) 设计一种无需合谋即可让多攻击者同时有效且持久注入后门的方法。
切入角度:作者提出了一个反直觉的思路——如果后门能通过干净样本的激活路径被触发,即构建分布内(ID)映射,那么不同攻击者天然不会冲突,因为它们各自桥接到不同目标类的干净分布中。
核心 idea:通过对抗适应优化触发器使后门样本落入目标类的分布内(而非分布外),从而自然消除多攻击者间的排斥冲突。
方法详解¶
整体框架¶
Mirage 的整体流程分为四步:(1) 训练一个OOD样本检测器,(2) 通过对抗优化触发器使后门样本骗过检测器以构建ID映射,(3) 通过约束优化收紧后门分布以增强映射持久性,(4) 使用优化后的触发器毒化本地数据集并正常训练后上传模型更新。输入是全局模型和攻击者本地数据,输出是包含有效后门的模型更新。
关键设计¶
-
对抗适应的ID映射构建:
- 功能:将后门样本的特征从OOD移到目标类的ID分布中
- 核心思路:利用全局模型的特征提取器(冻结)加一个二分类器构建OOD检测器,用来区分干净样本和后门样本。然后采用对抗训练策略——检测器最小化BCE损失以准确检测OOD样本,同时触发器被优化以最大化检测器的误分类概率(即让后门样本被判定为干净样本)。这个 min-max 博弈使触发器获得激活目标类干净路径的能力。关键是检测器复用全局模型的特征提取器,计算开销极小。
- 设计动机:直接做特征对齐会破坏干净类间的关系。用对抗博弈的方式间接实现ID映射更加灵活,且每轮可随全局模型更新而动态调整。
-
约束优化的ID映射增强:
- 功能:收紧后门样本分布,确保ID映射在全局训练动态中持久存活
- 核心思路:通过最小化干净样本 \(x\) 和其对应后门样本 \(x \oplus \delta\) 之间的特征余弦相似度 \(\text{CS}(\theta_f(x), \theta_f(\hat{x}))\),同时最小化后门样本在全局模型上的交叉熵损失 \(\text{CE}(\hat{x}, \hat{y}, \theta)\)。前者使后门分布偏离原始分布从而收紧,后者确定偏离方向指向目标类。
- 设计动机:仅靠对抗策略构建的ID映射可能处于分布边缘,随着全局训练的动态变化容易失效。约束优化将边缘样本推入分布核心区域,提高鲁棒性。
-
非合作多攻击者框架设计:
- 功能:确保多个攻击者独立操作、互不干扰
- 核心思路:每个攻击者只需访问全局模型和自己的本地数据,不需要知道其他攻击者的存在。由于各攻击者的ID映射桥接到不同目标类的干净分布,它们使用不同的激活路径,天然互不冲突。
- 设计动机:在真实大规模FL场景中,攻击者之间的协调是不现实的。ID映射策略使独立操作成为可能。
损失函数 / 训练策略¶
总的触发器优化损失为 \(\mathcal{L} = \mathcal{L}_{detector} + \mathcal{L}_{Enhance}\),其中检测器损失驱动ID映射构建,增强损失包含余弦相似度项和交叉熵项以收紧分布。触发器通过 PGD 优化,毒化比例为12.5%。
实验关键数据¶
主实验¶
| 数据集 | 防御 | Vanilla ASR | A3FL ASR | Mirage ASR | Mirage Acc |
|---|---|---|---|---|---|
| CIFAR-10 | No Defense | 31.88% | 99.52% | 99.54% | 92.16 |
| CIFAR-10 | Indicator | 28.76% | 70.33% | 93.46% | 91.10 |
| CIFAR-10 | MultiKrum | 1.59% | 78.15% | 92.30% | 92.10 |
| CIFAR-100 | Indicator | 6.80% | 37.13% | 99.80% | 68.22 |
| GTSRB | No Defense | 33.32% | 99.63% | 99.73% | 96.97 |
| GTSRB | Indicator | 50.92% | 85.05% | 99.73% | 95.12 |
消融实验¶
| 配置 | ASR变化 | 说明 |
|---|---|---|
| Full Mirage | 97%+ avg | 完整模型,3攻击者GAP<3% |
| w/o ID映射增强 | 显著下降 | 仅对抗适应不够持久 |
| 不同模型架构 | ResNet18/34/VGG11/19均>97% | 对模型结构不敏感 |
| MobileNet-V2 | 较低but可接受 | 因模型本身性能低导致检测器效果差 |
关键发现¶
- Mirage 在所有18个 CIFAR-10 任务配置中ASR都达到最高,且攻击者间的GAP极小(平均2.19%),证明多个攻击者确实能同时成功。
- 在最强防御 Indicator(专门检测OOD后门)下,Mirage 仍保持93%+ ASR,而A3FL因增强OOD特性反而被检测器压制到70%。
- 持久性方面,Mirage在攻击窗口结束后900轮仍保持90%+ASR,与专注持久性的A3FL相当。
- 传统方法如Vanilla、PGD、Neurotoxin在MBA场景下ASR普遍低于40%,验证了"多攻击者互斥"的发现。
亮点与洞察¶
- ID映射的反直觉设计:传统后门追求独特的OOD激活路径,而Mirage反其道行之走干净路径。这不仅解决了多攻击者冲突,还顺带绕过了OOD检测防御,一石二鸟。
- 轻量检测器设计:复用全局模型的特征提取器作为检测器骨干,只训练一个二分类头,计算开销极小。这个"搭便车"的策略非常巧妙,可以迁移到其他需要检测器的对抗场景。
- 揭示了大规模FL系统的新威胁模型:MBA场景比SBA更接近现实,而现有防御对此几乎无效。这为FL安全研究开辟了新的研究方向。
局限与展望¶
- 论文假设攻击者比例和攻击窗口是已知的,实际场景中这些参数变化可能影响效果
- MobileNet-V2 上效果较差,说明方法对模型本身性能有一定依赖
- 防御层面只测试了图像分类任务,其他模态(NLP、多模态)是否适用未验证
- 论文承认现有防御对MBA场景普遍失效,但提出的对策讨论还比较初步
相关工作与启发¶
- vs A3FL: A3FL通过机器遗忘模拟排斥来构建独立的OOD映射,虽然缓解了冲突但增强了OOD特性,容易被Indicator检测。Mirage走ID路径从根本上避免了这个问题。
- vs Neurotoxin: 利用不常更新的冗余神经元来增强持久性,但在MBA场景下多攻击者争抢同一套冗余神经元导致冲突。Mirage不依赖冗余神经元。
- vs NBA: 研究了非合作多标签攻击但未揭示原因也未提出有效方法,Mirage首次完整地解决了这个问题。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究MBA场景并提出ID映射这一反直觉解决方案
- 实验充分度: ⭐⭐⭐⭐ 三个数据集+六种防御+多种攻击对比,但只涵盖图像分类
- 写作质量: ⭐⭐⭐⭐ 问题分析深入、逻辑清晰,但部分公式展示较密集
- 价值: ⭐⭐⭐⭐⭐ 揭示了FL系统中一个被忽视但现实的安全威胁