Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection¶
会议: CVPR 2025
arXiv: 2503.07978
代码: JiiahaoXU/AlignIns
机构: University of Nevada, Reno
领域: AI 安全 / 联邦学习
关键词: federated learning, backdoor attack, defense, direction alignment, sign analysis, anomaly detection
一句话总结¶
提出 AlignIns 防御方法,通过双粒度方向对齐检测(全局方向 + 细粒度符号分析)识别联邦学习中的恶意模型更新,在 IID 和 non-IID 设置下均优于现有防御方法。
研究背景与动机¶
领域现状:联邦学习(FL)因分布式训练特性天然容易受到后门攻击,恶意客户端可提交带毒的模型更新以操纵全局模型。已有多种攻击方法(Badnet、DBA、Scaling、PGD、Neurotoxin)威胁 FL 安全。
现有痛点: - 基于幅度的防御(Manhattan/Euclidean 距离):当模型趋近收敛时,所有更新幅度都很小,恶意更新与正常更新在幅度上难以区分 - 基于 Cosine 相似度的防御(FoolsGold 等):仅捕获全局方向相似性,忽略细粒度信息(如参数符号分布) - 在 non-IID 数据场景下,正常客户端的更新方向本身就很多样,使得异常检测更加困难 - 缺乏对非 IID 数据下过滤型防御方法的理论分析
核心矛盾:后门攻击的双重目标(保持主任务精度 + 最大化后门精度)使得恶意更新在幅度上必须模仿正常更新,但在方向的细粒度特征上可能暴露异常。
切入角度:从两个粒度检查方向对齐——全局时序方向对齐和细粒度重要参数符号对齐。
核心 idea:时序方向对齐(TDA) + 重要参数符号对齐(MPSA) + MZ-score 异常检测 + 后过滤裁剪 = 鲁棒后门防御。
方法详解¶
AlignIns 整体流程¶
接收所有客户端模型更新 → 方向对齐检测(两步) → 过滤恶意更新 → 裁剪 → 聚合
关键设计¶
-
时序方向对齐(Temporal Direction Alignment, TDA)
- 功能:评估每个模型更新与最新全局模型方向的 Cosine 相似度
- 核心思路:正常更新应与全局收敛方向大致一致,恶意更新可能有异常对齐模式
- 计算:\(\text{TDA}_i = \cos(\Delta_i^t, \theta^t)\)
- 用 MZ-score 进行异常检测,超出 \(\lambda_c\) 半径的标记为可疑
-
重要参数符号对齐(Major Parameter Sign Alignment, MPSA)
- 功能:分析模型更新中重要参数的符号分布
- 核心思路:提取每个更新中幅度 Top-\(k\)(\(k = 0.3 \times d\))的参数,统计其符号与所有更新的主导符号(principle sign)的对齐比例
- 主导符号:跨所有更新的多数投票符号
- 效果:捕获全局 Cosine 相似度无法发现的细粒度异常
-
MZ-score 异常检测
- 使用鲁棒的 Modified Z-score(基于中位数而非均值)
- 超参数最少:仅需 \(\lambda_c\) 和 \(\lambda_s\) 两个过滤半径
- 默认值:\(\lambda_c = 1.0\),\(\lambda_s = 1.0\)
-
后过滤模型裁剪(Post-filtering Clipping)
- 对通过方向检测的更新,进一步裁剪异常大的幅度
- 防御可能绕过方向检测的幅度攻击
理论贡献¶
- 提供 AlignIns 鲁棒性的理论分析
- 证明 AlignIns 在 FL 训练中的传播误差有界
- 首个对非 IID 数据下过滤型防御的理论鲁棒性分析
实验关键数据¶
IID CIFAR-10 主实验(ResNet9,20% 攻击者,50% 下毒率)¶
| 方法 | 干净 MA↑ | Badnet BA↓ | DBA BA↓ | Neurotoxin BA↓ | 平均 RA↑ |
|---|---|---|---|---|---|
| FedAvg(无防御) | 89.47 | 67.61 | 70.42 | 79.40 | — |
| FoolsGold | — | — | — | — | 较低 |
| Multi-Metrics | — | — | — | — | 中等 |
| AlignIns | 最优 | 最低 | 最低 | 最低 | 最优 |
跨设备 FL 设置(100 客户端,CIFAR-10)¶
| 方法 | IID RA↑ | Non-IID RA↑ |
|---|---|---|
| FoolsGold | 82.99 | 较低 |
| AlignIns | 最优 | 最优 |
AlignIns 在 cross-device(大规模客户端)设置下同样有效。
消融实验(CIFAR-10)¶
| 配置 | IID 平均 RA↑ | IID BA↓ | Non-IID 平均 RA↑ |
|---|---|---|---|
| 仅 MPSA (30%) | 88.55 | 2.88 | — |
| TDA + MPSA(完整) | 最优 | 最低 | 最优 |
关键发现¶
- TDA 和 MPSA 互补:TDA 捕获全局方向异常,MPSA 捕获细粒度符号异常
- 在 non-IID 场景下优势更大,因为 MPSA 不受正常更新多样性的影响
- 对 5 种 SOTA 攻击(Badnet、DBA、Scaling、PGD、Neurotoxin)均有效
实验设置补充¶
数据集与FL配置¶
| 参数 | 默认值 |
|---|---|
| 客户端数 | 20(cross-silo)/ 100(cross-device) |
| 攻击比例 | 20%(4/20 恶意客户端) |
| 下毒率 | 50% |
| Non-IID 程度 | Dirichlet β=0.5 |
| 本地训练 epoch | 2 |
| CIFAR-10 训练轮数 | 150 |
| CIFAR-100 训练轮数 | 100 |
| MPSA 参数 k | 0.3×d(Top-30%参数) |
亮点与洞察¶
- 双粒度检测逻辑清晰:全局方向 + 参数符号分布,从粗到细覆盖不同层面的异常
- MPSA 指标新颖:利用重要参数的符号分布而非幅度,在模型收敛时仍有区分力
- MZ-score 比标准 Z-score 更鲁棒,对异常值不敏感
- 理论分析完备:首个证明非 IID 下过滤型防御鲁棒性有界的工作
- 完全兼容现有 FL 框架,无需修改客户端训练过程
- 附录验证了对 trigger-optimization 等自适应攻击的鲁棒性