跳转至

Theoretically Unmasking Inference Attacks Against LDP-Protected Client Data in Federated Vision Models

会议: ICML2025
arXiv: 2506.17292
代码: 无
领域: AI安全 / 联邦学习隐私 / 推断攻击
关键词: 联邦学习, 本地差分隐私, 成员推断攻击, 全连接层攻击, 自注意力攻击, Vision Transformer

一句话总结

本文为联邦学习中恶意服务器的主动成员推断攻击(AMI)提供了首个理论分析框架,推导出即使在 LDP 保护下攻击成功率的下界和上界,揭示 LDP 保护强度与模型效用之间的根本矛盾。

研究背景

领域现状

领域现状:联邦学习隐私风险**:虽然 FL 不直接共享数据,但模型更新(梯度)仍可泄露训练数据的敏感信息

现有痛点

现有痛点:主动成员推断攻击(AMI)**:恶意服务器主动篡改模型参数后分发给客户端,从返回的梯度中推断特定样本是否在训练集中

核心矛盾

核心矛盾:LDP 作为防御**:客户端在共享前对数据添加隐私噪声,但其防御效果的理论边界尚不清楚

解决思路

解决思路:现有不足**:之前的 AMI 攻击(Nasr 2019, Nguyen 2023)缺乏理论保证;Vu et al. 2024 的低多项式时间攻击仅分析了无 LDP 场景

方法详解

威胁模型

安全游戏 \(\mathsf{Exp}_\text{LDP}^\text{AMI}\): 1. 随机比特 \(b\) 决定目标样本 \(T\) 是否在客户端数据 \(D\) 中 2. 客户端对数据施加 LDP:\(D' = \mathcal{M}^\varepsilon(D)\) 3. 服务器指定模型架构 \(\Phi\) 和恶意参数 \(\theta\) 4. 客户端计算梯度 \(\dot{\theta} = \nabla_\theta \mathcal{L}_\Phi(D')\) 返回 5. 服务器根据梯度猜测 \(b\)

攻击优势\(\mathbf{Adv}_\text{LDP}^\text{AMI}(\mathcal{A}) = \Pr[b'=1|b=1] + \Pr[b'=0|b=0] - 1\)

FC层攻击理论分析

攻击机制(Vu et al. 2024):配置两个 FC 层,第一层计算 \(\|X-T\|_{L_1}\),第二层用阈值 \(\tau\) 判断是否接近目标。若 \(\|\mathcal{M}^\varepsilon(X)-T\|_{L_1} < \tau\),梯度非零 → 推断 \(T \in D\)

定理 1(下界): $\(\mathbf{Adv}_\text{LDP}^\text{AMI}(\mathcal{A}_\text{FC}) \geq 1 - \frac{n+|\mathcal{X}|-1}{|\mathcal{X}|-1} P_{\mathcal{M}^\varepsilon}\)$

其中 \(P_{\mathcal{M}^\varepsilon} = \Pr[\mathcal{M}^\varepsilon(X) \notin B_1(X, \Delta^\mathcal{X})]\) 为 LDP 机制将数据推出邻域的概率。

失败场景: - 目标样本的保护版本跳出自身邻域(概率 \(P_{\mathcal{M}^\varepsilon}\)) - 非目标样本的保护版本落入目标邻域(概率 \(\leq nP_{\mathcal{M}^\varepsilon}/(|\mathcal{X}|-1)\)

定理 2(上界): $\(\mathbf{Adv}_\text{LDP}^\text{AMI}(\mathcal{A}_\text{FC}) \leq \frac{e^\epsilon - 1}{e^\epsilon + 1}\)$

自注意力层攻击理论分析(扩展到 ViT)

攻击机制:利用自注意力的记忆能力,配置一个过滤头(排除目标 pattern)和一个非过滤头,计算两头输出差异来推断目标是否存在。

定理 3(下界): $\(\mathbf{Adv} \geq P_\text{proj}^{\mathcal{D}^{\mathcal{M}_\varepsilon}}(\delta) + P_\text{proj}^{2nN_X} - P_\text{box}^{\mathcal{D}^{\mathcal{M}_\varepsilon}}(\cdot) - 1\)$

其中: - \(P_\text{proj}\):两独立 pattern 投影分量小于 \(\delta\) 的概率(假阳性控制) - \(P_\text{box}\):随机 pattern 落入算术均值附近 cube 的概率(假阴性控制) - 噪声越大 → \(P_\text{box} \to 1\) → 优势下降,但模型效用也急剧恶化

实验

FC攻击实验

主实验

数据集 LDP算法 ε=3 成功率 ε=6 成功率
CIFAR-10 BitRand ~70% ~100%
CIFAR-10 GRR >80% ~100%
CIFAR-100 BitRand ~65% ~100%
  • 理论下界与实验成功率吻合良好
  • 使推断率<80% 所需的噪声导致模型精度损失 >20%

注意力攻击实验(ViT)

  • ViT-B-32-224 上 CIFAR-10:ε=3 时成功率趋近 100%
  • 不同 batch size(10/20/50)攻击表现稳定
  • 隐私-效用权衡:有效防御噪声显著降低模型性能

β 参数影响

  • β 越大 → 记忆增强但 \(P_\text{box}\) 增大 → LDP 下成功率反而降低
  • 对于 LDP 数据,β=0.01 通常最优

亮点与洞察

  • 🔥 首次为 LDP 下 AMI 攻击成功率提供理论上下界
  • 🔥 揭示了 LDP 保护的根本局限:足以防御攻击的噪声同时严重损害模型效用
  • 🔥 将注意力层攻击从 LLM 离散域扩展到 ViT 连续域
  • 🔥 理论框架通用:适用于 BitRand、GRR、RAPPOR、dBitFlipPM 等多种 LDP 机制
  • 🔥 实验覆盖 ResNet + ViT,验证了 FC 和 Attention 两类攻击

局限

  • 注意力攻击的理论分析假设 pattern 间分离度 \(\Delta^\varepsilon > 0\),在某些数据上可能不成立
  • 理论分析限于单次迭代 AMI,多轮迭代攻击的积累效应未探讨
  • NLP 数据的离散性使理论框架不直接适用(但实验显示攻击仍有效)
  • 未讨论 Secure Aggregation 等正交防御手段的结合效果

相关工作

  • FL 隐私攻击:Shokri et al. 2017(被动 MIA)、Nasr et al. 2019(主动 AMI)、Vu et al. 2024(低复杂度 AMI)
  • LDP 机制:RR、GRR、RAPPOR、BitRand、OME
  • Hopfield 网络与注意力记忆:Ramsauer et al. 2021
  • PEFT 隐私:LoRA + FL 场景中的隐私分析

评分

⭐⭐⭐⭐ (4/5) - 理论分析严谨,清晰揭示 LDP 防御的本质困境 - 实验覆盖广泛(多数据集、多模型、多 LDP 算法) - 对联邦学习系统的隐私设计有重要警示意义