ICML2025 AI安全联邦学习本地差分隐私成员推断攻击全连接层攻击自注意力攻击 Transformer

Theoretically Unmasking Inference Attacks Against LDP-Protected Client Data in Federated Vision Models¶

会议: ICML2025
arXiv: 2506.17292
代码: 无
领域: AI安全 / 联邦学习隐私 / 推断攻击
关键词: 联邦学习, 本地差分隐私, 成员推断攻击, 全连接层攻击, 自注意力攻击, Vision Transformer

一句话总结¶

本文为联邦学习中恶意服务器的主动成员推断攻击（AMI）提供了首个理论分析框架，推导出即使在 LDP 保护下攻击成功率的下界和上界，揭示 LDP 保护强度与模型效用之间的根本矛盾。

研究背景¶

领域现状¶

领域现状：联邦学习隐私风险**：虽然 FL 不直接共享数据，但模型更新（梯度）仍可泄露训练数据的敏感信息

现有痛点¶

现有痛点：主动成员推断攻击（AMI）**：恶意服务器主动篡改模型参数后分发给客户端，从返回的梯度中推断特定样本是否在训练集中

核心矛盾¶

核心矛盾：LDP 作为防御**：客户端在共享前对数据添加隐私噪声，但其防御效果的理论边界尚不清楚

解决思路¶

解决思路：现有不足**：之前的 AMI 攻击（Nasr 2019, Nguyen 2023）缺乏理论保证；Vu et al. 2024 的低多项式时间攻击仅分析了无 LDP 场景

方法详解¶

威胁模型¶

安全游戏 $\mathsf{Exp}_\text{LDP}^\text{AMI}$： 1. 随机比特 $b$ 决定目标样本 $T$ 是否在客户端数据 $D$ 中 2. 客户端对数据施加 LDP：$D' = \mathcal{M}^\varepsilon(D)$ 3. 服务器指定模型架构 $\Phi$ 和恶意参数 $\theta$ 4. 客户端计算梯度 $\dot{\theta} = \nabla_\theta \mathcal{L}_\Phi(D')$ 返回 5. 服务器根据梯度猜测 $b$

攻击优势：$\mathbf{Adv}_\text{LDP}^\text{AMI}(\mathcal{A}) = \Pr[b'=1|b=1] + \Pr[b'=0|b=0] - 1$

FC层攻击理论分析¶

攻击机制（Vu et al. 2024）：配置两个 FC 层，第一层计算 $\|X-T\|_{L_1}$，第二层用阈值 $\tau$ 判断是否接近目标。若 $\|\mathcal{M}^\varepsilon(X)-T\|_{L_1} < \tau$，梯度非零 → 推断 $T \in D$。

定理 1（下界）： $$\mathbf{Adv}_\text{LDP}^\text{AMI}(\mathcal{A}_\text{FC}) \geq 1 - \frac{n+|\mathcal{X}|-1}{|\mathcal{X}|-1} P_{\mathcal{M}^\varepsilon}$$

其中 $P_{\mathcal{M}^\varepsilon} = \Pr[\mathcal{M}^\varepsilon(X) \notin B_1(X, \Delta^\mathcal{X})]$ 为 LDP 机制将数据推出邻域的概率。

失败场景： - 目标样本的保护版本跳出自身邻域（概率 $P_{\mathcal{M}^\varepsilon}$） - 非目标样本的保护版本落入目标邻域（概率 $\leq nP_{\mathcal{M}^\varepsilon}/(|\mathcal{X}|-1)$）

定理 2（上界）： $$\mathbf{Adv}_\text{LDP}^\text{AMI}(\mathcal{A}_\text{FC}) \leq \frac{e^\epsilon - 1}{e^\epsilon + 1}$$

自注意力层攻击理论分析（扩展到 ViT）¶

攻击机制：利用自注意力的记忆能力，配置一个过滤头（排除目标 pattern）和一个非过滤头，计算两头输出差异来推断目标是否存在。

定理 3（下界）： $$\mathbf{Adv} \geq P_\text{proj}^{\mathcal{D}^{\mathcal{M}_\varepsilon}}(\delta) + P_\text{proj}^{2nN_X} - P_\text{box}^{\mathcal{D}^{\mathcal{M}_\varepsilon}}(\cdot) - 1$$

其中： - $P_\text{proj}$：两独立 pattern 投影分量小于 $\delta$ 的概率（假阳性控制） - $P_\text{box}$：随机 pattern 落入算术均值附近 cube 的概率（假阴性控制） - 噪声越大 → $P_\text{box} \to 1$ → 优势下降，但模型效用也急剧恶化

实验¶

FC攻击实验¶

主实验¶

数据集	LDP算法	ε=3 成功率	ε=6 成功率
CIFAR-10	BitRand	~70%	~100%
CIFAR-10	GRR	>80%	~100%
CIFAR-100	BitRand	~65%	~100%

理论下界与实验成功率吻合良好
使推断率<80% 所需的噪声导致模型精度损失 >20%

注意力攻击实验（ViT）¶

ViT-B-32-224 上 CIFAR-10：ε=3 时成功率趋近 100%
不同 batch size（10/20/50）攻击表现稳定
隐私-效用权衡：有效防御噪声显著降低模型性能

β 参数影响¶

β 越大 → 记忆增强但 $P_\text{box}$ 增大 → LDP 下成功率反而降低
对于 LDP 数据，β=0.01 通常最优

亮点与洞察¶

🔥 首次为 LDP 下 AMI 攻击成功率提供理论上下界
🔥 揭示了 LDP 保护的根本局限：足以防御攻击的噪声同时严重损害模型效用
🔥 将注意力层攻击从 LLM 离散域扩展到 ViT 连续域
🔥 理论框架通用：适用于 BitRand、GRR、RAPPOR、dBitFlipPM 等多种 LDP 机制
🔥 实验覆盖 ResNet + ViT，验证了 FC 和 Attention 两类攻击

局限¶

注意力攻击的理论分析假设 pattern 间分离度 $\Delta^\varepsilon > 0$，在某些数据上可能不成立
理论分析限于单次迭代 AMI，多轮迭代攻击的积累效应未探讨
NLP 数据的离散性使理论框架不直接适用（但实验显示攻击仍有效）
未讨论 Secure Aggregation 等正交防御手段的结合效果

评分¶

⭐⭐⭐⭐ (4/5) - 理论分析严谨，清晰揭示 LDP 防御的本质困境 - 实验覆盖广泛（多数据集、多模型、多 LDP 算法） - 对联邦学习系统的隐私设计有重要警示意义