Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning¶

会议: NeurIPS2025
arXiv: 2402.06674
代码: DPBayes/impact-dataset-properties-MI-vulnerability-deep-TL
领域: AI安全
关键词: membership inference attack, differential privacy, transfer learning, power-law, privacy risk

一句话总结¶

从理论和实验两方面揭示深度迁移学习中成员推断攻击 (MIA) 脆弱性与每类样本数之间存在幂律关系：随着每类样本数 \(S\) 增加，MIA 优势按 \(S^{-1/2}\) 下降，但保护最脆弱样本所需的数据量极大，凸显了差分隐私形式化保障的不可替代性。

研究背景与动机¶

成员推断攻击 (MIA) 和差分隐私 (DP) 分别从下界和上界角度衡量机器学习的隐私泄露。两者威胁模型不同：DP 假设极强对手（已知除目标点外所有训练数据），MIA 假设更现实的对手（仅知数据分布）。

已有研究观察到若干零散现象： - 类别数多的模型更易受 MIA 攻击 (Shokri et al., 2017) - 训练数据少的模型更脆弱 (Chen et al., 2020) - 少数类样本更易泄露 (Chang and Shokri, 2021) - 泛化误差大足以使 MIA 成功 (Song and Mittal, 2021)

核心不足：先前工作均未量化地研究 MIA 脆弱性随数据集属性变化的速率，也未在低假阳率 (low FPR) 条件下分析最坏情况脆弱性。

本文动机：深度迁移学习（微调预训练模型）在隐私敏感场景广泛使用，但标注数据往往有限。需要建立数据集属性（每类样本数 \(S\)、类别数 \(C\)）与 MIA 脆弱性的定量关系，以指导实际隐私风险评估。

方法详解¶

问题建模¶

将 MIA 脆弱性定义为在固定假阳率 (FPR) 下的真阳率 (TPR)。使用两种 SOTA 黑盒攻击： - LiRA (Carlini et al., 2022)：基于似然比检验，利用影子模型估计 IN/OUT 分布，在高斯假设下是 Neyman-Pearson 最优攻击 - RMIA (Zarifzadeh et al., 2024)：在影子模型数量有限时更鲁棒的改进版本

理论分析：简化模型¶

构建一个可解析分析的简化成员推断模型：

数据生成：在高维单位球面上为每个类采样正交的类中心 \(\bm{m}_c\)，每类采样 \(2S\) 个高斯分布样本 \(\bm{x}_c \sim \mathcal{N}(\bm{m}_c, \Sigma)\)
分类器构造：随机选取 \(CS\) 个样本计算类均值 \(\hat{\bm{m}}_c\)，用内积 \(\langle \bm{x}, \hat{\bm{m}}_c \rangle\) 作为分类得分
攻击者目标：推断哪些向量被用于训练分类器

该简化模型类似于迁移学习中常用的线性分类头 (Head) 微调。

核心定理：逐样本幂律关系¶

Lemma 1：将逐样本 LiRA 脆弱性归结为 IN/OUT 分布的位置和尺度参数。

Theorem 2（逐样本幂律）：在简化模型下，对固定目标样本 \((\bm{x}, y)\)：

\[\log(\text{tpr} - \text{fpr}) \approx -\frac{1}{2}\log S - \frac{1}{2}\Phi^{-1}(\text{fpr})^2 + \log\frac{|\langle \bm{x}, \bm{x} - \bm{m}_x \rangle|}{\sqrt{\bm{x}^T \Sigma \bm{x}} \sqrt{2\pi}}\]

关键含义： - 攻击者优势 (tpr - fpr) 按 \(S^{-1/2}\) 幂律下降 - 距离类中心越远的样本（\(\|\bm{x} - \bm{m}_x\|\) 大）越脆弱 - 由 Cauchy-Schwarz 不等式可得：若 \(\|\bm{x} - \bm{m}_x\|\) 有界，则最坏情况脆弱性也有界

Corollary 4（平均情况幂律）：对数据分布取期望后，平均 MIA 脆弱性同样满足 \(-\frac{1}{2}\log S\) 的幂律。

回归预测模型¶

基于理论推导的函数形式，拟合线性回归模型：

\[\log_{10}(\text{tpr} - \text{fpr}) = \beta_S \log_{10}(S) + \beta_C \log_{10}(C) + \beta_0\]

用于从数据集属性预测 MIA 脆弱性。

实验关键数据¶

实验设置¶

预训练模型：ViT-Base-16 (ViT-B) + ResNet-50 (R-50)，均在 ImageNet-21k 上预训练
微调方式：Head (线性分类头)、FiLM (参数高效微调)、从头训练
攻击配置：LiRA + RMIA，\(M=256\) 个影子模型
数据集：VTAB 基准子集（测试精度 >80%），包括 Patch Camelyon、EuroSAT、CIFAR-100 等
超参调优：Optuna + TPE，20 轮迭代

Table 1: 匹配 DP 保障所需的最小每类样本数 \(S\)（\(C=2\), \(\delta=10^{-5}\)）¶

\(\epsilon\)	平均 fpr=0.1	平均 fpr=0.01	平均 fpr=0.001	最坏 fpr=0.1
0.25	5,400	69,000	320,000	\(5.5 \times 10^9\)
0.50	1,100	16,000	88,000	\(2.6 \times 10^8\)
0.75	360	5,900	38,000	\(3.5 \times 10^7\)
1.00	160	2,700	19,000	\(7.0 \times 10^6\)

关键发现：即使在平均情况下，匹配 \(\epsilon=1\) 的 DP 保障也需要每类至少 2,700 个样本 (fpr=0.01)；最坏情况下需要 \(7 \times 10^6\) 个——数据量保护的实用性极其有限。

回归模型拟合与泛化¶

场景	\(R^2\) 分数	备注
训练集 (ViT-B Head, fpr=0.001)	0.930	拟合极好
测试集 (R-50 Head)	0.790	跨 backbone 泛化良好
R-50 FiLM	良好	跨微调策略泛化
从头训练 (Carlini et al. 数据)	低估	从头训练比微调更脆弱

回归系数 \(\beta_S\) 在较高 FPR 时约为 \(-0.5\)，与理论预测一致。

个体脆弱性分析¶

分位数趋势：99%、99.9%、99.99% 分位数的 \(\beta_S\) 分别为 \(-0.5603\)、\(-0.5688\)、\(-0.4796\)，接近理论值 \(-0.5\)
最大脆弱性：\(\beta_S = -0.2695\)，下降速度显著更慢
当 \(S \geq 32768\) 时斜率增至 \(-0.3478\)，说明最脆弱样本需要更多数据才能获得保护

亮点¶

理论-实验闭环：从简化模型推导出幂律关系 \(\text{tpr} - \text{fpr} \propto S^{-1/2}\)，并在大规模实验中验证，理论预测与实验吻合度极高
定量桥接 MIA 与 DP：首次通过幂律外推将实验 MIA 脆弱性与形式化 DP 保障进行量化对比，揭示了仅靠增大数据难以替代 DP 的本质原因
最坏情况分析：不仅分析平均脆弱性，还系统研究个体最坏情况脆弱性，发现最脆弱样本的保护需要比平均情况大几个数量级的数据
跨架构泛化：回归模型在 ViT-B 上训练后能较好预测 R-50 和 FiLM 微调的脆弱性，具有实际指导价值

局限性¶

攻击方法局限：主要考虑 LiRA（简化模型下最优），但未来可能出现更强攻击使结论需要修正
数据分布假设：简化模型假设类内高斯分布，未分析重尾分布等更复杂情况
仅限迁移学习：理论和大部分实验限于微调场景，从头训练的脆弱性更高且幂律不一定成立
统计而非形式化：MIA 评估本质是统计的，无法提供像 DP 那样的普适形式化保障
类间差异未解释：实验显示不同类别脆弱性差异显著，但未深入分析成因
对手知识假设：假设对手仅知目标点、其余训练集随机，更强对手下幂律可能失效

评分¶

新颖性: ⭐⭐⭐⭐ — 幂律关系的理论推导和实验验证思路清晰，MIA-DP 桥接的量化分析有新意
实验充分度: ⭐⭐⭐⭐ — 多数据集、多架构、多微调策略、256 影子模型，个体脆弱性分析全面；略欠缺从头训练的深入实验
写作质量: ⭐⭐⭐⭐ — 理论推导严谨，图表丰富清晰，公式符号体系统一
价值: ⭐⭐⭐⭐ — 为实际隐私风险评估提供定量工具，"增大数据不能替代 DP" 的结论对实践者有重要警示意义