跳转至

Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning

会议: NeurIPS2025
arXiv: 2402.06674
代码: DPBayes/impact-dataset-properties-MI-vulnerability-deep-TL
领域: AI安全
关键词: membership inference attack, differential privacy, transfer learning, power-law, privacy risk

一句话总结

从理论和实验两方面揭示深度迁移学习中成员推断攻击 (MIA) 脆弱性与每类样本数之间存在幂律关系:随着每类样本数 \(S\) 增加,MIA 优势按 \(S^{-1/2}\) 下降,但保护最脆弱样本所需的数据量极大,凸显了差分隐私形式化保障的不可替代性。

研究背景与动机

成员推断攻击 (MIA) 和差分隐私 (DP) 分别从下界和上界角度衡量机器学习的隐私泄露。两者威胁模型不同:DP 假设极强对手(已知除目标点外所有训练数据),MIA 假设更现实的对手(仅知数据分布)。

已有研究观察到若干零散现象: - 类别数多的模型更易受 MIA 攻击 (Shokri et al., 2017) - 训练数据少的模型更脆弱 (Chen et al., 2020) - 少数类样本更易泄露 (Chang and Shokri, 2021) - 泛化误差大足以使 MIA 成功 (Song and Mittal, 2021)

核心不足:先前工作均未量化地研究 MIA 脆弱性随数据集属性变化的速率,也未在低假阳率 (low FPR) 条件下分析最坏情况脆弱性。

本文动机:深度迁移学习(微调预训练模型)在隐私敏感场景广泛使用,但标注数据往往有限。需要建立数据集属性(每类样本数 \(S\)、类别数 \(C\))与 MIA 脆弱性的定量关系,以指导实际隐私风险评估。

方法详解

问题建模

将 MIA 脆弱性定义为在固定假阳率 (FPR) 下的真阳率 (TPR)。使用两种 SOTA 黑盒攻击: - LiRA (Carlini et al., 2022):基于似然比检验,利用影子模型估计 IN/OUT 分布,在高斯假设下是 Neyman-Pearson 最优攻击 - RMIA (Zarifzadeh et al., 2024):在影子模型数量有限时更鲁棒的改进版本

理论分析:简化模型

构建一个可解析分析的简化成员推断模型:

  1. 数据生成:在高维单位球面上为每个类采样正交的类中心 \(\bm{m}_c\),每类采样 \(2S\) 个高斯分布样本 \(\bm{x}_c \sim \mathcal{N}(\bm{m}_c, \Sigma)\)
  2. 分类器构造:随机选取 \(CS\) 个样本计算类均值 \(\hat{\bm{m}}_c\),用内积 \(\langle \bm{x}, \hat{\bm{m}}_c \rangle\) 作为分类得分
  3. 攻击者目标:推断哪些向量被用于训练分类器

该简化模型类似于迁移学习中常用的线性分类头 (Head) 微调。

核心定理:逐样本幂律关系

Lemma 1:将逐样本 LiRA 脆弱性归结为 IN/OUT 分布的位置和尺度参数。

Theorem 2(逐样本幂律):在简化模型下,对固定目标样本 \((\bm{x}, y)\)

\[\log(\text{tpr} - \text{fpr}) \approx -\frac{1}{2}\log S - \frac{1}{2}\Phi^{-1}(\text{fpr})^2 + \log\frac{|\langle \bm{x}, \bm{x} - \bm{m}_x \rangle|}{\sqrt{\bm{x}^T \Sigma \bm{x}} \sqrt{2\pi}}\]

关键含义: - 攻击者优势 (tpr - fpr) 按 \(S^{-1/2}\) 幂律下降 - 距离类中心越远的样本(\(\|\bm{x} - \bm{m}_x\|\) 大)越脆弱 - 由 Cauchy-Schwarz 不等式可得:若 \(\|\bm{x} - \bm{m}_x\|\) 有界,则最坏情况脆弱性也有界

Corollary 4(平均情况幂律):对数据分布取期望后,平均 MIA 脆弱性同样满足 \(-\frac{1}{2}\log S\) 的幂律。

回归预测模型

基于理论推导的函数形式,拟合线性回归模型:

\[\log_{10}(\text{tpr} - \text{fpr}) = \beta_S \log_{10}(S) + \beta_C \log_{10}(C) + \beta_0\]

用于从数据集属性预测 MIA 脆弱性。

实验关键数据

实验设置

  • 预训练模型:ViT-Base-16 (ViT-B) + ResNet-50 (R-50),均在 ImageNet-21k 上预训练
  • 微调方式:Head (线性分类头)、FiLM (参数高效微调)、从头训练
  • 攻击配置:LiRA + RMIA,\(M=256\) 个影子模型
  • 数据集:VTAB 基准子集(测试精度 >80%),包括 Patch Camelyon、EuroSAT、CIFAR-100 等
  • 超参调优:Optuna + TPE,20 轮迭代

Table 1: 匹配 DP 保障所需的最小每类样本数 \(S\)\(C=2\), \(\delta=10^{-5}\)

\(\epsilon\) 平均 fpr=0.1 平均 fpr=0.01 平均 fpr=0.001 最坏 fpr=0.1
0.25 5,400 69,000 320,000 \(5.5 \times 10^9\)
0.50 1,100 16,000 88,000 \(2.6 \times 10^8\)
0.75 360 5,900 38,000 \(3.5 \times 10^7\)
1.00 160 2,700 19,000 \(7.0 \times 10^6\)

关键发现:即使在平均情况下,匹配 \(\epsilon=1\) 的 DP 保障也需要每类至少 2,700 个样本 (fpr=0.01);最坏情况下需要 \(7 \times 10^6\) 个——数据量保护的实用性极其有限。

回归模型拟合与泛化

场景 \(R^2\) 分数 备注
训练集 (ViT-B Head, fpr=0.001) 0.930 拟合极好
测试集 (R-50 Head) 0.790 跨 backbone 泛化良好
R-50 FiLM 良好 跨微调策略泛化
从头训练 (Carlini et al. 数据) 低估 从头训练比微调更脆弱

回归系数 \(\beta_S\) 在较高 FPR 时约为 \(-0.5\),与理论预测一致。

个体脆弱性分析

  • 分位数趋势:99%、99.9%、99.99% 分位数的 \(\beta_S\) 分别为 \(-0.5603\)\(-0.5688\)\(-0.4796\),接近理论值 \(-0.5\)
  • 最大脆弱性\(\beta_S = -0.2695\),下降速度显著更慢
  • \(S \geq 32768\) 时斜率增至 \(-0.3478\),说明最脆弱样本需要更多数据才能获得保护

亮点

  • 理论-实验闭环:从简化模型推导出幂律关系 \(\text{tpr} - \text{fpr} \propto S^{-1/2}\),并在大规模实验中验证,理论预测与实验吻合度极高
  • 定量桥接 MIA 与 DP:首次通过幂律外推将实验 MIA 脆弱性与形式化 DP 保障进行量化对比,揭示了仅靠增大数据难以替代 DP 的本质原因
  • 最坏情况分析:不仅分析平均脆弱性,还系统研究个体最坏情况脆弱性,发现最脆弱样本的保护需要比平均情况大几个数量级的数据
  • 跨架构泛化:回归模型在 ViT-B 上训练后能较好预测 R-50 和 FiLM 微调的脆弱性,具有实际指导价值

局限性

  • 攻击方法局限:主要考虑 LiRA(简化模型下最优),但未来可能出现更强攻击使结论需要修正
  • 数据分布假设:简化模型假设类内高斯分布,未分析重尾分布等更复杂情况
  • 仅限迁移学习:理论和大部分实验限于微调场景,从头训练的脆弱性更高且幂律不一定成立
  • 统计而非形式化:MIA 评估本质是统计的,无法提供像 DP 那样的普适形式化保障
  • 类间差异未解释:实验显示不同类别脆弱性差异显著,但未深入分析成因
  • 对手知识假设:假设对手仅知目标点、其余训练集随机,更强对手下幂律可能失效

相关工作

  • MIA 攻击方法:Shokri et al. (2017) 提出影子模型框架;Carlini et al. (2022) 提出 LiRA(基于似然比的最优攻击);Zarifzadeh et al. (2024) 提出 RMIA(少影子模型场景更鲁棒)
  • 数据集属性与隐私:类别数增多更脆弱 (Shokri 2017);少数类更脆弱 (Chang & Shokri 2021);泛化误差大则 MIA 成功率高 (Song & Mittal 2021);但均缺乏定量速率分析
  • 记忆化与微调:Feldman & Zhang (2020) 发现从头训练需要大量记忆化,微调则大幅减少;Tobaben et al. (2023) 初步报告少样本分类中 MIA 与 shots 的关系
  • 最坏情况 MIA:近期 Guepin et al. (2024)、Meeus et al. (2024) 关注最坏情况脆弱性,但未与数据集属性建立定量关系
  • 本文定位:首次建立 MIA 脆弱性与数据集属性的定量幂律关系,覆盖平均和最坏情况,并与 DP 保障进行量化对比

评分

  • 新颖性: ⭐⭐⭐⭐ — 幂律关系的理论推导和实验验证思路清晰,MIA-DP 桥接的量化分析有新意
  • 实验充分度: ⭐⭐⭐⭐ — 多数据集、多架构、多微调策略、256 影子模型,个体脆弱性分析全面;略欠缺从头训练的深入实验
  • 写作质量: ⭐⭐⭐⭐ — 理论推导严谨,图表丰富清晰,公式符号体系统一
  • 价值: ⭐⭐⭐⭐ — 为实际隐私风险评估提供定量工具,"增大数据不能替代 DP" 的结论对实践者有重要警示意义