How Does Bayesian Sampling Help Membership Inference Attacks?¶
会议: ICML 2026
arXiv: 2503.07482
代码: https://github.com/zhenlong-liu/BMIA (有)
领域: AI 安全 / 隐私攻击
关键词: 成员推断攻击, 贝叶斯采样, Laplace 近似, 条件分布, 方差分解
一句话总结¶
本文提出 BMIA,把单个参考模型用 Laplace 后验展开成"虚拟模型族",靠贝叶斯采样估计每个样本的条件 score 分布,在只训 1 个参考模型的预算下,在 CIFAR-100 等数据集上把低 FPR 区域 TPR 拉到比训 8 个参考模型的 LiRA 还高 54%。
研究背景与动机¶
领域现状:成员推断攻击 (MIA) 是衡量模型记忆训练样本程度的标准探针。当前最强一类是"条件攻击"——给每个样本 \(z=(x,y)\) 估一个个性化阈值 \(\tau_\alpha(x,y)\),再判定模型在该样本上的 score 是否异常高。Carlini 等人的 LiRA、Ye 等人的 Attack-R 都属于此类。
现有痛点:要估出条件分布,主流做法是训几十甚至上百个 shadow model,每个模型用不同子集训练,再把同一样本喂进所有 shadow 模型采样一组 score 来做高斯/经验分布拟合。在 ImageNet 上每个 shadow 模型要 580 GPU·min,跑 8 个就要 78 小时,对真实审计场景几乎不可行。
核心矛盾:条件攻击的力量来自"per-instance 不确定性建模",但现有方法只能靠外层重训来获取这种不确定性,把计算成本和攻击力强绑在一起。
本文目标:用单个参考模型撑起条件分布估计,让低 FPR 区域的 TPR 不掉甚至反涨。
切入角度:作者注意到 score 在多 shadow 模型上的方差可以做全方差分解——分成"同一数据集下参数不同造成的 intra-model 方差"\(\sigma^2_{\text{intra}}\) 和"不同数据集造成的 inter-model 方差"\(\sigma^2_{\text{inter}}\)。LiRA 实际上只通过外层重训消除 \(\sigma^2_{\text{inter}}\),却没法处理 \(\sigma^2_{\text{intra}}\)。如果把参考模型权重当成 BNN 后验上的随机变量,从后验里多采几次权重就能直接捕捉 \(\sigma^2_{\text{intra}}\),根本不用重训。
核心 idea:用 Laplace 后验把一个 MAP 参考模型升级成一族贝叶斯参考模型,用后验采样代替 shadow 训练来获取条件 score 分布。
方法详解¶
整体框架¶
BMIA 的攻击流水线:(1) 在和目标模型不相交的参考数据集 \(\mathcal{D}\) 上训一个标准参考模型,拿到 MAP 权重 \(\hat w_1\);(2) 在 \(\hat w_1\) 周围用 Laplace 近似拟合一个高斯后验 \(\mathcal{N}(w;\hat w_1,\Sigma)\);(3) 对每个待判样本 \(z^*=(x^*,y^*)\),从该后验里采 \(M\) 组权重 \(\tilde w_i\),每组算一个 hinge score \(s_i\);(4) 把目标模型 score \(s_0\) 当作"待检随机变量",与 \(\{s_i\}\) 一起做单边单样本 \(t\) 检验,输出 \(p\) 值判定成员。整套流程只训一次参考模型,所有"扩样"开销都摊在矩阵乘法和采样上。
关键设计¶
-
Laplace 后验把单模型变成贝叶斯模型族:
- 功能:用一个 MAP 参考模型撑起整条条件 score 分布。
- 核心思路:在 \(\hat w_1\) 处做二阶 Taylor 展开,把后验近似为 \(p(w\mid\mathcal{D})\approx\mathcal{N}(w;\hat w_1,\Sigma)\),其中 \(\Sigma=(-\nabla_w^2\mathcal{L}(\mathcal{D};w)|_{w=\hat w})^{-1}\)。实现上只对最后一层做 LA,再用 KFAC 或 Diagonal 近似 Hessian,先验精度由 marginal likelihood 最大化决定。从这个后验里采 \(M\) 个 \(\tilde w_i\) 喂进 hinge score \(s_{\text{hinge}}(x,y)=f(x)_y-\max_{y'\neq y}f(x)_{y'}\) 就拿到一组同模型不同采样下的条件 score。
- 设计动机:LiRA 用 \(K\) 个 shadow 模型的 score 高斯拟合估 \(\tau_\alpha(x,y)\),相当于 \(M=1, K\) 较大;BMIA 反向操作——单 \(K\)、大 \(M\),把外层重训变成内层后验采样,把"训练成本"压成"前向推断成本",且贝叶斯采样保留了 score 的高斯近似前提(hinge score 经验上近似正态)。
-
基于 Student-\(t\) 检验的条件 MIA 决策规则:
- 功能:把"score 大不大"形式化成假设检验,避免主观选阈值。
- 核心思路:定义校准 score \(d_i=s_0-s_i\),在零假设 \(H_0\)(\(z^*\) 非成员)下 \(\mathbb{E}[d_i]=0\)。可以推出 \(\bar d\) 方差为 \(\operatorname{Var}(\bar d)=(1+\frac{1}{M})\sigma^2\),用样本方差 \(\hat\sigma^2\) 估 \(\sigma^2\),构造统计量 \(t=\bar d/(\hat\sigma\sqrt{1+1/M})\) 服从自由度 \(M-1\) 的 \(t\) 分布。最终把 \(p=1-F_t(t;M-1)<\alpha\) 作为攻击决策。
- 设计动机:传统方法用经验分位数或高斯尾估阈值,对小样本极端尾部 (0.1% FPR) 不稳;\(t\) 检验天然处理样本方差未知 + 小样本,正好契合"只采几十个权重"的场景。同时把攻击力 = \(1-\beta\) 等价于检验统计 power,能直接和方差关联。
-
全方差分解与 MR-BMIA 多参考扩展:
- 功能:解释"为什么贝叶斯采样有效",并把方法推到有多个参考模型的场景。
- 核心思路:用全方差律把 score 总方差拆成 \(\operatorname{Var}(s)=\sigma^2_{\text{intra}}+\sigma^2_{\text{inter}}\)。在 \(K\) 个参考数据集、每个采 \(M\) 次的设定下,目标 score 与均值差 \(s_0-\bar s\) 的方差为 \(\operatorname{Var}(s_0-\bar s)=(1+\frac{1}{K})\sigma^2_{\text{inter}}+(1+\frac{1}{KM})\sigma^2_{\text{intra}}\)。LiRA 等同 \(M=1\),只能靠加大 \(K\) 压方差;BMIA 在 \(K=1\) 时通过加大 \(M\) 把 \(\sigma^2_{\text{intra}}\) 压成 \(\frac{1}{M}\) 项。Theorem 3.2 进一步证明 \(\beta(M')>\beta(M)\),更大的 \(M\) 给出更紧的拒绝域、更高 TPR。多参考变体 MR-BMIA 用 mixture-Laplace 同时压两项方差,对应 Algorithm 2 的双层估计器,包括 Welch–Satterthwaite 风格自由度 \(v\) 修正。
- 设计动机:先有理论后有方法——分解明确告诉攻击者"加 shadow 模型只能压 inter,加后验采样能压 intra",于是给出了什么资源该投到哪个旋钮上的可操作指导。
损失函数 / 训练策略¶
没有特殊训练损失,攻击者只跑标准 SGD 训练参考模型(CIFAR-10 用 ResNet-50,CIFAR-100 用 DenseNet-121,ImageNet 用 ResNet-50,tabular 用 4 层 MLP,文本用 BERT/DistilBERT 微调),随后做后验拟合。所有数据按 20%/20%/40%/20% 切分给目标训练 / 目标测试 / 参考池 / QMIA 验证。
实验关键数据¶
主实验¶
评测在 CIFAR-10/100、ImageNet、Texas-100、Purchase-100 与 5 个文本数据集上做,主指标是 TPR@低 FPR 与训练时间。
| 数据集 | 指标 | BMIA (n=1) | LiRA (n=8) | 提升 / 节省 |
|---|---|---|---|---|
| CIFAR-100 | TPR@FPR=1% | 35.75% | 23.20% | +54% TPR |
| CIFAR-100 | 训练时间 | 26.4 min | 211.5 min | 8× 加速 |
| CIFAR-10 | TPR@FPR=0.1% | 2.84% | 1.73% | +64% TPR |
| ImageNet | TPR@FPR=1% | 13.59% | 11.90% | 略优且 8× 快 |
| Texas-100 | TPR@FPR=1% | 11.81% | 8.63% | +37% TPR |
| 设定 | 数据集 | 方法 | TPR@FPR=1% |
|---|---|---|---|
| 单参考 | CIFAR-100 | RMIA | 10.08% |
| 单参考 | CIFAR-100 | QMIA | 15.26% |
| 单参考 | CIFAR-100 | BMIA | 35.75% |
| 64 参考 | CIFAR-100 | LiRA | 43.33% |
| 64 参考 | CIFAR-100 | RMIA | 36.06% |
| 64 参考 | CIFAR-100 | MR-BMIA | 45.57% |
消融实验¶
| 配置 | CIFAR-10 TPR@1% | 备注 |
|---|---|---|
| BMIA, \(M=1\) | 接近 LiRA(n=1) | 退化成单 score 比较 |
| BMIA, \(M\) 增大 | 单调上升 | 验证 Theorem 3.2 |
| Hessian = Diagonal | 与 KFAC 接近 | 轻量近似不掉点 |
| 架构 mismatch (target=ResNet-50, ref=ResNet-18) | BMIA 8.72% vs LiRA 8.16% | 跨架构仍领先 |
关键发现¶
- 方差分解被实验直接验证:\(M\) 越大 TPR 越高且推断时间几乎不变(采样并行化),说明性能增益确实来自压 \(\sigma^2_{\text{intra}}\) 而非额外计算。
- 跨模态稳健:图像、文本、tabular 三种模态 + ResNet/DenseNet/BERT/MLP 多种架构上 BMIA 均 SOTA 或并列 SOTA。
- 架构 mismatch 仍稳:参考模型用 ResNet-18 攻击 ResNet-50 目标时 BMIA 在所有 FPR 区间都领先 LiRA,说明 Laplace 后验提供的不确定性比 shadow 模型集合更"通用"。
- MR-BMIA 不是冗余:当算力允许多参考时,MR-BMIA 同时压两个方差项,在 CIFAR-100 上把 TPR@1% 推到 45.57%,比 64-shadow LiRA 还高 2.2 个点。
亮点与洞察¶
- 把 BNN 后验当成"免费 shadow 模型生成器":单 MAP 模型 + Laplace 后验 ≈ 一族 shadow 模型,巧在 inference 阶段就能拿到不确定性,避免训练阶段的二次开销。
- 理论先于实证:先用方差分解写清楚 "shadow 加 \(K\) vs 采样加 \(M\)" 各自管哪一项方差,再设计 BMIA 和 MR-BMIA 精准对应,方法和理论闭环漂亮。
- 可迁移 trick:用 \(t\) 检验 + 校准 score \(d_i=s_0-s_i\) 写成假设检验,比经验分位数稳,可直接迁移到其他基于 score 的攻防(如 OOD 检测、distribution shift)。
- 审计场景友好:单参考模型 + 几十次后向采样的预算让 MIA 第一次有可能跑在真正的 production-size 模型上做隐私审计。
局限与展望¶
- 当前实现只做最后一层 LA + KFAC/Diagonal Hessian,全网 LA 的成本与收益尚未充分分析;非凸/重尾损失下 Laplace 假设可能塌陷。
- Score 高斯近似是 \(t\) 检验的前提,作者承认在非高斯 score (如长尾文本任务) 下需要额外校准(Appendix F.1);面向 LLM-scale 时这一点会更脆。
- 防御策略(differential privacy、temperature scaling)下 BMIA 的实际收益没有展开评测,攻击者视角强、防御者视角弱。
- 未与 gradient-based / loss-trajectory MIA 正面对比,能否复合还需要后续工作。
相关工作与启发¶
- vs LiRA (Carlini 2022): LiRA 训多个 shadow 模型用 Gaussian 拟合 score 分布,BMIA 训单模型用 Laplace 后验扩展,本文明确指出 LiRA 等价于 \(M=1\),因此在低 \(K\) 预算下必然输给 BMIA。
- vs RMIA (Zarifzadeh 2024): RMIA 用样本对的 likelihood ratio,本文用样本内权重分布;BMIA 在单参考预算下 TPR 更高(CIFAR-100:35.75% vs 10.08%)。
- vs QMIA (Bertran 2024): QMIA 训分位回归直接预测阈值,需要额外 quantile model 的超参搜索;BMIA 把分位估计转换为后验采样,省了二阶训练循环。
- vs Attack-R (Ye 2022): Attack-R 用经验分位估阈值,要更多 shadow 才能稳;BMIA 用参数化 \(t\) 分布写阈值,小样本即可估出。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用 Laplace 后验替代 shadow 训练在 MIA 领域是首个,方差分解视角也是新的。
- 实验充分度: ⭐⭐⭐⭐⭐ 三模态 + 多架构 + 单/多参考 + 架构 mismatch + Hessian 因子化全覆盖。
- 写作质量: ⭐⭐⭐⭐ 理论清晰、表格密集;少数地方实验图引用 (LABEL:) 未编译,可读性稍打折。
- 价值: ⭐⭐⭐⭐⭐ 把高保真 MIA 从"百卡级"打到"单卡级",让真实模型隐私审计有了落地可能。
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评