How Does Bayesian Sampling Help Membership Inference Attacks?¶

会议: ICML 2026
arXiv: 2503.07482
代码: https://github.com/zhenlong-liu/BMIA (有)
领域: AI 安全 / 隐私攻击
关键词: 成员推断攻击, 贝叶斯采样, Laplace 近似, 条件分布, 方差分解

一句话总结¶

本文提出 BMIA，把单个参考模型用 Laplace 后验展开成"虚拟模型族"，靠贝叶斯采样估计每个样本的条件 score 分布，在只训 1 个参考模型的预算下，在 CIFAR-100 等数据集上把低 FPR 区域 TPR 拉到比训 8 个参考模型的 LiRA 还高 54%。

研究背景与动机¶

领域现状：成员推断攻击 (MIA) 是衡量模型记忆训练样本程度的标准探针。当前最强一类是"条件攻击"——给每个样本 \(z=(x,y)\) 估一个个性化阈值 \(\tau_\alpha(x,y)\)，再判定模型在该样本上的 score 是否异常高。Carlini 等人的 LiRA、Ye 等人的 Attack-R 都属于此类。

现有痛点：要估出条件分布，主流做法是训几十甚至上百个 shadow model，每个模型用不同子集训练，再把同一样本喂进所有 shadow 模型采样一组 score 来做高斯/经验分布拟合。在 ImageNet 上每个 shadow 模型要 580 GPU·min，跑 8 个就要 78 小时，对真实审计场景几乎不可行。

核心矛盾：条件攻击的力量来自"per-instance 不确定性建模"，但现有方法只能靠外层重训来获取这种不确定性，把计算成本和攻击力强绑在一起。

本文目标：用单个参考模型撑起条件分布估计，让低 FPR 区域的 TPR 不掉甚至反涨。

切入角度：作者注意到 score 在多 shadow 模型上的方差可以做全方差分解——分成"同一数据集下参数不同造成的 intra-model 方差"\(\sigma^2_{\text{intra}}\) 和"不同数据集造成的 inter-model 方差"\(\sigma^2_{\text{inter}}\)。LiRA 实际上只通过外层重训消除 \(\sigma^2_{\text{inter}}\)，却没法处理 \(\sigma^2_{\text{intra}}\)。如果把参考模型权重当成 BNN 后验上的随机变量，从后验里多采几次权重就能直接捕捉 \(\sigma^2_{\text{intra}}\)，根本不用重训。

核心 idea：用 Laplace 后验把一个 MAP 参考模型升级成一族贝叶斯参考模型，用后验采样代替 shadow 训练来获取条件 score 分布。

方法详解¶

整体框架¶

BMIA 的攻击流水线：(1) 在和目标模型不相交的参考数据集 \(\mathcal{D}\) 上训一个标准参考模型，拿到 MAP 权重 \(\hat w_1\)；(2) 在 \(\hat w_1\) 周围用 Laplace 近似拟合一个高斯后验 \(\mathcal{N}(w;\hat w_1,\Sigma)\)；(3) 对每个待判样本 \(z^*=(x^*,y^*)\)，从该后验里采 \(M\) 组权重 \(\tilde w_i\)，每组算一个 hinge score \(s_i\)；(4) 把目标模型 score \(s_0\) 当作"待检随机变量"，与 \(\{s_i\}\) 一起做单边单样本 \(t\) 检验，输出 \(p\) 值判定成员。整套流程只训一次参考模型，所有"扩样"开销都摊在矩阵乘法和采样上。

关键设计¶

Laplace 后验把单模型变成贝叶斯模型族:
- 功能：用一个 MAP 参考模型撑起整条条件 score 分布。
- 核心思路：在 \(\hat w_1\) 处做二阶 Taylor 展开，把后验近似为 \(p(w\mid\mathcal{D})\approx\mathcal{N}(w;\hat w_1,\Sigma)\)，其中 \(\Sigma=(-\nabla_w^2\mathcal{L}(\mathcal{D};w)|_{w=\hat w})^{-1}\)。实现上只对最后一层做 LA，再用 KFAC 或 Diagonal 近似 Hessian，先验精度由 marginal likelihood 最大化决定。从这个后验里采 \(M\) 个 \(\tilde w_i\) 喂进 hinge score \(s_{\text{hinge}}(x,y)=f(x)_y-\max_{y'\neq y}f(x)_{y'}\) 就拿到一组同模型不同采样下的条件 score。
- 设计动机：LiRA 用 \(K\) 个 shadow 模型的 score 高斯拟合估 \(\tau_\alpha(x,y)\)，相当于 \(M=1, K\) 较大；BMIA 反向操作——单 \(K\)、大 \(M\)，把外层重训变成内层后验采样，把"训练成本"压成"前向推断成本"，且贝叶斯采样保留了 score 的高斯近似前提（hinge score 经验上近似正态）。
基于 Student-\(t\) 检验的条件 MIA 决策规则:
- 功能：把"score 大不大"形式化成假设检验，避免主观选阈值。
- 核心思路：定义校准 score \(d_i=s_0-s_i\)，在零假设 \(H_0\)（\(z^*\) 非成员）下 \(\mathbb{E}[d_i]=0\)。可以推出 \(\bar d\) 方差为 \(\operatorname{Var}(\bar d)=(1+\frac{1}{M})\sigma^2\)，用样本方差 \(\hat\sigma^2\) 估 \(\sigma^2\)，构造统计量 \(t=\bar d/(\hat\sigma\sqrt{1+1/M})\) 服从自由度 \(M-1\) 的 \(t\) 分布。最终把 \(p=1-F_t(t;M-1)<\alpha\) 作为攻击决策。
- 设计动机：传统方法用经验分位数或高斯尾估阈值，对小样本极端尾部 (0.1% FPR) 不稳；\(t\) 检验天然处理样本方差未知 + 小样本，正好契合"只采几十个权重"的场景。同时把攻击力 = \(1-\beta\) 等价于检验统计 power，能直接和方差关联。
全方差分解与 MR-BMIA 多参考扩展:
- 功能：解释"为什么贝叶斯采样有效"，并把方法推到有多个参考模型的场景。
- 核心思路：用全方差律把 score 总方差拆成 \(\operatorname{Var}(s)=\sigma^2_{\text{intra}}+\sigma^2_{\text{inter}}\)。在 \(K\) 个参考数据集、每个采 \(M\) 次的设定下，目标 score 与均值差 \(s_0-\bar s\) 的方差为 \(\operatorname{Var}(s_0-\bar s)=(1+\frac{1}{K})\sigma^2_{\text{inter}}+(1+\frac{1}{KM})\sigma^2_{\text{intra}}\)。LiRA 等同 \(M=1\)，只能靠加大 \(K\) 压方差；BMIA 在 \(K=1\) 时通过加大 \(M\) 把 \(\sigma^2_{\text{intra}}\) 压成 \(\frac{1}{M}\) 项。Theorem 3.2 进一步证明 \(\beta(M')>\beta(M)\)，更大的 \(M\) 给出更紧的拒绝域、更高 TPR。多参考变体 MR-BMIA 用 mixture-Laplace 同时压两项方差，对应 Algorithm 2 的双层估计器，包括 Welch–Satterthwaite 风格自由度 \(v\) 修正。
- 设计动机：先有理论后有方法——分解明确告诉攻击者"加 shadow 模型只能压 inter，加后验采样能压 intra"，于是给出了什么资源该投到哪个旋钮上的可操作指导。

损失函数 / 训练策略¶

没有特殊训练损失，攻击者只跑标准 SGD 训练参考模型（CIFAR-10 用 ResNet-50，CIFAR-100 用 DenseNet-121，ImageNet 用 ResNet-50，tabular 用 4 层 MLP，文本用 BERT/DistilBERT 微调），随后做后验拟合。所有数据按 20%/20%/40%/20% 切分给目标训练 / 目标测试 / 参考池 / QMIA 验证。

实验关键数据¶

主实验¶

评测在 CIFAR-10/100、ImageNet、Texas-100、Purchase-100 与 5 个文本数据集上做，主指标是 TPR@低 FPR 与训练时间。

数据集	指标	BMIA (n=1)	LiRA (n=8)	提升 / 节省
CIFAR-100	TPR@FPR=1%	35.75%	23.20%	+54% TPR
CIFAR-100	训练时间	26.4 min	211.5 min	8× 加速
CIFAR-10	TPR@FPR=0.1%	2.84%	1.73%	+64% TPR
ImageNet	TPR@FPR=1%	13.59%	11.90%	略优且 8× 快
Texas-100	TPR@FPR=1%	11.81%	8.63%	+37% TPR

设定	数据集	方法	TPR@FPR=1%
单参考	CIFAR-100	RMIA	10.08%
单参考	CIFAR-100	QMIA	15.26%
单参考	CIFAR-100	BMIA	35.75%
64 参考	CIFAR-100	LiRA	43.33%
64 参考	CIFAR-100	RMIA	36.06%
64 参考	CIFAR-100	MR-BMIA	45.57%

消融实验¶

配置	CIFAR-10 TPR@1%	备注
BMIA, \(M=1\)	接近 LiRA(n=1)	退化成单 score 比较
BMIA, \(M\) 增大	单调上升	验证 Theorem 3.2
Hessian = Diagonal	与 KFAC 接近	轻量近似不掉点
架构 mismatch (target=ResNet-50, ref=ResNet-18)	BMIA 8.72% vs LiRA 8.16%	跨架构仍领先

关键发现¶

方差分解被实验直接验证：\(M\) 越大 TPR 越高且推断时间几乎不变（采样并行化），说明性能增益确实来自压 \(\sigma^2_{\text{intra}}\) 而非额外计算。
跨模态稳健：图像、文本、tabular 三种模态 + ResNet/DenseNet/BERT/MLP 多种架构上 BMIA 均 SOTA 或并列 SOTA。
架构 mismatch 仍稳：参考模型用 ResNet-18 攻击 ResNet-50 目标时 BMIA 在所有 FPR 区间都领先 LiRA，说明 Laplace 后验提供的不确定性比 shadow 模型集合更"通用"。
MR-BMIA 不是冗余：当算力允许多参考时，MR-BMIA 同时压两个方差项，在 CIFAR-100 上把 TPR@1% 推到 45.57%，比 64-shadow LiRA 还高 2.2 个点。

亮点与洞察¶

把 BNN 后验当成"免费 shadow 模型生成器"：单 MAP 模型 + Laplace 后验 ≈ 一族 shadow 模型，巧在 inference 阶段就能拿到不确定性，避免训练阶段的二次开销。
理论先于实证：先用方差分解写清楚 "shadow 加 \(K\) vs 采样加 \(M\)" 各自管哪一项方差，再设计 BMIA 和 MR-BMIA 精准对应，方法和理论闭环漂亮。
可迁移 trick：用 \(t\) 检验 + 校准 score \(d_i=s_0-s_i\) 写成假设检验，比经验分位数稳，可直接迁移到其他基于 score 的攻防（如 OOD 检测、distribution shift）。
审计场景友好：单参考模型 + 几十次后向采样的预算让 MIA 第一次有可能跑在真正的 production-size 模型上做隐私审计。

局限与展望¶

当前实现只做最后一层 LA + KFAC/Diagonal Hessian，全网 LA 的成本与收益尚未充分分析；非凸/重尾损失下 Laplace 假设可能塌陷。
Score 高斯近似是 \(t\) 检验的前提，作者承认在非高斯 score (如长尾文本任务) 下需要额外校准（Appendix F.1）；面向 LLM-scale 时这一点会更脆。
防御策略（differential privacy、temperature scaling）下 BMIA 的实际收益没有展开评测，攻击者视角强、防御者视角弱。
未与 gradient-based / loss-trajectory MIA 正面对比，能否复合还需要后续工作。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用 Laplace 后验替代 shadow 训练在 MIA 领域是首个，方差分解视角也是新的。
实验充分度: ⭐⭐⭐⭐⭐ 三模态 + 多架构 + 单/多参考 + 架构 mismatch + Hessian 因子化全覆盖。
写作质量: ⭐⭐⭐⭐ 理论清晰、表格密集；少数地方实验图引用 (LABEL:) 未编译，可读性稍打折。
价值: ⭐⭐⭐⭐⭐ 把高保真 MIA 从"百卡级"打到"单卡级"，让真实模型隐私审计有了落地可能。

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评