Membership Inference Attacks Against Fine-tuned Diffusion Language Models (SAMA)¶

会议: ICLR 2026
arXiv: 2601.20125
代码: https://github.com/Stry233/SAMA
领域: AI安全 / 隐私攻击
关键词: 成员推断攻击, 扩散语言模型, 隐私泄露, 鲁棒子集聚合, 渐进式掩码

一句话总结¶

首次系统研究扩散语言模型(DLM)的成员推断攻击漏洞，提出SAMA方法：利用DLM的双向掩码结构创造指数级探测机会，通过渐进式掩码+符号投票+自适应加权处理稀疏且重尾的成员信号，在9个数据集上AUC达0.81，比最优baseline高30%。

研究背景与动机¶

领域现状：扩散语言模型(DLM，如LLaDA/Dream)是自回归模型的新兴替代方案，使用双向掩码token预测。现有成员推断攻击(MIA)方法针对自回归模型设计，对DLM的隐私风险完全未知。

现有痛点： - 自回归MIA方法(Loss/Min-K%/ReCall等)直接应用于DLM效果近乎随机(AUC≈0.5) - 图像扩散模型的MIA方法(SecMI/PIA)也不适用(AUC≤0.52) - DLM的成员信号是配置依赖的——不同掩码配置下信号剧烈波动，样本内方差(σ≈0.10)大于成员/非成员边距(δ≈0.06) - 域适应效应导致重尾噪声，均值聚合在极端值面前崩溃

核心矛盾：DLM的双向结构提供了指数级的探测机会，但信号极度稀疏且带重尾噪声

核心 idea：渐进式多密度掩码探测 + 符号投票去重尾噪声 + 自适应加权 = 鲁棒MIA

方法详解¶

整体框架¶

SAMA（Subset-Aggregated Membership Attack）是一个纯推理时的攻击：给定微调后的扩散语言模型（DLM）\(\mathcal{M}^T\) 和预训练参考模型 \(\mathcal{M}^R\)，判断目标文本 \(\mathbf{x}\) 是否出现在微调数据里。它的出发点是 DLM 和自回归模型（ARM）的根本差异——ARM 只有一种固定的左到右预测，对一条文本只能下一个探测点；而 DLM 可以掩码任意位置组合，每一种掩码配置都是一次独立探测，攻击面随文本长度指数级膨胀。SAMA 把这个探测面用满：先定义"对单个掩码配置算参考与目标模型的填空损失之差"这个基本探测量；再用渐进式掩码沿多个密度铺满探测点；在每个密度里采样很多局部子集、用符号投票把稀疏带噪的信号压成可靠的二值判断；最后跨密度做自适应加权，得到落在 \([0,1]\) 的成员分数 \(\phi\)。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IN["目标文本 x<br/>目标模型 M^T + 参考模型 M^R"]
    PROBE["双向掩码探测原语<br/>对单个掩码配置算 Δ_DF<br/>= 参考模型损失 - 目标模型损失"]
    PM["渐进式掩码<br/>T=16 步, 密度 α 从 5% 升到 50%<br/>每步生成一批掩码配置"]
    VOTE["鲁棒子集聚合 (符号投票)<br/>每步采 N=128 个子集 (m=10 token)<br/>B=1[Δ_DF&gt;0] 取均值得 β_t"]
    AW["自适应加权<br/>φ = Σ w_t·β_t, w_t=1/t 归一化<br/>稀疏步权重更高"]
    OUT["成员分数 φ ∈ [0,1]<br/>判定 x 是否在微调数据中"]
    IN --> PROBE --> PM --> VOTE --> AW --> OUT

关键设计¶

1. 双向掩码探测原语：把每个掩码配置变成一次独立攻击

ARM 只有一种固定预测模式，对一条文本就只有一个攻击点；DLM 的双向掩码则把这一个点炸成指数级探测面——每个掩码配置 \(\mathcal{S}\) 都能比较参考模型与目标模型在该配置下的填空损失之差：

\[\Delta_{DF}(\mathbf{x};\mathcal{S}) = \ell_{DF}(\mathbf{x};\mathcal{S},\mathcal{M}^R) - \ell_{DF}(\mathbf{x};\mathcal{S},\mathcal{M}^T)\]

用参考模型相减是关键的一步校准：它把"微调阶段才记住"的特异信号从语言本身的通用难度里剥离出来——消融里单这一项就带来 0.09–0.19 的 AUC 提升。因为掩码位置可任意组合，可用探测口随文本长度指数增长；双向上下文还允许同时掩码 \(x_i, x_j\) 去探测 token 间的共现记忆。后续三个设计都建立在反复采样这个 \(\Delta_{DF}\) 之上。

2. 渐进式掩码：在多个密度上铺探测点，兼顾信号强度与聚合点数量

单一掩码密度风险很大：成员信号在不同配置间剧烈波动，样本内方差（\(\sigma\approx0.10\)）甚至大于成员/非成员的边距（\(\delta\approx0.06\)），固定一个密度很容易踩到信号被噪声淹没的"空配置"。SAMA 让密度沿步数线性递增、在多个尺度上收集证据：

\[\alpha_t = \alpha_{\min} + \frac{t-1}{T-1}(\alpha_{\max} - \alpha_{\min})\]

两端各有取舍——稀疏掩码保留更多上下文、单点信号强，但可采样的聚合点少；密集掩码聚合点多、但每点信号弱且更易混入微调的域适应噪声。把多密度结果合起来就能同时吃到"信号干净"和"聚合充分"两边的好处。默认 \(T=16\) 步、\(\alpha\) 从 5% 扫到 50%，这一项贡献约 2–3% AUC。

3. 鲁棒子集聚合（符号投票）：把稀疏重尾信号压成可靠投票

这是全文最关键的贡献，针对"微调域适应带来重尾噪声、均值聚合被极端值主导"这个痛点（噪声里偶尔出现量级远超真实信号的离群 token，多是领域词而非记忆痕迹）。做法是在当前密度的掩码位置里随机采 \(N=128\) 个局部子集（每个 \(m=10\) 个 token），逐个算子集损失差 \(\Delta^n\)，再二值化成投票 \(B^n = \mathbf{1}[\Delta^n > 0]\)，对一步内的 \(N\) 个投票取均值得到 \(\hat{\beta}_t\)。之所以只取符号、不取数值，是因为 Hodges-Lehmann 定理给了一个分布无关的保证：对非成员样本，目标与参考模型行为相近、\(\Delta^n\) 是均值为零的纯噪声，于是 \(B^n=1\) 的概率恰好 0.5——无论底层噪声方差是否有限、是否重尾都成立；而真成员的信号会一致地把投票推向 1。这正是它在重尾噪声下仍稳健、单独贡献 20–30% AUC 的原因。

4. 自适应加权：偏向信号更干净的稀疏步

各密度步的投票质量并不均等——稀疏步上下文更完整、信噪比更高，越密越脏。所以最终分数对各步做反步长（inverse-step）加权汇总：

\[\phi(\mathbf{x}) = \sum_t w_t \hat{\beta}_t,\qquad w_t = \frac{1/t}{\sum_{i=1}^{T} 1/i}\]

权重 \(w_t\) 随步数 \(t\) 递减（其归一化形式借鉴鲁棒统计里的调和平均），早期稀疏步拿到最大权重，同时仍纳入密集步的累积证据。这一项做最后细化，贡献约 3–5% AUC。

实现与超参¶

无需训练——纯推理时灰盒攻击，只查询目标/参考模型的填空损失
默认 \(T=16\) 步、\(\alpha\) 从 5% 到 50%、每步 \(N=128\) 个子集、子集大小 \(m=10\) token；分数对 4 次蒙特卡洛采样取平均
查询预算与 baseline 对齐（每样本 16 次模型查询）；子集采样在缓存的损失向量上离线完成，几乎不增加额外查询开销

实验关键数据¶

主实验：MIMIR基准9数据集¶

数据集	SAMA AUC	最优Baseline AUC	TPR@1%FPR(SAMA)	TPR@1%FPR(Baseline)
ArXiv	0.850	0.597	0.178	0.023
GitHub	0.876	0.743	0.259	0.154
HackerNews	0.657	0.575	0.027	0.013
PubMed	0.814	0.555	—	—
Wikipedia	0.790	0.653	—	—
平均	~0.81	~0.62	—	—

消融实验：各组件贡献¶

组件	AUC提升	说明
Baseline(Loss)	~0.50	随机
+参考模型校准	+0.09~0.19	隔离微调特异记忆
+渐进式掩码	+2~3%	多尺度信号
+鲁棒子集聚合	+20~30%	关键：符号投票处理重尾噪声
+自适应加权	+3~5%	最终细化

关键发现¶

现有ARM MIA方法对DLM完全失效：AUC≈0.50，证实DLM需要专门的攻击方法
符号投票是核心：贡献了20-30% AUC提升，因为Hodges-Lehmann定理保证对重尾噪声的鲁棒性
低FPR下优势更明显：[email protected]%FPR提升高达14倍，对实际部署场景意义重大
在LLaDA-8B和Dream-7B上均有效：跨架构泛化

亮点与洞察¶

首个DLM隐私攻击研究：填补了一个重要空白——随着DLM日益流行(LLaDA/Dream)，其隐私风险需要系统评估
符号投票处理重尾噪声的优雅方案：将连续的噪声信号转为二值投票，利用符号统计的分布无关鲁棒性。这个技巧可迁移到任何重尾噪声场景
DLM的双向结构是双刃剑：提供更强的语言建模能力，但也创造了指数级的攻击面——每种掩码配置都是一个独立的隐私探测通道

局限与展望¶

灰盒假设：需要查询目标模型和参考模型的logits，黑盒场景不适用
查询开销：16次查询/样本，对大规模审计有成本
仅测试微调场景：预训练阶段的成员推断未探索
防御方向：可以设计"掩码配置随机化"防御——故意在不同查询间注入配置噪声

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个DLM MIA研究+符号投票处理重尾噪声的创新组合
实验充分度: ⭐⭐⭐⭐⭐ 9数据集×2模型×10+baseline×详尽消融
写作质量: ⭐⭐⭐⭐⭐ 理论动机→方法→实验的逻辑链极度清晰
价值: ⭐⭐⭐⭐⭐ 对DLM隐私风险评估和防御设计有直接指导意义