Black-box Membership Inference Attacks on the Pre-training Data of Image-generation Models¶
会议: CVPR 2026
arXiv: 2605.27020
代码: https://github.com/wanghl21/SD-MIA (有)
领域: 扩散模型 / 成员推断 / 数据隐私
关键词: 成员推断攻击、预训练数据审计、跨模态扰动、黑盒攻击、扩散模型
一句话总结¶
针对闭源文生图扩散模型,本文提出 SD-MIA:不再像传统方法那样对图像加噪、看模型去噪能力,而是扰动文本指令、看重建图像是否稳定,借此判断某张图是否出现在模型的预训练数据里——在纯黑盒(只给文本进、出图)约束下,AUC 比能访问内部特征的灰盒最强基线还高出最多约 10 个点。
研究背景与动机¶
领域现状:扩散模型的版权与隐私争议催生了大量成员推断攻击(Membership Inference Attack, MIA),目的是判断「某张受版权保护的图」是否被拿去训练了某个生成模型。主流范式很统一:给疑似图加随机噪声,再让模型去噪重建,用「重建得有多好」当作是否为成员的信号——成员见过、重建得准,非成员重建得糊。
现有痛点:这套范式的评测几乎都建立在微调数据上——把开源模型在一个随机切分的小数据集上 fine-tune,模型对这批新数据严重过拟合(强记忆),于是攻击准确率看起来很高。但真实部署里,绝大多数训练数据是在大规模预训练阶段被吃进去的,模型对单张预训练图的记忆远没有那么强。一旦把这些「图像空间加噪」的方法搬到预训练数据上,检测信号急剧衰减,几乎退化到随机。
核心矛盾:为什么图像扰动在预训练场景失效?本文给出结构性归因——现代扩散管线有两道「信号杀手」:① VAE 编码器是局部收缩的(Jacobian 谱范数 \(\|J_{f_v}(x)\|_2 \ll 1\)),把图像上的细粒度扰动 \(\delta x\) 压缩进 latent 后几乎归零;② 随后的随机去噪轨迹把残余的微小扰动彻底淹没。结果是成员与非成员在图像扰动下表现出几乎一样稳定的重建,信号被抹平。即使有人想靠去噪轨迹的中间噪声预测来补救(灰盒),商用 API 也只给最终输出、不给中间状态,根本用不了。
本文目标:在「只能文本进、图像出」的纯黑盒约束下,找到一种对预训练数据仍然有判别力的成员信号。
切入角度:作者注意到文本和图像在扩散管线里走的是完全不同的计算路径——文本嵌入作为 condition 全程不加噪,稳定地引导整条去噪轨迹。训练时模型会对预训练样本内化一个局部过拟合的「文本→视觉」映射,形成所谓表示域坍缩(representation-region collapse):一簇语义相近的文本变体都被漏斗式地映射到同一个视觉模式上。
核心 idea:把扰动从图像搬到文本。对成员图,小幅文本扰动仍落在坍缩域内、重建结果稳定贴近原图;对非成员图,没有坍缩域,文本扰动会把 condition 推到表示空间的不同区域、产生明显发散的输出。这种结构性不对称就是可靠的成员信号——用「扰动文本后重建一致性」代替「扰动图像后去噪能力」。
方法详解¶
整体框架¶
SD-MIA 要解决的是:给一张疑似图 \(x\) 和它的文本描述 \(c\),在只能调用文生图 API 的前提下,判断 \((x,c)\) 是不是模型预训练见过的成员。整体是一条「扰文本 → 重建 → 度量一致性 → 池化成分数」的黑盒流水线:先用 LLM 对文本 \(c\) 做三种粒度的扰动,把每个扰动后的描述喂回扩散模型反复采样重建出 \(\hat{x}\),再用 CLIP 度量原图 \(x\) 与重建图 \(\hat{x}\) 的跨模态相关性作为不可观测生成概率的代理信号,最后对多次随机重建取 top-\(K\%\) 最大相关性池化、并与无扰动基线相减,得到一个近似「文本扰动诱导的概率曲率变化 \(\delta_c p\)」的成员分数。分数越接近 0(重建越稳)越像成员,越大越像非成员。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["疑似样本<br/>图像 x + 文本 c"] --> B["跨模态扰动洞察<br/>扰文本而非图像"]
B --> C["多视角文本扰动<br/>token/style/semantic 三档"]
C -->|每条描述查询模型 10 次| D["黑盒文生图<br/>重建 x̂"]
D --> E["最大跨模态相关性估计<br/>CLIP 相关性 + top-K% 池化"]
E -->|sf = sf(x,ĉ) − sf(x,c)| F["成员判定<br/>稳定→成员 / 发散→非成员"]
关键设计¶
1. 跨模态扰动洞察:把成员信号从图像空间搬到文本空间
这一条是全文的根基,直接针对「图像扰动在预训练数据上失效」的痛点。作者先用一阶展开把图像扰动诱导的概率变化写成 \(\delta_x p \approx |\nabla_{\mathbf{z}} p(\mathbf{z},\mathbf{c};\theta^*)\cdot\delta\mathbf{z}|\),再代入 VAE 的局部收缩性 \(\|\delta\mathbf{z}\|_2 \lesssim \|J_{f_v}(x)\|_2\,\|\delta x\|_2\),由于 \(\|J_{f_v}(x)\|_2 \ll 1\),无论成员还是非成员,\(|\delta_x p(x_m)-\delta_x p(x_n)| \approx \xi\cdot\delta x \to 0\),信号被压没。换到文本侧则相反:文本嵌入全程不加噪,扰动 \(\delta\mathbf{c}\) 直接作用在 condition 上,\(\delta_c p \approx |\nabla_{\mathbf{c}} p(\mathbf{z},\mathbf{c};\theta^*)\cdot\delta\mathbf{c}|\)。在表示域坍缩下,成员对的梯度 \(\|\nabla_{\mathbf{c}} p(\mathbf{z}_m,\mathbf{c}_m;\theta^*)\|_2 \approx 0\),而非成员对不满足,于是
成员与非成员被拉开。在 SD v1.5 上的实测也印证了这点:图像扰动下成员/非成员分布几乎重叠,文本扰动下则明显可分。这个「跨模态扰动-重建」机制,作者称是此前扩散 MIA 文献里没有被系统提出过的新角度
2. 多视角文本扰动:在黑盒下间接、可控地制造嵌入位移
黑盒拿不到内部文本嵌入,没法直接操纵 \(\mathbf{c}\),怎么制造可控的 \(\|\delta\mathbf{c}\|\)?作者用 LLM(GPT-5)做自然语言改写,作为间接但结构化的嵌入扰动手段,并刻意设计了三档由轻到重、覆盖渐进位移谱的视角:token 视角只做词汇/句法改写、保留语义意图,制造细粒度位移,探测表示是否仍在坍缩域内;style 视角改语体、描述密度、叙事框架等风格属性、语义不变,制造中等位移,测坍缩域对风格漂移的稳定性;semantic 视角可控地改语义属性(如替换图中物体),制造最强位移,专门去探坍缩域的边界——非成员没有坍缩结构、最容易在这一档被推出去产生发散重建。为防扰动飘太远,对每条扰动描述 \(\hat{c}\) 加相似度约束 \(\mathrm{sim}(f_e(c), f_e(\hat{c})) \ge \tau\),三档阈值分别取 \(\tau_t=0.9\)、\(\tau_s=0.8\)、\(\tau_c=0.6\)。三档互补,缺一档都会掉点,合起来才能跨模型稳定
3. 最大跨模态相关性估计:用 CLIP 相关性代理不可观测概率,并用最大池化压住扩散随机性
黑盒下生成概率 \(p(x|c;\theta^*)\) 不可查询,且扩散采样本身带强随机噪声,直接看输出会被噪声盖住微弱的成员差异。作者用两步破解。其一,用跨模态相关性当代理信号:对每个 \((x,\hat{x})\),先用 caption 模型(BLIP2)得到文本描述 \(d_x, d_{\hat{x}}\),再把图像与描述各自编码、拼接后做内积
其中 \(h_v, h_t\) 是 CLIP 的视觉/文本编码器,\(\oplus\) 为特征拼接。坍缩域内的扰动重建得与 \(x\) 高度对齐、\(s\) 高;域外则结构语义偏离、\(s\) 低,于是 \(s\) 成了不可观测概率 \(p(x|\hat{c};\theta^*)\) 的合理代理。其二,利用可复现性的不对称做最大相关性池化:非成员即使反复重采样也几乎复现不出 \(x\),而成员有不小概率复现,于是对某一视角扰动集多次随机重建取 top-\(K\%\) 池化 \(s^t = \frac{1}{n}\sum_{j=1}^{n} s(x,\hat{c}^t_{R_j}),\ n=\lfloor N\cdot K\%\rfloor\),三档各得 \(s^t, s^s, s^c\) 后整合为统一估计 \(s_f(x,\hat{c})\);同样得到无扰动基线 \(s_f(x,c)\),最终成员分数 \(s_f = s_f(x,\hat{c}) - s_f(x,c)\),即对 \(\delta_c p\) 的经验近似。取「最大」而非平均,正是为了放大成员「能复现」的尾部信号、抑制非成员的随机噪声
损失函数 / 训练策略¶
SD-MIA 是无需训练 / 无需微调的推断框架,不引入可学习参数。关键超参与设置:用 CLIP ViT-L/14 抽图文嵌入;无配对描述时用 BLIP2-opt-6.7b 生成代理描述;所有文本扰动由 GPT-5 生成;相似度阈值 \(\tau_t=0.9,\tau_s=0.8,\tau_c=0.6\);每条扰动描述查询扩散模型 10 次取多重建;所有实验换 5 个随机种子重复、报告均值与标准差。
实验关键数据¶
主实验¶
评测协议采用 LAION-mi 基准(成员/非成员同分布、无需微调)+ 新构建的 FlickrMIA-25(成员取自 LAION-2B,非成员取自 2025-01-01 后发布的 Flickr 图,保证时间不相交),指标为 AUC 与 TPR@5% FPR,并区分均衡(1:1)与不均衡(1:10)正负比。下表摘自 Table 1(均衡设定,AUC,单位 %):
| 方法 | 访问级别 | SD v1.2 | SD v1.4 | SD v1.5 | SD v3.5 |
|---|---|---|---|---|---|
| Loss | 黑盒 | 51.59 | 52.91 | 53.75 | 42.10 |
| PIA | 灰盒 | 52.66 | 49.52 | 48.16 | 50.62 |
| CLiD | 灰盒 | 49.26 | 53.71 | 51.88 | 58.15 |
| DRC(最强灰盒) | 灰盒 | 54.66 | 55.83 | 54.61 | 60.44 |
| Reconstruction | 黑盒 | 59.66 | 60.99 | 60.30 | 46.74 |
| SD-MIA | 黑盒 | 66.28 | 66.23 | 65.92 | 66.93 |
SD-MIA 在四个模型上全面领先,比能访问内部特征的最强灰盒 DRC 高出最多约 10 个 AUC;尤其在 SD v3.5 上,几乎所有基线(含 Reconstruction)都跌到 50% 上下甚至更低,而 SD-MIA 仍稳在 66.93%,体现对新架构的泛化。TPR@5% FPR 上 SD-MIA 也最高(如 SD v3.5 达 18.33%,DRC 12.47%)。在不均衡 1:10 设定下结论一致(如 SD v1.4 仍有 66.12% AUC)。
消融实验¶
| 配置 | 结论 | 说明 |
|---|---|---|
| Full(token+style+semantic) | 最优 | 三视角互补,跨模型最稳 |
| 仅 token 视角 | 部分模型已较好 | 最小嵌入位移,对细微记忆敏感 |
| 仅 style / 仅 semantic 视角 | 各自有正贡献 | 单用均弱于三档合并 |
| 用配对原描述 | 略强 | 有真实描述信号稍好 |
| 用 BLIP 代理描述 | 仍有效 | 无原描述也优于图像-only 的 DRC |
关键发现¶
- 三视角缺一不可:单独看 token 视角在部分模型上已不错(说明细粒度扰动对微弱记忆敏感),但只有三档合并才能跨模型稳定,证明多视角是泛化的关键。
- 集合级审计可达 95%+:从实例级扩展到集合级(判断「整个数据集」是否被用于预训练),随集合规模 \(L\) 增大性能单调上升,\(L=30\) 时 AUC 超过 95%——多次跨模态交互累积的成员信号高度一致,强烈放大可分性。
- 闭源 API 上仍然奏效:在 DALL·E-3、Gemini-2.0、GPT-4o 这类完全闭源系统上,SD-MIA 仍稳超 SOTA 黑盒基线,说明它抓的是大规模生成模型的模态级行为属性,而非扩散架构特有的工件。
- 抗图像扰动鲁棒:对疑似图做高斯模糊、噪声、亮度、剪切等失真后,SD-MIA 远比 Reconstruction 稳——如高斯模糊下 SD-MIA 仍有 61.5% AUC,而 Reconstruction 跌到近随机。
亮点与洞察¶
- 「换一个模态去扰动」的视角迁移:传统 MIA 死磕图像去噪信号,本文指出图像扰动被 VAE 收缩 + 随机轨迹双重抹平,转而扰动全程不加噪的文本 condition——同一个「扰动-重建一致性」框架,换个施力点就把失效信号救活了,思路非常巧。
- 表示域坍缩 + 可复现性不对称两个结构性性质被用得很到位:前者解释了成员对文本扰动「为何稳」,后者解释了非成员「为何即使重采样也复现不出」,并据此设计最大池化而非平均池化去放大尾部信号。
- 黑盒下用 LLM 做「间接嵌入扰动」:拿不到内部嵌入,就用 GPT-5 的自然语言改写 + CLIP 相似度阈值,把抽象的 \(\|\delta\mathbf{c}\|\) 变成可控、可分档的文本变换——这套「用语言模型代理嵌入操纵」的 trick 可迁移到其他黑盒探测任务。
- 评测公平性意识强:作者批评了「非成员取自 MS-COCO、与 LAION 成员存在域级差异从而简化任务」的旧协议,坚持用同域对齐的 LAION-mi,并自建时间不相交的 FlickrMIA-25,结论更可信。
局限与展望¶
- 重度依赖外部大模型:扰动靠 GPT-5、描述靠 BLIP2、相关性靠 CLIP,攻击效果与这些第三方模型的能力/偏置强绑定;若 caption 或 CLIP 在某域失准,代理信号 \(s\) 可能失真。论文未充分讨论这种依赖的脆弱性。
- 查询成本不低:每条扰动描述查询 10 次、三视角 × \(N\) 条扰动 × 5 个种子,对收费的商用 API 而言开销可观;作者称有「favorable efficiency-utility trade-off」但细节放在附录,正文未给硬数字。
- 绝对 AUC 仍偏低:实例级 AUC 多在 66% 左右,离实用的高置信审计还有距离;真正达到 95%+ 需要集合级聚合(\(L=30\)),单图判定可靠性有限。⚠️ 部分结论(如闭源模型上的具体数值)依赖 Figure,正文未列表格,需以原文图为准。
- 改进思路:可探索自适应选择扰动视角/强度以降查询数,或用更鲁棒的跨模态代理(多 caption 集成)减小对单一 CLIP/BLIP 的依赖。
相关工作与启发¶
- vs 图像扰动黑盒(Reconstruction / Loss):它们扰图像、看去噪重建,本文论证这类信号在预训练数据上被 VAE 收缩与随机轨迹抹平;SD-MIA 改扰文本,在 SD v3.5 等弱记忆场景把 AUC 从 ~47% 拉到 ~67%。
- vs 灰盒方法(DRC / PIA / CLiD):它们靠去噪轨迹的中间噪声预测、生成先验等内部特征,在商用 API 上根本拿不到;SD-MIA 纯黑盒却反超最强灰盒 DRC 最多约 10 个 AUC,证明跨模态一致性信号比内部特征更通用。
- vs 旧评测协议(如 Zhai et al. 用 MS-COCO 当非成员):旧协议因域级差异人为简化任务、高估攻击力;本文坚持同域对齐的 LAION-mi 并自建 FlickrMIA-25,把「评测公平」本身也当成贡献的一部分。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 「扰文本代替扰图像」的跨模态视角配合表示域坍缩理论,是扩散 MIA 里少见的原创角度
- 实验充分度: ⭐⭐⭐⭐ 覆盖 7 个生成模型、两个基准、实例/集合双粒度 + 闭源 API + 鲁棒性,较全面;但绝对 AUC 偏低、部分结果只在附录/图
- 写作质量: ⭐⭐⭐⭐ 动机推导(图像 vs 文本扰动的一阶分析)清晰有说服力,方法分三块讲得明白
- 价值: ⭐⭐⭐⭐⭐ 直击「闭源大模型预训练数据审计」这一真实合规需求,纯黑盒可用,实用意义大