跳转至

Black-box Membership Inference Attacks on the Pre-training Data of Image-generation Models

会议: CVPR 2026
arXiv: 2605.27020
代码: https://github.com/wanghl21/SD-MIA (有)
领域: 扩散模型 / 成员推断 / 数据隐私
关键词: 成员推断攻击、预训练数据审计、跨模态扰动、黑盒攻击、扩散模型

一句话总结

针对闭源文生图扩散模型,本文提出 SD-MIA:不再像传统方法那样对图像加噪、看模型去噪能力,而是扰动文本指令、看重建图像是否稳定,借此判断某张图是否出现在模型的预训练数据里——在纯黑盒(只给文本进、出图)约束下,AUC 比能访问内部特征的灰盒最强基线还高出最多约 10 个点。

研究背景与动机

领域现状:扩散模型的版权与隐私争议催生了大量成员推断攻击(Membership Inference Attack, MIA),目的是判断「某张受版权保护的图」是否被拿去训练了某个生成模型。主流范式很统一:给疑似图加随机噪声,再让模型去噪重建,用「重建得有多好」当作是否为成员的信号——成员见过、重建得准,非成员重建得糊。

现有痛点:这套范式的评测几乎都建立在微调数据上——把开源模型在一个随机切分的小数据集上 fine-tune,模型对这批新数据严重过拟合(强记忆),于是攻击准确率看起来很高。但真实部署里,绝大多数训练数据是在大规模预训练阶段被吃进去的,模型对单张预训练图的记忆远没有那么强。一旦把这些「图像空间加噪」的方法搬到预训练数据上,检测信号急剧衰减,几乎退化到随机。

核心矛盾:为什么图像扰动在预训练场景失效?本文给出结构性归因——现代扩散管线有两道「信号杀手」:① VAE 编码器是局部收缩的(Jacobian 谱范数 \(\|J_{f_v}(x)\|_2 \ll 1\)),把图像上的细粒度扰动 \(\delta x\) 压缩进 latent 后几乎归零;② 随后的随机去噪轨迹把残余的微小扰动彻底淹没。结果是成员与非成员在图像扰动下表现出几乎一样稳定的重建,信号被抹平。即使有人想靠去噪轨迹的中间噪声预测来补救(灰盒),商用 API 也只给最终输出、不给中间状态,根本用不了。

本文目标:在「只能文本进、图像出」的纯黑盒约束下,找到一种对预训练数据仍然有判别力的成员信号。

切入角度:作者注意到文本和图像在扩散管线里走的是完全不同的计算路径——文本嵌入作为 condition 全程不加噪,稳定地引导整条去噪轨迹。训练时模型会对预训练样本内化一个局部过拟合的「文本→视觉」映射,形成所谓表示域坍缩(representation-region collapse):一簇语义相近的文本变体都被漏斗式地映射到同一个视觉模式上。

核心 idea:把扰动从图像搬到文本。对成员图,小幅文本扰动仍落在坍缩域内、重建结果稳定贴近原图;对非成员图,没有坍缩域,文本扰动会把 condition 推到表示空间的不同区域、产生明显发散的输出。这种结构性不对称就是可靠的成员信号——用「扰动文本后重建一致性」代替「扰动图像后去噪能力」。

方法详解

整体框架

SD-MIA 要解决的是:给一张疑似图 \(x\) 和它的文本描述 \(c\),在只能调用文生图 API 的前提下,判断 \((x,c)\) 是不是模型预训练见过的成员。整体是一条「扰文本 → 重建 → 度量一致性 → 池化成分数」的黑盒流水线:先用 LLM 对文本 \(c\) 做三种粒度的扰动,把每个扰动后的描述喂回扩散模型反复采样重建出 \(\hat{x}\),再用 CLIP 度量原图 \(x\) 与重建图 \(\hat{x}\) 的跨模态相关性作为不可观测生成概率的代理信号,最后对多次随机重建取 top-\(K\%\) 最大相关性池化、并与无扰动基线相减,得到一个近似「文本扰动诱导的概率曲率变化 \(\delta_c p\)」的成员分数。分数越接近 0(重建越稳)越像成员,越大越像非成员。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["疑似样本<br/>图像 x + 文本 c"] --> B["跨模态扰动洞察<br/>扰文本而非图像"]
    B --> C["多视角文本扰动<br/>token/style/semantic 三档"]
    C -->|每条描述查询模型 10 次| D["黑盒文生图<br/>重建 x̂"]
    D --> E["最大跨模态相关性估计<br/>CLIP 相关性 + top-K% 池化"]
    E -->|sf = sf(x,ĉ) − sf(x,c)| F["成员判定<br/>稳定→成员 / 发散→非成员"]

关键设计

1. 跨模态扰动洞察:把成员信号从图像空间搬到文本空间

这一条是全文的根基,直接针对「图像扰动在预训练数据上失效」的痛点。作者先用一阶展开把图像扰动诱导的概率变化写成 \(\delta_x p \approx |\nabla_{\mathbf{z}} p(\mathbf{z},\mathbf{c};\theta^*)\cdot\delta\mathbf{z}|\),再代入 VAE 的局部收缩性 \(\|\delta\mathbf{z}\|_2 \lesssim \|J_{f_v}(x)\|_2\,\|\delta x\|_2\),由于 \(\|J_{f_v}(x)\|_2 \ll 1\),无论成员还是非成员,\(|\delta_x p(x_m)-\delta_x p(x_n)| \approx \xi\cdot\delta x \to 0\),信号被压没。换到文本侧则相反:文本嵌入全程不加噪,扰动 \(\delta\mathbf{c}\) 直接作用在 condition 上,\(\delta_c p \approx |\nabla_{\mathbf{c}} p(\mathbf{z},\mathbf{c};\theta^*)\cdot\delta\mathbf{c}|\)。在表示域坍缩下,成员对的梯度 \(\|\nabla_{\mathbf{c}} p(\mathbf{z}_m,\mathbf{c}_m;\theta^*)\|_2 \approx 0\),而非成员对不满足,于是

\[|\delta_c p(x_m)-\delta_c p(x_n)| \approx \|\nabla_{\mathbf{c}} p(\mathbf{z}_n,\mathbf{c}_n;\theta^*)\cdot\delta\mathbf{c}_n\|_2 \gg 0\]

成员与非成员被拉开。在 SD v1.5 上的实测也印证了这点:图像扰动下成员/非成员分布几乎重叠,文本扰动下则明显可分。这个「跨模态扰动-重建」机制,作者称是此前扩散 MIA 文献里没有被系统提出过的新角度

2. 多视角文本扰动:在黑盒下间接、可控地制造嵌入位移

黑盒拿不到内部文本嵌入,没法直接操纵 \(\mathbf{c}\),怎么制造可控的 \(\|\delta\mathbf{c}\|\)?作者用 LLM(GPT-5)做自然语言改写,作为间接但结构化的嵌入扰动手段,并刻意设计了三档由轻到重、覆盖渐进位移谱的视角:token 视角只做词汇/句法改写、保留语义意图,制造细粒度位移,探测表示是否仍在坍缩域内;style 视角改语体、描述密度、叙事框架等风格属性、语义不变,制造中等位移,测坍缩域对风格漂移的稳定性;semantic 视角可控地改语义属性(如替换图中物体),制造最强位移,专门去探坍缩域的边界——非成员没有坍缩结构、最容易在这一档被推出去产生发散重建。为防扰动飘太远,对每条扰动描述 \(\hat{c}\) 加相似度约束 \(\mathrm{sim}(f_e(c), f_e(\hat{c})) \ge \tau\),三档阈值分别取 \(\tau_t=0.9\)\(\tau_s=0.8\)\(\tau_c=0.6\)。三档互补,缺一档都会掉点,合起来才能跨模型稳定

3. 最大跨模态相关性估计:用 CLIP 相关性代理不可观测概率,并用最大池化压住扩散随机性

黑盒下生成概率 \(p(x|c;\theta^*)\) 不可查询,且扩散采样本身带强随机噪声,直接看输出会被噪声盖住微弱的成员差异。作者用两步破解。其一,用跨模态相关性当代理信号:对每个 \((x,\hat{x})\),先用 caption 模型(BLIP2)得到文本描述 \(d_x, d_{\hat{x}}\),再把图像与描述各自编码、拼接后做内积

\[s(x,\hat{c}) = \big(h_v(x)\oplus h_t(d_x)\big)\cdot\big(h_v(\hat{x})\oplus h_t(d_{\hat{x}})\big)\]

其中 \(h_v, h_t\) 是 CLIP 的视觉/文本编码器,\(\oplus\) 为特征拼接。坍缩域内的扰动重建得与 \(x\) 高度对齐、\(s\) 高;域外则结构语义偏离、\(s\) 低,于是 \(s\) 成了不可观测概率 \(p(x|\hat{c};\theta^*)\) 的合理代理。其二,利用可复现性的不对称最大相关性池化:非成员即使反复重采样也几乎复现不出 \(x\),而成员有不小概率复现,于是对某一视角扰动集多次随机重建取 top-\(K\%\) 池化 \(s^t = \frac{1}{n}\sum_{j=1}^{n} s(x,\hat{c}^t_{R_j}),\ n=\lfloor N\cdot K\%\rfloor\),三档各得 \(s^t, s^s, s^c\) 后整合为统一估计 \(s_f(x,\hat{c})\);同样得到无扰动基线 \(s_f(x,c)\),最终成员分数 \(s_f = s_f(x,\hat{c}) - s_f(x,c)\),即对 \(\delta_c p\) 的经验近似。取「最大」而非平均,正是为了放大成员「能复现」的尾部信号、抑制非成员的随机噪声

损失函数 / 训练策略

SD-MIA 是无需训练 / 无需微调的推断框架,不引入可学习参数。关键超参与设置:用 CLIP ViT-L/14 抽图文嵌入;无配对描述时用 BLIP2-opt-6.7b 生成代理描述;所有文本扰动由 GPT-5 生成;相似度阈值 \(\tau_t=0.9,\tau_s=0.8,\tau_c=0.6\);每条扰动描述查询扩散模型 10 次取多重建;所有实验换 5 个随机种子重复、报告均值与标准差。

实验关键数据

主实验

评测协议采用 LAION-mi 基准(成员/非成员同分布、无需微调)+ 新构建的 FlickrMIA-25(成员取自 LAION-2B,非成员取自 2025-01-01 后发布的 Flickr 图,保证时间不相交),指标为 AUC 与 TPR@5% FPR,并区分均衡(1:1)与不均衡(1:10)正负比。下表摘自 Table 1(均衡设定,AUC,单位 %):

方法 访问级别 SD v1.2 SD v1.4 SD v1.5 SD v3.5
Loss 黑盒 51.59 52.91 53.75 42.10
PIA 灰盒 52.66 49.52 48.16 50.62
CLiD 灰盒 49.26 53.71 51.88 58.15
DRC(最强灰盒) 灰盒 54.66 55.83 54.61 60.44
Reconstruction 黑盒 59.66 60.99 60.30 46.74
SD-MIA 黑盒 66.28 66.23 65.92 66.93

SD-MIA 在四个模型上全面领先,比能访问内部特征的最强灰盒 DRC 高出最多约 10 个 AUC;尤其在 SD v3.5 上,几乎所有基线(含 Reconstruction)都跌到 50% 上下甚至更低,而 SD-MIA 仍稳在 66.93%,体现对新架构的泛化。TPR@5% FPR 上 SD-MIA 也最高(如 SD v3.5 达 18.33%,DRC 12.47%)。在不均衡 1:10 设定下结论一致(如 SD v1.4 仍有 66.12% AUC)。

消融实验

配置 结论 说明
Full(token+style+semantic) 最优 三视角互补,跨模型最稳
仅 token 视角 部分模型已较好 最小嵌入位移,对细微记忆敏感
仅 style / 仅 semantic 视角 各自有正贡献 单用均弱于三档合并
用配对原描述 略强 有真实描述信号稍好
用 BLIP 代理描述 仍有效 无原描述也优于图像-only 的 DRC

关键发现

  • 三视角缺一不可:单独看 token 视角在部分模型上已不错(说明细粒度扰动对微弱记忆敏感),但只有三档合并才能跨模型稳定,证明多视角是泛化的关键。
  • 集合级审计可达 95%+:从实例级扩展到集合级(判断「整个数据集」是否被用于预训练),随集合规模 \(L\) 增大性能单调上升,\(L=30\) 时 AUC 超过 95%——多次跨模态交互累积的成员信号高度一致,强烈放大可分性。
  • 闭源 API 上仍然奏效:在 DALL·E-3、Gemini-2.0、GPT-4o 这类完全闭源系统上,SD-MIA 仍稳超 SOTA 黑盒基线,说明它抓的是大规模生成模型的模态级行为属性,而非扩散架构特有的工件。
  • 抗图像扰动鲁棒:对疑似图做高斯模糊、噪声、亮度、剪切等失真后,SD-MIA 远比 Reconstruction 稳——如高斯模糊下 SD-MIA 仍有 61.5% AUC,而 Reconstruction 跌到近随机。

亮点与洞察

  • 「换一个模态去扰动」的视角迁移:传统 MIA 死磕图像去噪信号,本文指出图像扰动被 VAE 收缩 + 随机轨迹双重抹平,转而扰动全程不加噪的文本 condition——同一个「扰动-重建一致性」框架,换个施力点就把失效信号救活了,思路非常巧。
  • 表示域坍缩 + 可复现性不对称两个结构性性质被用得很到位:前者解释了成员对文本扰动「为何稳」,后者解释了非成员「为何即使重采样也复现不出」,并据此设计最大池化而非平均池化去放大尾部信号。
  • 黑盒下用 LLM 做「间接嵌入扰动」:拿不到内部嵌入,就用 GPT-5 的自然语言改写 + CLIP 相似度阈值,把抽象的 \(\|\delta\mathbf{c}\|\) 变成可控、可分档的文本变换——这套「用语言模型代理嵌入操纵」的 trick 可迁移到其他黑盒探测任务。
  • 评测公平性意识强:作者批评了「非成员取自 MS-COCO、与 LAION 成员存在域级差异从而简化任务」的旧协议,坚持用同域对齐的 LAION-mi,并自建时间不相交的 FlickrMIA-25,结论更可信。

局限与展望

  • 重度依赖外部大模型:扰动靠 GPT-5、描述靠 BLIP2、相关性靠 CLIP,攻击效果与这些第三方模型的能力/偏置强绑定;若 caption 或 CLIP 在某域失准,代理信号 \(s\) 可能失真。论文未充分讨论这种依赖的脆弱性。
  • 查询成本不低:每条扰动描述查询 10 次、三视角 × \(N\) 条扰动 × 5 个种子,对收费的商用 API 而言开销可观;作者称有「favorable efficiency-utility trade-off」但细节放在附录,正文未给硬数字。
  • 绝对 AUC 仍偏低:实例级 AUC 多在 66% 左右,离实用的高置信审计还有距离;真正达到 95%+ 需要集合级聚合(\(L=30\)),单图判定可靠性有限。⚠️ 部分结论(如闭源模型上的具体数值)依赖 Figure,正文未列表格,需以原文图为准。
  • 改进思路:可探索自适应选择扰动视角/强度以降查询数,或用更鲁棒的跨模态代理(多 caption 集成)减小对单一 CLIP/BLIP 的依赖。

相关工作与启发

  • vs 图像扰动黑盒(Reconstruction / Loss):它们扰图像、看去噪重建,本文论证这类信号在预训练数据上被 VAE 收缩与随机轨迹抹平;SD-MIA 改扰文本,在 SD v3.5 等弱记忆场景把 AUC 从 ~47% 拉到 ~67%。
  • vs 灰盒方法(DRC / PIA / CLiD):它们靠去噪轨迹的中间噪声预测、生成先验等内部特征,在商用 API 上根本拿不到;SD-MIA 纯黑盒却反超最强灰盒 DRC 最多约 10 个 AUC,证明跨模态一致性信号比内部特征更通用。
  • vs 旧评测协议(如 Zhai et al. 用 MS-COCO 当非成员):旧协议因域级差异人为简化任务、高估攻击力;本文坚持同域对齐的 LAION-mi 并自建 FlickrMIA-25,把「评测公平」本身也当成贡献的一部分。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 「扰文本代替扰图像」的跨模态视角配合表示域坍缩理论,是扩散 MIA 里少见的原创角度
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 7 个生成模型、两个基准、实例/集合双粒度 + 闭源 API + 鲁棒性,较全面;但绝对 AUC 偏低、部分结果只在附录/图
  • 写作质量: ⭐⭐⭐⭐ 动机推导(图像 vs 文本扰动的一阶分析)清晰有说服力,方法分三块讲得明白
  • 价值: ⭐⭐⭐⭐⭐ 直击「闭源大模型预训练数据审计」这一真实合规需求,纯黑盒可用,实用意义大