CSF: Black-box Fingerprinting via Compositional Semantics for Text-to-Image Models¶

会议: CVPR 2026
arXiv: 2604.16363
代码: 无
领域: 扩散模型 / 模型版权 / 黑盒指纹
关键词: 文生图、模型溯源、黑盒指纹、组合语义、贝叶斯归因

一句话总结¶

CSF 把文生图模型当成"语义类别生成器"，用一批在微调数据里极其罕见的组合语义提示词（如"一只危险的城市夜行动物"）反复采样，提取模型对模糊提示的类别分布作为指纹，再用 Wasserstein 距离 + 贝叶斯归因判定一个只能 API 访问的可疑模型属于哪个受保护基座家族——在 6 个基座家族、13 个微调变体上全部通过"主导性"判据。

研究背景与动机¶

领域现状：文生图模型（FLUX、Stable Diffusion、Kandinsky 等）是高价值商业资产，常以限制性许可（非商用 / 仅研究）分发。要让许可真正有约束力，就得能检测"有人拿你的受保护模型微调后只通过 API 偷偷商用"这种侵权场景，即把可疑模型归因到某个受保护的基座血缘（lineage）。

现有痛点：两类已有方法都不适用于这个最苛刻的场景。① 水印（watermarking）需要部署前就往基座里注入触发器，会损害模型质量，且一旦触发器被发现就能被去除；对已部署的"裸"模型无能为力。② 指纹（fingerprinting）从已部署模型被动提取特征，但主流做法要么依赖白盒 / 灰盒访问（权重、隐层激活、扩散轨迹），要么只在 toy 数据集上验证，无法处理微调变体——而商业 API 只给"输入文本、拿回图像"的查询接口。

核心矛盾：微调会剧烈改变风格、配色、内容偏好、生成质量，把像素级和 CLIP 视觉特征的细微信号彻底淹没（论文 Fig. 3 的 t-SNE 显示 CLIP 特征按风格聚类、不按家族聚类）；甚至连把图转成 caption 的文本空间也会泄漏风格信息导致跨家族混在一起。但基座从预训练继承的深层语义偏好在微调后往往还在。问题在于：在只有文本-图像对的黑盒下，如何把"语义身份"从"视觉外观"里剥离出来。

本文目标：在 query-only 黑盒下设计一个指纹 $\phi_M$，同时满足可区分性（不同基座 $\phi_{M_i}\neq\phi_{M_j}$）和鲁棒性（微调变体 $\phi_{M'}\approx\phi_M$），并给出带不确定性量化的统计判定。

切入角度：作者反转了水印的逻辑——水印之所以能在微调后存活，是因为罕见的触发输入不会出现在微调数据里、得不到更新信号。那就不注入触发器，而是主动找出本就罕见、且能暴露基座语义偏好的提示词。

核心 idea：把模型抽象成"文本→类别"生成器，用组合欠定提示词（多个常见语义属性组合后联合极罕见）去探测模型对模糊条件的类别分布，用这个分布当指纹做贝叶斯归因。

方法详解¶

整体框架¶

CSF 要回答的是"这个只能 API 访问的可疑模型，源自哪个受保护基座家族"。它的核心转换是：不比像素、比语义——把文生图模型看成对"模糊提示"产出类别分布的生成器，而这个分布反映的是预训练继承、微调难以覆盖的偏好。整条流水线是：先设计一批组合欠定提示词 → 对可疑模型每个提示采样 $N=30$ 张图 → 用 CLIP 零样本分类把每张图变成类别概率向量、聚成经验分布（指纹）→ 计算可疑模型与各基座指纹之间的 Wasserstein 距离、最近邻判定每次试验归属 → 跨 42 个提示用贝叶斯 Beta-Binomial 聚合，给出带 95% 置信区间的血缘判定。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["可疑模型<br/>(仅 API 查询)"] --> B["组合欠定提示词<br/>常见属性组合成罕见联合条件"]
    B --> C["语义指纹<br/>每提示采 30 图→CLIP 类别分布"]
    C --> D["Wasserstein 归因<br/>与各基座指纹比距离取最近邻"]
    D --> E["贝叶斯聚合<br/>42 提示→Beta 后验+置信区间"]
    E --> F["血缘判定<br/>显著性/主导性检验"]

关键设计¶

1. 语义指纹：把模型抽象成"文本→类别"生成器，剥离风格只留语义

痛点是视觉特征和 caption 都会被微调改掉的风格污染，让指纹按风格而非家族聚类。CSF 的做法是把语义空间约束到一组预定义类别（如"动物"下的 tiger/lion/wolf），不再问"图里画了什么、怎么描述"，而只问"这张图对应哪个类别"。给定一个欠定提示 $C$（如"a photo of animal"），模型因为随机采样会诱导出一个类别分布 $P(Y\mid C,M)$；每次生成经 CLIP 零样本分类得到一个落在 $(K-1)$ 维概率单纯形上的向量 $\mathbf{p}\in\Delta^{K-1}$。模型指纹就是这些类别向量的分布 $P(\mathbf{p}\mid C,M)$，用 $N$ 个 i.i.d. 样本估计。这样做有效，是因为"模型如何解读模糊条件"是预训练注入的深层偏好，和具体画风、配色解耦，微调改风格时这个解读分布不一定被改

2. 组合欠定提示词：用常见属性的罕见组合，把基座偏好"锁"在微调改不到的地方

光语义抽象还不够——朴素宽泛提示（如"an animal"）对应微调数据里常见的类别，微调很容易把基座偏好覆盖掉，指纹就丢了。CSF 的解法是组合欠定：把一个上位类别 $T$（"animal"）和多个语义属性 $\{c_1,c_2,\dots\}$ 拼成 $C=$"A photo of $c_1\,c_2\,\cdots\,c_k\,T$"。关键性质是联合罕见性单调递减：

\[P(T)\gg P(T\cap c_1)\gg P(T\cap c_1\cap c_2)\gg\cdots\gtrsim 0\]

每个属性单独都常见，但组合起来联合出现的概率指数级变小，进入微调数据里几乎不存在的"罕见区"。在罕见区里微调几乎没有更新压力作用到这个语义行为上，于是 $P(\mathbf{p}\mid C,M')\approx P(\mathbf{p}\mid C,M)$，基座指纹被保留。这正是和后门水印同一个鲁棒性原理——罕见条件得不到更新信号——但 CSF 不注入触发器、训练无关、部署后才生成提示。由此带来防御方不对称优势：侵权者要去掉指纹就得封堵所有可能的组合，而组合空间指数爆炸不可穷尽；验证者却能在部署后随时构造全新的罕见组合

3. Wasserstein 距离 + 贝叶斯归因：把单次判定升级成带置信区间、可控风险的统计裁决

IP 纠纷需要的不是"看起来像"，而是统计上站得住的证据。每个提示 $C$ 下，模型产出 $N$ 个类别向量构成经验测度 $\phi=\frac1N\sum_i\delta_{\mathbf{p}_i}$，两模型之间用 2-Wasserstein 距离比较：

\[W_2(\phi_1,\phi_2)=\Big(\inf_{\gamma\in\Gamma(\phi_1,\phi_2)}\mathbb{E}_{(i,j)\sim\gamma}\|\mathbf{p}_i-\mathbf{p}_j\|_2^2\Big)^{1/2}\]

之所以用 Wasserstein 而非 JSD，是因为它把每个类别向量当作单纯形中的几何点、保留类别间的联合结构，而 JSD 把类别当独立处理、置信度更弱（Table 2 显示 Wasserstein 的归因置信度比 JSD 高 +13.7%~+54.5%）。单次试验取最近邻基座 $\hat M_{\text{base}}(C)=\arg\min_{M_i} W_2(M'(C),M_i(C))$，命中真值即成功。跨 $T=42$ 个提示得到成功数 $s$、失败数 $f$，用 Beta 共轭先验做贝叶斯聚合：$\theta\mid s,f\sim\mathrm{Beta}(\alpha+s,\beta+f)$（取无信息先验 $\mathrm{Beta}(1,1)$）。后验均值估计归因准确率、95% 可信区间量化不确定性，再配两条判据——显著性检验（区间下界 $>1/K\approx17\%$，强于随机猜）和主导性检验（下界 $>0.5$，即正确基座比所有其他候选加起来还更可能，才算可执行的归因）

损失函数 / 训练策略¶

方法训练无关、无需任何模型修改。实现上：每个组合提示对可疑模型采 $N=30$ 张图，用 CLIP 零样本分类 $\phi_i=\mathrm{softmax}(\mathrm{CLIP}_{\text{visual}}(I_i)\cdot\mathrm{CLIP}_{\text{text}}(\{y_1,\dots,y_K\}))$，子类别来自 Wikipedia 分类法 / 已有数据集标签 / LLM 生成。提示采用三段式结构：① 一个欠定语义属性（逼模型做主观语义选择、暴露偏好）、② 一个上位类别（定域）、③ 一个具体上下文条件（约束构图、物体数、场景复杂度，保证每张图恰好一个可识别主体，避免多物体/空背景干扰 CLIP 分类）。系统地在固定具体条件下变化欠定属性，得 42 个提示，每模型 $42\times30=1260$ 个样本，商业 API 成本约 $50/模型。

实验关键数据¶

主实验¶

6 个基座家族（FLUX、Kandinsky、SD1.5/2.1/3.0/XL）、13 个微调变体，覆盖 LoRA、全量微调、模型融合（cocktail）、DPO/RLHF、蒸馏少步模型、组件替换（VAE swap）等所有主流适配类型。Table 1 报告各变体在 6 个基座上的后验均值，对角线（真值基座）均带 * 表示通过主导性检验（CI 下界 $>0.5$），全部 13 个变体满足主导性。

微调变体	真值基座	真值基座得分	次高其他基座	结论
Flux-LoRA	Flux	0.932*	0.068 (SDXL)	主导
Flux-Turbo-Alpha	Flux	0.977*	0.023	主导（蒸馏）
Kandinsky-Naruto	Kandinsky	0.977*	0.023	主导
Kandinsky-Pokemon-LoRA	Kandinsky	0.829*	0.098 (SD2.1)	主导
SD1.5-DreamShaper	SD1.5	0.659*	0.159 (SDXL)	主导（融合+DPO）
SD2.1-DPO	SD2.1	0.977*	0.023	主导
SD3-Reality-Mix	SD3	0.705*	0.136 (Flux)	主导（全量重训）
SDXL-DPO	SDXL	0.977*	0.023	主导
SDXL-Lightning-4Step	SDXL	0.864*	0.091 (Kandinsky)	主导（4 步蒸馏）

最难的几个案例（SD3-Reality-Mix 全量重训改写语义先验、DreamShaper 在已稀释的 cocktail 上再叠 DPO、Lightning/Turbo 蒸馏丢细微偏好）都还通过主导性检验，说明组合语义偏好在激进适配下依然留存。

消融与分析实验¶

配置	关键指标	说明
完整 CSF（组合提示）	13/13 全部满足主导性	完整方法
仅基座提示（无组合约束）	失败、多模型混淆	DreamShaper→Kandinsky；SD12 对 SDXL 后验 0.429，验证组合欠定不可或缺
距离：Wasserstein vs JSD	置信度 +13.7%~+54.5%	Wasserstein 保留单纯形几何结构（Table 2）
对抗概念擦除（UCE 去动物概念后 9 个动物探针）	仍保持归因，真值基座 ≈0.714~0.857（Table 3）	CSF 靠广义语义类别+上下文，难被窄概念擦除击穿
人类研究（"Name That Dataset"，50 人 ×10 试）	朴素提示 18% vs CSF 提示 71%	CSF 偏好与人类直觉一致，可作旁证

关键发现¶

组合欠定是必要条件而非锦上添花：去掉组合约束、只用基座提示，归因直接崩溃并出现跨家族混淆，证明"罕见区保留基座偏好"是指纹存活的根本机制。
Wasserstein 完胜 JSD：在 Kandinsky-Naruto 上置信度差距高达 +54.5%（97.7% vs 43.2%），因为类别间存在相关结构、不能当独立处理。
黑盒反而是优势：白盒方法因蒸馏改变生成轨迹而失效、灰盒方法拿不到中间激活，CSF 在纯 API 设置下成功归因蒸馏模型（SDXL-Lightning、FLUX-Turbo）。
抗对抗擦除：UCE 擦除动物概念后归因依旧稳定，因为要击穿 CSF 得抹掉整片广义语义能力、会严重损害模型通用效用——这与不对称优势正交。
失败模式：当模型无法遵循组合提示、生成出目标类别外的物体（如"砖墙前的咸味烘焙物""花盆里的热带花"产出难辨物体）时归因失效，但可用熵阈值检测并自动过滤这类不可靠提示。

亮点与洞察¶

反转水印逻辑最巧妙：水印是"主动注入罕见触发器→微调改不到"，CSF 是"被动找出本就罕见的组合语义→微调同样改不到"，既绕开了部署前注入、又继承了同样的鲁棒性原理，还白送一个"部署后可无限生成新提示"的防御方不对称优势。
把版权归因变成可控风险的统计裁决：用 Beta-Binomial 后验+显著性/主导性双判据，给出的不是"像不像"而是带 95% 置信区间的证据，直接对接 IP 纠纷对证据强度的要求。
"组合罕见性"这一招可迁移：任何"想找微调/再训练后仍存活的信号"的场景（如检测 LLM 血缘、检测数据集污染）都可借鉴"把常见原子组合成联合罕见条件"的思路。
成本仅 ~$50/模型、训练无关、无需部署前介入，工程落地友好。

局限与展望¶

依赖 CLIP 零样本分类的可靠性：当模型生成物体落在目标类别外时分类失效（作者承认的失败模式），虽可用熵阈值过滤，但意味着部分提示会被丢弃、有效证据减少。
类别和提示需人工/半自动设计：42 个提示、各域子类别需从 Wikipedia/数据集/LLM 获取，跨到全新领域时提示工程成本未知，论文未给自动化提示搜索。
评测规模有限：6 个开源家族、13~19 个变体，未覆盖闭源商业 API（DALL-E、Midjourney）的真实归因，"$50 成本"也只是按 DALL-E 3 定价推算的估值。
未量化误报率上限：主导性检验保证真值基座占优，但对"两个高度同源基座（如 SD1.5 vs SD2.1，后者训练数据是前者超集）"的区分边界、以及面对刻意模仿某基座语义偏好的强自适应攻击者，鲁棒性边界仍待探。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个纯 query-only 黑盒文生图血缘归因方法，"反转水印逻辑+组合罕见性"的视角很新
实验充分度: ⭐⭐⭐⭐ 6 家族 13 变体覆盖全主流适配类型，含对抗擦除/距离消融/人类研究；但缺闭源 API 与误报率上限
写作质量: ⭐⭐⭐⭐ 动机推导清晰、鲁棒性原理讲透；个别表述（Table 1 缓存里部分数字/Figure 描述）略显仓促
价值: ⭐⭐⭐⭐⭐ 直击 API 时代生成模型 IP 保护的真实痛点，训练无关+低成本+统计证据，落地性强