Hidden Dangers of Compositional Generation: Diagnosing Semantic Safety Failures in Text-to-Image Models¶
会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: AI安全 / 扩散模型
关键词: 文生图安全、组合式生成、黑盒攻击、语义解构与重组、安全过滤绕过
⚠️ 本文研究的是文生图模型的安全攻击面,含有对有害内容生成路径的分析。这里只从学术角度记录其机制与防御启示,不涉及任何可操作的有害内容。
一句话总结¶
本文提出 CoRA(Composable Reassembly Attack):一个纯文本空间、黑盒条件下的文生图攻击框架,先把有害意图拆成一组单独看都"无害"的细粒度视觉元素,再通过迭代选择与重组诱导模型把这些元素重新拼回原始恶意语义,从而在不触发安全过滤器的前提下显著提升攻击成功率。
研究背景与动机¶
领域现状:文生图(T2I)模型最有意思的能力之一是组合式视觉生成——给一组离散概念,模型能在隐空间里把它们融合成一个语义连贯的场景。这种组合能力是创造力的来源,传统实现方式是修改扩散模型的采样过程来最大化条件概率密度。
现有痛点:现有 T2I 安全攻击方法分两类,都不好用。白盒方法(如 MMA-Diffusion、QF 系列)依赖模型参数/梯度,成本高、实现复杂,且在商业闭源模型上根本拿不到内部信息;黑盒方法(如 DACA、SneakyPrompt)只能靠改写提示词,缺乏模型反馈,效率低、成功率不稳定。更关键的是,依赖修改采样过程的组合式生成技术无法迁移到闭源系统。
核心矛盾:组合能力越强,安全风险越隐蔽——单个良性概念分开看都能过滤器,但当它们被拼成一个完整场景时却携带了高风险语义。现有安全过滤器是在"单点语义"层面做检测,对"语义组合"这一层的风险几乎是盲区。
本文目标:在纯黑盒、纯文本空间下,复现组合式生成"把离散概念融合成连贯有害场景"的效果,同时证明现有安全防护在语义组合层面存在系统性漏洞。
切入角度:作者重新审视组合式视觉生成的底层机制后给出一个关键洞察——在 T2I 生成里,对离散且有限的文本输入做细粒度语义补全,往往能达到和"修改采样过程最大化条件概率"相似的效果。既然如此,就不必碰采样过程,只在文本空间做手脚即可。
核心 idea:把"细粒度语义解构 + 选择性重组"作为采样修改的文本空间替代品——先解构成低风险子场景骗过过滤器,再让模型自己把它们组合回原始恶意语义。
方法详解¶
整体框架¶
CoRA 在黑盒、仅文本输入的条件下运行,整体是一条两阶段流水线:第一阶段做场景理解与语义解构,把一个潜在有害意图 \(G\) 解析成结构化场景单元、再拆成一组单独看都低风险的细粒度子场景;第二阶段做选择性重组与迭代生成,从每个子场景里选出与原意图最相关的候选,嵌入到自然的上下文模板里生成图像,并用一致性评估模型衡量生成结果是否还原了原始语义,不满意就回到候选选择继续迭代。整个过程借助一个辅助大模型 \(M\)(默认 Qwen3-8B)完成解析、解构、选择与提示组织,目标 T2I 模型 \(V\) 只负责出图。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["有害意图 G<br/>(自然语言提示)"] --> B["结构化场景理解<br/>解析为 [角色/场景/动作/物体]"]
B --> C["细粒度语义降险解构<br/>拆成 N 组低风险子场景 + 视觉隐喻"]
C --> D["选择性重组<br/>每个子场景选最相关候选"]
D --> E["迭代生成闭环<br/>组织提示→出图→一致性评估→回更新选择"]
E -->|一致性达标| F["还原恶意语义的图像<br/>(绕过安全过滤器)"]
E -->|不达标| D
关键设计¶
1. 结构化场景理解:把模糊的恶意意图先拆成可操作的语义骨架
直接对一句有害提示做改写,要么改得面目全非丢了原意,要么改得不够导致被过滤器拦下。CoRA 借鉴"动作–场景–物体"解构范式与无监督场景–物体解构模型,把语义解构细化到四个维度——角色(Characters)、场景(Location)、动作(Actions)、物体(Objects),用辅助模型 \(M\) 在预定义提示 \(P_G\) 指导下把意图 \(G\) 解析成结构化表示 \([C,L,A,O]=M(G\mid P_G)\)。例如把一句包含暴力的场景拆成"角色:施暴者/受害者;场景:昏暗小巷/危险环境;动作:攻击/反抗;物体:刀具/血迹"。这一步把一团模糊意图变成清晰、可分别处理的语义单元,为后续细粒度解构和重组提供精确输入,让整条流水线更有的放矢。
2. 细粒度语义降险解构:逆用组合生成,把高风险场景拆成"分开看都无害"的碎片
组合式生成的天性是"把多个语义单元融成连贯场景",CoRA 反向利用这一点:把结构化的 \([C,L,A,O]\) 进一步拆成 \(N\) 组更细粒度、更低风险的子场景 \(\{S_i\}_{i=1}^N=M([C,L,A,O]\mid P_C)\),每个子场景 \(S_i=\{c_i^1,\dots,c_i^m\}\) 含多个候选描述,并在解构时引入视觉隐喻来稀释暴力/敏感元素,同时保持与原意图的语义连贯。为了把每个子场景的有害性压到最低,解构要满足一个安全约束:\(\arg\min_{S_i^*\subseteq S_i} M(S_i^*\mid P_E),\ \text{s.t.}\ \mathrm{Card}(S_i)-\mathrm{Card}(S_i^*)\le\epsilon\),其中 \(P_E\) 是有害性评估提示,\(\epsilon\) 限制最多能删多少子场景(删太多会丢语义)。这一步的本质是把"过滤器能识别的整体有害语义"打散成"过滤器逐条检测都觉得安全"的碎片,是绕过单点检测的关键。
3. 选择性重组:从碎片里挑出最贴合原意的那一块,保证拼回去不跑题
碎片化之后会有大量候选,如果不加筛选直接拼,重组出来的提示容易和原始恶意目标 \(G\) 失去对齐(即语义一致性差)。CoRA 对第 \(i\) 个子场景,用一个专门评估"子场景与原意图视觉相关度"的选择提示 \(P_S\),挑出最相关的单个候选 \(c_i^*\in\arg\max_{c\in S_i^*} M(S_i^*,G\mid P_S)\),最终得到选中集合 \(S^*=\{c_1^*,\dots,c_m^*\}\)(子场景数 \(m\) 由 \(M\) 根据场景内容自行决定)。这一步保证重组后的提示始终紧扣原始恶意目标,是"低风险"与"语义一致"之间的平衡点——只降险不保真的攻击没有意义。
4. 迭代生成闭环:用一致性反馈反复打磨,兼顾隐蔽与还原
一次重组未必能同时做到"过滤器放行"且"图像准确还原原意"。CoRA 把生成做成闭环:先用上下文模板 \(Z\) 把选中子场景组织成流畅描述 \(T(S^*)=M(S^*,Z)\),再经目标模型出图 \(I(S^*)=V(T(S^*))\),然后用一致性评估模型 \(E\) 衡量图像与 \(G\) 的对齐度,并迭代更新子场景选择以最大化对齐:\(\arg\max_{S^*} E(I(S^*),G)\)。这个循环让攻击在"隐蔽性(不被过滤器拦)"和"攻击效力(准确传达原始意图)"之间持续逼近最优,是把前面三步的成果稳定落地的执行机构。
实验关键数据¶
主实验¶
攻击成功率 ASR(绕过安全检测的比例,越高越强)与语义一致性 SC(生成图与原始不安全提示的语义一致度,由 BLIP 抽取语义后比对,越高越好)在多个 T2I 模型上的对比(节选):
| 目标模型 | 指标 | CoRA(本文) | MMA | DACA | Ring-a-Bell |
|---|---|---|---|---|---|
| Cogview4 | ASR | 0.733 | 0.407 | 0.193 | 0.563 |
| DALL·E 3 | ASR | 0.644 | 0.207 | 0.407 | 0.119 |
| Hunyuan | ASR | 0.600 | 0.207 | 0.089 | 0.111 |
| Tongyiwanxiang | ASR | 0.689 | 0.393 | 0.326 | 0.548 |
| SafeGen(加固) | ASR | 0.637 | 0.333 | 0.267 | 0.563 |
| Cogview4 | SC | 0.260 | 0.257 | 0.247 | 0.243 |
CoRA 在所有评测模型上 ASR 全面领先,即便面对专门加固的 SafeGen 仍能达到 0.637 的成功率;SC 在多数模型上也最高,说明语义解构–重组没有牺牲对原意的还原。
生成质量与提示流畅度(IS 越高越多样,PPL 提示困惑度越低越流畅越不易被拦):
| 目标模型 | 指标 | CoRA | MMA | DACA |
|---|---|---|---|---|
| Cogview4 | IS↑ | 4.07 | 3.12 | 1.74 |
| Cogview4 | PPL↓ | 37.28 | 9003.05 | 50.25 |
| DALL·E 3 | PPL↓ | 35.28 | 10162.67 | 48.51 |
CoRA 的提示 PPL 比 MMA 低两到三个数量级(37 vs 9000+),意味着它生成的攻击提示读起来像自然句子,这正是它能骗过安全过滤器的物理原因。
商业模型真实环境网页交互测试(GPT-4o / GPT-4.1 官方网页,各随机抽 30 例):CoRA 在 GPT-4o 上 ASR 0.667、GPT-4.1 上 0.533,均显著高于 DACA 与 COJ,验证了在带高级安全机制的商业系统上的现实可行性。时间效率上,CoRA 生成一条攻击提示仅 32.0 秒,远快于 MMA(798.3 秒)、Ring-a-Bell(297.2 秒)。
消融实验¶
| 配置 | ASR↑(Cogview4) | IS↑ | PPL↓ | 说明 |
|---|---|---|---|---|
| 仅视觉隐喻 (Metaphor) | 0.444 | 3.49 | 97.19 | 只用隐喻稀释敏感词 |
| CoRA 全框架 | 0.733 | 4.07 | 37.28 | 隐喻 + 细粒度解构重组 |
| 辅助模型 Qwen2-7B → Qwen3-235B | ±0.03 | — | — | 跨模型规模差异极小 |
关键发现¶
- 视觉隐喻只是辅助、解构重组才是主力:只用隐喻的变体 ASR 仅 0.444,且在 DALL·E 3 上骤降到 0.081;只有叠加细粒度语义解构与重组,攻击成功率和语义一致性才同时拉满,说明本文真正的杀伤力来自"打散–重组"机制而非单纯的措辞替换。
- 对辅助模型几乎不挑食:把 \(M\) 从默认 Qwen3-8B 换成更弱的 Qwen2-7B 或更强的 Qwen3-235B,ASR 最大只差 0.03、SC 只差 0.01,说明攻击有效性来自框架设计而非某个强模型,复现门槛低、迁移性强——这对防御方是个坏消息。
- 有害性排序第一:用 Elo / Hodgerank / Rank Centrality 三种聚合算法做成对有害性比较,CoRA 均排第一,Elo 约 1528(高于中性阈值 1500),即它不仅更易绕过,产出的内容也更有害。
亮点与洞察¶
- 把"安全风险"从单点语义提升到组合语义层面:本文最大的"啊哈"是指出 T2I 安全过滤器都在检测单个概念是否敏感,却忽略了"一堆良性概念被组合后才有害"这一整类风险——这是一个被普遍忽视的检测盲区,启发后续防御应在生成前加入"语义解构–重组检测"。
- 纯文本空间替代采样修改:传统组合式生成要改扩散采样过程,本文证明"细粒度语义补全"在文本空间就能近似同样的隐空间组合效果,这个等价性洞察让攻击天然适配闭源/商业模型,是方法能落地的根本。
- 低 PPL 是隐蔽性的可量化代理:用提示困惑度衡量"自然度",把"为什么能骗过过滤器"从玄学变成可观测指标(37 vs 9000+),这个评估视角可迁移到任何文本侧攻击/防御研究。
局限与展望¶
- 攻击高度依赖辅助模型 \(M\) 的语义解析能力,虽然实验显示对模型规模不敏感,但若 \(M\) 本身对解构提示 \(P_C\)/评估提示 \(P_E\) 拒答或对齐良好,整条链路可能失效——作者也呼吁社区研究"组合感知"的防御机制。
- 数据集规模偏小:VBCDE-100 加 35 条 GPT-4 扩充共 135 条提示,四类有害类别各占一部分,覆盖面和统计置信度有限,⚠️ 不同有害类别上的成功率差异未充分展开。
- 评估指标多依赖自动模型(Q16 分类器、BLIP、GPT-4o 判别),这些判别器本身的误差会传导到 ASR/SC,⚠️ 具体阈值与判别细节以原文为准。
- 防御侧只给了"生成前加解构–重组检测"的方向性建议,没有实现和验证一个可用的防御基线,这是后续最值得补的工作。
相关工作与启发¶
- vs DACA:DACA 也走"把有害提示解构成良性组件再重组绕过过滤"的思路,但 CoRA 在结构化维度(C/L/A/O 四维 + 视觉隐喻 + 安全约束)和迭代一致性闭环上更精细,主实验里 CoRA 的 ASR/IS/PPL 全面优于 DACA(如 Cogview4 上 0.733 vs 0.193)。
- vs MMA-Diffusion / QF 系列:这些是白盒或依赖梯度的攻击,需要模型内部信息且生成的提示 PPL 极高(容易被识别),CoRA 在纯黑盒下既更快又更隐蔽。
- vs ColJailBreak(COJ):COJ 先生成安全内容再用 inpainting 注入有害元素,偏图像编辑路径;CoRA 完全在文本空间操作、不碰图像生成流程,对闭源系统更友好,商业模型测试中 ASR 也更高。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把安全风险从单点语义提升到组合语义层面,并给出纯文本空间近似采样修改的等价洞察,视角新颖。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 8 个 T2I 模型 + 商业网页实测 + 多指标 + 有害性排序,较充分;但攻击数据集仅 135 条,类别细分分析偏少。
- 写作质量: ⭐⭐⭐⭐ 机制讲解清晰、公式与流程对应良好;部分自定义评估细节(判别器阈值)需查补充材料。
- 价值: ⭐⭐⭐⭐⭐ 揭示了一类被普遍忽视的组合语义安全盲区,对 T2I 安全评估与防御设计有直接推动作用。