Beyond Text Prompts: Precise Concept Erasure through Text–Image Collaboration¶

会议: CVPR 2026
arXiv: 2604.15829
代码: https://github.com/OpenAscent-L/TICoE.git (有)
领域: 扩散模型 / 概念擦除 / AI 安全
关键词: 概念擦除, 文图协同, 凸概念流形, 多尺度视觉表征, 扩散模型

一句话总结¶

TICoE 用「连续凸概念流形（文本端）+ 多尺度层次视觉表征（图像端）」协同地从文生图扩散模型里精准擦除目标概念，既堵住文本擦除"换个说法就复活"的漏洞，又避免图像引导误伤形状/语境相似的无关概念，在 gun/nudity/Van Gogh 等任务上同时拿到更强擦除（UDA 0.02）和更好保真（FID 30.86）。

研究背景与动机¶

领域现状：文生图扩散模型（Stable Diffusion 等）训练在大规模网络数据上，难免学会生成不安全、敏感或受版权保护的内容。概念擦除（concept erasure / unlearning）就是在不重训的前提下，从模型里"忘掉"某个目标概念（如 gun、nudity、某画家风格），同时保留正常生成能力。主流做法分三类：引导式（ESD、AdvUnlearn 改 CFG 去噪轨迹）、注意力优化式（Forget-Me-Not、MACE 迭代改 cross-attention）、闭式编辑式（UCE 直接解析地重标定 cross-attention 权重）。

现有痛点：这些方法几乎都只在文本域操作，依赖某个或某几个固定 prompt 的 embedding。但单词/固定 prompt 的 embedding 无法覆盖一个概念的完整语义范围——语义相关但措辞不同的 prompt（"plasma rifle"之于"gun"）仍能把已擦除的概念重新激活，造成擦除不彻底。为补全覆盖，近期 Co-Erasing 引入参考图像辅助擦除，但又带来新问题：模型会顺带吸收参考图的视觉属性（形状、姿态、语境），把视觉上相似但语义无关的概念（擦 gun 时连 camera 一起压掉）过度擦除。

核心矛盾：擦除强度（erasing precision）和上下文保真（contextual fidelity）之间存在 trade-off——文本擦除语义覆盖不足导致欠擦，朴素图像引导视觉纠缠导致过擦，两端都难做到"忠实擦除"（faithful erasure）。而且现有评测多只看擦除强度，对"形状/语境相近但概念不同"的内容是否被保留几乎不考察。

本文目标：(1) 在文本端覆盖概念的完整语言外延，抵抗对抗性改写；(2) 在图像端把"与目标因果相关"的特征和"仅仅视觉相关"的特征分开，避免误伤；(3) 提供一个能衡量"相关但不同概念是否被保留"的评测指标。

切入角度：作者认为文本泛化和视觉接地是互补的——文本流形负责把概念的语言空间撑满，视觉表征负责在隐空间里把目标和相似干扰物区分开。两者联合学习才能同时压住欠擦和过擦。

核心 idea：用"连续凸文本概念流形 + 层次化视觉表征"做文图协同擦除（TICoE），让文本端管全覆盖、图像端管精区分。

方法详解¶

整体框架¶

TICoE 要解决的是"擦得干净又不误伤"。给定一个目标概念 \(c\)（如 church），框架并行走两条流：文本流把多个语义相关 prompt 聚成一个连续凸概念流形，采样出能覆盖各种说法的文本条件 \(e_c\)；视觉流把参考图编码成多尺度 token、经 transformer 融合成视觉引导隐变量 \(z_\text{fused}\)。两者一起喂给可训练 U-Net，用一个基于 CFG 负向引导的擦除损失把目标概念压下去、同时对齐冻结原模型在良性 prompt 上的输出，最终得到编辑后的模型 \(\theta^*\)。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["目标概念 c<br/>(如 gun / church)"] --> B["连续凸概念流形<br/>多 prompt → Dirichlet 凸组合 → e_c"]
    A --> C["层次视觉表征学习<br/>参考图 → 多尺度 token → transformer 融合 → z_fused"]
    B --> D["概念擦除损失<br/>CFG 负向引导 + 良性对齐"]
    C --> D
    D --> E["编辑后模型 θ*"]

关键设计¶

1. 连续凸概念流形 CCCM：用一片连续语义区域代替几个离散 prompt，堵住"换说法就复活"

文本擦除的根本漏洞是离散 prompt 覆盖不全——擦了"gun"，但"firearm""plasma rifle"还能激活。CCCM 的做法是先用 GPT-5.0 围绕基础关键词自动扩写出一组语义一致但表述多样的 prompt（如对"church"生成"gothic church""ancient stone church""church tower"），每个经文本编码器得到 embedding，堆成 prompt bank \(B = [e_1, \dots, e_N] \in \mathbb{R}^{N\times L\times d}\)。擦除时不取某个固定 embedding，而是用 Dirichlet 分布采样权重做凸组合：\(e_c = \sum_{i=1}^N w_i e_i\)，其中 \(w \sim \mathrm{Dirichlet}(\alpha(\tau))\)，\(\alpha(\tau) = \frac{1}{\tau}\mathbf{1}_N\)。Dirichlet 保证权重非负且归一（\(w_i\ge 0,\ \sum_i w_i=1\)），于是 \(e_c\) 一定落在原始 prompt embedding 张成的语义凸包内。

为什么用"凸"组合而非任意线性组合是关键：不受约束的线性组合可能外推到分布外（OOD）、产生语义不合理的点，而凸组合保证 \(e_c\) 是已有概念的合法语义混合，实现平滑有界的过渡，形成一片连续概念区域。温度 \(\tau\) 控制锐度：高 \(\tau\) 趋于均匀采样、低 \(\tau\) 让 \(e_c\) 偏向少数几个 prompt。还可选地注入零均值高斯扰动 \(e_c \leftarrow e_c + \mathcal{N}(0, \text{noise\_std}^2)\) 增加局部随机性防过拟合，最后做 LayerNorm 对齐原模型分布。相比固定 prompt，这片流形对各种表达和对抗改写的覆盖更全更稳

2. 层次视觉表征学习 HVRL：多尺度隐空间区分"因果相关"与"仅视觉相似"，避免过擦

朴素图像引导会把参考图的视觉属性整体吸收，连带压掉形状/姿态相似的无关概念。HVRL 用多尺度建模来"解纠缠"。先用干净扩散模型以"a photo of c"生成参考图，提供无偏视觉先验；把参考图经 VAE 编码并在随机时间步加 DDPM 噪声得到隐变量 \(z\in\mathbb{R}^{B\times C\times H\times W}\)，再 resize 到多个尺度 \(s\in\mathcal{S}=\{1.0, 0.75, 0.5\}\) 并展平成 token：\(t_s\in\mathbb{R}^{B\times(H_sW_s)\times C}\)，沿序列维拼接成 \(t\in\mathbb{R}^{B\times N\times C}\)（\(N=\sum_s H_sW_s\)）。

加正弦位置编码 \(t\leftarrow t+p\) 后送入若干层 transformer encoder \(t'=F_\text{trans}(t)\)，因为 transformer 保持序列长度，取前 \(H\times W\) 个 token reshape 回 2D 隐图 \(t'_\text{fused}\)，最后用残差融合 \(z_\text{fused} = z + \lambda\cdot t'_\text{fused}\)（\(\lambda\) 控制融合贡献）。多尺度让模型在不同空间分辨率上捕捉概念信息，从而把"和目标因果相关"的特征与"仅仅视觉相似"的特征分开；transformer 与擦除 U-Net 联合训练，自适应学习跨尺度依赖。这样视觉引导既精准又不破坏无关结构，是抑制过擦的关键

3. CFG 负向引导的概念擦除损失：把可训练 U-Net 推向"反目标概念"的参考目标

有了文本条件 \(e_c\) 和视觉隐变量 \(z_\text{fused}\)，还需要一个训练目标真正"擦掉"概念。作者借 classifier-free guidance 思想，用冻结原模型构造一个带负引导权重 \(\gamma\) 的参考目标：

\[\epsilon_\text{target}(z_\text{fused}, t, e_c) := \epsilon_\theta(z_\text{fused}, t, \varnothing) - \gamma\big[\epsilon_\theta(z_\text{fused}, t, e_c) - \epsilon_\theta(z_\text{fused}, t, \varnothing)\big]\]

直觉是：把"有概念条件"相对"无条件"的噪声方向反向外推，得到一个"远离目标概念"的目标噪声。擦除损失让可训练 U-Net \(\theta^*\) 的条件预测对齐这个参考目标：

\[\mathcal{L}_\text{erase} = \big\|\epsilon_{\theta^*}(z_\text{fused}, t, e_c) - \epsilon_\text{target}(z_\text{fused}, t, e_c)\big\|_2^2\]

这一损失同时更新 transformer 和 U-Net，\(\gamma\) 控制压制强度。它把"语义可变性（来自 CCCM 的多样 \(e_c\)）"和"视觉纠缠（来自 HVRL 的 \(z_\text{fused}\)）"两个问题在同一个目标里一起处理，驱动 \(\theta^*\) 在压住目标概念的同时保持良性 prompt 的分布

损失函数 / 训练策略¶

训练前先用干净 Stable Diffusion 以"a photo of \(c\)"生成 \(n\) 张目标概念图组成数据集；每次迭代随机抽一张图，连同从 CCCM 采样的 \(e_c\) 一起做文图协同擦除，仅优化 \(\mathcal{L}_\text{erase}\)（transformer + U-Net 联合更新）。

实验关键数据¶

主实验¶

在 erase gun 任务上对比五个 SOTA（ESD、UCE、FMN、SPM 为纯文本，Co-Erasing 为图文）。ASR/UDA/P4D 越低擦得越干净，FID 越低、CLIP 越高保真越好：

方法	ASR↓	UDA↓	P4D↓	FID↓	CLIP↑
ESD	0.02	0.20	0.47	31.76	0.302
UCE	0.08	0.36	0.08	35.56	0.312
FMN	0.26	0.64	0.26	34.46	0.310
SPM	0.22	0.60	0.24	33.43	0.310
Co-Erasing	0.00	0.10	0.15	35.94	0.304
TICoE (Ours)	0.00	0.02	0.04	30.86	0.304

TICoE 在擦除三项（ASR/UDA/P4D）全面最优，尤其 UDA 从次优 0.10 降到 0.02，且 FID 最低（30.86）说明保真不掉。

MCP（Morpho-Contextual Concept Preservation）指标：作者自定义的可用性指标，专门衡量"语义不同但形状/语境相近"的概念在擦除后是否被保留（越高越好）。例如擦 gun 时看 camera/phone/umbrella 是否完好，擦 tench 时看 dolphin/whale/goldfish：

方法	gun→camera↑	gun→phone↑	tench→whale↑	tench→goldfish↑
SD（干净基线）	92.54%	97.96%	97.78%	98.15%
ESD	68.25%	79.59%	75.56%	75.93%
Co-Erasing	39.68%	53.06%	60.00%	48.15%
TICoE (Ours)	92.06%	95.91%	95.45%	96.30%

朴素图像引导的 Co-Erasing 过擦最严重（camera 仅 39.68%），TICoE 的 MCP 几乎贴近干净基线 SD，印证 HVRL 有效抑制了过擦。

消融实验¶

gun 擦除任务上拆 CCCM 与 HVRL（Table 3）：

配置	ASR↓	UDA↓	FID↓	CLIP↑	说明
No CCCM	0.06	0.38	30.41	0.297	去掉凸流形，UDA 暴涨到 0.38
10 Prompt	0.00	0.26	31.16	0.291	prompt 太少、流形稀疏
20 Prompt	0.02	0.12	29.46	0.285	精度/保真明显改善
50 Prompt	0.02	0.22	30.98	0.287	过多冗余、略降稳定性
No HVRL	0.00	0.16	30.59	0.285	去掉多尺度视觉，UDA 升到 0.16
Scales 1 =	0.02	0.26	30.66	0.300	尺度不足、欠擦
Scales 2 =	0.04	0.10	32.74	0.302	尺度过多、FID 变差
TICoE (full)	0.00	0.02	30.86	0.304	完整模型

关键发现¶

CCCM 贡献最大：去掉后 UDA 从 0.02 飙到 0.38，说明连续凸流形是擦除鲁棒性的主力；prompt bank 规模约 30 以上时与目标概念的余弦相似度趋稳，20 个左右已能取得精度/保真最佳平衡，再多只带来边际收益和冗余。
HVRL 的尺度数有甜点：scale 太少（仅 2 个）欠擦（UDA 0.26），太多（4 个含 0.25）引入冗余和过平滑使 FID 升到 32.74，默认三尺度 \(\{1.0,0.75,0.5\}\) 最均衡。
细粒度 NSFW 擦除：在 I2P 生成 4703 张图用 NudeNet 检测，ESD/UCE/SPM 在 BUTTOCKS/FEMALE_BREAST 等敏感类仍有残留激活，TICoE 失败计数接近零。
泛化性：在 SD v1.4/v1.5/v2.0 多骨干上稳定，且能同时擦除 church+Van Gogh+cat 多概念。

亮点与洞察¶

凸组合的几何直觉很巧：用 Dirichlet 把权重约束在单纯形上，保证插值 embedding 永远落在原 prompt 的凸包内，天然避免线性外推产生的 OOD 语义点——这把"覆盖更多说法"和"不跑偏"两个目标用一个分布选择同时满足。
文本管覆盖、图像管区分的分工清晰：文本流解决欠擦（语义覆盖不足），视觉流解决过擦（视觉纠缠），两条线各打一个痛点，再用同一个 CFG 负向损失收口，逻辑闭环。
MCP 指标补上了评测盲区：现有 COCO-10k 的 CLIP/FID 大多和被擦概念弱相关，测不出"camera 被误伤"。MCP 专门量"形态/语境相近但概念不同"的保留度，可迁移到任何需要评估"过擦/误伤"的擦除/编辑任务。
多尺度 token + transformer 融合这套视觉解纠缠模块是即插即用的，思路可迁移到其他需要"区分因果相关 vs 仅相关特征"的可控生成场景。

局限与展望¶

依赖 GPT-5.0 扩写 prompt：CCCM 的语义覆盖质量取决于外部 LLM 生成的 prompt 多样性，扩写偏差会直接影响流形质量；作者未深入讨论扩写失败或低资源概念的情形。⚠️ GPT-5.0 为原文所述模型名，以原文为准。
MCP 评测范围有限：目前只在少数手选的相关类别（camera/phone/whale 等）上测，是否能覆盖更广的"相似但不同"概念谱系仍待验证。
超参较多：温度 \(\tau\)、高斯噪声 std、融合权重 \(\lambda\)、负引导 \(\gamma\)、尺度集合都需调，论文把敏感性分析放进附录，正文可见性不足。
额外计算开销：相比纯文本闭式编辑（UCE），TICoE 需生成参考图 + 多尺度 transformer 联合训练，成本更高，论文未给出训练时间对比。

评分¶

新颖性: ⭐⭐⭐⭐ 凸概念流形 + 多尺度视觉解纠缠的文图协同思路新颖，MCP 指标补了评测盲区。
实验充分度: ⭐⭐⭐⭐ 覆盖 nudity/style/object 多任务、多骨干、对抗攻击和细粒度 NSFW，消融清晰；但不少结果压在附录、缺成本对比。
写作质量: ⭐⭐⭐⭐ 痛点—方法—实验逻辑顺畅，公式完整；个别符号（如温度低 τ 的描述）表述略糙。
价值: ⭐⭐⭐⭐ 面向文生图安全这一刚需，"既擦干净又不误伤"的双目标和 MCP 指标对落地与评测都有实用价值。