AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=3y3hnL7KhS
代码: https://github.com/Feng-peng-Li/AEGIS
领域: 图像生成 / 扩散模型安全 / 概念擦除
关键词: 概念擦除, 扩散模型, 对抗提示攻击, 鲁棒性-保留权衡, 梯度投影
一句话总结¶
AEGIS 把概念擦除的"擦除目标"从手挑的固定安全词换成迭代优化、逼近被擦概念语义中心的对抗目标 (AET),再用一个无需保留数据、只在梯度冲突时才投影的梯度校正 (GRP),同时把对抗提示攻击的成功率压到最低、又几乎不损失生成质量。
研究背景与动机¶
领域现状:扩散模型 (DM) 文生图能力强,但训练数据偏差会让模型生成裸露、特定艺术风格、版权对象等不良内容。概念擦除 (concept erasure) 通过微调去噪 UNet 来"删掉"某个概念,已成为获得可靠 DM 的标准手段,主流分为重对齐输出表示的 output-based 和操纵交叉注意力的 attention-based 两类。
现有痛点:概念擦除卡在一个鲁棒性-保留权衡 (robustness-retention trade-off) 上。鲁棒性指被擦概念不会被语义相关或对抗提示重新激活;保留指无关概念的生成质量不受损。现有方法几乎都是顾此失彼——把单个擦除提示映射到固定安全目标(如 "a photo")会留下"类级残留",被对抗提示攻击 (APA) 钻空子;而偏向保留的方案又扛不住自适应对手。
核心矛盾:作者把 DM 看作生成式分类器,预测噪声 \(\epsilon_\theta(z_t\mid c_e)\) 在末步 \(T\) 趋于确定,可视为概念在隐空间的"类原型"。一个概念(如 nudity)和它的同义词(naked/sexual/erotic/impure)会聚成一类 \(C_0\)。问题在于:如果手挑的擦除实例离 \(C_0\) 的语义中心太远,仅最大化该实例前后预测噪声的距离,并不能抹掉整个类的信息——残留信息会在接近语义中心的对抗提示下重新泄漏。而要把整个类彻底擦干净,又需要让 \(\theta\) 偏离 \(\theta_0\) 极大,从而破坏被保留概念。这正是权衡的根源。核心 idea:把擦除目标对齐到语义中心 + 只在真正冲突时做梯度投影。
本文目标:在不依赖额外保留数据集的前提下,同时提升擦除鲁棒性与保留性能,突破现有权衡。
方法详解¶
整体框架¶
AEGIS(Adversarial Erasure with Gradient-Informed Synergy)由两个组件串成一条微调管线:先由 AET 生成 合成一个逼近被擦概念语义中心的对抗擦除目标,给擦除方向指路;再由 GRP 微调 在最小化"擦除概念预测噪声与 AET 目标差距"的同时,用无数据的参数正则 + 方向性梯度校正守住保留性能。总目标写成一个 min-max:
其中 \(c^*\) 是 \(c_e\) 的对抗提示,\(\tilde c\) 的目标噪声由 AET \(c'\) 导出:\(\epsilon_{\theta_0}(z_t\mid\tilde c)=\epsilon_{\theta_0}(z_t)-\eta\big(\epsilon_{\theta_0}(z_t\mid c')-\epsilon_{\theta_0}(z_t)\big)\)。
flowchart LR
A["被擦概念 c_e<br/>(如 nudity)"] --> B["AET 生成<br/>优化 c' 逼近<br/>类语义中心"]
A --> C["对抗提示 c*<br/>(模拟 APA)"]
B --> D["导出擦除目标<br/>ε_θ0(z_t|c̃)"]
C --> E["GRP 微调<br/>min ||ε_θ(z_t|c*)-ε_θ0(z_t|c̃)||²"]
D --> E
E --> F{"梯度冲突?<br/>cosφ<0"}
F -->|是| G["DGR 投影掉<br/>g_r 中与 g_e 对冲的分量"]
F -->|否| H["λ=0 不注入保留约束"]
G --> I["更新 θ<br/>+参数正则 PR"]
H --> I
关键设计¶
1. 对抗擦除目标 AET:让擦除瞄准语义中心而非孤立实例。动机来自一个诊断实验——作者用三类预测噪声距离 (\(d_0\) 衡量基模型内的语义相似度、\(d_1\) 衡量擦除前后偏移、\(d_2\) 衡量微调模型内原始提示与对抗提示的距离)发现:ESD 擦完 nudity 后,对邻近的 naked (\(C_1\)) 拉开了 \(d_1\),但对 sexual/erotic/impure (\(C_2\)) 几乎没动,且所有实例的 \(d_2\) 都很小——这正是对抗提示能高成功率复活概念的原因。据此提出可学习嵌入 \(c'\)(长度 \(m'=1\),随机初始化),迭代更新使其同时远离更新后的预测又贴近原始类中心:
把优化好的 \(c'\) 喂进 ESD 式目标后,\(d_2\) 在整个 \(C_0\) 上一致变大,说明类级信息被真正抹掉。为省算力,借鉴 fast adversarial training,把每轮迭代步数压到 1(仅在每个训练 epoch 更新一次 \(c'\) 与 \(c^*\)),在精度和效率间取平衡。
2. 参数正则 PR:用"贴近原参数"代替保留数据集。保留损失直接写成逐层的参数偏移惩罚 \(L_r=\tfrac{1}{2}\|\theta-\theta_0\|_2^2\),逼模型只在与 \(c_e\) 相关的参数上动手、其余尽量不变。这一招换来两个好处:其一,摆脱对保留数据集的依赖——原始 SD 在海量高多样数据上训成,任何小规模保留集都无法覆盖全部概念,而保留质量又对数据集选择极敏感,参数正则是数据无关的稳健替代;其二,避免概念被无意重学——既然不引入任何保留数据,被擦概念 \(c_e\) 的残留信号就不会被重新带回来。
3. 方向性梯度校正 DGR:只在真冲突时才投影。作者观察到擦除梯度 \(g_e=\nabla_\theta L_e\) 与保留梯度 \(g_r=\nabla_\theta L_r\) 在很多迭代里余弦相似度为负——定义当 \(\cos\phi<0\) 时发生"梯度冲突"。此时 \(g_r\) 含有一个与 \(g_e\) 方向相反的平行分量,会拖累擦除收敛。DGR 的处理很克制:当 \(\cos\phi\ge 0\) 不冲突时直接令 \(\lambda=0\),不注入保留约束以优先擦除;当 \(\cos\phi<0\) 时才把 \(g_r\) 按 \(\tilde g=\lambda g_r,\ \lambda=-\omega\frac{\langle g_e,g_r\rangle}{\|g_r\|_2^2}\) 投影掉对冲分量。其中强度 \(\omega\in[0,1]\) 不是定值而是动态的:微调早期 \(\theta\) 还贴近 \(\theta_0\),应让模型先专注拟合擦除任务,故 \(\omega\) 从 0 起步、随冲突出现按 \(\omega^{(\tau)}=\omega^{(\tau-1)}-\mu\cdot\mathrm{sign}(\nabla\omega^{(\tau)})\) 逐步升到 1,用 sign 抵御梯度噪声。两条定理进一步证明 GRP 既能让擦除损失收敛到驻点(Thm 4.1),又在条件满足时保证投影后的保留损失不劣于不投影(Thm 4.2)。
实验关键数据¶
设置:SD v1.4 / v2.1,Adam,\(\alpha=10^{-5}\),batch=1,微调 UNet 1000 epoch,仅用被擦概念提示 + 自动生成的对抗提示/AET;评估三类概念(nudity 敏感、Van Gogh 风格、Church 对象),三种 APA(P4D=ASR1、UnlearnDiffAtk=ASR2、Ring-A-Bell=ASR3),效用用 FID/CLIP。
主实验表格(擦除 nudity,SD v1.4,节选)¶
| 方法 | ASR1↓ | ASR2↓ | ASR3↓ | FID↓ | CLIP↑ |
|---|---|---|---|---|---|
| SD v1.4 (Base) | 100% | 100% | 83.10% | 16.7 | 0.311 |
| ESD | 87.94% | 73.24% | 69.72% | 18.18 | 0.302 |
| AdvUnlearn | 80.14% | 64.79% | 59.86% | 19.34 | 0.290 |
| SalUn | 19.86% | 11.27% | 7.04% | 33.62 | 0.287 |
| STEREO | 45.77% | 14.08% | 7.04% | 18.27 | 0.286 |
| AEGIS | 12.06% | 8.45% | 3.52% | 17.43 | 0.303 |
AEGIS 三种攻击的 ASR 全面最低,FID 比强基线 SalUn 改善 16.09,CLIP 维持在 0.303 的高水位。Van Gogh 风格上 ASR2 仅 12%(AdvUnlearn 38%、ESD 36%);Church 对象上 ASR2 仅 6%、FID 19.06 远好于同等鲁棒的 SH(FID 68.02 已崩)。SD v2.1 上 AEGIS 仍领先(nudity ASR2 26.76% vs 次优 58.45%)。
消融实验表格(擦除 nudity,UnlearnDiffAtk 的 ASR)¶
| 变体 | ASR↓ | FID↓ | CLIP↑ |
|---|---|---|---|
| ESD | 73.24% | 18.18 | 0.302 |
| AdvUnlearn | 64.79% | 19.34 | 0.290 |
| AEGIS w/o AET | 52.11% | 17.54 | 0.305 |
| AEGIS w/o PR | 9.93% | 18.15 | 0.295 |
| AEGIS w/o DGR | 26.24% | 19.84 | 0.284 |
| AEGIS (ω=1 固定) | 14.08% | 17.31 | 0.308 |
| AEGIS | 8.45% | 17.43 | 0.305 |
关键发现¶
- AET 是鲁棒性主引擎:去掉 AET 后 ASR 从 8.45% 飙到 52.11%(涨 65.96 个百分点),印证"瞄准语义中心"才是抹掉类级残留的关键。
- PR 替代保留数据有效:w/o PR 改用 COCO Object 做保留集,FID/CLIP 反而掉 0.72/0.01,说明小规模保留集不如数据无关的参数正则。
- DGR 化解冲突:去掉 DGR 后 ASR 升到 26.24%、FID 也变差 2.41,证明方向性投影确实在平衡擦除与保留。
- 动态 ω 优于固定:固定 \(\omega=1\) 时 ASR 升 5.46 个百分点,渐进升 \(\omega\) 才能取得更好的鲁棒-保留平衡。
亮点与洞察¶
- 重新定位了脆弱性的根因:把"擦不干净"归因于"学习目标选错位置"——目标离类语义中心太近/太远都会留残留,这个诊断框架(\(d_0/d_1/d_2\) + 生成式分类器视角)本身就有解释价值。
- 保留无需数据:用参数空间的 \(\|\theta-\theta_0\|^2\) 正则取代保留数据集,既避开数据偏差又防止概念被重学,是一个干净的工程取舍。
- "克制"的梯度处理:DGR 不无脑投影,而是只在冲突时动手、且早期弱后期强,配合两条收敛/保留定理,让方法既有直觉又有理论背书。
局限与展望¶
- 绝对鲁棒性仍有限:nudity 上 ASR 虽降到个位数但非 0,敏感概念在实战中仍可能被更强自适应攻击突破。
- 跨模型迁移性下降:SD v2.1(OpenCLIP 文本编码器、不同数据)上所有方法擦除效果普遍下滑,作者归因于更纠缠的概念表示,说明方法对底模架构敏感。
- 概念粒度与组合:实验集中在单概念(nudity/Van Gogh/Church),多概念同时擦除、概念组合泄漏尚未充分验证。
- 作者展望发展更定制化的擦除方案,在更强鲁棒下进一步减小对保留的副作用。
相关工作与启发¶
- 对比 ESD/AdvUnlearn:ESD 用固定安全目标、AdvUnlearn 把对抗提示塞进目标,两者都受困于权衡;AEGIS 的差异在于"优化目标本身"+"按需投影梯度"。
- 借鉴 adversarial training:AET/对抗提示的 sign 梯度更新与 fast adversarial training 一脉相承,把对抗鲁棒性思想迁移到擦除目标合成。
- 启发:把生成模型当分类器、用预测噪声距离刻画概念在隐空间的位置,这套诊断视角可迁移到其他"删除/编辑模型知识"的任务(如 LLM unlearning);"只在梯度冲突时投影"的思路也可用于多目标微调的通用冲突缓解。
评分¶
- 新颖性: ⭐⭐⭐⭐ — "擦除目标决定鲁棒性"的诊断 + AET 逼近语义中心 + 按需梯度投影,组合新颖且切中权衡根因。
- 实验充分度: ⭐⭐⭐⭐ — 三类概念 ×三种 APA ×两个底模、12 个基线、完整消融与两条定理,覆盖扎实;多概念组合与更强自适应攻击可再补。
- 写作质量: ⭐⭐⭐⭐ — 动机诊断(\(d_0/d_1/d_2\))层层递进,方法与定理衔接清晰,图表充分。
- 价值: ⭐⭐⭐⭐ — 直击 T2I 安全落地的核心痛点,无保留数据 + 强鲁棒的组合有实用价值,代码开源。