Concept Replacer: Replacing Sensitive Concepts in Diffusion Models via Precision Localization¶

会议: CVPR 2025
arXiv: 2412.01244
代码: https://github.com/zhang-lingyun/ConceptReplacer
领域: 扩散模型 / AI安全
关键词: 概念擦除, 精确定位, 少样本分割, 双提示交叉注意力, 内容安全

一句话总结¶

提出 Concept Replacer，通过少样本训练的概念定位器精确识别去噪过程中的敏感概念区域，再用训练免费的双提示交叉注意力（DPCA）将定位区域替换为安全内容，实现精确局部概念替换而非全局图像失真。

研究背景与动机¶

领域现状¶

领域现状：扩散模型可能生成不安全内容（裸体、暴力等），现有概念擦除方法（如 SLD、ESD）通过全局修改引导方向或模型权重来抑制敏感概念。

现有痛点：全局方法会影响非目标区域——SLD 降低整体图像质量，ESD 修改权重后可能影响正常生成。这些方法无法精确"只替换"问题区域同时保持其他部分不变。

核心矛盾：需要在去噪过程中精确定位敏感概念的空间位置，同时不增加过多推理开销。

本文目标 实现空间精确的概念替换——仅修改包含敏感概念的区域，其余区域保持原始生成不变。

切入角度：用少样本微调的定位器（复用 U-Net 结构，仅调 attention 的 Wk/Wv）检测概念位置，配合双提示交叉注意力在定位区域用替换 prompt 生成。

核心 idea：少样本概念定位器在去噪前 2-3 步检测敏感区域掩码，DPCA 模块在掩码内外分别用替换 prompt 和原始 prompt 做交叉注意力。

方法详解¶

整体框架¶

两个模块。概念定位器：复用 U-Net 结构，仅微调 Wk/Wv（少样本 1-10 张标注图），融合自注意力和交叉注意力分数输出概念掩码。仅在前 2-3 个去噪步激活。DPCA 模块：训练免费，在每步去噪中对掩码内区域用替换 prompt（如"衣服"）条件做交叉注意力，掩码外用原始 prompt 条件，实现局部替换。

关键设计¶

少样本概念定位器：共享 U-Net 编码器，仅调 Wk/Wv（极低开销），融合 self-attention（空间连贯性）和 cross-attention（概念识别）的注意力图生成掩码。10-shot 在 CelebA 上达 78.1% mIoU
双提示交叉注意力 (DPCA)：掩码内 \(Q \cdot K_{replace}^T\) + 掩码外 \(Q \cdot K_{original}^T\)，训练免费。保证非目标区域完全不受影响
稀疏激活：定位器仅在前 2-3 步运行，因为高噪声步骤的布局信息已足以确定概念位置，之后掩码固定复用

实验关键数据¶

主实验¶

方法	CelebA mIoU (10-shot)↑	Pascal-Car mIoU (10-shot)↑
SegDDPM	78.0%	62.5%
SLiMe	75.7%	68.7%
Concept Replacer	78.1%	69.3%

裸体移除：在 I2P 提示集上取得最高的不安全内容减少比例，同时非目标区域一致性最佳

关键发现¶

定位精度与专用分割模型相当（78.1% vs SegDDPM 78.0%），仅用 10 张标注图
全局方法（SLD、ESD）扭曲整幅图像，本方法仅修改目标区域
1-shot 也能达到 70.2% mIoU，对标注需求极低
在I2P提示集的裸体移除实验中取得最高的不安全内容减少比例，同时非目标区域一致性最佳
定位器仅在前2-3个去噪步运行，计算开销极低且不影响总体推理速度

亮点与洞察¶

精确定位→局部替换的范式比全局擦除更合理——"手术刀"而非"大锤"
DPCA 训练免费设计使方法易于部署
少样本微调仅改 Wk/Wv 参数量极小

局限与展望¶

每个新概念需要重新训练定位器
仅适用于空间可定位的概念，全局风格级概念（如"暴力风格"）无法处理
固定阈值的掩码二值化可能不适合所有概念
当敏感概念与非敏感概念在空间上高度重叠时（如人物手持敏感物品），精确分割和替换的难度显著增加
替换后的图像在语义连贯性上可能存在微妙的不自然之处，特别是在光照和阴影匹配方面
对抗性提示（故意绕过概念检测的提示工程）的鲁棒性未被充分评估
多概念同时替换的场景中，不同概念的掩码可能重叠导致冲突

评分¶

新颖性: ⭐⭐⭐⭐ 定位+替换的分解范式有创新，DPCA 设计简洁
实验充分度: ⭐⭐⭐⭐ 分割+安全生成+多概念验证
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 对 AI 安全内容过滤有直接价值