EMMA: Concept Erasure Benchmark with Comprehensive Semantic Metrics and Diverse Categories¶

会议: CVPR 2026
arXiv: 2512.17320
代码: https://github.com/lobsterlulu/EMMA
领域: 扩散模型 / AI安全
关键词: 概念擦除, 文本到图像生成, 基准测试, 隐式提示, 偏见评估

一句话总结¶

提出 EMMA 基准，从五个维度（擦除能力、保留能力、效率、质量、偏见）共 12 个指标系统评估 T2I 模型的概念擦除方法，覆盖 206 个概念类别和 5 个领域，首次揭示现有方法在隐式提示下的浅层擦除本质和偏见放大问题。

研究背景与动机¶

领域现状：文本到图像（T2I）生成模型（如 Stable Diffusion）的广泛采用引发了隐私、偏见和版权问题。概念擦除（Concept Erasure）作为一种轻量级解决方案被提出，它通过选择性地从预训练模型中删除不需要的概念（如特定名人脸、NSFW 内容、版权品牌），无需完全重新训练模型。

现有痛点：当前概念擦除方法的评估存在严重不足——(1) 概念覆盖范围窄，多数方法仅在 5-20 个概念上测试；(2) 评测维度单一，主要使用包含目标概念显式名称的直接提示（如"a photo of a dog"）来检验擦除效果；(3) 缺乏对偏见影响的评估。这导致我们无法知道这些方法是否真正从模型表征中删除了目标概念，还是仅仅切断了概念名称与生成结果之间的表面关联。

核心矛盾：现有评估只检测了"是否能用名字生成目标概念"，而忽略了"是否能用间接描述（如描述性文字）来绕过擦除"。实验证明，即使概念名称被成功擦除，模型仍然可以通过描述性提示生成该概念，说明概念的语义表征并未被真正删除。

本文目标：构建一个全面的概念擦除评估基准，回答关键问题——现有评测方法是在检测概念是否真正从模型表征中移除，还是仅仅检测其表面级别的隐藏？

切入角度：设计多层次、多粒度的测试提示（从显式名称到隐式描述），结合视觉相似概念的保留测试和社会偏见分析，构建 5 维度 12 指标的综合评估体系。

核心 idea：通过隐式提示（不使用概念名称的描述性提示）来测试概念是否被真正擦除，同时评测擦除对相似概念的附带损害和对性别/种族偏见的影响。

方法详解¶

整体框架¶

EMMA 由两个核心组成部分构成：(1) 概念与类别体系——覆盖 5 个领域（物体、名人、艺术风格、NSFW、版权）的 206 个概念类别；(2) 评估维度与指标体系——5 个维度（擦除能力、保留能力、效率、质量、偏见）共 12 个指标。对于每个概念×指标组合，EMMA 构建特定的测试提示集，生成图像后用领域特定的分类器检测概念是否出现。

关键设计¶

多层次擦除能力评估（Erasing Ability, EA）:
- 功能：测试概念擦除方法是否真正从模型表征中删除了目标概念
- 核心思路：设计 5 个指标从显式到隐式逐步递进：(a) Name——直接使用概念名称（如"a photo of a dog"）；(b) Prefix——在名称前添加修饰词（如"cutedog"）；(c) Variant——使用同义词和别名（如 kitten 替代 cat）；(d) Short——用简短描述代替名称（如"a loyal companion with a wagging tail"）；(e) Long——用详细描述代替名称。EA 分数计算为 \(S_{EA} = N_{SE} / N_P\)，即成功擦除图像数占总提示数的比例
- 设计动机：如果擦除方法只是切断了"概念名称→生成"的映射，而没有删除概念的语义表征，那么模型仍然可以通过描述性提示生成被擦除的概念。从显式到隐式的递进测试可以揭示擦除的真实深度
视觉相似概念保留测试（Retaining Ability, RA）:
- 功能：测试概念擦除是否对非目标概念（特别是视觉相似的概念）造成附带损害
- 核心思路：分两个指标评估——(a) Random——随机选取同领域的非目标概念，验证模型仍能正常生成；(b) Similar——选取与被擦除概念最相似的 5 个概念（由 ChatGPT 确定），验证擦除是否影响了这些概念的生成。RA 分数为成功保留图像占提示数的比例
- 设计动机：好的擦除方法应该只删除目标概念而不影响其他概念。然而擦除"自行车"后能否仍正常生成"摩托车"？这才是真正的挑战。之前的评估多用完全无关的概念做保留测试（如擦除"猫"后测试"飞机"），过于简单
社会偏见分析（Bias Evaluation）:
- 功能：量化概念擦除对模型性别和种族偏见的影响
- 核心思路：构建中性提示（如"a person"）和属性特定提示（如"a man"/"a woman"/"a Black person"），比较概念擦除前后，中性提示生成的图像更"像"哪个属性组。使用 CLIP 和 SSIM 计算中性图像与各属性组图像的相似度差异 \(B_a^M = \frac{1}{N}\sum_i [f_{sim}(I_n^M(i), I_{ref}^M(i)) - f_{sim}(I_n^M(i), I_a^M(i))]\)
- 设计动机：概念擦除可能无意中改变模型在人物生成上的偏见倾向。如果擦除某个概念后，中性提示更倾向生成特定性别或种族的人物，则说明擦除方法引入了偏见。这在实际部署中不可忽视

损失函数 / 训练策略¶

EMMA 是评测基准，不涉及训练。评估的 5 种概念擦除方法分两类：(1) 概念重映射（MACE、ESD、UCE）：修改交叉注意力权重，将目标概念映射到替代概念；(2) 优化方法（CA、FMN）：通过迭代微调使模型忽略目标概念。

实验关键数据¶

主实验（物体领域，部分数据）¶

方法	Name EA↑	Long EA↑	Random RA↑	Similar RA↑	FID↓
SD v1.4 原始	5.7	23.2	94.4	94.5	42.85
+CA	16.5	21.2	94.4	94.2	45.04
+ESD	89.7	61.7	87.8	74.6	34.81
+UCE	82.6	73.8	93.4	86.0	34.64
+MACE	98.6	70.5	91.6	79.4	43.90

概念擦除方法在名人领域的表现¶

方法	Name EA↑	Short EA↑	Long EA↑	Random RA↑	Similar RA↑
+CA	71.0	90.7	89.2	89.6	87.2
+ESD	96.8	99.2	97.9	78.1	68.6
+UCE	99.7	99.7	99.7	86.6	81.4
+MACE	97.3	97.9	97.6	89.9	89.5

关键发现¶

概念重映射方法全面优于优化方法：ESD、UCE、MACE 在 EA 和 RA 上都大幅领先 CA 和 FMN。FMN 在物体领域的擦除效果几乎等于未擦除的原始模型
隐式提示下擦除效果大幅下降：MACE 在物体领域的 EA 从 Name 的 98.6% 降至 Long 的 70.5%，说明被"擦除"的概念在描述性提示下会重新出现
相似概念保留更困难：所有方法在保留视觉相似概念时表现显著差于保留随机概念，如 MACE 在物体领域的 RA 从 Random 的 91.6% 降至 Similar 的 79.4%
推理效率代价巨大：所有方法的推理时间比原始模型增加 2-10 倍
ESD 一致性地放大性别和种族偏见，FMN 是唯一能缓解偏见的方法（可能因其基础模型 SD 2.1 本身偏见更重）

亮点与洞察¶

隐式提示测试的引入开创性地揭示了概念擦除的浅层本质：这是本文最重要的贡献。证明现有方法只是切断了"名称→生成"的映射而非删除语义表征，这对安全性声明是严重挑战
视觉相似概念的保留测试：比随机概念的保留测试更具挑战性和实用意义。擦除"自行车"后无法生成"摩托车"在实际应用中是不可接受的
偏见评估的系统化引入：首次量化概念擦除对性别/种族偏见的影响，为安全合规部署提供了必要的评估框架

局限与展望¶

视觉相似概念的选择依赖 ChatGPT 的判断，可能遗漏真正具有挑战性的相似概念
偏见放大的根本原因尚不清楚——为什么参数高效的擦除方法会改变模型在人物生成上的偏见倾向
当前仅评测了 SD v1.4/v2.1，未覆盖 SDXL、FLUX 等新一代模型
未来应探索更强的概念擦除方法——能够真正删除概念语义表征而非仅切断名称映射

评分¶

新颖性: ⭐⭐⭐⭐ 隐式提示测试和偏见评估是重要贡献，但基准本身的技术创新相对有限
实验充分度: ⭐⭐⭐⭐⭐ 5个领域×5个维度×12个指标×5种方法，极为全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰、数据翔实、分析深入
价值: ⭐⭐⭐⭐⭐ 对概念擦除领域的评估标准有标杆意义，揭示了重要的安全问题