AdaEraser: Training-Free Object Removal via Adaptive Attention Suppression¶
会议: ICML 2026
arXiv: 2605.15921
代码: 无
领域: 图像生成 / 扩散图像编辑
关键词: 目标移除, 训练无关编辑, 自注意力抑制, 扩散模型, 图像修复
一句话总结¶
AdaEraser 用“目标残留程度”自适应调节扩散模型 self-attention 抑制强度,在不训练新模型的情况下同时提升目标删除完整性和背景重建质量,并在 Mulan 与 OABench 上超过训练式和 training-free object removal 方法。
研究背景与动机¶
领域现状:扩散模型已经成为图像生成和编辑的主流基础模型。目标移除通常被视为 inpainting 的特殊形式:用户给出图像和 mask,模型要删除 mask 内目标,同时让空洞区域与周围背景自然衔接。
现有痛点:训练式 object removal 方法依赖专门数据集、adapter 或微调,成本较高;training-free 方法则尝试直接利用预训练扩散模型的 generative prior。近期强方法如 AttentiveEraser 会在 self-attention 中阻断图像 token 对目标区域 token 的注意力,能删掉目标,但容易破坏 mask 内背景生成,因为背景修复本身也需要区域内外的全局 self-attention。
核心矛盾:目标移除同时包含两个目标:压制目标概念、恢复合理背景。强抑制有利于删除目标,却会让背景缺少上下文;弱抑制保留生成能力,却可能让目标残留。固定强度或整块区域统一抑制都难以处理不同 token、不同 timestep、不同 layer 的变化。
本文目标:设计一个无需训练的自适应 self-attention 调制方法,在目标仍然明显时强抑制,在目标逐渐消失后放松抑制,让预训练扩散模型重新发挥背景生成能力。
切入角度:作者观察到,目标区域 token 的 self-attention map 会随着 denoising 逐步反映语义内容;同一 token 在原图参考分支和移除分支中的 attention map 相似度,与该 token 对应目标概念是否仍存在高度相关。
核心 idea:用原图参考 attention map 和当前移除过程 attention map 的 token-wise cosine similarity 作为 presence score,再把 \(1-p(i)\) 转成每个 key token 的 adaptive suppression coefficient。
方法详解¶
AdaEraser 不改变扩散模型参数,也不训练额外网络。它在每个 denoising step 同时跑一个 source reference 分支和一个 target removal 分支:source 分支把原图 latent 加到同一噪声级别后过一次 denoising network,用来得到参考 self-attention map;target 分支则执行目标移除。两个分支的 attention map 在同一 timestep、同一 layer、同一 token 上比较,从而估计目标残留。
整体框架¶
给定源图 \(I^{src}\) 和目标 mask \(M\),先用 VAE encoder 得到 latent \(x_0^{src}\)。对每个 timestep \(t\),source 分支构造 \(x_t^{src}=\sqrt{\bar\alpha_t}x_0^{src}+\sqrt{1-\bar\alpha_t}\epsilon\),并用 denoising network 提取 self-attention maps \(SA^{src}_{t,l}\)。target 分支从加噪源图初始化,得到当前 \(x_t^{tgt}\),通过同一个 denoising network 得到 \(SA^{tgt}_{t,l}\)。
对 mask 内每个 token \(i\),方法计算 \(p(i)=Sim(SA^{tgt}_{t,l}(i),SA^{src}_{t,l}(i))\)。如果 target 分支的 attention map 仍像原图中的目标 token,说明目标概念残留较强;如果相似度下降,说明该位置更像背景或新内容。随后令 \(\eta(i)=1-p(i)\),并把它乘到 self-attention softmax 的 key token 权重上。最后,方法沿用 foreground-background blending,用 mask 保留非编辑区域的一致性。
关键设计¶
-
同噪声级参考 attention map:
- 功能:为每个 timestep 提供可比较的“目标仍存在时 attention 应该长什么样”的参考。
- 核心思路:不是做完整 DDIM inversion,也不是只取固定噪声层,而是在每个 timestep 用同一噪声级别的 source latent 过 denoising network,提取 \(SA^{src}_{t,l}\)。
- 设计动机:attention map 与噪声强度强相关。若参考噪声级别不对,presence score 会混入噪声尺度差异;同噪声级比较能更稳定地反映语义残留。
-
token-wise presence score:
- 功能:细粒度估计 mask 内不同 token 的目标残留程度。
- 核心思路:对 mask 内 token \(i\),把 target attention map 与 source attention map flatten 后计算 cosine similarity。这个分数不声称是严格语义概率,而是一个控制用的相对指标。
- 设计动机:同一目标内部不同局部结构关注的区域不同,例如头部、身体和尾部 token 的 self-attention pattern 不一样。区域平均会抹掉这种差异,token-wise 方式更适合局部自适应。
-
adaptive self-attention suppression:
- 功能:在目标残留强时抑制目标 token,被删除后恢复更多生成能力。
- 核心思路:对 mask 内 key token 用 \(\eta(i)=1-p(i)\),其他 token 用 \(\eta(i)=1\),再把 attention 改成 \(\widetilde{SA}(i)=\eta(i)\exp(QK_i^\top/\sqrt d)/\sum_j\eta(j)\exp(QK_j^\top/\sqrt d)\)。
- 设计动机:这相当于给目标相关 key 加一个单调 logit bias。相比 AttentiveEraser 的强阻断,它能在删除目标和背景重建之间动态折中。
损失函数 / 训练策略¶
AdaEraser 是 training-free 方法,没有额外训练损失。推理时使用预训练 text-to-image diffusion model 的 VAE、denoising UNet 和 decoder。论文主实验使用 SDXL 作为 backbone,空 prompt 作为文本条件。额外开销来自 source/target 两个 latent 的并行 denoising 和 presence score 计算,作者通过 concatenate 并行处理,使开销相对 AttentiveEraser 维持在约 15% 内。
实验关键数据¶
主实验¶
论文在 Mulan 和 OABench 两个 object removal benchmark 上比较训练式与 training-free 方法。AdaEraser 在 FID、LPIPS、PSNR、ReMOVE、CFD 和人类排序 AHR 上都取得最好或最优结果。
| 方法 | 是否训练 | Mulan FID↓ | Mulan PSNR↑ | Mulan ReMOVE↑ | Mulan AHR↑ | OABench FID↓ | OABench PSNR↑ | OABench ReMOVE↑ | OABench AHR↑ |
|---|---|---|---|---|---|---|---|---|---|
| AttentiveEraser | 否 | 54.040 | 22.7771 | 0.9000 | 5.46 | 40.373 | 23.2670 | 0.8215 | 5.43 |
| RORem | 是 | 53.470 | 23.5275 | 0.9048 | 6.22 | 39.215 | 23.4126 | 0.8281 | 6.23 |
| OmniPaint | 是 | 59.996 | 21.4493 | 0.8706 | 5.07 | 38.903 | 22.9257 | 0.7991 | 4.59 |
| AdaEraser | 否 | 51.108 | 23.5871 | 0.9065 | 7.08 | 38.472 | 23.5047 | 0.8316 | 6.81 |
消融实验¶
核心消融围绕 suppression strategy 和 reference selection。结果说明 token-wise 自适应和同 timestep reference 都是必要设计。
| 配置 | FID↓ | PSNR↑ | ReMOVE↑ | CFD↓ | 说明 |
|---|---|---|---|---|---|
| Timestep-based suppression | 38.831 | 23.4697 | 0.8263 | 0.2517 | 只按时间线性衰减,缺少语义感知 |
| Region-based suppression | 38.945 | 23.4674 | 0.8261 | 0.2499 | 整个 mask 一个分数,缺少 token 细粒度 |
| Token-wise suppression | 38.472 | 23.5047 | 0.8316 | 0.2450 | 本文方法,指标最好 |
| Reference \(x_1^{src}\) | 38.595 | 23.4262 | 0.8223 | 0.2658 | 固定低噪声参考不如逐步对齐 |
| Reference \(x_T^{src}\) | 38.829 | 23.4808 | 0.8241 | 0.2507 | 固定高噪声参考不稳定 |
| Reference \(x_{T/2}^{src}\) | 38.713 | 23.4872 | 0.8262 | 0.2514 | 中等噪声参考仍不如同 timestep |
| Reference \(x_t^{src}\) | 38.472 | 23.5047 | 0.8316 | 0.2450 | 噪声级对齐带来最好 presence score |
关键发现¶
- AdaEraser 的优势不是来自新训练数据,而是更好地使用预训练扩散模型内部 self-attention 动态。
- 对比 AttentiveEraser,AdaEraser 的推理时间从 13.98s 增到 15.41s,显存从 7966 MiB 到 9014 MiB,代价相对有限。
- presence score 在 timestep 上逐步下降,且不同 layer/token 有不同下降模式,这支持 token-wise adaptive 而不是全局 schedule。
- 方法对略松的 mask 较鲁棒,但 incomplete mask 会让物体阴影、反射或未覆盖部位残留。
亮点与洞察¶
- 这篇论文抓住了 object removal 的真实矛盾:不是越抑制越好,而是要在目标还存在时抑制、目标消失后放手让背景生成。
- 用 self-attention map 相似度做代理信号很巧妙,因为 Softmax 后的 attention map 在不同分支之间可比较,比直接检测 noisy latent 里的物体更稳定。
- token-wise 设计避免了 mask 内“一刀切”。对大物体、多部件物体或局部纹理复杂场景,这一点尤其重要。
- 附录给出的 KL-regularized interpretation 让 attention reweighting 不只是工程 trick,而可以理解为一种带语义惩罚的 attention 分布调整。
局限与展望¶
- presence score 是 heuristic proxy,不是严格语义概率。在相似纹理、重复背景或多个同类物体重叠时,attention 相似度可能不够区分目标与背景。
- 方法依赖 mask 质量。mask 漏掉阴影、反射或物体边缘时,AdaEraser 只能处理被明确标出的区域。
- 高度蒸馏的少步扩散模型上效果下降,因为方法依赖多步 denoising 中 attention 动态的逐渐演化。
- 未来可以结合自动 mask 扩展、结构约束或 scene-level prior,改善复杂结构背景恢复和 under-masked 情况。
相关工作与启发¶
- vs AttentiveEraser: AttentiveEraser 强行阻断目标区域 attention,删得干净但容易让背景失真;AdaEraser 根据残留动态调节强度,背景质量更好。
- vs RORem / SmartEraser 等训练式方法: 这些方法依赖专门数据和训练;AdaEraser 不训练也能超过它们,说明预训练扩散模型中已有足够 object/background prior。
- vs text-driven suppression: 仅操纵 cross-attention 或 text embedding 对小目标、多个相似目标不稳定;本文直接看 image token self-attention,定位更细。
- 启发: 对 training-free diffusion editing,内部 attention 的时间演化可以作为控制信号,不一定需要额外分类器或分割器。
评分¶
- 新颖性: ⭐⭐⭐⭐ 用 token-wise attention similarity 做 adaptive suppression,设计简洁有效。
- 实验充分度: ⭐⭐⭐⭐⭐ 指标、用户研究、消融、效率、mask 质量和跨 backbone 分析都较完整。
- 写作质量: ⭐⭐⭐⭐ 动机和图示清楚,理论附录是解释性而非严格保证,主文表格较密。
- 价值: ⭐⭐⭐⭐⭐ 对 training-free 图像编辑和扩散模型 attention 控制很有实用价值。