Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models¶
会议: ECCV 2024
arXiv: 2403.11105
领域: 图像生成
一句话总结¶
提出SPDInv——一种源提示解耦反演方法,通过将反演过程建模为不动点搜索问题并利用预训练扩散模型求解,使反演噪声码与源提示解耦,显著提升基于文本驱动的图像编辑质量。
研究背景与动机¶
- 文本驱动图像编辑的核心管线:给定源图像 → 通过反演得到潜在噪声码 → 使用目标提示编辑
- DDIM反演是最常用的方法,但存在根本缺陷:反演噪声码与源提示紧密耦合
- 现有改进方法(NTI、NPI、DirectInv等)均聚焦于缩小重建误差 \(D_{Rec}\),却忽略了噪声误差 \(D_{Noi}\)
- 源提示耦合的噪声码在被目标提示编辑时产生冲突,导致编辑伪影和内容不一致
- 关键洞察:理想的反演应满足不动点约束 \(z_t = C_{t,1} \cdot z_{t-1} + C_{t,2} \cdot \epsilon_\theta(z_t, t, c)\),但DDIM反演用 \((z_{t-1}, t-1)\) 替代了 \((z_t, t)\) 作为网络输入,引入了源提示先验
方法详解¶
整体框架¶
SPDInv的核心思想:最小化噪声误差 \(D_{Noi}\)(而非重建误差 \(D_{Rec}\)),使反演噪声码尽可能独立于源提示。
- 用标准DDIM反演获取初始近似 \(z_t\)
- 在每个反演步骤中,将不动点约束转化为优化问题
- 利用预训练扩散模型的梯度下降求解
关键设计¶
1. 不动点约束分析
理想反演方程(Eq.1)要求网络输入为 \((z_t, t)\),但DDIM反演实际使用 \((z_{t-1}, t-1)\)。由于 \(z_{t-1}\) 是由源提示条件去噪 \(z_t\) 得到的,这导致源提示信息被注入到 \(z_t\) 中。
将理想反演转化为不动点问题: $\(x = f_\theta(x), \quad x = z_t, \quad f_\theta(x) = C_{t,2} \cdot \epsilon_\theta(x, t, c) + C_{t,1} \cdot z_{t-1}\)$
2. 基于梯度下降的不动点搜索
- 不同于AIDI的固定轮次迭代(不稳定且次优),SPDInv将不动点约束重写为损失函数: $\(L = \|f_\theta(z_t) - z_t\|_2\)$
- 利用预训练扩散模型(固定参数)通过梯度下降优化 \(z_t\): $\(z_t := z_t - \eta \nabla L\)$
- 引入阈值 \(\delta\) 控制提前终止:早期反演步骤需要更多优化轮次,后期(\(t > T/2\))几轮即可收敛
3. 扩展到定制化图像生成
将SPDInv集成到ELITE等定制化图像生成方法中: 1. 将给定图像通过ELITE转换为文本嵌入空间("S") 2. 使用SPDInv反演图像得到噪声码(保持布局和背景) 3. 用新文本提示(如"a white S")生成编辑结果
损失函数¶
每个反演步骤的优化目标: $\(\arg\min_{z_t} L = \|f_\theta(z_t) - z_t\|_2\)$
其中 \(f_\theta(z_t) = C_{t,2} \cdot \epsilon_\theta(z_t, t, c) + C_{t,1} \cdot z_{t-1}\),预训练网络参数固定,仅更新潜在特征 \(z_t\)。
实验关键数据¶
主实验¶
在PIE-Bench上不同反演方法在三种编辑引擎下的对比:
| 反演方法 | 编辑引擎 | DINO↓(×10³) | PSNR↑ | LPIPS↓(×10³) | MSE↓(×10⁴) | SSIM↑(×10²) | CLIP↑ | 时间(s) |
|---|---|---|---|---|---|---|---|---|
| DDIM | P2P | 69.43 | 17.87 | 208.80 | 219.88 | 71.14 | 25.01 | 11.55 |
| NTI | P2P | 13.44 | 27.03 | 60.67 | 35.86 | 84.11 | 24.75 | 137.54 |
| DirectINV | P2P | 11.65 | 27.22 | 54.55 | 32.86 | 84.76 | 25.02 | 19.94 |
| AIDI | P2P | 12.16 | 27.01 | 56.39 | 36.90 | 84.27 | 24.92 | 87.21 |
| SPDInv | P2P | 8.81 | 28.60 | 36.01 | 24.54 | 86.23 | 25.26 | 27.04 |
| DDIM | MasaCtrl | 28.38 | 22.17 | 106.62 | 86.97 | 79.67 | 23.96 | 11.55 |
| DirectINV | MasaCtrl | 24.70 | 22.64 | 87.94 | 81.09 | 81.33 | 24.38 | 19.94 |
| SPDInv | MasaCtrl | 20.48 | 24.12 | 71.74 | 64.77 | 82.54 | 24.61 | 27.04 |
| DDIM | PNP | 28.22 | 22.28 | 113.33 | 83.51 | 79.00 | 24.95 | 11.55 |
| SPDInv | PNP | 15.58 | 26.72 | 91.55 | 34.69 | 82.04 | 25.14 | 27.04 |
相比第二优方法,SPDInv在P2P引擎下:DINO提升24%、LPIPS降低21%、MSE降低13%。
消融实验¶
超参数对性能的影响(PIE-Bench子集):
| 超参数 | DINO↓(×10³) | PSNR↑ | LPIPS↓(×10³) | MSE↓(×10⁴) | SSIM↑(×10²) | CLIP↑ |
|---|---|---|---|---|---|---|
| K=5 | 8.52 | 31.49 | 22.31 | 10.42 | 90.21 | 26.70 |
| K=25 | 8.43 | 31.61 | 21.70 | 10.12 | 90.28 | — |
| K=50 | 更优 | 更优 | 更优 | 更优 | 更优 | 略降 |
| δ=5e-4 | 较差 | 较差 | 较差 | 较差 | 较差 | — |
| δ=5e-6 | 最优 | 最优 | 最优 | 最优 | 最优 | — |
| η=0.005 | 略差 | 略差 | 略差 | 略差 | 略差 | 略升 |
| η=0.001 | 最优 | 最优 | 最优 | 最优 | 最优 | — |
定制化图像编辑结果(SPDInv-ELITE vs原始ELITE):
| 方法 | DINO↓(×10³) | PSNR↑ | LPIPS↓(×10³) | MSE↓(×10⁴) | SSIM↑(×10²) | CLIP↑ |
|---|---|---|---|---|---|---|
| ELITE(原始) | 148.37 | 14.83 | 201.94 | 359.58 | 67.62 | 15.72 |
| BlendDM | 59.21 | 15.51 | 244.07 | 306.75 | 67.45 | 20.21 |
| InstructP2P | 155.49 | 18.19 | 161.20 | 362.01 | 78.05 | 20.06 |
| SPDInv-ELITE | 21.23 | 24.14 | 74.36 | 48.73 | 88.90 | 19.18 |
SPDInv-ELITE相比原始ELITE:DINO提升85%、PSNR提升62%、MSE降低86%。
关键发现¶
- 不动点搜索方法(SPDInv)显著优于直接迭代(AIDI),验证了基于梯度的搜索策略的有效性
- 反演过程前期(\(t < T/2\))需要更多优化轮次来满足不动点约束,后期收敛极快
- SPDInv是即插即用的:仅需修改约10行代码即可集成到现有编辑管线
- 在三种不同编辑引擎(P2P、MasaCtrl、PNP)下均表现一致优势,证明了方法的通用性
亮点与洞察¶
- 问题定义精准:从"重建误差"转向"噪声误差"的思路转变是这篇论文最大的洞察
- 理论推导简洁有力:从理想反演到不动点约束再到优化问题,逻辑链完整
- 极高的工程实用性:10行代码修改、支持多种编辑引擎、可扩展到定制化生成
- 反演时间(27秒)远低于NTI(138秒)和AIDI(87秒),同时效果最好
- 将定制化生成方法(如ELITE)赋予局部编辑能力的扩展方向很有价值
局限性¶
- 基于Stable Diffusion v1.4,对更新版本的模型(如SD-XL、SD3)的兼容性未验证
- 每个反演步骤可能需要最多K=25次前向传播,对于需要实时编辑的场景仍有开销
- 不动点搜索的收敛性缺乏严格的理论保证,依赖经验设置的超参数
- 对于极大幅度的编辑(如完全改变场景),源提示解耦的效果有待验证
评分¶
- 创新性: ⭐⭐⭐⭐⭐ — 从噪声误差out发重新定义问题,不动点搜索思路新颖
- 实用性: ⭐⭐⭐⭐⭐ — 即插即用、10行代码、多引擎兼容、可扩展
- 实验充分性: ⭐⭐⭐⭐⭐ — 三种引擎×两种基准数据集、充分消融、定制化编辑扩展
- 写作质量: ⭐⭐⭐⭐ — 动机阐述清晰,但公式符号较多,部分推导可更简洁