跳转至

D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples

会议: ICML 2025
arXiv: 2505.22002
代码: https://github.com/hu-zijing/D-Fusion
领域: LLM对齐/RLHF
关键词: 扩散模型, DPO, 视觉一致性, 自注意力融合, 文本-图像对齐

一句话总结

本文提出 D-Fusion 方法,通过 mask 引导的自注意力融合(Self-Attention Fusion)构建视觉一致的偏好数据对并保留去噪轨迹,解决了 DPO 训练扩散模型时因视觉不一致导致效果受限的问题,在多种 RL 算法和 prompt 类型上显著提升了 prompt-image 对齐质量。

研究背景与动机

领域现状:扩散模型在文本到图像生成中取得了显著成功,但生成图像与文本 prompt 之间的对齐问题(misalignment)仍然严重,限制了实际应用。

现有痛点:近期研究将 DPO 引入扩散模型来增强对齐,但效果有限。核心原因在于 DPO 训练数据中存在视觉不一致问题:从不同噪声去噪得到的 high-preference 和 low-preference 图像在结构、风格、外观上差异巨大,模型难以分辨哪些因素与对齐正相关。

核心矛盾:在语言模型的 RLHF 中,可以对 token 级别做精细编辑得到一致的训练对;但在扩散模型中,手动编辑操作在像素级别进行,会丢失逐时间步的去噪轨迹,导致编辑后的图像无法用于 RL 训练。

本文要解决的问题:如何生成既视觉一致保留去噪轨迹的 RL 可训练图像对?

切入角度:利用扩散模型 U-Net 中的自注意力机制,在去噪过程中逐步进行注意力融合,既保证生成图像与原始低偏好图的视觉一致性,又自然地保留了完整的去噪轨迹。

核心 idea:通过 cross-attention mask 定位对齐相关区域,在自注意力层将高偏好样本的对齐信息融合到低偏好样本中,生成可直接用于 DPO 训练的视觉一致样本。

方法详解

整体框架

D-Fusion 分为两个阶段:(1)采样阶段,通过 mask 引导的自注意力融合生成与 base image 视觉一致、与 reference image 同样对齐的 target image;(2)训练阶段,收集融合过程中的中间状态形成去噪轨迹,供 DPO/DDPO/DPOK 等 RL 算法训练。

关键设计

  1. Cross-Attention Mask 提取:

    • 功能:从 reference image(高偏好图像)的去噪过程中自动提取与对齐相关的区域 mask
    • 核心思路:利用 cross-attention map 中 prompt 关键词对应的注意力分布来定位图像中与对齐相关的目标区域
    • 设计动机:手动标注 mask 成本高且不可扩展,cross-attention map 天然反映了 prompt 中各词与图像区域的对应关系,可自动化提取
  2. Self-Attention Fusion(自注意力融合):

    • 功能:在去噪过程的每个时间步,将 reference image 的自注意力特征在 mask 区域内融合到 base image 中
    • 核心思路:self-attention 控制图像的结构和风格,在对齐相关区域替换 self-attention 特征可以传递对齐信息,同时在非 mask 区域保持 base image 的原有外观
    • 设计动机:与直接像素编辑不同,self-attention fusion 是在去噪过程中逐步进行的,因此自然保留了完整的去噪轨迹
    • 与之前方法的区别:Prompt-to-Prompt 等方法是在不同 prompt 间转换图像,而 D-Fusion 是在同一 prompt 下将对齐信息从一张图迁移到另一张图
  3. 去噪轨迹保留与 RL 训练:

    • 功能:收集融合过程中每个时间步的中间噪声状态,组合形成 target image 的完整去噪轨迹
    • 核心思路:由于融合是逐时间步进行的,每一步的 (state, action) 对自然形成了 MDP 轨迹
    • 设计动机:DPO/PPO 等 RL 算法需要访问去噪轨迹来计算策略梯度,手动编辑得到的图像缺乏这些轨迹信息

损失函数 / 训练策略

  • 采用标准的 Diffusion-DPO 损失函数,以 base image 为 low-preference、target image 为 high-preference 进行训练
  • D-Fusion 作为数据构建方法,兼容 DPO、DDPO、DPOK 等多种 RL 算法
  • DPO 训练中的偏好对由 (base image, target image) 构成,通过 CLIP 等评估器确定偏好顺序
  • 在 DDPO 和 DPOK 中,target image 的去噪轨迹直接作为策略优化的正样本轨迹
  • 训练时使用共享随机噪声确保 base image 和 target image 的视觉一致性
  • 融合操作仅在采样阶段应用,训练阶段使用标准 RL 算法,不增加额外的训练成本

实验关键数据

主实验

Prompt 类型 指标 SD + DPO SD + D-Fusion(DPO) 提升
物体行为 CLIP Score 较低 显著提升 明显
物体属性 CLIP Score 较低 显著提升 明显
位置关系 CLIP Score 较低 显著提升 明显

不同 RL 算法兼容性

RL 算法 无 D-Fusion 有 D-Fusion 说明
DPO 基准 提升 所有 prompt 类型均有效
DDPO 基准 提升 兼容策略梯度方法
DPOK 基准 提升 兼容混合方法

关键发现

  • 视觉一致的训练对相比传统随机采样的训练对,显著提升了 DPO 在扩散模型上的效果
  • D-Fusion 生成的 target image 不仅与 base image 视觉一致,而且与 reference image 具有同等对齐质量
  • 方法对三种 prompt 类型(行为、属性、位置关系)均有效,说明了方法的通用性
  • D-Fusion 可以与多种 RL 算法无缝结合,不限于 DPO
  • 消融实验表明 mask 引导对融合质量至关重要——无 mask 的全图融合会破坏视觉一致性
  • 融合时间步的选择也影响效果:早期时间步融合更多影响全局结构,后期影响细节

亮点与洞察

  • 首次明确指出扩散模型 DPO 训练中视觉不一致的核心问题,为该领域研究提供了新的视角
  • 巧妙利用 self-attention 特性实现了"既融合对齐信息,又保留去噪轨迹"的两难目标
  • 方法通用性强,可作为数据增强模块插入到任何 RL-based 扩散模型微调流程中
  • 从语言模型 RLHF 的 token-level 精细化训练获得启发,类比创立了扩散模型的"fine-grained"一致性训练

局限与展望

  • 论文主要在 Stable Diffusion 上验证,尚未推广到 SDXL、DiT 等更先进的扩散架构
  • Mask 提取依赖于 cross-attention map 的质量,对某些复杂 prompt 可能不够精确
  • 自注意力融合的计算开销比普通采样更大,可能影响训练效率
  • 缓存文件较短(118行),论文中的具体数值实验细节未完全获取
  • 未来可以探索在 attention 以外的模块进行融合,如 ResNet blocks
  • 可探索自适应 mask 策略,根据 prompt 复杂度动态调整融合区域大小

相关工作与启发

  • 与 Prompt-to-Prompt、Plug-and-Play 等注意力控制方法有技术关联,但目标不同(本文做对齐,它们做编辑)
  • 受语言模型 RLHF 中句子级→token 级迁移的启发,类似思想迁移到图像的像素级→注意力级
  • 为扩散模型对齐研究开辟了"数据一致性"这一新方向
  • 与 Imagic、InstructPix2Pix 等图像编辑方法的区别在于:D-Fusion 保留了完整去噪轨迹
  • 对偏好学习中数据质量的重要性提供了新的实证支持

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐