D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples¶

会议: ICML 2025
arXiv: 2505.22002
代码: https://github.com/hu-zijing/D-Fusion
领域: LLM对齐/RLHF
关键词: 扩散模型, DPO, 视觉一致性, 自注意力融合, 文本-图像对齐

一句话总结¶

本文提出 D-Fusion 方法，通过 mask 引导的自注意力融合（Self-Attention Fusion）构建视觉一致的偏好数据对并保留去噪轨迹，解决了 DPO 训练扩散模型时因视觉不一致导致效果受限的问题，在多种 RL 算法和 prompt 类型上显著提升了 prompt-image 对齐质量。

研究背景与动机¶

领域现状：扩散模型在文本到图像生成中取得了显著成功，但生成图像与文本 prompt 之间的对齐问题（misalignment）仍然严重，限制了实际应用。

现有痛点：近期研究将 DPO 引入扩散模型来增强对齐，但效果有限。核心原因在于 DPO 训练数据中存在视觉不一致问题：从不同噪声去噪得到的 high-preference 和 low-preference 图像在结构、风格、外观上差异巨大，模型难以分辨哪些因素与对齐正相关。

核心矛盾：在语言模型的 RLHF 中，可以对 token 级别做精细编辑得到一致的训练对；但在扩散模型中，手动编辑操作在像素级别进行，会丢失逐时间步的去噪轨迹，导致编辑后的图像无法用于 RL 训练。

本文要解决的问题：如何生成既视觉一致又保留去噪轨迹的 RL 可训练图像对？

切入角度：利用扩散模型 U-Net 中的自注意力机制，在去噪过程中逐步进行注意力融合，既保证生成图像与原始低偏好图的视觉一致性，又自然地保留了完整的去噪轨迹。

核心 idea：通过 cross-attention mask 定位对齐相关区域，在自注意力层将高偏好样本的对齐信息融合到低偏好样本中，生成可直接用于 DPO 训练的视觉一致样本。

方法详解¶

整体框架¶

D-Fusion 分为两个阶段：（1）采样阶段，通过 mask 引导的自注意力融合生成与 base image 视觉一致、与 reference image 同样对齐的 target image；（2）训练阶段，收集融合过程中的中间状态形成去噪轨迹，供 DPO/DDPO/DPOK 等 RL 算法训练。

关键设计¶

Cross-Attention Mask 提取:
- 功能：从 reference image（高偏好图像）的去噪过程中自动提取与对齐相关的区域 mask
- 核心思路：利用 cross-attention map 中 prompt 关键词对应的注意力分布来定位图像中与对齐相关的目标区域
- 设计动机：手动标注 mask 成本高且不可扩展，cross-attention map 天然反映了 prompt 中各词与图像区域的对应关系，可自动化提取
Self-Attention Fusion（自注意力融合）:
- 功能：在去噪过程的每个时间步，将 reference image 的自注意力特征在 mask 区域内融合到 base image 中
- 核心思路：self-attention 控制图像的结构和风格，在对齐相关区域替换 self-attention 特征可以传递对齐信息，同时在非 mask 区域保持 base image 的原有外观
- 设计动机：与直接像素编辑不同，self-attention fusion 是在去噪过程中逐步进行的，因此自然保留了完整的去噪轨迹
- 与之前方法的区别：Prompt-to-Prompt 等方法是在不同 prompt 间转换图像，而 D-Fusion 是在同一 prompt 下将对齐信息从一张图迁移到另一张图
去噪轨迹保留与 RL 训练:
- 功能：收集融合过程中每个时间步的中间噪声状态，组合形成 target image 的完整去噪轨迹
- 核心思路：由于融合是逐时间步进行的，每一步的 (state, action) 对自然形成了 MDP 轨迹
- 设计动机：DPO/PPO 等 RL 算法需要访问去噪轨迹来计算策略梯度，手动编辑得到的图像缺乏这些轨迹信息

损失函数 / 训练策略¶

采用标准的 Diffusion-DPO 损失函数，以 base image 为 low-preference、target image 为 high-preference 进行训练
D-Fusion 作为数据构建方法，兼容 DPO、DDPO、DPOK 等多种 RL 算法
DPO 训练中的偏好对由 (base image, target image) 构成，通过 CLIP 等评估器确定偏好顺序
在 DDPO 和 DPOK 中，target image 的去噪轨迹直接作为策略优化的正样本轨迹
训练时使用共享随机噪声确保 base image 和 target image 的视觉一致性
融合操作仅在采样阶段应用，训练阶段使用标准 RL 算法，不增加额外的训练成本

实验关键数据¶

主实验¶

Prompt 类型	指标	SD + DPO	SD + D-Fusion(DPO)	提升
物体行为	CLIP Score	较低	显著提升	明显
物体属性	CLIP Score	较低	显著提升	明显
位置关系	CLIP Score	较低	显著提升	明显

不同 RL 算法兼容性¶

RL 算法	无 D-Fusion	有 D-Fusion	说明
DPO	基准	提升	所有 prompt 类型均有效
DDPO	基准	提升	兼容策略梯度方法
DPOK	基准	提升	兼容混合方法

关键发现¶

视觉一致的训练对相比传统随机采样的训练对，显著提升了 DPO 在扩散模型上的效果
D-Fusion 生成的 target image 不仅与 base image 视觉一致，而且与 reference image 具有同等对齐质量
方法对三种 prompt 类型（行为、属性、位置关系）均有效，说明了方法的通用性
D-Fusion 可以与多种 RL 算法无缝结合，不限于 DPO
消融实验表明 mask 引导对融合质量至关重要——无 mask 的全图融合会破坏视觉一致性
融合时间步的选择也影响效果：早期时间步融合更多影响全局结构，后期影响细节

亮点与洞察¶

首次明确指出扩散模型 DPO 训练中视觉不一致的核心问题，为该领域研究提供了新的视角
巧妙利用 self-attention 特性实现了"既融合对齐信息，又保留去噪轨迹"的两难目标
方法通用性强，可作为数据增强模块插入到任何 RL-based 扩散模型微调流程中
从语言模型 RLHF 的 token-level 精细化训练获得启发，类比创立了扩散模型的"fine-grained"一致性训练

局限与展望¶

论文主要在 Stable Diffusion 上验证，尚未推广到 SDXL、DiT 等更先进的扩散架构
Mask 提取依赖于 cross-attention map 的质量，对某些复杂 prompt 可能不够精确
自注意力融合的计算开销比普通采样更大，可能影响训练效率
缓存文件较短（118行），论文中的具体数值实验细节未完全获取
未来可以探索在 attention 以外的模块进行融合，如 ResNet blocks
可探索自适应 mask 策略，根据 prompt 复杂度动态调整融合区域大小

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐