Rethinking Direct Preference Optimization in Diffusion Models¶
会议: AAAI 2026 (Oral)
arXiv: 2505.18736
代码: 有
领域: 对齐RLHF / 扩散模型
关键词: DPO, 扩散模型, 参考模型更新, 时间步感知, T2I偏好对齐
一句话总结¶
提出两个正交且可插拔的改进策略来增强扩散模型的偏好优化:稳定参考模型更新(放松冻结+正则化锚点)和时间步感知训练(自适应权重平衡奖励尺度),两者可嵌入 DPO/IPO 等多种偏好优化算法并在人类偏好评估基准上取得 SOTA。
研究背景与动机¶
领域现状¶
领域现状:文到图(T2I)扩散模型的人类偏好对齐已成为关键研究挑战。从 LLM 借鉴的偏好优化方法(DPO、IPO 等)已被扩展到扩散模型领域,通过成对偏好数据(赢/输图像对)直接优化模型参数使生成结果更符合人类偏好。现有方法如 Diffusion-DPO、D-Fusion 等已取得初步成功。
现有痛点与挑战¶
现有痛点:(1) 冻结参考模型限制探索空间——标准 DPO 保持参考模型冻结以提供稳定的 KL 散度锚点,但在扩散模型中这严重限制了策略模型的探索能力,因为扩散过程涉及多步去噪,冻结参考在长链推理中积累偏差;(2) 跨时间步奖励尺度不平衡——扩散模型不同去噪时间步的信号强度差异极大(高噪声时间步信号弱、低噪声时间步信号强),但现有方法对所有时间步一视同仁,导致训练被低噪声步主导。
核心矛盾:放松参考模型可增强探索但会导致训练不稳定;不同时间步需要差异化权重但缺乏自适应机制。
研究目标与方案¶
本文目标:在保持训练稳定性的同时增强扩散 DPO 的探索能力和时间步训练平衡性。
切入角度:设计两个正交(互不干扰)的可插拔策略——参考模型动态更新 + 时间步感知损失加权——可嵌入任意偏好优化算法。
核心 idea:通过参考模型正则化松弛解决探索不足,通过时间步感知训练解决奖励不平衡,两策略正交互补。
方法详解¶
整体框架¶
输入为成对偏好数据(preferred/rejected 图像对 + prompt)和预训练 T2I 扩散模型。方法包含两个正交策略模块,可分别或联合嵌入 DPO、IPO 等偏好优化算法的训练流程中。训练后输出对齐模型。
关键设计¶
-
稳定参考模型更新策略:
- 功能:动态更新参考模型以扩大探索空间,同时通过正则化维持训练稳定性
- 核心思路:(a) 使用指数移动平均(EMA)更新参考模型参数 \(\theta_{\text{ref}} \leftarrow \alpha \theta_{\text{ref}} + (1-\alpha) \theta_{\text{policy}}\),让参考模型跟随策略模型缓慢移动而非完全冻结;(b) 同时加入正则化损失 \(\mathcal{L}_{\text{reg}}\) 惩罚策略模型偏离参考过远,形成"松弛但有锚点"的机制——既允许探索新区域又防止策略模型完全偏离
- 设计动机:完全冻结参考模型在 LLM 中可行(因为 token 空间离散且决策链短),但在扩散模型的连续多步去噪过程中会严重限制探索。EMA + 正则化在松弛和稳定之间取得平衡
-
时间步感知训练策略:
- 功能:缓解不同去噪时间步之间奖励信号强度差异导致的训练不平衡
- 核心思路:分析不同时间步 \(t\) 的隐式奖励分布,发现高噪声时间步(\(t\) 大)的奖励信号弱、方差大,低噪声时间步(\(t\) 小)的信号强、方差小。据此设计自适应权重函数 \(w(t)\):对高噪声时间步增加权重以补偿信号衰减,对低噪声时间步降低权重以防止主导训练。具体权重可基于各时间步奖励分布的统计量归一化得到
- 设计动机:LLM 的 DPO 不存在时间步维度(一次前向生成),而扩散模型的多步去噪本质上引入了时间步维度的新问题——这是扩散 DPO 独有的瓶颈,需要专门的解决方案
-
可插拔模块化设计:
- 功能:使两个策略可嵌入 DPO、IPO 等多种偏好优化框架
- 核心思路:最终损失形式为 \(\mathcal{L} = w(t) \cdot \mathcal{L}_{\text{DPO/IPO}} + \lambda \cdot \mathcal{L}_{\text{reg}}\),两个策略通过乘性权重和加性正则化分别作用于损失函数,互不干扰
- 设计动机:模块化设计使得方法不依赖特定的偏好优化算法,可以作为通用增强插件广泛应用
损失函数 / 训练策略¶
总损失 \(\mathcal{L} = w(t) \cdot \mathcal{L}_{\text{pref}} + \lambda \cdot \mathcal{L}_{\text{reg}}\),其中 \(\mathcal{L}_{\text{pref}}\) 为基础偏好优化损失(DPO 或 IPO),\(w(t)\) 为时间步感知权重,\(\mathcal{L}_{\text{reg}}\) 为参考模型正则化项。EMA 更新参考模型参数的动量系数 \(\alpha\) 和正则化权重 \(\lambda\) 为主要超参数。
实验关键数据¶
主实验:人类偏好评估基准¶
| 方法 | 偏好对齐评分 | 改进方式 |
|---|---|---|
| Diffusion-DPO (基线) | 基准 | 冻结参考 + 均等权重 |
| + 参考模型更新 | 显著提升 | 探索能力增强 |
| + 时间步感知 | 显著提升 | 训练更平衡 |
| + 两者联合 (Ours) | SOTA | 正交叠加效果最优 |
消融实验:策略正交性验证¶
| 配置 | 独立效果 | 叠加效果 | 结论 |
|---|---|---|---|
| 仅参考更新 | 有效提升 | — | 增强探索 |
| 仅时间步感知 | 有效提升 | — | 平衡训练 |
| 两者联合 | — | 优于两者之和 | 正交互补 |
跨算法兼容性¶
| 基础算法 | 嵌入本方法后 | 说明 |
|---|---|---|
| DPO | 提升 | 适用 |
| IPO | 提升 | 适用 |
| 其他偏好优化 | 提升 | 通用插件 |
关键发现¶
- 两策略正交:独立有效且联合效果优于单独之和
- 时间步不平衡是扩散 DPO 独有问题——LLM DPO 不存在此问题
- AAAI 2026 Oral 且同时被 SPIGM@NeurIPS 2025 接收
亮点与洞察¶
- 正交改进的可组合性:两策略解决不同层面的问题(探索 vs 平衡)且互不干扰,方法论上提供了模块化改进 DPO 的范式
- 时间步维度分析:首次系统揭示了扩散模型 DPO 中跨时间步奖励尺度不平衡现象,为后续扩散对齐研究提供了重要视角
- 工程实用性强:无需重设计训练流程,直接嵌入现有 pipeline 即可获得提升
局限与展望¶
- 论文 HTML 全文不可用:详细消融数据和超参数敏感性分析未能获取,以上分析主要基于摘要和方法概述
- 参考更新频率/EMA 动量的敏感性:\(\alpha\) 值对性能的影响可能显著,需要仔细调参
- 是否适用于视频/3D 扩散模型:更长的时间步链和更复杂的生成任务中效果待验证
- 与无参考方法的对比:如 MaPO(AAAI 2026)完全移除参考模型,两种路线的最优适用条件需厘清
相关工作与启发¶
- vs Diffusion-DPO:标准迁移方案,冻结参考模型导致探索不足——本文直接改进这一核心瓶颈
- vs MaPO (AAAI 2026):完全移除参考模型的互补路线——本文保留但动态更新,两种思路代表不同技术方向
- vs DDPO/DRaFT:依赖额外的奖励模型在线打分——本文用偏好对直接优化更轻量
- vs D-Fusion (ICML 2025):也关注扩散 DPO 的改进但聚焦样本一致性——本文聚焦参考模型和时间步两个正交维度
评分¶
- 新颖性: ⭐⭐⭐⭐ 两个正交策略各有独立贡献,时间步不平衡分析是扩散对齐领域的新发现
- 实验充分度: ⭐⭐⭐ 基于摘要信息有限,Oral 论文应有充分实验
- 写作质量: ⭐⭐⭐⭐ AAAI Oral 质量,问题动机清晰
- 价值: ⭐⭐⭐⭐ 可插拔设计使其可广泛嵌入现有扩散 DPO 方法