Composition and Alignment of Diffusion Models using Constrained Learning¶
会议: NeurIPS 2025
arXiv: 2508.19104
代码: GitHub
领域: 图像生成
关键词: 扩散模型, 约束优化, 模型对齐, 模型组合, 拉格朗日对偶
一句话总结¶
提出统一的约束优化框架,将扩散模型的奖励对齐和多模型组合问题形式化为约束优化,通过拉格朗日对偶方法自动确定最优权重,避免手动超参数搜索。
研究背景与动机¶
-
领域现状: 扩散模型的对齐(adjustment to rewards/preferences)和组合(combining multiple pretrained models)是两种常用的适配方法,但面临多目标冲突的权衡。
-
现有痛点: 对齐中使用KL散度和奖励的加权平均需要手动调权,权重不当会导致过拟合某个奖励或偏离预训练模型过远。组合中等权重混合可能偏向某些相似模型而忽略其他。
-
核心矛盾: 加权方法的搜索空间不直观——权重本身没有语义含义,而约束形式(如"奖励至少达到b")更自然可解释。
-
本文目标: 提供一种自动平衡多目标的统一框架,消除手动调权需求。
-
切入角度: 用约束优化替代加权优化:对齐问题改为"在满足奖励约束下最小化与预训练模型的KL散度";组合问题改为"最小化到所有模型的最大KL散度"。
-
核心 idea: 约束优化框架统一了对齐和组合,通过拉格朗日对偶自动学习最优权重,使约束阈值成为唯一需要设置的直观超参数。
方法详解¶
整体框架¶
两个核心问题:(1) 约束对齐(UR-A):\(\min_p D_{KL}(p\|q)\) s.t. \(\mathbb{E}_{x\sim p}[r_i(x)] \geq b_i\);(2) 约束组合(UR-C):\(\min_{p,u} u\) s.t. \(D_{KL}(p\|q^i) \leq u\)。两者都通过拉格朗日对偶转化为可训练的原始-对偶算法。
关键设计¶
1. 约束对齐的理论解(Theorem 1)
- 功能: 提供约束对齐问题的闭式最优分布
- 核心思路: 最优解为奖励加权分布 \(q_{rw}^{(\lambda^*)}(\cdot) = \frac{1}{Z}q(\cdot)e^{\lambda^{*\top}r(\cdot)}\),其中最优对偶变量 \(\lambda^*\) 通过对偶上升自动确定
- 设计动机: 定理证明了约束优化等价于对预训练分布的指数奖励倾斜,且最优权重由约束自动决定
2. 约束组合的倾斜积分布(Theorem 3)
- 功能: 自动确定多模型组合的最优权重
- 核心思路: 最优解为倾斜积分布 \(q_{AND}^{(\lambda)}(\cdot) \propto \prod_{i=1}^m (q^i(\cdot))^{\lambda_i/\mathbf{1}^\top\lambda}\)。通过KL约束确保组合分布与每个预训练模型等距离偏离
- 设计动机: 等权重组合会偏向最相似的模型(如两个相近的高斯分布主导第三个),约束方法自动平衡
3. 路径KL与点KL散度的区分
- 功能: 为不同任务选择合适的KL度量
- 核心思路: 路径KL(path-wise)度量整个扩散轨迹的差异,适用于对齐;点KL(point-wise)度量最终分布差异,更适用于组合。通过Lemma 2提出新方法计算点KL散度
- 设计动机: 两种KL度量性质不同,正确选择影响优化的理论保证和实际效果
损失函数 / 训练策略¶
原始-对偶交替优化:原始步最小化拉格朗日函数(SGD),对偶步通过约束违反程度的次梯度上升更新乘子。使用LoRA微调Stable Diffusion v1.5。
实验关键数据¶
主实验¶
多奖励约束对齐(Stable Diffusion + MPS/饱和度/局部对比度):
| 方法 | MPS奖励 | 饱和度约束 | 对比度约束 | 与预训练KL |
|---|---|---|---|---|
| 等权加权 | 下降 | 部分满足 | 部分满足 | 较大 |
| 约束对齐 | 提升50% | 满足 | 满足 | 更小 |
多模型组合(每个模型用不同奖励微调):
| 方法 | 各奖励维持率 | 最差奖励 |
|---|---|---|
| 等权组合 | 某些奖励下降30% | 明显退化 |
| 约束组合 | 全部维持或提升 | 无明显退化 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 约束对齐 vs 加权对齐 | 约束对齐KL更小且全部奖励满足 | 加权方法易过拟合某些奖励 |
| 约束组合 vs 等权组合 | 约束组合的CLIP/BLIP最低分更高 | 等权方法偏向相似模型 |
关键发现¶
- 加权方法在多奖励对齐中容易过拟合容易优化的奖励而忽略困难的(如HPS)
- 约束方法同时改善了所有奖励且与预训练模型的KL散度更小
- 概念组合中,约束方法比等权提高了CLIP和BLIP的最低分
亮点与洞察¶
- 理论扎实: 从分布空间到扩散模型空间的完整理论链条,建立强对偶性
- 实用性: 约束阈值比权重更直观——"奖励至少提升50%"比"权重设为0.3"更容易理解
- 统一性: 同一框架解决对齐和组合两个看似不同的问题
局限与展望¶
- MCMC采样在高维(如图像生成)中代价高
- 点KL散度的计算依赖于分数函数的质量
- 目前仅在Stable Diffusion v1.5上验证,更大模型的scaling需研究
- 可扩展到混合组合(OR模式)和条件约束
相关工作与启发¶
- AlignProp框架被扩展为多奖励约束版本
- 与DPO等对齐方法相比,约束方法不需要手动调正则化权重
- 启发: 约束优化提供了比加权优化更可解释、更易调参的替代方案
评分¶
- 新颖性: ⭐⭐⭐⭐ 约束视角统一对齐和组合的思路新颖
- 实验充分度: ⭐⭐⭐ 实验规模适中,但验证了核心claims
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰
- 价值: ⭐⭐⭐⭐ 为扩散模型适配提供了原则性框架