Composition and Alignment of Diffusion Models using Constrained Learning¶

会议: NeurIPS 2025
arXiv: 2508.19104
代码: GitHub
领域: 图像生成
关键词: 扩散模型, 约束优化, 模型对齐, 模型组合, 拉格朗日对偶

一句话总结¶

提出统一的约束优化框架，将扩散模型的奖励对齐和多模型组合问题形式化为约束优化，通过拉格朗日对偶方法自动确定最优权重，避免手动超参数搜索。

研究背景与动机¶

领域现状: 扩散模型的对齐（adjustment to rewards/preferences）和组合（combining multiple pretrained models）是两种常用的适配方法，但面临多目标冲突的权衡。
现有痛点: 对齐中使用KL散度和奖励的加权平均需要手动调权，权重不当会导致过拟合某个奖励或偏离预训练模型过远。组合中等权重混合可能偏向某些相似模型而忽略其他。
核心矛盾: 加权方法的搜索空间不直观——权重本身没有语义含义，而约束形式（如"奖励至少达到b"）更自然可解释。
本文目标: 提供一种自动平衡多目标的统一框架，消除手动调权需求。
切入角度: 用约束优化替代加权优化：对齐问题改为"在满足奖励约束下最小化与预训练模型的KL散度"；组合问题改为"最小化到所有模型的最大KL散度"。
核心 idea: 约束优化框架统一了对齐和组合，通过拉格朗日对偶自动学习最优权重，使约束阈值成为唯一需要设置的直观超参数。

方法详解¶

整体框架¶

两个核心问题：(1) 约束对齐(UR-A)：\(\min_p D_{KL}(p\|q)\) s.t. \(\mathbb{E}_{x\sim p}[r_i(x)] \geq b_i\)；(2) 约束组合(UR-C)：\(\min_{p,u} u\) s.t. \(D_{KL}(p\|q^i) \leq u\)。两者都通过拉格朗日对偶转化为可训练的原始-对偶算法。

关键设计¶

1. 约束对齐的理论解（Theorem 1）

功能: 提供约束对齐问题的闭式最优分布
核心思路: 最优解为奖励加权分布 \(q_{rw}^{(\lambda^*)}(\cdot) = \frac{1}{Z}q(\cdot)e^{\lambda^{*\top}r(\cdot)}\)，其中最优对偶变量 \(\lambda^*\) 通过对偶上升自动确定
设计动机: 定理证明了约束优化等价于对预训练分布的指数奖励倾斜，且最优权重由约束自动决定

2. 约束组合的倾斜积分布（Theorem 3）

功能: 自动确定多模型组合的最优权重
核心思路: 最优解为倾斜积分布 \(q_{AND}^{(\lambda)}(\cdot) \propto \prod_{i=1}^m (q^i(\cdot))^{\lambda_i/\mathbf{1}^\top\lambda}\)。通过KL约束确保组合分布与每个预训练模型等距离偏离
设计动机: 等权重组合会偏向最相似的模型（如两个相近的高斯分布主导第三个），约束方法自动平衡

3. 路径KL与点KL散度的区分

功能: 为不同任务选择合适的KL度量
核心思路: 路径KL（path-wise）度量整个扩散轨迹的差异，适用于对齐；点KL（point-wise）度量最终分布差异，更适用于组合。通过Lemma 2提出新方法计算点KL散度
设计动机: 两种KL度量性质不同，正确选择影响优化的理论保证和实际效果

损失函数 / 训练策略¶

原始-对偶交替优化：原始步最小化拉格朗日函数（SGD），对偶步通过约束违反程度的次梯度上升更新乘子。使用LoRA微调Stable Diffusion v1.5。

实验关键数据¶

主实验¶

多奖励约束对齐（Stable Diffusion + MPS/饱和度/局部对比度）：

方法	MPS奖励	饱和度约束	对比度约束	与预训练KL
等权加权	下降	部分满足	部分满足	较大
约束对齐	提升50%	满足	满足	更小

多模型组合（每个模型用不同奖励微调）：

方法	各奖励维持率	最差奖励
等权组合	某些奖励下降30%	明显退化
约束组合	全部维持或提升	无明显退化

消融实验¶

配置	关键指标	说明
约束对齐 vs 加权对齐	约束对齐KL更小且全部奖励满足	加权方法易过拟合某些奖励
约束组合 vs 等权组合	约束组合的CLIP/BLIP最低分更高	等权方法偏向相似模型

关键发现¶

加权方法在多奖励对齐中容易过拟合容易优化的奖励而忽略困难的（如HPS）
约束方法同时改善了所有奖励且与预训练模型的KL散度更小
概念组合中，约束方法比等权提高了CLIP和BLIP的最低分

亮点与洞察¶

理论扎实: 从分布空间到扩散模型空间的完整理论链条，建立强对偶性
实用性: 约束阈值比权重更直观——"奖励至少提升50%"比"权重设为0.3"更容易理解
统一性: 同一框架解决对齐和组合两个看似不同的问题

局限与展望¶

MCMC采样在高维（如图像生成）中代价高
点KL散度的计算依赖于分数函数的质量
目前仅在Stable Diffusion v1.5上验证，更大模型的scaling需研究
可扩展到混合组合（OR模式）和条件约束

评分¶

新颖性: ⭐⭐⭐⭐ 约束视角统一对齐和组合的思路新颖
实验充分度: ⭐⭐⭐ 实验规模适中，但验证了核心claims
写作质量: ⭐⭐⭐⭐ 理论推导清晰
价值: ⭐⭐⭐⭐ 为扩散模型适配提供了原则性框架