Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function¶
会议: ICLR 2026
arXiv: 2512.04559
代码: https://github.com/Shin-woocheol/SQDF
领域: 图像生成
关键词: 扩散模型微调, KL正则化强化学习, 软Q函数, 奖励过优化, 文生图对齐
一句话总结¶
提出 SQDF(Soft Q-based Diffusion Finetuning),通过无需训练的可微软 Q 函数估计和重参数化策略梯度,在 KL 正则化 RL 框架下微调扩散模型,配合折扣因子、一致性模型和离策略回放缓冲三个创新组件,在优化目标奖励的同时有效缓解奖励过优化问题,保持样本的自然性和多样性。
研究背景与动机¶
扩散模型在高质量样本生成方面已成为主流范式,但实际应用中需要与下游目标(如美学质量、文本-图像对齐、人类偏好)进行对齐。现有微调方法面临严重的奖励过优化(reward over-optimization)问题,具体表现为:
语义坍塌(Semantic Collapse): 高奖励样本逐渐失去与原始提示的语义对齐,变成无法辨认的抽象纹理
多样性坍塌(Diversity Collapse): 生成结果趋于高度相似的模式
现有方法的局限: - RL 方法(DDPO): 不利用奖励梯度,优化效率低,且快速多样性坍塌 - 直接反传方法(DRaFT, ReFL): 虽然利用了奖励梯度,但容易过优化 - KL 正则化方法: 需要训练额外的值函数网络——在扩散 MDP 中训练值函数极不稳定;或依赖高方差的蒙特卡洛梯度估计
核心矛盾:如何在利用强大的奖励梯度信号的同时,通过 KL 正则化避免过优化?
核心 idea:将扩散过程建模为 MDP,利用 Tweedie 公式的后验均值近似提供一个免训练的、可微的软 Q 函数估计,从而直接通过重参数化策略梯度更新模型。
方法详解¶
整体框架¶
SQDF 把扩散逆过程看成一个有限时域 MDP:状态 \(s_t = (x_{T-t}, T-t)\),动作 \(a_t = x_{T-t-1}\),策略就是单步去噪分布 \(\pi_\theta(a_t|s_t) = p_\theta(x_{T-t-1}|x_{T-t})\),只在终态 \(x_0\) 拿到稀疏奖励 \(r(x_0)\),优化目标是 KL 正则化的期望奖励。整个方法的关键不是去训练一个值函数,而是借 Tweedie 公式把软 Q 函数近似成"对当前去噪结果做一步奖励评估",于是奖励梯度可以直接通过重参数化回传到模型参数上——这条"采样起点 → 重参数化去噪 → 预测清洁样本 → 软 Q 评分 → 策略梯度更新"的回路就是 SQDF 的主干。在此骨架之外,折扣因子、一致性模型、离策略回放缓冲三个组件分别从信用分配、Q 估计精度和多样性三个角度把框架补完整。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["预训练扩散模型<br/>SD v1.5 + LoRA"] --> B["采样起点 x_t<br/>在线或回放缓冲"]
R["离策略回放缓冲<br/>存高奖励多样样本"] -->|提供起点| B
B --> C["重参数化单步去噪<br/>x_(t-1)=μ_θ+σ_t·ε"]
M["一致性模型 f_ψ"] -->|预测清洁样本 x̂_0| D
C --> D["软 Q 估计<br/>Q≈γ^(t-1)·r(x̂_0)"]
D --> F["重参数化策略梯度<br/>+ KL 正则锚住预训练"]
F -->|更新 θ| A
D -->|高奖励样本入库| R
关键设计¶
1. 免训练软 Q 函数 + 重参数化策略梯度:把不稳定的值函数训练和高方差 REINFORCE 一起换掉
KL 正则化 RL 的常规做法是显式训练一个值函数网络,但在扩散 MDP 里这件事出了名的不稳定;而不训练值函数、改用 DDPO 那种 REINFORCE 估计又方差太高、优化效率低。SQDF 的核心洞察是递归展开软 Bellman 方程后,对中间状态套用单步后验均值近似(Tweedie 公式),软 Q 函数可以直接坍缩成 \(Q_{\text{soft}}^*(x_t, x_{t-1}) \approx r(\hat{x}_0(x_{t-1}))\)——先从 \(x_{t-1}\) 预测清洁样本 \(\hat{x}_0\),再丢给奖励模型评一次分。这一步既绕开了值函数训练,又因为整条路径只是对参数化奖励模型做一步前向传播而保持可微,奖励梯度天然可取。
有了这个可微的 Q 近似,更新就能用低方差的重参数化梯度替掉 REINFORCE。SQDF 借重参数化技巧 \(x_{t-1} = \mu_\theta(x_t, t) + \sigma_t \epsilon\) 把噪声从采样里抽离出来,于是策略梯度写成
第一项是直接穿过奖励模型的低方差梯度信号,效率远高于 REINFORCE;第二项的 KL 散度把微调后的分布锚在预训练分布附近,正是缓解过优化、保住自然性的关键。免训练 Q 近似和重参数化梯度是同一个机制的两面——前者让奖励可微、后者把这份可微低方差地用起来——所以放在一起讲。
2. 折扣因子 γ:让早期高噪声步别抢功劳
先前方法隐式取 \(\gamma=1\),对所有去噪步一视同仁,但早期高噪声步对最终样本的实际影响很小,平均用力反而误导了信用分配。SQDF 引入 \(\gamma<1\) 以指数衰减方式降权早期步骤,作者进一步推导出折扣 MDP 下 Q 近似变为 \(Q^* \approx \gamma^{t-1} r(\hat{x}_0)\),且其上下界在一阶近似下一致,说明这个降权是有理论支撑而非临时补丁。实验里 \(\gamma\) 也成了优化速度与样本质量之间一个干净的旋钮:\(\gamma=1\) 奖励冲得最高但对齐和多样性崩,\(\gamma=0.9\) 取得平衡,\(\gamma=0.85\) 优化更慢但多样性最好。
3. 一致性模型改善 Q 估计:补上 Tweedie 在高噪声处的失准
软 Q 近似全押在 \(\hat{x}_0\) 的预测质量上,而 Tweedie 公式在高噪声级别的后验均值估计非常不准(Figure 2-b)。SQDF 用一致性模型 \(f_\psi\) 替掉 Tweedie 来预测 \(\hat{x}_0\):一致性模型是通过蒸馏概率流 ODE 的积分结果训练的,能在所有时间步给出均匀准确的清洁样本估计(Figure 2-c),从而把 Q 函数近似的质量整体抬上去。相比之下用 4-step DDIM 去预测会让训练不稳定,一致性模型才是这里稳定的来源。
4. 离策略回放缓冲:用历史高奖励样本守住多样性
SQDF 的损失天然支持离策略更新——因为采样起点 \(x_t\) 并不要求来自当前策略。利用这一点,SQDF 维护一个回放缓冲,把稀有的高奖励且多样的样本存下来反复重用,从而改善模式覆盖、在奖励和多样性之间做权衡。这种离策略能力是相对 DDPO/DRaFT 必须用在策略样本的结构性优势。
损失函数 / 训练策略¶
把三个组件合进目标,最终 SQDF 损失为:
实现上采样用 DDPM 50 步,基座是 Stable Diffusion v1.5 上的 LoRA 微调,一致性模型用 LCM-LoRA。小规模实验取 \(\gamma=0.9\)、\(\alpha=2\)、lr=\(1\times10^{-3}\)、LoRA rank=4、batch=64、训练 2000 步;大规模实验取 \(\gamma=0.93\)、\(\alpha=0.05\)、lr=\(5\times10^{-4}\)、LoRA rank=32、batch=258、训练 500 步。
实验关键数据¶
主实验¶
文生图微调(Stable Diffusion v1.5,优化美学分数 / HPS):
从 Figure 3 和 Figure 4 的定性与定量结果: - ReFL 和 DRaFT 虽然获得高美学分数,但对齐分数(ImageReward, HPS)和多样性(LPIPS, DreamSim)急剧下降 - DDPO 无法达到可比的美学分数且多样性快速坍塌 - SQDF 在等效奖励水平下始终保持最高的对齐度和多样性
KL 正则化基线对比(Figure 4 Pareto 曲线): SQDF 在几乎所有指标对上占据 Pareto 最优。通过调节 \(\alpha\),SQDF 能在更高奖励和更好多样性之间灵活权衡。
在线黑盒优化(Table 1):
| 方法 | 目标(美学↑) | ImageReward↑ | HPS↑ | LPIPS-Div↑ | DreamSim-Div↑ |
|---|---|---|---|---|---|
| PPO+KL | 6.63 | -1.35 | 0.24 | 0.47 | 0.44 |
| SEIKO-Bootstrap | 7.80 | -1.69 | 0.23 | 0.36 | 0.24 |
| SEIKO-UCB | 7.49 | -1.08 | 0.24 | 0.40 | 0.32 |
| SQDF-Bootstrap | 7.87 | 1.14 | — | — | — |
SQDF 在所有评价指标上碾压式领先,尤其在 ImageReward 上从负分提升到正分,说明其在黑盒优化场景下对不准确奖励代理的鲁棒性。
消融实验¶
| 配置 | 美学分数 | DreamSim-Div | LPIPS-Div |
|---|---|---|---|
| SQDF (完整) | 7.87 | 0.58 | 0.56 |
| w/o 一致性模型 | 7.10 | 0.62 | 0.59 |
| w/o 回放缓冲 | 8.06 | 0.56 | 0.55 |
| 折扣因子 | 效果 |
|---|---|
| \(\gamma=1\) | 美学分数更高但对齐和多样性严重下降 |
| \(\gamma=0.9\) | 平衡优化速度和样本质量 |
| \(\gamma=0.85\) | 优化更慢但多样性最好 |
关键发现¶
- 一致性模型是加速收敛的关键——去除后目标奖励从 7.87 下降到 7.10
- 回放缓冲主要保护多样性,去除后奖励反而略高(8.06)但多样性下降
- \(\gamma\) 控制优化速度与样本质量之间的明确权衡
- SQDF 在 SDXL (2.6B) 上同样有效,相对改善幅度与 SD 1.5 高度一致
亮点与洞察¶
- "免训练 Q 函数"的思路极其精巧——利用 Tweedie 公式将难以训练的值函数问题转化为简单的奖励评估
- 折扣因子 \(\gamma\) 的引入虽然简单,但理论推导(上下界一阶近似一致)和实验验证都很充分
- 一致性模型作为 Tweedie 公式的升级替代方案,比多步 DDIM 更稳定(4-step DDIM 导致训练不稳定)
- 离策略更新的可行性是 SQDF 相对于 DDPO/DRaFT 的结构性优势——后者必须使用在策略样本
- 实验设计全面:不仅比较基线,还与 KL 增强版基线对比 Pareto 曲线,证明优势来自框架本身而非单纯的正则化
局限与展望¶
- 一步 Q 函数近似在数学上是粗糙的——尤其在 r/α 较大时对数矩生成函数的一阶近似可能不够
- 对一致性模型质量有依赖——若 LCM-LoRA 本身不准确,Q 函数估计也会偏差
- 目前仅在 Stable Diffusion 系列上验证,未测试流匹配(flow matching)等新架构
- 回放缓冲的管理策略(优先级采样)可能需要针对不同任务调优
- 计算成本分析不充分——每步 62s(美学)/401s(HPS)的开销需要进一步优化
相关工作与启发¶
- DDPO (Black et al., 2023): 不利用梯度的 PPO 方法,效率低但思路简单
- DRaFT/ReFL: 直接反传梯度,高效但严重过优化
- SEIKO (Uehara et al., 2024): KL 正则化直接反传,但依赖截断反传通过去噪链
- 本文的"免训练 Q 函数 + 重参数化"框架可能泛化到其他需要 RL 微调的生成模型(如语言模型 RLHF、蛋白质设计等)
- 一致性模型在此处的使用激发了"用蒸馏模型辅助 Q 值估计"的更广泛思路
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 免训练可微 Q 函数估计 + 三个互补组件的设计非常巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ — 两种任务设置、全面的消融、Pareto 曲线对比、SDXL 扩展
- 写作质量: ⭐⭐⭐⭐ — 方法部分结构清晰,但一些推导放在附录中增加了阅读难度
- 价值: ⭐⭐⭐⭐⭐ — 为扩散模型对齐提供了原则性的解决方案,代码开源,方法可推广