Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function¶

会议: ICLR 2026
arXiv: 2512.04559
代码: https://github.com/Shin-woocheol/SQDF
领域: 图像生成
关键词: 扩散模型微调, KL正则化强化学习, 软Q函数, 奖励过优化, 文生图对齐

一句话总结¶

提出 SQDF（Soft Q-based Diffusion Finetuning），通过无需训练的可微软 Q 函数估计和重参数化策略梯度，在 KL 正则化 RL 框架下微调扩散模型，配合折扣因子、一致性模型和离策略回放缓冲三个创新组件，在优化目标奖励的同时有效缓解奖励过优化问题，保持样本的自然性和多样性。

研究背景与动机¶

扩散模型在高质量样本生成方面已成为主流范式，但实际应用中需要与下游目标（如美学质量、文本-图像对齐、人类偏好）进行对齐。现有微调方法面临严重的奖励过优化（reward over-optimization）问题，具体表现为：

语义坍塌（Semantic Collapse）: 高奖励样本逐渐失去与原始提示的语义对齐，变成无法辨认的抽象纹理

多样性坍塌（Diversity Collapse）: 生成结果趋于高度相似的模式

现有方法的局限： - RL 方法（DDPO）: 不利用奖励梯度，优化效率低，且快速多样性坍塌 - 直接反传方法（DRaFT, ReFL）: 虽然利用了奖励梯度，但容易过优化 - KL 正则化方法: 需要训练额外的值函数网络——在扩散 MDP 中训练值函数极不稳定；或依赖高方差的蒙特卡洛梯度估计

核心矛盾：如何在利用强大的奖励梯度信号的同时，通过 KL 正则化避免过优化？

核心 idea：将扩散过程建模为 MDP，利用 Tweedie 公式的后验均值近似提供一个免训练的、可微的软 Q 函数估计，从而直接通过重参数化策略梯度更新模型。

方法详解¶

整体框架¶

SQDF 把扩散逆过程看成一个有限时域 MDP：状态 \(s_t = (x_{T-t}, T-t)\)，动作 \(a_t = x_{T-t-1}\)，策略就是单步去噪分布 \(\pi_\theta(a_t|s_t) = p_\theta(x_{T-t-1}|x_{T-t})\)，只在终态 \(x_0\) 拿到稀疏奖励 \(r(x_0)\)，优化目标是 KL 正则化的期望奖励。整个方法的关键不是去训练一个值函数，而是借 Tweedie 公式把软 Q 函数近似成"对当前去噪结果做一步奖励评估"，于是奖励梯度可以直接通过重参数化回传到模型参数上——这条"采样起点 → 重参数化去噪 → 预测清洁样本 → 软 Q 评分 → 策略梯度更新"的回路就是 SQDF 的主干。在此骨架之外，折扣因子、一致性模型、离策略回放缓冲三个组件分别从信用分配、Q 估计精度和多样性三个角度把框架补完整。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["预训练扩散模型<br/>SD v1.5 + LoRA"] --> B["采样起点 x_t<br/>在线或回放缓冲"]
    R["离策略回放缓冲<br/>存高奖励多样样本"] -->|提供起点| B
    B --> C["重参数化单步去噪<br/>x_(t-1)=μ_θ+σ_t·ε"]
    M["一致性模型 f_ψ"] -->|预测清洁样本 x̂_0| D
    C --> D["软 Q 估计<br/>Q≈γ^(t-1)·r(x̂_0)"]
    D --> F["重参数化策略梯度<br/>+ KL 正则锚住预训练"]
    F -->|更新 θ| A
    D -->|高奖励样本入库| R

关键设计¶

1. 免训练软 Q 函数 + 重参数化策略梯度：把不稳定的值函数训练和高方差 REINFORCE 一起换掉

KL 正则化 RL 的常规做法是显式训练一个值函数网络，但在扩散 MDP 里这件事出了名的不稳定；而不训练值函数、改用 DDPO 那种 REINFORCE 估计又方差太高、优化效率低。SQDF 的核心洞察是递归展开软 Bellman 方程后，对中间状态套用单步后验均值近似（Tweedie 公式），软 Q 函数可以直接坍缩成 \(Q_{\text{soft}}^*(x_t, x_{t-1}) \approx r(\hat{x}_0(x_{t-1}))\)——先从 \(x_{t-1}\) 预测清洁样本 \(\hat{x}_0\)，再丢给奖励模型评一次分。这一步既绕开了值函数训练，又因为整条路径只是对参数化奖励模型做一步前向传播而保持可微，奖励梯度天然可取。

有了这个可微的 Q 近似，更新就能用低方差的重参数化梯度替掉 REINFORCE。SQDF 借重参数化技巧 \(x_{t-1} = \mu_\theta(x_t, t) + \sigma_t \epsilon\) 把噪声从采样里抽离出来，于是策略梯度写成

\[\nabla_\theta \mathcal{L} = \mathbb{E}_{x_t, \epsilon}\big[-\nabla_{x_{t-1}} r(\hat{x}_0) \cdot \nabla_\theta \mu_\theta + \alpha \nabla_\theta D_{KL}\big]\]

第一项是直接穿过奖励模型的低方差梯度信号，效率远高于 REINFORCE；第二项的 KL 散度把微调后的分布锚在预训练分布附近，正是缓解过优化、保住自然性的关键。免训练 Q 近似和重参数化梯度是同一个机制的两面——前者让奖励可微、后者把这份可微低方差地用起来——所以放在一起讲。

2. 折扣因子 γ：让早期高噪声步别抢功劳

先前方法隐式取 \(\gamma=1\)，对所有去噪步一视同仁，但早期高噪声步对最终样本的实际影响很小，平均用力反而误导了信用分配。SQDF 引入 \(\gamma<1\) 以指数衰减方式降权早期步骤，作者进一步推导出折扣 MDP 下 Q 近似变为 \(Q^* \approx \gamma^{t-1} r(\hat{x}_0)\)，且其上下界在一阶近似下一致，说明这个降权是有理论支撑而非临时补丁。实验里 \(\gamma\) 也成了优化速度与样本质量之间一个干净的旋钮：\(\gamma=1\) 奖励冲得最高但对齐和多样性崩，\(\gamma=0.9\) 取得平衡，\(\gamma=0.85\) 优化更慢但多样性最好。

3. 一致性模型改善 Q 估计：补上 Tweedie 在高噪声处的失准

软 Q 近似全押在 \(\hat{x}_0\) 的预测质量上，而 Tweedie 公式在高噪声级别的后验均值估计非常不准（Figure 2-b）。SQDF 用一致性模型 \(f_\psi\) 替掉 Tweedie 来预测 \(\hat{x}_0\)：一致性模型是通过蒸馏概率流 ODE 的积分结果训练的，能在所有时间步给出均匀准确的清洁样本估计（Figure 2-c），从而把 Q 函数近似的质量整体抬上去。相比之下用 4-step DDIM 去预测会让训练不稳定，一致性模型才是这里稳定的来源。

4. 离策略回放缓冲：用历史高奖励样本守住多样性

SQDF 的损失天然支持离策略更新——因为采样起点 \(x_t\) 并不要求来自当前策略。利用这一点，SQDF 维护一个回放缓冲，把稀有的高奖励且多样的样本存下来反复重用，从而改善模式覆盖、在奖励和多样性之间做权衡。这种离策略能力是相对 DDPO/DRaFT 必须用在策略样本的结构性优势。

损失函数 / 训练策略¶

把三个组件合进目标，最终 SQDF 损失为：

\[\mathcal{L}_{\text{SQDF}} = \mathbb{E}_{x_t \sim \mathcal{D}, x_{t-1} \sim p_\theta}[-\gamma^{t-1} r(f_\psi(x_{t-1})) + \alpha D_{KL}(p_\theta \| p')]\]

实现上采样用 DDPM 50 步，基座是 Stable Diffusion v1.5 上的 LoRA 微调，一致性模型用 LCM-LoRA。小规模实验取 \(\gamma=0.9\)、\(\alpha=2\)、lr=\(1\times10^{-3}\)、LoRA rank=4、batch=64、训练 2000 步；大规模实验取 \(\gamma=0.93\)、\(\alpha=0.05\)、lr=\(5\times10^{-4}\)、LoRA rank=32、batch=258、训练 500 步。

实验关键数据¶

主实验¶

文生图微调（Stable Diffusion v1.5，优化美学分数 / HPS）:

从 Figure 3 和 Figure 4 的定性与定量结果： - ReFL 和 DRaFT 虽然获得高美学分数，但对齐分数（ImageReward, HPS）和多样性（LPIPS, DreamSim）急剧下降 - DDPO 无法达到可比的美学分数且多样性快速坍塌 - SQDF 在等效奖励水平下始终保持最高的对齐度和多样性

KL 正则化基线对比（Figure 4 Pareto 曲线）: SQDF 在几乎所有指标对上占据 Pareto 最优。通过调节 \(\alpha\)，SQDF 能在更高奖励和更好多样性之间灵活权衡。

在线黑盒优化（Table 1）:

方法	目标(美学↑)	ImageReward↑	HPS↑	LPIPS-Div↑	DreamSim-Div↑
PPO+KL	6.63	-1.35	0.24	0.47	0.44
SEIKO-Bootstrap	7.80	-1.69	0.23	0.36	0.24
SEIKO-UCB	7.49	-1.08	0.24	0.40	0.32
SQDF-Bootstrap	7.87	1.14	—	—	—

SQDF 在所有评价指标上碾压式领先，尤其在 ImageReward 上从负分提升到正分，说明其在黑盒优化场景下对不准确奖励代理的鲁棒性。

消融实验¶

配置	美学分数	DreamSim-Div	LPIPS-Div
SQDF (完整)	7.87	0.58	0.56
w/o 一致性模型	7.10	0.62	0.59
w/o 回放缓冲	8.06	0.56	0.55

折扣因子	效果
\(\gamma=1\)	美学分数更高但对齐和多样性严重下降
\(\gamma=0.9\)	平衡优化速度和样本质量
\(\gamma=0.85\)	优化更慢但多样性最好

关键发现¶

一致性模型是加速收敛的关键——去除后目标奖励从 7.87 下降到 7.10
回放缓冲主要保护多样性，去除后奖励反而略高（8.06）但多样性下降
\(\gamma\) 控制优化速度与样本质量之间的明确权衡
SQDF 在 SDXL (2.6B) 上同样有效，相对改善幅度与 SD 1.5 高度一致

亮点与洞察¶

"免训练 Q 函数"的思路极其精巧——利用 Tweedie 公式将难以训练的值函数问题转化为简单的奖励评估
折扣因子 \(\gamma\) 的引入虽然简单，但理论推导（上下界一阶近似一致）和实验验证都很充分
一致性模型作为 Tweedie 公式的升级替代方案，比多步 DDIM 更稳定（4-step DDIM 导致训练不稳定）
离策略更新的可行性是 SQDF 相对于 DDPO/DRaFT 的结构性优势——后者必须使用在策略样本
实验设计全面：不仅比较基线，还与 KL 增强版基线对比 Pareto 曲线，证明优势来自框架本身而非单纯的正则化

局限与展望¶

一步 Q 函数近似在数学上是粗糙的——尤其在 r/α 较大时对数矩生成函数的一阶近似可能不够
对一致性模型质量有依赖——若 LCM-LoRA 本身不准确，Q 函数估计也会偏差
目前仅在 Stable Diffusion 系列上验证，未测试流匹配（flow matching）等新架构
回放缓冲的管理策略（优先级采样）可能需要针对不同任务调优
计算成本分析不充分——每步 62s（美学）/401s（HPS）的开销需要进一步优化

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 免训练可微 Q 函数估计 + 三个互补组件的设计非常巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 两种任务设置、全面的消融、Pareto 曲线对比、SDXL 扩展
写作质量: ⭐⭐⭐⭐ — 方法部分结构清晰，但一些推导放在附录中增加了阅读难度
价值: ⭐⭐⭐⭐⭐ — 为扩散模型对齐提供了原则性的解决方案，代码开源，方法可推广