DeRaDiff: Denoising Time Realignment of Diffusion Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=TL4cvNviw6
代码: github.com/itsShahain/DeRaDiff
领域: 图像生成 / 扩散模型对齐
关键词: 扩散模型, RLHF, KL 正则, 推理时对齐, decoding-time realignment, 奖励黑客

一句话总结¶

DeRaDiff 把语言模型里的"解码时再对齐"搬到扩散模型上：只对齐一次，就能在采样时用一个标量 \(\lambda\) 在线模拟出任意 KL 正则强度训练出的对齐模型，从而免去昂贵的正则强度扫参。

研究背景与动机¶

领域现状：把扩散模型与人类偏好对齐（提升美感、减少伪影偏见）已成主流，通常表述为"最大化奖励 + KL 正则约束不偏离预训练先验"，正则强度 \(\beta\) 控制这个权衡。
现有痛点：\(\beta\) 选不好——太大则对齐不足、模型欠适配；太小则发生 "reward hacking"（奖励刷高但图像质量崩坏）。找到合适的 \(\beta\) 需要在多个强度下分别从头对齐，再挑最好的，对大扩散模型而言代价高得离谱（论文测得 SDXL 单个 \(\beta\) 约 336 GPU 小时）。
核心矛盾：正确的正则强度高度依赖任务且无法先验确定，但扫参的搜索成本与对齐训练成本成倍叠加。
本文目标：只对齐一次，就能在推理时廉价地探索整条正则强度谱，定位最优 \(\beta\)，避免重复从头训练。
核心 idea：【推理时几何混合】 借鉴语言模型的 decoding-time realignment（把参考分布与对齐分布按互补幂次几何混合），把它推广到扩散模型的连续隐变量迭代去噪过程，推导出每一步可解析、闭式的高斯更新，由单一可调参数 \(\lambda\) 在线控制有效正则强度。

方法详解¶

整体框架¶

DeRaDiff 同时持有一个参考模型 \(p_\text{ref}\)（预训练）和一个在某个 \(\beta\) 下对齐好的"锚模型" \(p_\theta[\beta]\)。采样时，每一步去噪都把这两个模型的后验做几何混合，混合权重由 \(\lambda\) 决定：\(\lambda=0\) 回到参考模型、\(\lambda=1\) 回到锚模型、\(0<\lambda<1\) 是稳定的凸插值（等效正则强度为 \(\beta/\lambda\)）、\(\lambda>1\) 则外推到更弱正则。混合后的后验在常见调度器下仍是高斯，因此存在闭式均值/方差更新，整个流程零额外训练。

flowchart LR
    A[当前隐变量 x_t] --> B[参考模型 ε_ref<br/>CFG 预测]
    A --> C[锚模型 ε_tuned<br/>CFG 预测]
    B --> D[调度器后验<br/>μ1, σ1²]
    C --> E[调度器后验<br/>μ2, σ2²]
    D --> F[几何混合 λ]
    E --> F
    F --> G[闭式高斯<br/>μ_new, σ²_new]
    G --> H[采样 x_t-1]
    H --> A

关键设计¶

1. 从全样本几何混合到逐步近似：让插值变得可计算。 理想的再对齐模型是参考与对齐两个全样本分布的归一化几何混合 \(p^*_\theta[\beta/\lambda](x_0|c)\propto p_\text{ref}(x_0|c)^{1-\lambda}\,p^*_\theta[\beta](x_0|c)^{\lambda}\)，但直接算它需要对所有中间隐变量做边缘化，对扩散模型不可解。作者的关键一步是把同样的几何混合搬到每一个去噪步上，对逐步后验做近似：\(\hat p_\theta[\beta/\lambda](x_{t-1}|x_t,c)\propto p_\text{ref}(x_{t-1}|x_t,c)^{1-\lambda}\,p^*_\theta[\beta](x_{t-1}|x_t,c)^{\lambda}\)。这把一个全局不可解的积分换成了一串局部可算的步级混合，物理含义清晰——每一步都在"贴近先验"和"追随奖励"之间按 \(\lambda\) 调权重。

2. 闭式高斯后验（Theorem 1）：两个高斯的几何混合还是高斯。 这是全文的理论支点。设参考后验 \(p_\text{ref}=\mathcal N(\mu_1,\sigma_1^2 I)\)、对齐后验 \(p^*_\theta[\beta]=\mathcal N(\mu_2,\sigma_2^2 I)\)，把两者按 \(1-\lambda\) 与 \(\lambda\) 幂次相乘，指数项恰好凑成一个新的二次型，于是混合结果仍是高斯，且参数闭式可写：

\[\Sigma_\text{new}=\left(\frac{1-\lambda}{\sigma_1^2}+\frac{\lambda}{\sigma_2^2}\right)^{-1}I,\quad \mu_\text{new}=\Sigma_\text{new}\left(\frac{1-\lambda}{\sigma_1^2}\mu_1+\frac{\lambda}{\sigma_2^2}\mu_2\right)\]

即逆方差（精度）做线性插值、均值做精度加权平均。当 \(\lambda\in[0,1]\) 时 \(\Sigma_\text{new}\) 严格正定（Corollary 1），保证后验合法；并且 DDIM/DDPM 等确定性调度器的后验变换不破坏高斯性，所以这套更新能逐步迭代套用到整条采样轨迹上。

3. 单标量在线调控与外推的边界。 整个再对齐只暴露一个旋钮 \(\lambda\)，等效正则强度为 \(\beta/\lambda\)，可在采样途中任意切换而无需重训。\(\lambda=0\) 恢复先验、\(\lambda=1\) 恢复锚模型、\(0<\lambda<1\) 是凸组合（log 密度的凸组合，最稳、效果最好）。\(\lambda>1\) 时 \(1-\lambda<0\) 使组合不再是凸组合，新协方差可能失去正定性、变得病态，进而画质退化并诱发类似 reward-hacking 的伪影——这与"正则太弱"的直觉完全吻合。因此 Theorem 1 的假设明确限定 \(\lambda\in[0,1]\)，但实验显示中等幅度的 \(\lambda>1\) 在失稳前仍能近似更弱正则的模型。

4. 采样算法与多奖励扩展。 Algorithm 1 给出完整流程：每步对参考与锚模型各做一次 CFG 预测 \(\epsilon_\text{ref}\)、\(\epsilon_\text{tuned}\)，经调度器后验得到 \((\mu_1,\sigma_1^2)\)、\((\mu_2,\sigma_2^2)\)，再用 Corollary 1 的标量闭式算 \(\sigma_\text{new}^2,\mu_\text{new}\)，最后 \(x_{t-1}=\mu_\text{new}+z\sqrt{\sigma_\text{new}^2}\)。推导不要求 \(\sigma_1^2=\sigma_2^2\)，因此天然支持参考/对齐方差不等的更一般情形；作者进一步证明该几何混合可扩展到多奖励建模（附录 A.4）。

实验关键数据¶

实验以 SDXL 1.0（及附录的 SD1.5）为底座，用 DiffusionDPO 在 \(\beta\in\{500,1000,2000,5000,8000,10000\}\) 上各从头对齐一个模型；取其中一个作锚模型，用 DeRaDiff 调 \(\lambda\) 去近似其它强度，并与"从头对齐"的真值比较。评测用 500 条来自 Pick-a-Pic v1 + HPS 的 prompt，指标为 PickScore、HPS v2、CLIP。

主实验表格（\(\lambda\in[0,1]\) 训练-免费近似误差）¶

模型	CLIP MAE	CLIP MAE(% of μ)	HPS MAE	HPS MAE(% of μ)	PickScore MAE	PickScore MAE(% of μ)
SDXL	0.001604	0.430%	0.000770	0.265%	0.000355	0.154%
SD1.5	0.001557	0.448%	0.001175	0.425%	0.000718	0.332%

所有指标的平均绝对误差均 < 0.02 绝对值、且相对均值 < 0.5%，说明 \(\lambda\in[0,1]\) 时 DeRaDiff 几乎完美复现从头对齐模型的平均行为。

消融实验表格（锚 \(\beta=2000\) 近似各目标 \(\beta\) 的绝对误差%）¶

指标	β=500	β=1000	β=5000	β=8000	β=10000
PickScore	1.3451	0.7831	0.0611	0.1399	0.0987
HPS	0.5890	0.0299	0.1701	0.2688	0.2061
CLIP	0.4022	0.5077	0.3041	0.0310	—

近似在目标 \(\beta\) 高于锚 \(\beta\)（即 \(\lambda\in[0,1]\) 凸插值方向）时最准；目标 \(\beta\) 低于锚（\(\lambda>1\) 外推）时误差略升，与理论一致。

关键发现¶

撤销 reward hacking：用一个被奖励黑客的小 \(\beta\) 模型当锚、取较小 \(\lambda\)，可把图像拉回更强正则（如 \(\beta=2000\)）的样子，恢复细节与风格（Fig. 7）。
误差极小：PickScore 近似中位误差 \(2.83\times10^{-4}\)（约为其标准差的 20%），约 87% 的近似误差 \(\le5\times10^{-4}\)；CLIP 的 Bland–Altman 无系统性偏差，平均差仅 \(-0.273\%\,\mu\)。
算力节省：SDXL 单个 \(\beta\) 从头对齐 ≈336 GPU 小时（≈188.7 EFLOPs）；DeRaDiff 只对齐一次即可在线遍历整条正则谱，把多次扫参的训练成本几乎全部省去。

亮点与洞察¶

把离散 logit 混合升级成连续轨迹混合：语言模型的 realignment 只需混合一步 token 分布；扩散模型是连续隐变量的多步去噪，作者用"步级几何混合 + 高斯闭式"巧妙绕开了全样本边缘化的不可解性。
一个标量、零重训、可在线切换：\(\lambda\) 像一个"对齐强度旋钮"，把昂贵的离线超参扫描变成几乎免费的推理时探索，且能在生成途中动态调节。
理论边界与经验现象自洽：\(\lambda>1\) 失去正定性 ↔ reward-hacking 伪影，这种"数学不稳定对应视觉退化"的对应关系让方法的可用区间非常清楚（首选 \(\lambda\in[0,1]\)）。
首次在 DDPM 范式下给出步级再对齐的闭式后验：区别于此前 SDE/score-based 路线（Diffusion Blend），补上了 DDPM 范式的理论缺口。

局限与展望¶

外推区不可靠：\(\lambda>1\) 时协方差可能非正定，近似精度下降并可能产生伪影，方法主要保证在 \(\lambda\in[0,1]\) 内有效，向"更弱正则"方向探索受限。
依赖高斯/各向同性假设：闭式后验建立在"逐步后验近似为（标量/对角）高斯"之上，非高斯调度器或强相关协方差下结论未必成立。
需要双模型推理：每步要同时跑参考与锚两套 CFG 预测，单次采样的推理算力翻倍（但相对一次次从头训练仍远更省）。
逐步近似的累积误差：步级混合是对全样本混合的近似，存在 RLHF 分数匹配很好但视觉不完全一致的边缘情形。
展望：扩展到非高斯/流匹配范式、更稳健的 \(\lambda>1\) 外推、以及多奖励在线调权的系统评测都是自然方向。

评分¶

新颖性: ⭐⭐⭐⭐ 把 decoding-time realignment 从离散 token 严谨推广到连续扩散轨迹，并首次在 DDPM 范式给出步级闭式高斯后验，理论贡献扎实。
实验充分度: ⭐⭐⭐⭐ 覆盖 SDXL/SD1.5、6 档 \(\beta\)、3 个偏好/语义指标，并用 ECDF/散点/Bland–Altman 做统计faithfulness 检验，且量化了算力节省；略欠的是大规模人评与外推区的系统分析。
写作质量: ⭐⭐⭐⭐ 动机—理论—算法—实验链条清晰，定理与推论对 \(\lambda\) 行为的解释到位；部分实验细节散落附录、图较多。
价值: ⭐⭐⭐⭐ 直击"扩散对齐扫参贵"这一真实痛点，给出近乎免费的推理时探索工具，并能撤销 reward hacking，实用性强。