跳转至

Threshold-Guided Optimization for Visual Generative Models

会议: ICML 2026
arXiv: 2605.04653
代码: 无
领域: 图像生成 / 偏好对齐
关键词: 阈值引导, 无配对偏好优化, 标量反馈, 扩散模型对齐, MaskGIT

一句话总结

作者把 DPO 的成对偏好假设拆掉,证明 KL 正则化最优策略本质上是把每个样本的 reward 与一个无法计算的实例相关基线 \(\tau^*(x)=\beta\log Z(x)\) 比较,于是用从分数分位数估出的全局阈值 \(\tau\) 替代它,再加一个与 \(|s-\tau|\) 成正比的置信度权重,让扩散模型和 MaskGIT 在仅有标量打分(无成对偏好)时也能稳定对齐,并在五个 reward model 三个测试集上一致优于 Diffusion-DPO / KTO / DSPO。

研究背景与动机

领域现状:视觉生成模型对齐的主流是把 LLM 的 RLHF / DPO 套过来:先收集成对偏好 \((y_w, y_l)\),再用 Bradley-Terry 模型让 \(\pi_\theta\)\(y_w\) 更高的概率比。Diffusion-DPO、AlignProp、DSPO 都是这条路。

现有痛点:实际场景里反馈往往不是成对,而是 1–5 星打分、reward model 的连续分,或者人工对单张图的标量分。硬把这些分凑成对(同 batch 内比较)会丢掉绝对数值信息,且分数聚集时人为对会被噪声放大。Diffusion-KTO 用 desirable/undesirable 集合绕开成对,但需要把分数硬切两堆。

核心矛盾:DPO 系列方法之所以能避开 KL 最优解里的难解配分函数 \(Z(x)\),靠的是成对差值里 \(\log Z(x)\) 自然抵消。一旦只有单样本标量分,这个抵消机制不再成立,必须直接面对 \(\tau^*(x)=\beta\log Z(x)\) 这个实例相关的基线。

本文目标:(i) 给标量反馈下的 KL-正则化对齐推出一个可计算的代理决策规则;(ii) 让规则同时适用于扩散模型 (MSE 似然代理) 和 MaskGIT (token 级 cross-entropy 似然);(iii) 不引入额外的成对采样开销,纯离线、单遍打分即可训练。

切入角度:作者从 KL 最优解出发,发现最优策略的更新方向其实是一个二元决策——只有当样本 reward 高过 \(\tau^*(x)\) 时才该提升其概率。既然 \(\tau^*(x)\) 难算,那能否用整个数据集上 reward 的某个分位数(如中位数)作为统一阈值 \(\tau\) 来近似?分数距离阈值远的样本天然提供更强的监督信号,这就启发了"置信度加权"。

核心 idea:用经验分数分布的分位阈值 \(\tau\) 作为全局代理替换难解的实例级基线 \(\tau^*(x)\),把对齐变成一个带置信度权重的二元分类任务,从而在无配对的标量反馈上做直接策略拟合。

方法详解

整体框架

TGO(Threshold-Guided Optimization)的训练流程分四步:(1) 给定参考策略 \(\pi_{\text{ref}}\)(即初始化时的 \(\pi_\theta\)),用 reward model \(r(\cdot)\) 给离线数据集 \(\{(x_i, y_i)\}\) 打分得到 \(s_i\);(2) 取 \(\{s_i\}\) 的某个分位数 \(\tau = \text{Percentile}(\{s_i\}, p)\)(默认 \(p=0.5\) 中位数);(3) 对每个样本生成伪标签 \(l_i = \mathbb{1}[s_i \ge \tau]\) 与置信度权重 \(w_i = 1 + c|s_i - \tau|\);(4) 用类似 DPO 的 sigmoid 二元交叉熵作为损失,但用单边的 implicit policy score \(\hat r = \beta(\log \pi_\theta - \log \pi_{\text{ref}})\) 而非两侧差值。整个流程是离线的,无需在线 rollout、无需 reward model 微调。

关键设计

  1. 从 KL 最优解推出的阈值决策规则:

    • 功能:把"该不该提升某样本概率"的问题简化成与一个全局标量阈值比较。
    • 核心思路:KL 正则化目标 \(\max \mathbb E[\mathcal R(x,y)] - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\) 的闭式最优解满足 \(\log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} > 0 \iff \mathcal R(x,y) > \tau^*(x)\),其中 \(\tau^*(x) = \beta \log Z(x)\)。作者用两个假设把它做成可算:标量分 \(s\) 是 reward 的单调变换;用经验分布的全局分位 \(\tau\) 替代 \(\tau^*(x)\)。于是决策规则变成 \(\pi_\theta(y|x) \gtrsim \pi_{\text{ref}}(y|x)\)\(s \ge \tau\)
    • 设计动机:DPO 之所以漂亮,是因为成对差值让 \(\log Z(x)\) 抵消;但无配对时必须正面对付 \(Z(x)\)。用全局阈值是最简单且统计上有保证的代理——附录定理证明替换后的估计量在 \(n \to \infty\) 时一致、误差 \(O(1/n)\),并校准到原 KL 最优规则。
  2. 置信度加权的二元分类损失:

    • 功能:让分数离阈值远(更确定是"好/坏")的样本贡献更大的梯度,离阈值近(模糊)的样本权重小。
    • 核心思路:定义 implicit policy score \(\hat s_{\theta,\text{ref}}(x,y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)}\),损失为 \(\mathcal L_{\text{TG}} = -\mathbb E[w(s,\tau)(l\log\sigma(\hat s) + (1-l)\log(1-\sigma(\hat s)))]\),其中 \(w(s,\tau) = 1 + c|s-\tau|\),超参 \(c \ge 0\)。这等价于一个加权 BCE 把策略向 reward 高的方向推、低的方向拉。
    • 设计动机:中位数附近的样本本身就是"灰色地带",把它们与极端样本同权处理会引入噪声;线性置信加权既保留全数据集利用率,又自然增强信号噪声比,且不引入超参敏感(实验中 \(c=5\) 跨任务稳定)。
  3. 针对两类视觉生成模型的似然代理:

    • 功能:让 \(\log \pi_\theta(y|x)\) 在扩散模型和 MaskGIT 上都能计算,从而让 TGO 框架同时适配连续与离散生成范式。
    • 核心思路:扩散模型用高斯观测假设 \(\log \pi_\theta(y|x) \approx -\frac{1}{T}\text{MSE}(y, \hat y_\theta(x))\),温度 \(T\) 控制尺度(默认 \(T=0.001\));MaskGIT 用 VQ-GAN tokenize 后掩码位置的对数似然 \(\log \pi_\theta(y|x) = \frac{1}{|M|}\sum_{i\in M}\log p_\theta(t_i | y_{\setminus M}, x)\) 直接可算。
    • 设计动机:扩散模型精确似然不可解,沿用 Diffusion-DPO 的高斯近似避免重新发明轮子;MaskGIT 是离散 token 模型,似然天然可算,反而是更"干净"的实验场景,能验证 TGO 不依赖扩散特有的近似。

损失函数 / 训练策略

最终损失即上面的 \(\mathcal L_{\text{TG}}\)。训练超参:\(\beta = 1\),扩散温度 \(T=0.001\),置信度尺度 \(c=5\),batch 128,78 个更新步(10K 提示集合),学习率 \(1\text{e}{-5}\)。阈值 \(\tau\) 在大数据时可在更小的 proxy 集合(由 \(\pi_{\text{ref}}\) 生成 + reward 打分)上估出后复用,估计误差按定理也是 \(O(1/n)\) 衰减。SFT baseline 用相同优化超参但只在伪正样本上训。

实验关键数据

主实验

在 SD v1.5 上用 Pick-a-Pic v2(成对转标量)训练,对比 7 种 baseline,三个测试集 × 五个 reward model:

测试集 指标 SD v1.5 Diffusion-DPO Diffusion-KTO TGO (本文)
Pick-a-Pic HPSv2.1 0.2469 0.2594 0.2814 0.2860
Pick-a-Pic ImageReward 0.1131 0.3433 0.6381 0.6703
PartiPrompts PickScore 21.15 21.41 21.50 21.55
HPSv2 ImageReward 0.1384 0.3672 0.7365 0.7595
HPSv2 Aesthetic 5.29 5.39 5.50 5.53

在 10K 标量反馈集合上跨范式比较:

范式 模型 HPSv2.1 ImageReward Aesthetic
Diffusion SD v1.4 0.2454 0.1406 5.4277
Diffusion + SFT 0.2506 0.2348 5.4927
Diffusion + TGO 0.2618 0.3523 5.6036
MaskGIT Meissonic 0.2810 0.8230 5.7692
MaskGIT + SFT 0.2912 0.9215 5.8013
MaskGIT + TGO 0.2915 0.9369 5.8270

消融实验

配置 关键变化 影响
Full TGO \(\tau\)=中位数, \(c=5\) 全维度最优
无置信度加权 (\(c=0\)) 退化为均权 BCE 在 ImageReward 等高方差指标上掉幅明显,验证加权对样本效率贡献
提高/降低 \(\tau\) 分位 改变正负样本比例 偏向极端分位时正样本太少,监督信号稀疏;中位数最稳
单 reward 训练 → 多 reward 评估 跨 reward 泛化 在未训练过的 reward 上也提升,说明 TGO 不是 reward hacking

关键发现

  • 在所有 reward 维度上一致打败 Diffusion-DPO(成对对照),说明"成对偏好假设"本身并非必须,标量打分加阈值就够。
  • TGO 在 MaskGIT(精确似然)和扩散(近似似然)上都有效,证明方法对生成范式无偏。
  • 阈值 \(\tau\) 可以用 proxy 集合便宜估计,理论上误差 \(O(1/n)\),工程上对大规模训练很友好。

亮点与洞察

  • 理论上把 DPO 拆穿:作者点破 DPO 能避开 \(Z(x)\) 不是因为成对偏好"更对",而是因为成对差值数学上让 \(\log Z(x)\) 抵消。一旦换成单样本,"成对"就不再有特权——这是把 DPO 系列方法的护城河重新审视了一遍。
  • 置信度加权 = 软margin:把 \(w = 1 + c|s-\tau|\) 看作分类问题里的样本权重,等价于让模型在"信号 margin"上更激进,是非常简洁的 trick,可以直接迁移到任何带分数的标签场景(如 LLM 的 reward score-based fine-tune)。
  • 跨范式统一:扩散 + MaskGIT 共用一个框架本身是个工程亮点,说明 TGO 不绑定扩散的 MSE 假设,对未来的 token-based 视频/3D 生成模型也可即插即用。

局限与展望

  • 全局阈值 \(\tau\) 隐含假设所有 prompt 的最优基线"差不多",但 \(\tau^*(x)\) 本质是实例相关的——困难 prompt 上可能本应有更高的基线,简单 prompt 应更低。文中未对 prompt-conditional 阈值做对比。
  • 离线训练前提下,\(\pi_{\text{ref}}\) 与训练时的 \(\pi_\theta\) 越走越远,伪标签可能过时;论文虽给出可选的 \(\pi_{\text{ref}} \leftarrow \pi_\theta\) 滚动更新但没系统验证。
  • reward model 自身的偏置会被直接放大(TGO 没有任何"去 reward hacking"机制),跨 reward 评估虽改进但远小于训练 reward 上的提升,仍存在过拟合 scorer 的风险。
  • 改进方向:把 \(\tau\) 做成 prompt embedding 的函数;引入在线 rollout 让 \(\tau\) 跟随策略更新;把 TGO 与 GRPO 结合用作 actor-critic 中的 critic 估计。

相关工作与启发

  • vs Diffusion-DPO:DPO 必须成对,TGO 只需标量;DPO 通过差值抵消 \(Z(x)\),TGO 用全局阈值近似 \(\tau^*(x)\)。在所有实验中 TGO 一致更优。
  • vs Diffusion-KTO:KTO 也用 desirable/undesirable 集合,但基于 Kahneman-Tversky 价值函数;TGO 直接从 KL 最优解推出阈值规则,理论更干净,超参少(KTO 需要两个 desirable/undesirable 权重)。
  • vs QRPO:QRPO 把 reward 做分位变换让 \(Z\) 解析;TGO 不变换 reward,而是用分位"切"为正负,逻辑上更接近 DPO 的分类框架,工程上更轻。
  • vs DSPO:DSPO 在 SD 上常常退化回基线(多个指标和原始 SD v1.5 完全相同),TGO 一致改进,证明对 score-based 监督的开发更彻底。

评分

  • 新颖性: ⭐⭐⭐⭐ 理论上把 DPO 拆解为"全局阈值的近似"是个干净的新视角,但工程上和 KTO/QRPO 同属 unpaired 路线。
  • 实验充分度: ⭐⭐⭐⭐ 三测试集 × 五 reward × 两生成范式 × 多 baseline,coverage 良好,但缺少在线策略下的对比和阈值条件化的消融。
  • 写作质量: ⭐⭐⭐⭐ 从 KL 公式一路推到算法,逻辑链条非常清晰,附录定理给出一致性、偏差、校准的完整保证。
  • 价值: ⭐⭐⭐⭐ 对实际工程意义大,因为绝大多数 reward 数据天然是标量而非成对,TGO 直接降低了数据采集成本。