Pareto-Guided Optimal Transport for Multi-Reward Alignment¶

会议: ICML 2026
arXiv: 2605.13155
代码: 无
领域: 文生图对齐 / 多奖励优化
关键词: 多奖励对齐, 奖励 hacking, Pareto 前沿, 最优传输, JDR/JCR

一句话总结¶

PG-OT 把「多奖励文生图对齐」从「加权全局求和」改成「为每个 prompt 单独构造 Pareto 前沿、用 Sinkhorn 最优传输把被支配样本传到前沿」，并引入 Joint Domination Rate / Joint Collapse Rate 两个新指标暴露平均值掩盖的奖励 hacking，在 Parti-Prompts 上 JDR₂ 47.98% 比强基线提升 11%，人评胜率近 80%。

研究背景与动机¶

领域现状：文生图（T2I）后训练偏好对齐普遍用一个或多个 reward model 做 RLHF 风格的微调，目标函数形如 \(\mathcal{L}(x) = C - \sum_k w_k R^k(x)\)，把 \(C\) 当作全局上界，最大化加权奖励。

现有痛点：(i) 奖励 hacking 普遍存在——reward 分数继续涨而图像质量崩溃；(ii) 多奖励融合方法 靠权重搜索，调参成本高且收益不稳；(iii) 均值类评估指标（各 reward 平均涨多少）会掩盖 hacking：某一维涨而其它维跌，平均仍是正。

核心矛盾：作者发现这些问题的根因都是「用一个全局常数 \(C\) 当奖励上界」与「不同 prompt 实际能达到的最大奖励差异巨大」之间的不匹配。Figure 1 实证显示，在 ICT 奖励下 20 个 prompt 的最大奖励分布跨度极大；用一个全局 \(C\) 等于把所有 prompt 强行对齐到同一个上界，对那些天然上界低的 prompt 来说，梯度会一直推下去直到走捷径 → reward hacking。

本文目标：(a) 理论上证明「异质上界 + 全局目标」必然导致一部分样本被推向 hacking；(b) 设计一种「逐 prompt 上界感知」的优化策略；(c) 给出能可靠检测 hacking 的评估指标；(d) 区分强/弱 reward model 的行为差异，设计相应保护机制。

切入角度：把多奖励对齐自然嵌入 Pareto 优化框架——既然不同 prompt 的可达上界不同，就把「同 prompt 内最优样本集合」当作该 prompt 的 Pareto 前沿，用 OT 把同 prompt 的非最优样本「传」到前沿；强奖励信号在线扩展前沿、弱奖励信号离线锁定前沿并由 VLM agent 检测 collapse。

核心 idea：「prompt-specific Pareto 前沿作目标分布 + OT 作传输算子」，并用 JDR/JCR 两个 Pareto 风格指标量化「真增益 vs 假 hacking」。

方法详解¶

整体框架¶

PG-OT 的训练循环对每个 prompt \(p_i\) 工作：(1) 构造该 prompt 的 Pareto 前沿 \(\mathcal{R}^{front}(p_i)\)，离线策略为弱奖励预先生成 \(M\) 个样本并用支配矩阵抽前沿，在线策略为强奖励在训练中动态收集 batch 内样本扩展前沿；(2) 用 T2I 模型当前生成一批样本，从中找出被前沿支配的 \(n\) 个作为源分布 \(\mu_i\)，前沿作为目标分布 \(\nu_i\)；(3) 用熵正则化 Sinkhorn 求解 \(\gamma^\ast_i\)，把传输代价 \(\sum_{m,j} c(y_i^m, x_i^j)\gamma\) 当成损失反传到 T2I 模型参数；(4) 用 VLM agent 监控弱奖励的早期 collapse 模式，触发时移除该奖励并回滚到 stable checkpoint；(5) 最终用 JDR/JCR 评估真实增益。

关键设计¶

Prompt-specific Pareto 前沿构造（避开全局上界）:
- 功能：把「不同 prompt 上界不同」这一异质性显式编码成每个 prompt 独立的优化目标，从而消除「强迫低上界 prompt 走捷径」的诱因。
- 核心思路：给定 prompt \(p_i\) 生成 \(M\) 个候选样本 \(\{x_i^j\}_{j=1}^M\)，得到 reward 向量集合 \(\mathcal{R}_{i,M}^{(pre)} = \{\tilde R(x_i^j)\}\)。构造 \(M\times M\) 支配矩阵 \(A\)（\(A_{mn}=1\) 当 \(\tilde R(x_i^m)\succ\tilde R(x_i^n)\)），Pareto 前沿即为「被支配次数为 0」的样本集 \(\mathcal{R}^{front}(p_i) = \{\tilde R(x_i^j)\mid \sum_m A_{mj}=0\}\)。Pareto 支配定义为「所有维 ≥ 且至少一维 >」。
- 设计动机：每个 prompt 拿到自己的「真实可达上界」估计，模型不再被推向那些它根本到不了的全局极值；Figure 1 已实验证明 prompt-wise 上界异质性显著，全局 \(C\) 是病根。
Sinkhorn 最优传输把被支配样本传到前沿:
- 功能：在 reward 空间中把当前 batch 里被前沿支配的样本以最小总成本「搬」到前沿点上，作为可微的训练信号。
- 核心思路：源分布 \(\mu_i = \{\tilde R(x_i^j)\mid x_i^j\) 被 \(\mathcal{R}^{front}\) 中所有点支配\(\}\)，目标分布 \(\nu_i = \mathcal{R}^{front}(p_i)\)。地面成本是 reward 空间内平方欧式距离 \(c(y_i^m, x_i^j) = \|\tilde R(y_i^m) - \tilde R(x_i^j)\|_2^2\)。解熵正则化 OT \(\gamma^\ast_i = \arg\min_{\gamma\in\Pi(\mu_i, \nu_i)} \sum_{m,j} c(y_i^m, x_i^j)\gamma(y_i^m, x_i^j)\)，用 Sinkhorn 算法快速求解。\(\gamma^\ast\) 与 \(c\) 的内积反传到 T2I 模型，本质上让被支配样本朝着前沿上「最近的对应点」移动。训练管线采用类 DRaFT-K 的可微 reward 优化（reward 模型对图像可微）。
- 设计动机：OT 同时保持 reward 空间的几何（不是简单挑最大值），相比加权和或单点最大化，能避免「全部样本朝同一个目标坍缩」；Sinkhorn 的可微性让整个传输代价能反传到生成模型，是工程上必须的。
在线 / 离线双策略 + VLM Decision Agent:
- 功能：根据 reward model 的强弱采用不同前沿构造策略，并在弱 reward 即将 collapse 时及时止损。
- 核心思路：作者通过 Pick-a-Pic 与 Pick-High 两个高质量人偏好数据集测准 reward 准确率（Table 1：CLIP 60.3%, HPS 72.9%, ICT 87.6%, HP 88.5%），把后两者归为「强」、前两者归为「弱」。强 reward 走在线策略：训练中动态收集每个 prompt 的样本扩展前沿，鼓励 T2I 自主探索新的 Pareto 最优点；弱 reward 走离线策略：预生成 \(M\) 个样本一次性算好前沿，训练中只用这个固定前沿做目标，防止训练中假信号往前沿里污染。同时用 GPT-4o agent 配上「轻度 collapse 参考图集」检测 early mild collapse，一旦命中则移除该弱 reward 并回滚到上一个 stable checkpoint。
- 设计动机：强 reward 与人偏好一致，让它在线扩展前沿是「探索 + 鲁棒」；弱 reward 自己都不可靠，再让它在线扩展只会引入更多噪声，故离线锁定 + 主动检测删除是更稳的策略。

损失函数 / 训练策略¶

训练损失即 OT 传输总成本 \(\sum_{m,j}c(y_i^m, x_i^j)\gamma^\ast(y_i^m, x_i^j)\) 反传到 T2I 模型（这里使用 DRaFT-K 风格的可微奖励）。VLM agent 在每个验证步触发 collapse 检查，对各 reward 提前收集「mild collapse」案例做 in-context 参考。评估指标除了传统单 reward 胜率，引入 \(\mathrm{JDR}_K = \tfrac{1}{N}\sum_i \mathbb{1}(\mathbf{R}_i\succ\mathbf{R}_{i,b})\) 和 \(\mathrm{JCR}_K = \tfrac{1}{N}\sum_i \mathbb{1}(\mathbf{R}_{i,b}\succ\mathbf{R}_i)\)。

实验关键数据¶

主实验¶

基础模型 SD3.5-Turbo，4 个奖励：ICT、HP（强），CLIP、HPS（弱）；Parti-Prompts 评测。

方法	ICT 胜率	HP 胜率	CLIP 胜率	HPS 胜率	JDR₂ ↑	JDR₄ ↑	JCR₄ ↓
+ICT 单奖励	56.99	36.83	47.06	48.71	20.59	7.66	10.17
+HP 单奖励	52.45	90.26	44.30	57.29	36.15	13.73	4.11
加权 2:3:2:3	50.80	56.43	46.51	86.03	28.31	13.42	2.57
Reward Soup 3:2:1:4	50.80	53.74	43.32	85.29	26.29	10.85	3.19
Weighted-Sum (w/o OT)	52.63	56.86	46.94	82.48	29.84	13.66	3.49
PG-OT	56.43	85.23	43.63	61.70	47.98	17.10	2.39

人评胜率近 80%——这是论文最强卖点之一，PG-OT 没有在所有单 reward 上拿最高分（在 CLIP/HPS 上比 weighted-sum 低），但 JDR₂/JDR₄ 同时显著最高、JCR₄ 最低，说明它产出的样本更广泛地多维优于 baseline，且很少有维度坍缩。

消融实验¶

变体	关键观察
全局上界（weighted-sum）	各单 reward 涨但 JDR 低，JCR 偏高，证明 hacking 风险
仅 OT 不用 Pareto 前沿	OT 缺乏明确目标，效果接近 weighted-sum
仅 Pareto 不用 OT	前沿点离散，无可微信号
不区分强/弱 reward	弱 reward 在线扩展前沿会污染目标
不用 VLM agent 检测	弱 reward collapse 后无法及时止损
完整 PG-OT	JDR₂ 47.98%、JCR₄ 仅 2.39%，同时改进与抑制 hacking

表 2 给出 CLIP-only 优化时各 reward 的 trend：CLIP 涨 +7.27% 而 HPS 跌 -2.78%、HP 跌 -4.38%，正是典型的奖励冲突 + 部分 hacking 例证，凸显 PG-OT 引入 JDR/JCR 检测的必要性。

关键发现¶

单奖励优化（如 +HP 拿到 HP 胜率 90.26%）在该单维拿到最高但 JDR/JCR 都很差，说明传统「单 reward 胜率」指标严重误导。
weighted-sum 调权重收益有限：4 种比例下 JDR₄ 仅 12.44%–13.66%，远不如 PG-OT 的 17.10%。
JCR 指标揭示了 mean-based 指标看不到的隐藏 collapse：Separate-Cons 配置 HPS 胜率 61.21% 看起来 OK，但 JCR₄ 高达 6.68%，说明许多样本在所有维度同时退化。

亮点与洞察¶

「prompt-wise 异质上界」这一观察一针见血，把人们都习惯的「全局 reward」假设变成了显式可证的 hacking 来源，理论 + 实证一起推。
用 Pareto 前沿作 OT 目标分布是一个思想的接力——把单点最大化升级为「分布到分布的传输」，在多目标设置里有结构性优势。
JDR/JCR 把多奖励对齐评估从「平均分」转到「Pareto 比较」，可以作为之后多奖励 RLHF 工作的通用诊断标准。
强/弱 reward 的对称处理（在线扩展 vs 离线锁定）+ VLM agent 动态裁剪 reward，是对真实 RLHF 训练里 reward 质量参差不齐的务实工程方案。

局限与展望¶

离线 Pareto 前沿质量取决于预生成样本数 \(M\) 和 reward model 自身可靠性；若 reward 严重失调，前沿就是错的目标。
Sinkhorn 在大 batch 上的计算量与正则系数选择都对超参敏感，论文未给详细超参 ablation。
VLM agent 用「mild collapse 参考集」做触发，依赖人工标注的 collapse 案例，对未见过的新 collapse 模式可能失灵。
实验局限于 4 个 reward 与 SD3.5-Turbo 一个 backbone，跨更多 reward 数量级和扩散/AR 架构的可迁移性需更多验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「prompt-wise Pareto 前沿 + OT」+ 「JDR/JCR」双重原创，思想清晰
实验充分度: ⭐⭐⭐⭐ 多基线（单奖励/加权/Reward Soup/带 OT 无 Pareto）+ 人评，但 backbone 单一
写作质量: ⭐⭐⭐⭐ 理论铺垫严谨、动机分析（hacking 三类机制）很有教益
价值: ⭐⭐⭐⭐⭐ 对 multi-reward RLHF 的通用启示性强，JDR/JCR 可直接被社区采纳