Bradley–Terry and Multi-Objective Reward Modeling Are Complementary¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=3QHKJcwnpb
领域: 对齐RLHF / 奖励建模
关键词: 奖励建模, Bradley-Terry, 多目标奖励, reward hacking, OOD 鲁棒性
一句话总结¶
本文提出 SMORM,在一个共享 embedding 上同时挂一个 Bradley–Terry 单目标奖励头和一个多目标回归头联合训练,理论上证明两者互补——回归头帮单目标头在 OOD 下抗 reward hacking,BT 头反过来把弱小的多目标头"托举"上去,最终一个 7B 模型超过 70B 基线。
研究背景与动机¶
领域现状:RLHF 把奖励学习和策略学习解耦,先用人类偏好数据训一个 proxy 奖励模型,再用 PPO / BoN 之类的算法去优化策略。当前主流奖励模型基本都建在 Bradley–Terry(BT)框架上:给定 prompt \(x\)、chosen 回复 \(y_c\) 和 rejected 回复 \(y_r\),最小化 \(-\log \sigma(r_\theta(x,y_c) - r_\theta(x,y_r))\),让模型给被人偏好的回复打更高分。
现有痛点:RLHF 最大的隐患是 reward hacking——策略学会钻奖励函数的空子(比如生成重复、套路化内容)来刷高 proxy 分,却没真正变好。前人缓解 reward hacking 的路线(奖励集成、约束策略优化、ODIN 拆质量/长度、GRM 加文本生成正则)都有各自的代价:集成要训多个模型、约束优化对超参敏感、ODIN 只拿长度当偏置不够、GRM 的生成目标和奖励目标互相打架导致训练不稳。更关键的是,这些方法几乎都只在同分布(ID)下评测。
核心矛盾:本文实验发现,一旦 PPO/BoN 用的 prompt 和奖励模型训练数据来自不同分布(OOD),这些 SOTA 方法纷纷失效。作者推断:只用 chosen/rejected 二元标签训出来的 BT 模型是有偏的,分不清细粒度的质量差异,所以在 OOD 下被钻空子。一个自然的解药是引入多目标奖励模型(MORM)——它对 helpfulness、correctness、verbosity 等多个属性分别打分,逼着策略在所有维度上同时变好,让"低质量却高分"的捷径更难走。但 MORM 有个致命短板:高质量多属性标注数据稀缺(人工标贵、LLM-as-Judge 标的质量差),导致 MORM 单独打分能力往往还不如只用海量 chosen/rejected 标签训的单目标模型(SORM)。
本文目标:在不引入额外昂贵多属性偏好数据的前提下,高效地用细粒度属性分来缓解 OOD 下的 reward hacking。把 SORM 和 MORM 简单拼成 ensemble 会撞上两个问题:(1) 要跑两次独立推理,开销大;(2) 弱小的 MORM 会拖累聚合结果,成为系统瓶颈。
核心 idea:与其把两个模型当独立 ensemble,不如让一个共享 backbone 上的两个头联合训练——单目标 BT 头和多目标回归头共用同一个 embedding 空间,一次前向就出两套分。作者进一步从理论上证明:这俩看似形式迥异的损失,在共享 embedding 下会互相增益,而不只是简单叠加。
方法详解¶
整体框架¶
SMORM(Single and Multi-Objective Reward Model)的核心是"一个躯干、两个头、联合训练"。拿一个去掉原始输出线性层的 decoder-only LLM 当特征抽取器 \(f_\theta\),把 prompt 和回复拼接成 \(x \oplus y\) 喂进去,取最后一层 decoder 的 hidden state 作为 \(d\) 维特征。在这个特征之上挂两个线性头:单目标头权重 \(w_S \in \mathbb{R}^{d\times 1}\) 输出一个标量评分;多目标头权重 \(w_M \in \mathbb{R}^{d\times k}\) 输出 \(k\) 维属性分向量。两个头共享 \(f_\theta\),所以只需一次前向就能同时拿到单目标分和多属性分,从根上解决了 ensemble 要跑两遍的效率问题。
训练时给两类数据:单目标头吃 chosen/rejected 偏好数据 \(D_S\)(用 BT 损失),多目标头吃多属性标注数据 \(D_M\)(用 MSE 回归损失),两套损失加在一起对 \(\theta, w_S, w_M\) 联合优化。妙处在于:BT 头沿 chosen/rejected 方向校正 embedding 里样本的相对位置,使得多目标头哪怕只有少量数据也能学好;反过来多目标头把 embedding 雕琢得能区分多个属性的质量差异,使单目标头泛化性更强、在 OOD 下更抗 hacking。推理时支持三种策略:SMORM-F 只用单目标头出分、SMORM-L 取多目标头各属性分的均值、SMORM-M 取两个头分数的平均。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入 x⊕y<br/>(prompt + 回复拼接)"] --> B["共享 backbone f_θ<br/>取末层 hidden state"]
B --> C["单目标 BT 头 w_S<br/>chosen/rejected 偏好数据 D_S"]
B --> D["多目标回归头 w_M<br/>多属性标注数据 D_M"]
C --> E["联合损失<br/>BT loss + MSE 回归"]
D --> E
E -->|理论互补:彼此增益| F["推理:SMORM-F / -L / -M<br/>单头 / 多头均值 / 两头平均"]
关键设计¶
1. 共享 embedding 上的双头联合损失:用一次前向同时训 BT 和回归
这一设计直接针对"SORM+MORM 当 ensemble 要两次推理、且弱头拖后腿"的痛点。SMORM 不再训两个独立模型,而是在同一个 \(f_\theta\) 上挂两个头,用如下联合损失训练:
第一项是 BT 偏好损失,让单目标头在 chosen/rejected 方向上拉开分差;第二项是多属性回归的 MSE,让多目标头逼近真实属性分 \(r \in \mathbb{R}^K\)。表面上看这只是 BT 和回归损失的简单相加,但作者强调其联合训练非平凡:两个损失形式根本不同(一个是对差值的 sigmoid、一个是对绝对值的平方误差),它们如何通过共享 embedding 互相影响,是前人从未刻画过的。设计上还有个实用细节——两个头的训练数据不必是同一批 prompt-response 对,\(D_S\) 和 \(D_M\) 可以来自不同来源甚至不同领域,训练非常灵活。
2. 隐式多属性效应:BT 头把弱小的多目标头"托举"起来
MORM 单独训往往因数据稀缺而打分能力弱,这是它沦为瓶颈的根因。本文用 Theorem 1(Implicit Multi-Attribute Effect)证明:在共享 embedding 下联合训练后,多目标头输出的平均属性分 \(r_m(x,y)=\frac{1}{K}\sum_i w_{M,i}^\top f_\theta(x,y)\) 会被单目标分 \(r_s\) 下界控制住:
其中常数 \(c\) 和 \(\varepsilon\) 只依赖特征上界 \(B\) 和二阶矩,且依赖一个温和假设——多属性聚合分与单目标 reward 正相关(\(1^\top\alpha \geq 0\))。这个不等式给出两个推论:(1) 只要单目标分高(\(r_s \geq \tau\)),多属性均分就至少有 \(c\tau - \varepsilon\) 的保底质量——这解释了为什么只用单头的 SMORM-F 能和用双头的 SMORM-M 打平;(2) 单目标分的排序会被多属性分的下界继承,于是可以用海量易得的 chosen/rejected 数据训一个强 SORM,再去"指导"缺数据的 MORM,省掉昂贵的细粒度标注。
3. BT–回归桥接定理:证明联合训练严格优于各自单训
前面解决了"MORM 被托举",但还有个顾虑:联合训练会不会反过来拖垮 SORM?本文用 Lemma 1 + Theorem 2 回答。Lemma 1 建立了 BT 偏好误差与 MSE 的桥梁:成对偏好预测误差被回归 MSE 的平方根上界控制,
也就是说降低 MSE 就直接收紧了偏好预测误差。在此基础上 Theorem 2 证明:SMORM 学到的特征抽取器让两个头的渐近 MSE 都比各自单训时更小——\(\mathrm{MSE}^{\text{SMORM}}_S < \mathrm{MSE}^{\text{single}}_S\) 且 \(\mathrm{MSE}^{\text{SMORM}}_M < \mathrm{MSE}^{\text{multi}}_M\)。这是首个证明"共享 BT–回归架构严格优于两头独立训练"的理论保证,也解释了为什么 SMORM-F 在 RewardBench 上比单独训的 SORM 还高。
实验关键数据¶
主实验¶
奖励建模评测(RewardBench / RM-Bench),与单目标、多目标基线对比:
| 设置 | 指标 | 本文 SMORM | 对应基线 | 提升 |
|---|---|---|---|---|
| Gemma-2B, UF400k/UltraFeedback, RewardBench Avg | SMORM-F vs Baseline(Single) | 72.8 | 68.2 | +4.6 |
| Gemma-2B, UF40k/HelpSteer2, RewardBench Avg | SMORM-F vs Baseline(Single) | 71.0 | 64.2 | +6.8 |
| Mistral-7B, UF40k/HelpSteer2, RewardBench | SMORM-L vs Baseline(Multi) | 79.9 | 66.0 | +13.9 |
| Mistral-7B, UF40k/HelpSteer2, RM-Bench | SMORM-L vs Baseline(Multi) | 64.4 | 52.0 | +12.4 |
与大型先进多目标奖励模型对比(RewardBench Avg),SMORM 用远少的数据逼平/超越大模型:
| 奖励模型 | \(D_M\) 规模 | 模型大小 | Avg |
|---|---|---|---|
| Nemotron-4-340B-RM | 20K | 340B | 93.7 |
| ArmoRM-Llama3-8B-v0.1 | 585.4K | 8B | 90.4 |
| Llama-3-70B-RM | 20K | 70B | 88.8 |
| SMORM-L 7B (Ours) | 20K | 7B | 89.0 |
| SMORM-L 8B (Ours) | 20K | 8B | 90.4 |
SMORM-L 7B 用 20K 多目标数据就超过 70B 基线;8B 版用 15.9× 更少的数据追平 ArmoRM-8B。
消融 / 分析实验¶
RLHF 下的 reward hacking 鲁棒性(PPO / BoN,看 gold score 是否随训练/KL 增大而崩):
| 配置 | ID 设置表现 | OOD 设置表现 |
|---|---|---|
| Baseline (Single) | gold 分先升后降,典型过优化 | OOD 下被钻空子失效 |
| GRM | 升得快但随后回落 | 与 SMORM 差距进一步拉大 |
| ODIN | 只用长度偏置,PPO 下 gold 反降 | 不足以缓解 hacking |
| Baseline SM (SORM+MORM ensemble) | 比 GRM/ODIN 好,但 BoN 下被弱 MORM 拖累 | 弱头成瓶颈 |
| SMORM-F / SMORM-M | gold 分全程稳定上升 | OOD 下显著领先,最稳 |
关键发现¶
- 弱多目标头是真瓶颈:Baseline SM(朴素 ensemble)在 BoN 下甚至比单目标基线还差,印证了"直接拼 SORM+MORM"会被弱 MORM 拖垮——这正是 SMORM 用共享 embedding 联合训练要解决的核心问题。
- SMORM-F ≈ SMORM-M:只用单目标头推理就能逼近用双头的效果,实证了 Theorem 1 的隐式多属性下界——多属性质量已经被单目标分"保底",推理时甚至不用真去算多目标头。
- OOD 比 ID 更能拉开差距:在 OOD 设置下,SMORM 与 GRM 的性能差距比 ID 下更明显,说明现有方法的鲁棒性是被 ID 评测掩盖了的。
亮点与洞察¶
- 把 ensemble 改成共享 embedding 联合训练:同样是想"用多属性分救单目标头",前人做成两个独立模型的 ensemble,本文做成一个躯干两个头,既省掉一次推理又让两头互相增益——这是"架构选择决定能不能互补"的典型案例。
- 首次给 BT 与多目标回归建理论桥梁:Lemma 1 把 BT 偏好误差 bound 到 MSE,Theorem 1/2 证明双头联合严格优于单训。这套分析把"经验上有用"升级成"理论上必然",也解释了 SMORM-F≈SMORM-M 这个反直觉现象。
- 可迁移的设计思路:当你有一个数据多但信号粗的任务 A 和一个数据少但信号细的任务 B,共享表示 + 多头联合训练,可能让 A 的海量数据隐式托举 B 的小数据头——这个"强头托举弱头"的范式不限于奖励建模。
局限与展望¶
- 理论的关键假设是"多属性聚合分与单目标 reward 正相关(\(1^\top\alpha\geq 0\))",作者论证它通常成立,但在属性间冲突剧烈、或多属性标注本身有偏的场景下未必满足,此时下界可能失效。
- 实验 backbone 集中在 gemma-2B 和 Mistral-7B,最大到 8B;在更大规模策略模型、更复杂的真实 RLHF 流水线(如 GRPO、迭代式优化)上的表现还需验证。
- 多目标头的属性集(helpfulness/correctness/verbosity 等)依赖现有标注数据集定义,属性维度本身的选择和粒度对最终效果的影响没有深入消融。
相关工作与启发¶
- vs GRM(生成正则): GRM 往奖励建模里加文本生成正则来抗 hacking,但奖励目标和生成目标互相冲突、对平衡权重敏感、训练不稳;SMORM 加的是多目标回归头,两者通过共享 embedding 协同而非对抗,且有理论保证联合优于单训。
- vs ODIN(拆质量/长度): ODIN 用两个 BT 头分别学质量和长度,但只拿长度当偏置不足以缓解 hacking,且两头都是 BT 损失、共享 embedding 时的交互简单;SMORM 一头 BT 一头 MSE 回归,刻画两种异质损失的相互作用才是难点和贡献。
- vs 朴素 SORM+MORM ensemble(Baseline SM): 同样想结合单/多目标,ensemble 要两次推理且被弱 MORM 拖累成瓶颈;SMORM 一次前向、且 BT 头反向托举 MORM,把"弱头"变成了"被增益的头"。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个为 BT 偏好建模与多目标回归建立理论联系并证明互补的工作,视角新。
- 实验充分度: ⭐⭐⭐⭐ ID/OOD、PPO/BoN、两种 backbone、奖励建模+RLHF 都覆盖,但最大规模止于 8B。
- 写作质量: ⭐⭐⭐⭐ 动机层层递进、理论与实验呼应清晰。
- 价值: ⭐⭐⭐⭐⭐ 用更少数据让 7B 超 70B、且抗 OOD reward hacking,对实际 RLHF 流水线很有用。