Bradley–Terry and Multi-Objective Reward Modeling Are Complementary¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=3QHKJcwnpb
领域: 对齐RLHF / 奖励建模
关键词: 奖励建模, Bradley-Terry, 多目标奖励, reward hacking, OOD 鲁棒性

一句话总结¶

本文提出 SMORM，在一个共享 embedding 上同时挂一个 Bradley–Terry 单目标奖励头和一个多目标回归头联合训练，理论上证明两者互补——回归头帮单目标头在 OOD 下抗 reward hacking，BT 头反过来把弱小的多目标头"托举"上去，最终一个 7B 模型超过 70B 基线。

研究背景与动机¶

领域现状：RLHF 把奖励学习和策略学习解耦，先用人类偏好数据训一个 proxy 奖励模型，再用 PPO / BoN 之类的算法去优化策略。当前主流奖励模型基本都建在 Bradley–Terry（BT）框架上：给定 prompt \(x\)、chosen 回复 \(y_c\) 和 rejected 回复 \(y_r\)，最小化 \(-\log \sigma(r_\theta(x,y_c) - r_\theta(x,y_r))\)，让模型给被人偏好的回复打更高分。

现有痛点：RLHF 最大的隐患是 reward hacking——策略学会钻奖励函数的空子（比如生成重复、套路化内容）来刷高 proxy 分，却没真正变好。前人缓解 reward hacking 的路线（奖励集成、约束策略优化、ODIN 拆质量/长度、GRM 加文本生成正则）都有各自的代价：集成要训多个模型、约束优化对超参敏感、ODIN 只拿长度当偏置不够、GRM 的生成目标和奖励目标互相打架导致训练不稳。更关键的是，这些方法几乎都只在同分布（ID）下评测。

核心矛盾：本文实验发现，一旦 PPO/BoN 用的 prompt 和奖励模型训练数据来自不同分布（OOD），这些 SOTA 方法纷纷失效。作者推断：只用 chosen/rejected 二元标签训出来的 BT 模型是有偏的，分不清细粒度的质量差异，所以在 OOD 下被钻空子。一个自然的解药是引入多目标奖励模型（MORM）——它对 helpfulness、correctness、verbosity 等多个属性分别打分，逼着策略在所有维度上同时变好，让"低质量却高分"的捷径更难走。但 MORM 有个致命短板：高质量多属性标注数据稀缺（人工标贵、LLM-as-Judge 标的质量差），导致 MORM 单独打分能力往往还不如只用海量 chosen/rejected 标签训的单目标模型（SORM）。

本文目标：在不引入额外昂贵多属性偏好数据的前提下，高效地用细粒度属性分来缓解 OOD 下的 reward hacking。把 SORM 和 MORM 简单拼成 ensemble 会撞上两个问题：(1) 要跑两次独立推理，开销大；(2) 弱小的 MORM 会拖累聚合结果，成为系统瓶颈。

核心 idea：与其把两个模型当独立 ensemble，不如让一个共享 backbone 上的两个头联合训练——单目标 BT 头和多目标回归头共用同一个 embedding 空间，一次前向就出两套分。作者进一步从理论上证明：这俩看似形式迥异的损失，在共享 embedding 下会互相增益，而不只是简单叠加。

方法详解¶

整体框架¶

SMORM（Single and Multi-Objective Reward Model）的核心是"一个躯干、两个头、联合训练"。拿一个去掉原始输出线性层的 decoder-only LLM 当特征抽取器 \(f_\theta\)，把 prompt 和回复拼接成 \(x \oplus y\) 喂进去，取最后一层 decoder 的 hidden state 作为 \(d\) 维特征。在这个特征之上挂两个线性头：单目标头权重 \(w_S \in \mathbb{R}^{d\times 1}\) 输出一个标量评分；多目标头权重 \(w_M \in \mathbb{R}^{d\times k}\) 输出 \(k\) 维属性分向量。两个头共享 \(f_\theta\)，所以只需一次前向就能同时拿到单目标分和多属性分，从根上解决了 ensemble 要跑两遍的效率问题。

训练时给两类数据：单目标头吃 chosen/rejected 偏好数据 \(D_S\)（用 BT 损失），多目标头吃多属性标注数据 \(D_M\)（用 MSE 回归损失），两套损失加在一起对 \(\theta, w_S, w_M\) 联合优化。妙处在于：BT 头沿 chosen/rejected 方向校正 embedding 里样本的相对位置，使得多目标头哪怕只有少量数据也能学好；反过来多目标头把 embedding 雕琢得能区分多个属性的质量差异，使单目标头泛化性更强、在 OOD 下更抗 hacking。推理时支持三种策略：SMORM-F 只用单目标头出分、SMORM-L 取多目标头各属性分的均值、SMORM-M 取两个头分数的平均。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入 x⊕y<br/>(prompt + 回复拼接)"] --> B["共享 backbone f_θ<br/>取末层 hidden state"]
    B --> C["单目标 BT 头 w_S<br/>chosen/rejected 偏好数据 D_S"]
    B --> D["多目标回归头 w_M<br/>多属性标注数据 D_M"]
    C --> E["联合损失<br/>BT loss + MSE 回归"]
    D --> E
    E -->|理论互补：彼此增益| F["推理：SMORM-F / -L / -M<br/>单头 / 多头均值 / 两头平均"]

关键设计¶

1. 共享 embedding 上的双头联合损失：用一次前向同时训 BT 和回归

这一设计直接针对"SORM+MORM 当 ensemble 要两次推理、且弱头拖后腿"的痛点。SMORM 不再训两个独立模型，而是在同一个 \(f_\theta\) 上挂两个头，用如下联合损失训练：

\[\min_{\theta, w_S, w_M} -\mathbb{E}_{D_S}\big[\log\sigma\big(w_S^\top(f_\theta(x_s,y_c)-f_\theta(x_s,y_r))\big)\big] + \mathbb{E}_{D_M}\big\|w_M^\top f_\theta(x_m,y_m)-r\big\|_2^2\]

第一项是 BT 偏好损失，让单目标头在 chosen/rejected 方向上拉开分差；第二项是多属性回归的 MSE，让多目标头逼近真实属性分 \(r \in \mathbb{R}^K\)。表面上看这只是 BT 和回归损失的简单相加，但作者强调其联合训练非平凡：两个损失形式根本不同（一个是对差值的 sigmoid、一个是对绝对值的平方误差），它们如何通过共享 embedding 互相影响，是前人从未刻画过的。设计上还有个实用细节——两个头的训练数据不必是同一批 prompt-response 对，\(D_S\) 和 \(D_M\) 可以来自不同来源甚至不同领域，训练非常灵活。

2. 隐式多属性效应：BT 头把弱小的多目标头"托举"起来

MORM 单独训往往因数据稀缺而打分能力弱，这是它沦为瓶颈的根因。本文用 Theorem 1（Implicit Multi-Attribute Effect）证明：在共享 embedding 下联合训练后，多目标头输出的平均属性分 \(r_m(x,y)=\frac{1}{K}\sum_i w_{M,i}^\top f_\theta(x,y)\) 会被单目标分 \(r_s\) 下界控制住：

\[r_m(x,y) \geq c \cdot r_s(x,y) - \varepsilon\]

其中常数 \(c\) 和 \(\varepsilon\) 只依赖特征上界 \(B\) 和二阶矩，且依赖一个温和假设——多属性聚合分与单目标 reward 正相关（\(1^\top\alpha \geq 0\)）。这个不等式给出两个推论：(1) 只要单目标分高（\(r_s \geq \tau\)），多属性均分就至少有 \(c\tau - \varepsilon\) 的保底质量——这解释了为什么只用单头的 SMORM-F 能和用双头的 SMORM-M 打平；(2) 单目标分的排序会被多属性分的下界继承，于是可以用海量易得的 chosen/rejected 数据训一个强 SORM，再去"指导"缺数据的 MORM，省掉昂贵的细粒度标注。

3. BT–回归桥接定理：证明联合训练严格优于各自单训

前面解决了"MORM 被托举"，但还有个顾虑：联合训练会不会反过来拖垮 SORM？本文用 Lemma 1 + Theorem 2 回答。Lemma 1 建立了 BT 偏好误差与 MSE 的桥梁：成对偏好预测误差被回归 MSE 的平方根上界控制，

\[\mathbb{E}_{D_S}\big|P(y_A\succ y_B)-P^\star(y_A\succ y_B)\big| \leq \tfrac{1}{4}\mathbb{E}_{D_S}\big[\sqrt{2\,\mathrm{MSE}(r_s)}\big]\]

也就是说降低 MSE 就直接收紧了偏好预测误差。在此基础上 Theorem 2 证明：SMORM 学到的特征抽取器让两个头的渐近 MSE 都比各自单训时更小——\(\mathrm{MSE}^{\text{SMORM}}_S < \mathrm{MSE}^{\text{single}}_S\) 且 \(\mathrm{MSE}^{\text{SMORM}}_M < \mathrm{MSE}^{\text{multi}}_M\)。这是首个证明"共享 BT–回归架构严格优于两头独立训练"的理论保证，也解释了为什么 SMORM-F 在 RewardBench 上比单独训的 SORM 还高。

实验关键数据¶

主实验¶

奖励建模评测（RewardBench / RM-Bench），与单目标、多目标基线对比：

设置	指标	本文 SMORM	对应基线	提升
Gemma-2B, UF400k/UltraFeedback, RewardBench Avg	SMORM-F vs Baseline(Single)	72.8	68.2	+4.6
Gemma-2B, UF40k/HelpSteer2, RewardBench Avg	SMORM-F vs Baseline(Single)	71.0	64.2	+6.8
Mistral-7B, UF40k/HelpSteer2, RewardBench	SMORM-L vs Baseline(Multi)	79.9	66.0	+13.9
Mistral-7B, UF40k/HelpSteer2, RM-Bench	SMORM-L vs Baseline(Multi)	64.4	52.0	+12.4

与大型先进多目标奖励模型对比（RewardBench Avg），SMORM 用远少的数据逼平/超越大模型：

奖励模型	\(D_M\) 规模	模型大小	Avg
Nemotron-4-340B-RM	20K	340B	93.7
ArmoRM-Llama3-8B-v0.1	585.4K	8B	90.4
Llama-3-70B-RM	20K	70B	88.8
SMORM-L 7B (Ours)	20K	7B	89.0
SMORM-L 8B (Ours)	20K	8B	90.4

SMORM-L 7B 用 20K 多目标数据就超过 70B 基线；8B 版用 15.9× 更少的数据追平 ArmoRM-8B。

消融 / 分析实验¶

RLHF 下的 reward hacking 鲁棒性（PPO / BoN，看 gold score 是否随训练/KL 增大而崩）：

配置	ID 设置表现	OOD 设置表现
Baseline (Single)	gold 分先升后降，典型过优化	OOD 下被钻空子失效
GRM	升得快但随后回落	与 SMORM 差距进一步拉大
ODIN	只用长度偏置，PPO 下 gold 反降	不足以缓解 hacking
Baseline SM (SORM+MORM ensemble)	比 GRM/ODIN 好，但 BoN 下被弱 MORM 拖累	弱头成瓶颈
SMORM-F / SMORM-M	gold 分全程稳定上升	OOD 下显著领先，最稳

关键发现¶

弱多目标头是真瓶颈：Baseline SM（朴素 ensemble）在 BoN 下甚至比单目标基线还差，印证了"直接拼 SORM+MORM"会被弱 MORM 拖垮——这正是 SMORM 用共享 embedding 联合训练要解决的核心问题。
SMORM-F ≈ SMORM-M：只用单目标头推理就能逼近用双头的效果，实证了 Theorem 1 的隐式多属性下界——多属性质量已经被单目标分"保底"，推理时甚至不用真去算多目标头。
OOD 比 ID 更能拉开差距：在 OOD 设置下，SMORM 与 GRM 的性能差距比 ID 下更明显，说明现有方法的鲁棒性是被 ID 评测掩盖了的。

亮点与洞察¶

把 ensemble 改成共享 embedding 联合训练：同样是想"用多属性分救单目标头"，前人做成两个独立模型的 ensemble，本文做成一个躯干两个头，既省掉一次推理又让两头互相增益——这是"架构选择决定能不能互补"的典型案例。
首次给 BT 与多目标回归建理论桥梁：Lemma 1 把 BT 偏好误差 bound 到 MSE，Theorem 1/2 证明双头联合严格优于单训。这套分析把"经验上有用"升级成"理论上必然"，也解释了 SMORM-F≈SMORM-M 这个反直觉现象。
可迁移的设计思路：当你有一个数据多但信号粗的任务 A 和一个数据少但信号细的任务 B，共享表示 + 多头联合训练，可能让 A 的海量数据隐式托举 B 的小数据头——这个"强头托举弱头"的范式不限于奖励建模。

局限与展望¶

理论的关键假设是"多属性聚合分与单目标 reward 正相关（\(1^\top\alpha\geq 0\)）"，作者论证它通常成立，但在属性间冲突剧烈、或多属性标注本身有偏的场景下未必满足，此时下界可能失效。
实验 backbone 集中在 gemma-2B 和 Mistral-7B，最大到 8B；在更大规模策略模型、更复杂的真实 RLHF 流水线（如 GRPO、迭代式优化）上的表现还需验证。
多目标头的属性集（helpfulness/correctness/verbosity 等）依赖现有标注数据集定义，属性维度本身的选择和粒度对最终效果的影响没有深入消融。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个为 BT 偏好建模与多目标回归建立理论联系并证明互补的工作，视角新。
实验充分度: ⭐⭐⭐⭐ ID/OOD、PPO/BoN、两种 backbone、奖励建模+RLHF 都覆盖，但最大规模止于 8B。
写作质量: ⭐⭐⭐⭐ 动机层层递进、理论与实验呼应清晰。
价值: ⭐⭐⭐⭐⭐ 用更少数据让 7B 超 70B、且抗 OOD reward hacking，对实际 RLHF 流水线很有用。