Learning Ordinal Probabilistic Reward from Preferences (OPRM)¶

会议: ICLR 2026
arXiv: 2602.12660

领域: LLM Alignment / 奖励建模
关键词: 序数奖励, 概率分布, 区域洪泛调优, 奖励模型, 不确定性估计

一句话总结¶

提出序数概率奖励模型(OPRM)，将响应质量离散化为1-9序数等级并学习完整概率分布，结合区域洪泛调优(RgFT)实现数据高效训练。在RewardBench达89.3%，比现有RM提升2.9%-7.4%，同时提供不确定性估计和标注分歧检测。

研究背景与动机¶

领域现状：奖励模型分为生成式(GRM，需点对式监督成本高)和判别式(DRM，只用成对偏好但分数未标定)。

现有痛点：DRM的相对分数缺乏概率解释，无法评估不确定性；GRM需要精确的质量标签。

核心 idea：序数离散化+完整分布 = DRM的效率 + GRM的可解释性

方法详解¶

整体框架¶

OPRM 将奖励建模从"学一个标量"转变为"学一个概率分布"。输入 prompt+response 经 LLM backbone，在最后一个 token 位置取 softmax 后的词汇表概率，提取数字 token '1'-'9' 的概率并归一化，得到序数质量分布 \(p_\psi(s|x,y)\)。推理时通过加权平均得到标量奖励。

关键设计¶

概率奖励模型（PRM → OPRM）：将质量分数建模为随机变量 \(S\)，学习条件 PDF \(p_\psi(s|x,y)\)。偏好概率为 \(P(y_c \succ y_r|x) = \int\int \mathbb{1}(s_c > s_r) p_\psi(s_c|x,y_c) p_\psi(s_r|x,y_r) ds_r ds_c\)。连续分布无解析解，离散化为 1-9 等级后得到闭式求和。
序数概率与 Bradley-Terry 的关系：证明 BT 模型是 OPRM 的特例——当质量分布退化为固定形状的 Gumbel 分布时。OPRM 通过学习完整分布，支持多峰偏好和不确定性估计。
梯度动力学：\(\partial J / \partial p_c(k) = P(s_r < k)\)，\(\partial J / \partial p_r(k) = P(s_c > k)\)。将 chosen 的概率质量推向高分区、rejected 推向低分区，产生持续的对比优化压力。
区域洪泛调优（RgFT）：利用质量等级标注（good/normal/bad）将分布约束到对应子区域。简单区间约束导致梯度消失，RgFT 将其转化为三角形概率景观，恢复梯度激励——既定位正确区域又最大化偏好 margin。支持半监督训练（有标注+仅偏好数据混合）。

实现细节¶

无额外参数：直接复用 LM head 的词汇表概率，无需 value head
输入灵活：支持单响应评分和多响应对比，适用于 BoN 场景
不确定性量化：分布方差作为置信度指标——宽分布=模糊偏好，尖峰分布=明确偏好

实验关键数据¶

主实验（4 个基准，10+ 任务）¶

模型	RewardBench	RMB-Chat	RMB-Safety	RMB-Code	Overall*
Skywork-Reward-V2 (8B)	92.0	70.7	76.2	67.8	71.6
ArmoRM (8B)	89.5	72.1	74.8	65.3	70.7
OPRM-Qwen2.5-14B	89.3	76.4	78.5	70.1	73.8

RgFT 消融¶

配置	RMB Overall	说明
OPRM（无 RgFT）	71.2	基线概率奖励
+ RgFT（仅 good/bad）	72.8	二分类标注
+ RgFT（good/normal/bad）	73.8	三级标注最优
+ 全量质量标注	73.5	更多标注反而轻微下降

关键发现¶

OPRM 在 RewardBench 外的三个基准上一致优于 BT 和 GRM 基线，平均提升 2.9%-7.4%
RgFT 用少量质量标注（20% 数据有标注）即可有效校准分布，数据效率极高
多峰分布可检测标注分歧：不一致的偏好对导致双峰分布，可用于数据质量筛选
OPRM 对 margin 微妙差异更敏感——在"chosen 略优于 rejected"的困难样本上优势最大

亮点与洞察¶

统一 DRM 和 GRM 的优势：无需额外 value head（vs DRM），无需 CoT critique（vs GRM），直接从 LM head 获取分布
序数离散化保留质量的有序性同时避免了精确点对式标注的成本
RgFT 的"洪泛"思想巧妙——将硬区间约束软化为梯度友好的三角形景观
不确定性估计可用于 BoN 采样时的风险感知选择——选择高均值+低方差的响应

局限与展望¶

1-9 等级的粒度选择缺乏理论指导，过粗或过细可能影响性能
未探索与 RLHF/DPO 训练的实际集成——OPRM 的分布奖励如何用于 PPO 需要额外设计
依赖 LLM 对数字 token 的内在序数理解，小模型可能理解不足
RgFT 的半监督设置中，有标注数据的比例对性能影响的敏感度未充分分析

评分¶

新颖性: ⭐⭐⭐⭐ 序数概率奖励的统一视角新颖，BT 作为特例的证明优雅
实验充分度: ⭐⭐⭐⭐ 4 个基准 + 丰富消融 + 分布可视化
写作质量: ⭐⭐⭐⭐ 理论推导完整，动机清晰
价值: ⭐⭐⭐⭐ 为奖励模型提供了新范式，分布输出开辟新应用场景