Reward Modeling from Natural Language Human Feedback¶
会议: ICML 2026
arXiv: 2601.07349
代码: 未公开
领域: LLM 对齐 / 奖励建模 / RLHF
关键词: 生成式奖励模型 (GRM)、过程奖励、自然语言反馈、MetaRM、GRPO
一句话总结¶
本文指出在二元偏好奖励上训练的 generative reward model (GRM) 严重存在"猜对偏好但 critique 错误"的 outcome-process 不一致(20-30%、最高 44%),并提出 RM-NLHF:把模型 critique 与人工 critique 的核心论点相似度作为额外过程奖励,并用 MetaRM 自动预测过程奖励、在线随策略更新,从而在多个 benchmark 上稳定超过 outcome-only GRPO 训练的 SOTA GRM。
研究背景与动机¶
领域现状:生成式奖励模型 (GRM) 因为能输出 critique + preference label,比传统 scalar RM 更鲁棒、可解释,是当前 LLM 对齐与 RLHF 的主流。训练上以 RLVR + GRPO 为主:让模型对一对回答生成 reasoning + critique,最后给出 A/B label,binary 奖励 \(R_{\text{outcome}}\in\{0,1\}\) 来自 label 是否匹配 ground truth。
现有痛点:作者在 MATH-500(数学,大解空间)和 HelpSteer3(pairwise 奖励,二元解空间)上做对照实验。数学任务上 outcome 对 ⇒ process 几乎也对,几乎无不一致;而 pairwise rewarding 上,RM-R1-DeepSeek-Distilled-Qwen-7B 有 44.24% 的"outcome 对 / critique 错"率,gemini-2.5-pro 26.1%,claude-3.7-sonnet 33.6%。这种"猜对 label 不靠正确 critique"的现象注入大量伪奖励,让 RL 收敛到生成 wrong critique 的 policy。
核心矛盾:解空间大小决定了 outcome 监督的可靠性。数学题答案空间巨大("答案 42"几乎必然走对推理),而二元偏好任务解空间只有 {A, B},瞎猜也有 50% 命中率,outcome 信号噪声极大。但二元判定形式无法像数学那样被改写成 fill-in-the-blank 扩大解空间。
本文目标:在不改 pairwise 任务结构的前提下,给 GRM 补一份可信的 process 奖励,让 critique 质量直接进入训练 loop;同时解决"人工 critique 数据稀缺"的可扩展性瓶颈。
切入角度:人类对一对回答给出的自然语言反馈(critique)天然就是 process supervision——模型 critique 与人工 critique 的核心论点重合度,恰好就是 critique 是否合理的最直接代理;此外可以再训一个 MetaRM 让人工 critique 数据"长出"伪 critique 数据。
核心 idea:用 "GRM critique 与人工 critique 在核心论点上的相似度" 作为过程奖励,与 outcome 奖励叠加进入 GRPO;再用 MetaRM 把这个奖励信号从少量人工数据外推到无标注数据,并在 RL 训练中在线更新 MetaRM 以追上 policy 漂移。
方法详解¶
整体框架¶
基线沿用 GRPO:query \(q\) + 候选 \(y_A, y_B\) + 偏好标签 \(l\in\{A,B\}\) → GRM \(\pi_\theta\) 生成 CoT + critique + 预测 \(\hat l\);对每条 prompt rollout \(N\) 次得到 outcome 奖励 \(R_{\text{outcome}}^i\) 并按组内归一化得 advantage \(\hat A_i\)。RM-NLHF 在此基础上加一路 process 奖励:(1) 数据上有人工 critique \(h\) 时直接算 GRM critique \(\hat c\) 与 \(h\) 的核心论点相似度;(2) 数据上没有 \(h\) 时用 MetaRM 预测;(3) 训练全程在线更新 MetaRM 以匹配当前 policy 输出分布。最终 advantage = outcome reward + process reward 共同决定。
关键设计¶
-
核心论点相似度(Similarity w/ Core HC)作为过程奖励:
- 功能:把"GRM critique 是否合理"压缩为一个可机算的数值奖励,并避免被 nitpicky critique 干扰。
- 核心思路:用一个外部强 LLM(gemini-2.5-pro)从人工 critique \(h\) 与 GRM critique \(\hat c\) 中分别抽出 core arguments(剔除细枝末节的挑刺式 critique),然后算 F1/Recall/Precision 三种相似度变体。在 49 样本人工标注子集上做了对照:直接让 LLM-as-Meta-Judge 判 \(\hat c\) 是否正确不够稳;用 All HC 相似度容易被 nitpicky critique 拉低;只用 Core HC 相似度最接近人工 label。最终的过程奖励 \(R_{\text{process}}=\text{sim}(\text{core}(h), \text{core}(\hat c))\),与 \(R_{\text{outcome}}\) 加权后进入 GRPO 的 advantage 归一化。
- 设计动机:直接让 LLM 判 critique 正确性会受到 judge bias 与表达风格影响;而"核心论点重合"既保留语义级判断,又把 nitpicky 噪声筛掉,定量上是三种 proxy 里最优。同时这种 reward 兼容 RLVR 的 verifier 框架(一个数值奖励),不需要改动 GRPO loss。
-
MetaRM:从人工 critique 数据预测过程奖励:
- 功能:解决人工 critique 数据稀缺的可扩展性瓶颈——大多数 preference 数据集(UltraFeedback、HelpSteer 系列)只有 outcome label,没有 critique。
- 核心思路:训练一个辅助模型 MetaRM,输入 \((q, y_A, y_B, \hat c)\),输出对该 critique 的过程奖励估计。MetaRM 用有人工 critique 的子集训练,目标是拟合"\(\hat c\) 与人工 \(h\) 的 core similarity";推理时对无人工 critique 的数据直接预测奖励。这样作者用少量人工标注换来了在全量数据上的过程监督。
- 设计动机:人工 critique 标注成本极高(HelpSteer3 都只有部分样本带 critique),如果只能在 50k 带 critique 数据上训,规模上根本干不过 outcome-only RL;MetaRM 等于把"critique 评估能力"蒸馏到一个轻量模型里,让其泛化到只有 outcome label 的大盘数据。
-
Online MetaRM:随 GRM 同步演化的奖励模型:
- 功能:缓解 RL 训练中 policy 漂移导致 MetaRM 评估分布不匹配的问题。
- 核心思路:训练循环交替更新 GRM 与 MetaRM。GRM 走 GRPO 更新一步 → 当前 policy 在新一批 prompt 上 rollout 得到一批 \(\hat c\) → 把这些 \(\hat c\) 与 ground-truth \(h\)(在带 critique 子集上)形成监督对,对 MetaRM 做一步更新 → 再回到 GRM。这样 MetaRM 始终对当前 policy 输出有正确判断,避免 reward model 静态时的 reward hacking。
- 设计动机:经典 RLHF 之痛是奖励模型在 rollout 分布漂移后失效;online 更新让 MetaRM 跟上 policy,规避 Goodhart 问题。最终作者发现 online MetaRM 训练能逼近"全人工 critique 监督"的效果,同时大幅降低标注需求。
损失函数 / 训练策略¶
基础是 GRPO(公式 1-3):组内归一化的 advantage \(\hat A_i=(R_i-\bar R)/\sigma\),policy 用 clipped policy gradient + KL 正则更新。RM-NLHF 把奖励替换为 \(R = R_{\text{outcome}} + \lambda \cdot R_{\text{process}}\),process 奖励来自 Core HC similarity 或 MetaRM 预测。Online MetaRM 用 MSE 或排序 loss 监督,每 \(k\) 个 GRPO 步骤更新一次。MetaRM 与 GRM 共享 backbone 但加独立 head(论文给出对比,全独立模型也可行但更贵)。
实验关键数据¶
主实验¶
在 HelpSteer3、RewardBench、PandaLM 等多个 benchmark 上对比,base GRM 包括 RM-R1 系列、Qwen 自研 GRM、闭源 gemini/claude。
| 训练范式 | Critique 质量 (核心论点 F1) | Outcome 准确率 | 备注 |
|---|---|---|---|
| Outcome-only GRPO (SOTA baseline) | 较低 | 高但 outcome-process 不一致 20–44% | 主流做法 |
| RM-NLHF + 全人工 critique | 最高 | 显著提升 | 上限对照 |
| RM-NLHF + Offline MetaRM | 接近全人工 critique | 显著高于 outcome-only | 节省标注 |
| RM-NLHF + Online MetaRM | 最接近全人工 critique 上限 | 显著高于 outcome-only | 实用最优 |
消融实验(过程奖励选型,49 样本人工标注子集)¶
| 过程奖励方案 | 与人工 label 准确率 |
|---|---|
| LLM-as-a-Meta-Judge (直接判) | 较低 |
| Similarity w/ All HC (F1) | 中等 |
| Similarity w/ All HC (Recall) | 中等偏低 |
| Similarity w/ All HC (Precision) | 中等 |
| Similarity w/ Core HC | 最高 |
关键发现¶
- 数学任务 outcome ⇒ process 几乎 100% 对应;pairwise 任务上即便 SOTA GRM 也有 20–44% outcome-process 不一致,说明 outcome-only 监督在二元任务上根本性不可靠。
- "Core HC similarity" 一致显著优于 "All HC" 和 "LLM 直接判"——说明去掉 nitpicky critique 是 process reward 设计的关键。
- Online MetaRM 在大幅减少人工 critique 标注的前提下,效果接近全人工 critique 监督;offline MetaRM 因分布漂移性能稍差。
- 即便 outcome 准确率提升不大,critique 质量大幅提升 → GRM 在下游 RLHF 中作为 reward provider 时收益更显著,因为下游 policy 接收的是 critique 信号而不仅是 label。
亮点与洞察¶
- outcome-process 不一致的清晰诊断:把"为什么 GRM 容易猜"这件事用解空间大小这个简洁理论框架解释——大解空间任务 outcome 自带 process verification,小解空间任务必须显式补 process supervision。
- "Core argument similarity" 作为 process reward:避免对 nitpicky critique 过度敏感,是 critique-based reward 设计的关键洞察,可直接被复用到 LLM judge、QA 评估等。
- Online MetaRM 解 reward model 漂移:把 RLHF 经典 Goodhart 问题落到一个具体可执行的工程协议(policy update → MetaRM update 交替),思路非常 actionable。
- 极少量人工 critique 即可:用 49 样本验证 proxy 选型 + 用部分子集训 MetaRM,是 cost-efficient alignment 的典范设计。
局限与展望¶
- 过程奖励的"似然 = 正确"假设并不严格成立:与人工 critique 写法风格高度相关的模型可能拿到虚高奖励。
- Core HC 抽取依赖外部强 LLM(gemini-2.5-pro),引入额外成本和潜在偏见;自蒸馏成 MetaRM 后偏见可能放大。
- 在线 MetaRM 增加训练复杂度(双模型交替)和 wall-clock 成本,未给出具体训练效率分析。
- 仅在 pairwise rewarding 任务上验证;listwise、scalar reward 任务上未检验是否仍存在解空间偏差。
- 缺乏与 verifier-based RL(如 RM-R1 family 的更新版本)严格对照下的 critique 真实质量人评。
相关工作与启发¶
- vs outcome-only GRPO GRM (RM-R1、Wang 2025c):作者直接以这些 SOTA 为 baseline,并定量揭示其 critique 失效率,给出 dual-reward 的修复方案。
- vs PRM (Process Reward Model) 在数学推理上的工作:PRM 给 stepwise 奖励,本文给 critique-level 奖励;两者共享"过程监督优于纯结果监督"的中心思想。
- vs RLAIF / Constitutional AI:用 AI 自评代替人工反馈,但本文先用人工 critique 做 ground truth,再蒸馏到 MetaRM,可解释性与可控性都更强。
- 跨任务启发:MetaRM 在线更新这一招可推广到任何"奖励模型在 RL 训练中失效"的场景(agent reward shaping、code RM、video generation RM)。
评分¶
- 新颖性: ⭐⭐⭐⭐ "解空间大小决定 outcome 监督质量"框架 + Core HC similarity + Online MetaRM 三个组件都有原创性,但单个组件分别已有先例(PRM、AI feedback、online reward model)。
- 实验充分度: ⭐⭐⭐⭐ 多 benchmark + 多 proxy 对照 + critique quality 分析;缺人评,且 49 样本子集略小。
- 写作质量: ⭐⭐⭐⭐ 问题动机(图 1/2)直观,公式与 contribution 清晰;术语略密。
- 价值: ⭐⭐⭐⭐ 给 GRM 训练补上一直缺失的过程监督,方法可直接迁移到现有 RLHF/RLAIF 流水线,对 reward modeling 社区影响明显。