Reward Modeling from Natural Language Human Feedback¶

会议: ICML 2026
arXiv: 2601.07349
代码: 未公开
领域: LLM 对齐 / 奖励建模 / RLHF
关键词: 生成式奖励模型 (GRM)、过程奖励、自然语言反馈、MetaRM、GRPO

一句话总结¶

本文指出在二元偏好奖励上训练的 generative reward model (GRM) 严重存在"猜对偏好但 critique 错误"的 outcome-process 不一致（20-30%、最高 44%），并提出 RM-NLHF：把模型 critique 与人工 critique 的核心论点相似度作为额外过程奖励，并用 MetaRM 自动预测过程奖励、在线随策略更新，从而在多个 benchmark 上稳定超过 outcome-only GRPO 训练的 SOTA GRM。

研究背景与动机¶

领域现状：生成式奖励模型 (GRM) 因为能输出 critique + preference label，比传统 scalar RM 更鲁棒、可解释，是当前 LLM 对齐与 RLHF 的主流。训练上以 RLVR + GRPO 为主：让模型对一对回答生成 reasoning + critique，最后给出 A/B label，binary 奖励 \(R_{\text{outcome}}\in\{0,1\}\) 来自 label 是否匹配 ground truth。

现有痛点：作者在 MATH-500（数学，大解空间）和 HelpSteer3（pairwise 奖励，二元解空间）上做对照实验。数学任务上 outcome 对 ⇒ process 几乎也对，几乎无不一致；而 pairwise rewarding 上，RM-R1-DeepSeek-Distilled-Qwen-7B 有 44.24% 的"outcome 对 / critique 错"率，gemini-2.5-pro 26.1%，claude-3.7-sonnet 33.6%。这种"猜对 label 不靠正确 critique"的现象注入大量伪奖励，让 RL 收敛到生成 wrong critique 的 policy。

核心矛盾：解空间大小决定了 outcome 监督的可靠性。数学题答案空间巨大（"答案 42"几乎必然走对推理），而二元偏好任务解空间只有 {A, B}，瞎猜也有 50% 命中率，outcome 信号噪声极大。但二元判定形式无法像数学那样被改写成 fill-in-the-blank 扩大解空间。

本文目标：在不改 pairwise 任务结构的前提下，给 GRM 补一份可信的 process 奖励，让 critique 质量直接进入训练 loop；同时解决"人工 critique 数据稀缺"的可扩展性瓶颈。

切入角度：人类对一对回答给出的自然语言反馈（critique）天然就是 process supervision——模型 critique 与人工 critique 的核心论点重合度，恰好就是 critique 是否合理的最直接代理；此外可以再训一个 MetaRM 让人工 critique 数据"长出"伪 critique 数据。

核心 idea：用 "GRM critique 与人工 critique 在核心论点上的相似度" 作为过程奖励，与 outcome 奖励叠加进入 GRPO；再用 MetaRM 把这个奖励信号从少量人工数据外推到无标注数据，并在 RL 训练中在线更新 MetaRM 以追上 policy 漂移。

方法详解¶

整体框架¶

基线沿用 GRPO：query \(q\) + 候选 \(y_A, y_B\) + 偏好标签 \(l\in\{A,B\}\) → GRM \(\pi_\theta\) 生成 CoT + critique + 预测 \(\hat l\)；对每条 prompt rollout \(N\) 次得到 outcome 奖励 \(R_{\text{outcome}}^i\) 并按组内归一化得 advantage \(\hat A_i\)。RM-NLHF 在此基础上加一路 process 奖励：(1) 数据上有人工 critique \(h\) 时直接算 GRM critique \(\hat c\) 与 \(h\) 的核心论点相似度；(2) 数据上没有 \(h\) 时用 MetaRM 预测；(3) 训练全程在线更新 MetaRM 以匹配当前 policy 输出分布。最终 advantage = outcome reward + process reward 共同决定。

关键设计¶

核心论点相似度（Similarity w/ Core HC）作为过程奖励：
- 功能：把"GRM critique 是否合理"压缩为一个可机算的数值奖励，并避免被 nitpicky critique 干扰。
- 核心思路：用一个外部强 LLM（gemini-2.5-pro）从人工 critique \(h\) 与 GRM critique \(\hat c\) 中分别抽出 core arguments（剔除细枝末节的挑刺式 critique），然后算 F1/Recall/Precision 三种相似度变体。在 49 样本人工标注子集上做了对照：直接让 LLM-as-Meta-Judge 判 \(\hat c\) 是否正确不够稳；用 All HC 相似度容易被 nitpicky critique 拉低；只用 Core HC 相似度最接近人工 label。最终的过程奖励 \(R_{\text{process}}=\text{sim}(\text{core}(h), \text{core}(\hat c))\)，与 \(R_{\text{outcome}}\) 加权后进入 GRPO 的 advantage 归一化。
- 设计动机：直接让 LLM 判 critique 正确性会受到 judge bias 与表达风格影响；而"核心论点重合"既保留语义级判断，又把 nitpicky 噪声筛掉，定量上是三种 proxy 里最优。同时这种 reward 兼容 RLVR 的 verifier 框架（一个数值奖励），不需要改动 GRPO loss。
MetaRM：从人工 critique 数据预测过程奖励：
- 功能：解决人工 critique 数据稀缺的可扩展性瓶颈——大多数 preference 数据集（UltraFeedback、HelpSteer 系列）只有 outcome label，没有 critique。
- 核心思路：训练一个辅助模型 MetaRM，输入 \((q, y_A, y_B, \hat c)\)，输出对该 critique 的过程奖励估计。MetaRM 用有人工 critique 的子集训练，目标是拟合"\(\hat c\) 与人工 \(h\) 的 core similarity"；推理时对无人工 critique 的数据直接预测奖励。这样作者用少量人工标注换来了在全量数据上的过程监督。
- 设计动机：人工 critique 标注成本极高（HelpSteer3 都只有部分样本带 critique），如果只能在 50k 带 critique 数据上训，规模上根本干不过 outcome-only RL；MetaRM 等于把"critique 评估能力"蒸馏到一个轻量模型里，让其泛化到只有 outcome label 的大盘数据。
Online MetaRM：随 GRM 同步演化的奖励模型：
- 功能：缓解 RL 训练中 policy 漂移导致 MetaRM 评估分布不匹配的问题。
- 核心思路：训练循环交替更新 GRM 与 MetaRM。GRM 走 GRPO 更新一步 → 当前 policy 在新一批 prompt 上 rollout 得到一批 \(\hat c\) → 把这些 \(\hat c\) 与 ground-truth \(h\)（在带 critique 子集上）形成监督对，对 MetaRM 做一步更新 → 再回到 GRM。这样 MetaRM 始终对当前 policy 输出有正确判断，避免 reward model 静态时的 reward hacking。
- 设计动机：经典 RLHF 之痛是奖励模型在 rollout 分布漂移后失效；online 更新让 MetaRM 跟上 policy，规避 Goodhart 问题。最终作者发现 online MetaRM 训练能逼近"全人工 critique 监督"的效果，同时大幅降低标注需求。

损失函数 / 训练策略¶

基础是 GRPO（公式 1-3）：组内归一化的 advantage \(\hat A_i=(R_i-\bar R)/\sigma\)，policy 用 clipped policy gradient + KL 正则更新。RM-NLHF 把奖励替换为 \(R = R_{\text{outcome}} + \lambda \cdot R_{\text{process}}\)，process 奖励来自 Core HC similarity 或 MetaRM 预测。Online MetaRM 用 MSE 或排序 loss 监督，每 \(k\) 个 GRPO 步骤更新一次。MetaRM 与 GRM 共享 backbone 但加独立 head（论文给出对比，全独立模型也可行但更贵）。

实验关键数据¶

主实验¶

在 HelpSteer3、RewardBench、PandaLM 等多个 benchmark 上对比，base GRM 包括 RM-R1 系列、Qwen 自研 GRM、闭源 gemini/claude。

训练范式	Critique 质量 (核心论点 F1)	Outcome 准确率	备注
Outcome-only GRPO (SOTA baseline)	较低	高但 outcome-process 不一致 20–44%	主流做法
RM-NLHF + 全人工 critique	最高	显著提升	上限对照
RM-NLHF + Offline MetaRM	接近全人工 critique	显著高于 outcome-only	节省标注
RM-NLHF + Online MetaRM	最接近全人工 critique 上限	显著高于 outcome-only	实用最优

消融实验（过程奖励选型，49 样本人工标注子集）¶

过程奖励方案	与人工 label 准确率
LLM-as-a-Meta-Judge (直接判)	较低
Similarity w/ All HC (F1)	中等
Similarity w/ All HC (Recall)	中等偏低
Similarity w/ All HC (Precision)	中等
Similarity w/ Core HC	最高

关键发现¶

数学任务 outcome ⇒ process 几乎 100% 对应；pairwise 任务上即便 SOTA GRM 也有 20–44% outcome-process 不一致，说明 outcome-only 监督在二元任务上根本性不可靠。
"Core HC similarity" 一致显著优于 "All HC" 和 "LLM 直接判"——说明去掉 nitpicky critique 是 process reward 设计的关键。
Online MetaRM 在大幅减少人工 critique 标注的前提下，效果接近全人工 critique 监督；offline MetaRM 因分布漂移性能稍差。
即便 outcome 准确率提升不大，critique 质量大幅提升 → GRM 在下游 RLHF 中作为 reward provider 时收益更显著，因为下游 policy 接收的是 critique 信号而不仅是 label。

亮点与洞察¶

outcome-process 不一致的清晰诊断：把"为什么 GRM 容易猜"这件事用解空间大小这个简洁理论框架解释——大解空间任务 outcome 自带 process verification，小解空间任务必须显式补 process supervision。
"Core argument similarity" 作为 process reward：避免对 nitpicky critique 过度敏感，是 critique-based reward 设计的关键洞察，可直接被复用到 LLM judge、QA 评估等。
Online MetaRM 解 reward model 漂移：把 RLHF 经典 Goodhart 问题落到一个具体可执行的工程协议（policy update → MetaRM update 交替），思路非常 actionable。
极少量人工 critique 即可：用 49 样本验证 proxy 选型 + 用部分子集训 MetaRM，是 cost-efficient alignment 的典范设计。

局限与展望¶

过程奖励的"似然 = 正确"假设并不严格成立：与人工 critique 写法风格高度相关的模型可能拿到虚高奖励。
Core HC 抽取依赖外部强 LLM（gemini-2.5-pro），引入额外成本和潜在偏见；自蒸馏成 MetaRM 后偏见可能放大。
在线 MetaRM 增加训练复杂度（双模型交替）和 wall-clock 成本，未给出具体训练效率分析。
仅在 pairwise rewarding 任务上验证；listwise、scalar reward 任务上未检验是否仍存在解空间偏差。
缺乏与 verifier-based RL（如 RM-R1 family 的更新版本）严格对照下的 critique 真实质量人评。

评分¶

新颖性: ⭐⭐⭐⭐ "解空间大小决定 outcome 监督质量"框架 + Core HC similarity + Online MetaRM 三个组件都有原创性，但单个组件分别已有先例（PRM、AI feedback、online reward model）。
实验充分度: ⭐⭐⭐⭐ 多 benchmark + 多 proxy 对照 + critique quality 分析；缺人评，且 49 样本子集略小。
写作质量: ⭐⭐⭐⭐ 问题动机（图 1/2）直观，公式与 contribution 清晰；术语略密。
价值: ⭐⭐⭐⭐ 给 GRM 训练补上一直缺失的过程监督，方法可直接迁移到现有 RLHF/RLAIF 流水线，对 reward modeling 社区影响明显。