Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=c1bTcrDmt4
代码: 数据集已开源 https://huggingface.co/collections/ScaleAI/rar
领域: 对齐RLHF / LLM推理
关键词: rubric 奖励, RLVR, GRPO, on-policy RL, LLM-as-judge

一句话总结¶

本文提出 Rubrics as Rewards (RaR)，把"逐条打勾的评分细则（rubric）"当作 on-policy 强化学习的奖励函数，从而把只能用于数学/代码这类"答案可验证"任务的 RLVR 扩展到医学、科学这类没有唯一标准答案的真实推理领域；在 HealthBench 上相对流行的 LLM-as-judge Likert 基线最高提升 31%，在 GPQA-Diamond 上提升 7%。

研究背景与动机¶

领域现状：带可验证奖励的强化学习（RLVR, Reinforcement Learning with Verifiable Rewards）在数学、代码等任务上非常成功——这些任务有明确的对错信号，可以用打分函数或测试用例自动判断 \(\text{match}(y, \hat{y}) \in \{0,1\}\)，无需训练奖励模型。

现有痛点：可一旦离开"答案可验证"的舒适区，进入医疗咨询、科学推理这类真实任务，评价就不再是非黑即白，而是依赖多维度、细粒度的判断。常见的两种替代奖励都有硬伤：偏好奖励模型（preference RM）容易过拟合表面特征（回复长度、格式、标注者偏好），还需要海量两两比较数据；直接让 LLM 打一个 1–10 的 Likert 分（Direct-Likert）则信号粗糙、不可解释，judge 容易给出不稳定的整体印象分。

核心矛盾：可验证奖励"简单但表达力差"，偏好排名"表达力强但带人为噪声、运维成本高"——真实任务卡在这两者中间，既要刻画"什么是好回答"的多维标准，又不想付出偏好标注的代价。

本文目标：找到一个介于二者之间的"中间地带"奖励：既能像 rubric 那样把"好回答"拆成可解释的多个子标准，又能像验证奖励那样自动、可复用地驱动 on-policy RL。

切入角度：作者注意到 instance-specific rubric（针对每条 prompt 定制的评分细则）此前只被用于评测 benchmark（如 HealthBench 用医生写的细则给模型打分），却几乎没人把它当作训练时的奖励信号。如果把 rubric 从"评测工具"变成"奖励函数"，就闭合了"用 rubric 评估 → 用 rubric 训练"的回路。

核心 idea：用"逐条打勾的 rubric 清单"代替"单一的偏好分/Likert 分"作为强化学习奖励——每条 prompt 配一组带权重的二值判据，LLM judge 逐条核验后聚合成标量奖励，再用 GRPO 做策略优化。

方法详解¶

整体框架¶

RaR 整个流程分两大块：先离线为每条 prompt 合成一份 rubric，再把这份 rubric 喂给 LLM judge 在 GRPO 训练回路里逐条打分换算成奖励。

形式化地说，输入是 prompt \(x\)，策略 \(\pi_\theta\) 采样出回复 \(\hat{y}\)。每条 prompt 关联一组 \(k\) 个 rubric 判据 \(\{(w_j, c_j)\}_{j=1}^k\)，其中 \(w_j\) 是该判据的权重，\(c_j:(x,\hat{y})\mapsto\{0,1\}\) 是一个二值函数，表示回复是否满足该条标准。最终奖励由这一组判据聚合而成，送入 GRPO 计算组内优势、更新策略。

值得注意的是，RaR 是 RLVR 的严格超集：当 \(k=1, w_1=1\) 且 \(c_1\) 退化为"是否与标准答案精确匹配"时，RaR 就还原成普通的可验证奖励 \(r_{\text{RLVR}}(x,\hat{y})=\text{match}(y,\hat{y})\)。换句话说，可验证奖励只是"只有一条必答判据"的特例，rubric 奖励把它推广到多维、带权、可同时容纳客观与主观标准的场景。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Prompt + 参考答案"] --> B["Rubric 合成<br/>四条设计原则<br/>生成 7-20 条带权判据"]
    B --> C["策略 πθ rollout<br/>每 prompt 采 16 个回复"]
    C --> D["LLM Judge 逐条核验<br/>奖励聚合：显式 or 隐式"]
    D --> E["GRPO 组内优势<br/>更新策略权重"]
    E -->|on-policy 循环| C

关键设计¶

1. 用 instance-specific rubric 当奖励，并遵循四条生成原则

RaR 的根基是"每条 prompt 配一份专属 rubric"，而非套用一份通用清单。为了让合成的 rubric 真正可用作奖励，作者定下四条 desiderata：专家锚定（rubric 要反映领域专家的事实、推理步骤与结论，理想情况下由人类专家或其高质量代理提供）、覆盖全面（横跨事实准确性、逻辑连贯、完整性、风格、安全等多维度，并包含负向判据 pitfall 来抓常见/高风险错误）、判据有轻重（不同维度重要性不同，事实正确要压过风格清晰，因此给每条判据赋权）、自包含可独立评判（每条判据都能脱离外部上下文被单独打勾）。

由于医学/科学领域缺少人工标注的 rubric 数据，作者用强 LLM（医学用 GPT-4o、科学用 o3-mini）以数据集自带的标准答案作为专家监督的代理，为每条 prompt 自动生成 7–20 条自包含判据，每条同时带数值权重和类别标签（Essential / Important / Optional / Pitfall）。由此得到两个公开训练集 RaR-Medicine 与 RaR-Science（各约 20k prompt）。这一步把"用参考答案监督"这件事从"直接对比答案"升级成"展开成一组可解释、可复用、可逐条核验的标准"，奖励信号因此更细粒度、也更透明。

2. 两种奖励聚合：显式加权 vs. 隐式委托

有了逐条判据，如何把它们合成一个标量奖励是关键。作者给出两条互补路线。显式聚合（Explicit）让 LLM judge 独立核验每一条 \(c_j\)，再做归一化加权和：

\[r(x, \hat{y}) = \frac{\sum_{j=1}^{k} w_j \cdot c_j(x, \hat{y})}{\sum_{j=1}^{k} w_j}\]

归一化让不同 prompt（rubric 条数/权重不同）之间的奖励可比；权重按类别标签映射为 \(\{\text{Essential}:1.0,\ \text{Important}:0.7,\ \text{Optional}:0.3,\ \text{Pitfall}:0.9\}\)（pitfall 以正向措辞表述，"避免了某类误诊"满足则加分）。这条路线可解释、可控，但权重要手工调，偏脆。

隐式聚合（Implicit）则把全部判据连同类别权重一起塞给 judge，让 judge 通盘权衡后直接吐一个整体标量分 \(r_{\text{implicit}}(x,\hat{y}) = f_\phi(x, \hat{y}, \{d_j\}_{j=1}^k)\)，再归一化到 \([0,1]\)。它免去了手工调权，把聚合逻辑委托给 judge 自己。实验显示隐式聚合整体最强——它既保留了 rubric 的多维监督，又规避了显式加权"难调、易脆"的问题。

3. 用 GRPO 把 rubric 奖励接进 on-policy 训练回路

奖励算法用 GRPO（Group Relative Policy Optimization），基座策略是 Qwen2.5-7B。每条 prompt 采样 \(k=16\) 个回复（上下文 3584、温度 1.0），用 gpt-4o-mini 作为 judge 按上面两种聚合方式给每个回复打奖励，再用组内相对优势更新策略权重。这一步的意义在于：它让 rubric 不只是"评测时打个分"，而是真正进入 on-policy 的反馈闭环——同一份 rubric 可以在每一轮新 rollout 上一致地复用，相当于一个"实例化、可复用的奖励函数"，比不透明的偏好奖励模型更可扩展、更可审计。

损失函数 / 训练策略¶

基座策略 Qwen2.5-7B（另有 3B 鲁棒性验证）；GRPO 算法，batch size 96，学习率 \(5\times10^{-6}\)，常数调度 + 10% 线性 warmup，单节点 8×H100。每 prompt rollout 16 个回复，judge 为 gpt-4o-mini。奖励即上文的显式/隐式 rubric 聚合分。

实验关键数据¶

主实验¶

两域评测：医学用 HealthBench（rubric 评分、自由生成），科学用 GPQA-Diamond（多选）。judge 统一为 gpt-4o-mini，GPQA 取 10 次运行均值并报 95% 置信区间。

方法	HealthBench Overall	GPQA-Diamond Mean Acc
Qwen2.5-7B (base)	7.7	31.7
Qwen2.5-7B-Instruct	22.7	35.0
Direct-Likert	25.5	34.8
Reference-Likert	28.9	36.5
RaR-Predefined（通用 rubric）	12.5	31.7
RaR-Explicit	29.7	36.9
RaR-Implicit	31.2	37.6

RaR-Implicit 相对 Direct-Likert 在 HealthBench 上相对提升约 31%、GPQA 上约 7%；且对 Reference-Likert 也有小而稳定的优势。值得注意的是 RaR-Predefined（对所有 prompt 套用一份通用 rubric）反而垫底，说明"实例化"才是关键——通用判据抓不住每条 prompt 的具体要求和典型失败模式，会产生错配的奖励信号。

消融实验¶

在 HealthBench-1k（用 HealthBench-3.5k 子集训练）上做 rubric 生成方式与设计要素的消融：

配置	HealthBench-1k Overall	说明
Expert-Answer-SFT	20.4%	直接 SFT 专家答案
Simple-Likert	23.9%	单 Likert 分
Reference-Likert	31.7%	带参考答案的 Likert
RaR-Implicit-Synthetic-NoRef	32.0%	合成 rubric，无参考答案
RaR-Implicit-Synthetic	35.9%	合成 rubric，有参考答案
RaR-Implicit-Human	34.8%	人工 rubric

Rubric 设计要素	Overall	说明
Essential-Only	34.9%	只保留必答判据 → 掉点
No Categorical Labels	38.8%	去掉类别权重影响很小
No Pitfall Criteria	37.2%	去掉负向判据影响很小
All Rubrics	37.2%	完整 rubric

关键发现¶

实例化 rubric 是命门：通用 rubric（RaR-Predefined）甚至不如 instruct 基座，而实例化 rubric 即便最弱变体也能超过 Reference-Likert——结构化、贴合 prompt 的多维监督在主观开放域里收益最大。
参考答案/专家锚定至关重要：无参考答案的合成 rubric（32.0%）明显弱于有参考答案的（35.9%）；人工 rubric（34.8%）与"有参考答案的合成 rubric"相当，说明"参考答案作为专家代理"是行之有效的廉价替身。
rubric 让小 judge 更可靠：rubric 引导显著提升各尺度 judge 与人类偏好的对齐，且对小 judge 提升最大，缩小了与大 judge 的差距，降低了跨尺度的性能方差。
权重/pitfall 的边际收益有限：去掉类别权重或负向判据几乎不掉点——作者推测是合成 pitfall 本身难写好（需要预判模型的典型失败模式，依赖人类直觉），合成的负向判据特异性不足。
对基座尺寸鲁棒：换成 Qwen2.5-3B 后趋势一致，RaR-Implicit（21.55%）仍稳超 Direct-Likert（13.74%）与 Reference-Likert（17.95%）。

亮点与洞察¶

把 RLVR 形式化为 rubric 奖励的特例（\(k=1\) 单条必答判据）是个漂亮的统一视角——它让"可验证奖励"和"多维主观奖励"落在同一个框架里，理论上很干净。
"参考答案 → 展开成 rubric"是核心 trick：与其让 judge 直接拿参考答案对比打一个整体分（Reference-Likert），不如先把参考答案拆成一组可逐条核验的判据再打分，信号更细、更稳、更可解释。这个"把整体监督展开成 checklist"的思路可迁移到任何有参考答案/专家说明的领域。
隐式聚合赢过显式加权反直觉但实用：与其辛苦手调权重，不如把判据全交给 judge 通盘权衡，既省事又更强；这暗示在多判据奖励里，让强 judge 做软聚合可能比人工硬加权更鲁棒。
rubric 对小 judge 尤其救命：用便宜的小 judge 也能靠 checklist 把对齐拉到接近大 judge，这对降低训练时的奖励计算成本很有价值。

局限与展望¶

rubric 质量受参考答案质量制约：rubric 是用强 LLM + 参考答案合成的，参考答案差则 rubric 差；纯合成（无参考）rubric 在高风险领域仍捕捉不到细微判据。
pitfall / 权重收益弱：合成负向判据难以预判真实失败模式，目前价值有限；作者提出未来可探索学习式/动态权重，在保持可解释的同时提升适应性。
显式 vs 隐式是 application-dependent：显式可控可解释但脆、难调；隐式强但牺牲了对单条判据的细粒度控制，作者把选择权留给实践者，没给出统一结论。
judge 仍是 LLM：奖励质量依赖 judge 的判断力，judge 自身的偏置可能传导进策略；论文用 gpt-4o-mini 作 judge，更强/更弱 judge 的系统性影响只在附录部分展开。
评测集中在医学与科学两域，是否能推广到法律、金融等其他"难验证"领域仍待验证。

评分¶

新颖性: ⭐⭐⭐⭐ 把"评测用 rubric"转成"训练用奖励函数"并形式化为 RLVR 超集，视角新且实用，但 rubric 思想本身是当下热点。
实验充分度: ⭐⭐⭐⭐ 两域 + 多基线 + 丰富消融（生成方式/设计要素/judge 尺度/基座尺寸），较扎实；但只覆盖医学与科学两域。
写作质量: ⭐⭐⭐⭐ 动机—形式化—方法—实验链条清晰，RLVR 特例化的论证简洁有力。
价值: ⭐⭐⭐⭐ 给"难验证领域如何做 on-policy RL"提供了可解释、可复用、低标注成本的奖励范式，并开源了 RaR-Medicine/Science 数据集，实践价值高。