跳转至

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dnJEHl6DI1
代码: 待确认
领域: 强化学习 / LLM-as-a-Judge / 奖励建模
关键词: LLM-as-a-Judge, 可验证奖励 RL, GRPO, 位置偏置, 思维链评估

一句话总结

J1 把"主观/客观判断任务"统一改写成带可验证奖励的格式,用 GRPO 在线 RL 训练会"先思考再下判决"的 LLM 评委,在多个 reward 基准上以 32B 规模反超 o3、DeepSeek-R1-671B,并用纯合成数据消除位置偏置。

研究背景与动机

领域现状:AI 的进步越来越被"评估质量"卡脖子,LLM-as-a-Judge 成为核心解法。早期评委靠 prompt 直接生成思维链下判决,后来用迭代微调、DPO 等离线方法改进推理质量。与此并行的标量奖励模型(Bradley-Terry RM)则直接输出分数、没有显式推理。

现有痛点:(1) 离线方法(SFT/Self-Taught/DPO)无法在线优化"评估思考过程"本身,推理质量上限受限;(2) 成对评委存在顽固的位置偏置——交换两个回答的顺序,判决就翻转;(3) 逐点(pointwise)评委虽天然位置一致,但缺少参照对象、容易给两个回答打同样的分(ties);(4) SOTA 生成式奖励模型(DeepSeek-GRM 等)依赖海量人工标注(百万级 judge 数据 + 几十万 RL 样本)。

核心矛盾:既要让评委"会推理"以提升判断准确率,又要让推理在线可优化、还要消除位置偏置——而判断任务大多是主观、不可验证的,无法直接套用可验证奖励 RL。

本文目标:训练一个既能成对、又能逐点评估的通才 thinking-judge,只用合成数据、不依赖人工标注,并系统性解决位置偏置。

核心 idea(加粗标签):把所有判断任务统一转成"可验证奖励"格式 —— 无论是 MATH 这种可验证 prompt,还是 WildChat 这种主观 prompt,都构造成偏好对 \((a,b)\),让"预测哪个回答更好"成为一个有 ground-truth 的可验证任务,从而用 RL from verifiable rewards 直接优化评估思考。

方法详解

整体框架

J1 在 verl 上用 GRPO 训练评委:先把 WildChat(主观)和 MATH(可验证)的 prompt 都构造成合成偏好对,并把两种顺序 \((x,a,b)\)\((x,b,a)\) 放进同一 batch(position-agnostic batching);再用基于规则的"判决正确性 + 一致性"奖励在线优化思维链与最终判决;最后探索成对、逐点、多任务等多种评委形式,统一进一个既能 pointwise 又能 pairwise 的多任务模型。

flowchart LR
    A[WildChat 主观 prompt<br/>MATH 可验证 prompt] --> B[合成偏好对 a,b<br/>22K 训练数据]
    B --> C[双顺序入同一 batch<br/>x,a,b 与 x,b,a]
    C --> D[Judge 生成思维链 t<br/>+ 判决/分数]
    D --> E[规则奖励:<br/>判决正确性 + 一致性]
    E --> F[GRPO 在线优化]
    F --> D
    D --> G[Pairwise / Pointwise /<br/>MultiTask J1]

关键设计

1. 统一可验证奖励训练:把主观判断也变成"有标准答案"的任务 J1 沿用合成偏好对策略,把评估任务转成"预测更优回答"这一可验证任务。22K 训练数据由 17K WildChat + 5K MATH prompt 构成:WildChat 的 rejected 回答通过让 LLM 先生成原指令的"噪声变体"再据此作答得到,MATH 的 rejected 则取那些没有命中 gold answer 的采样。这样即便是主观 prompt 也有了 ground-truth 偏好标签,使得可验证奖励 RL 能统一覆盖"可验证 + 不可验证"两类任务,且与 EvalPlanner(用同一数据做两轮 DPO)形成同分布、可直接对比"在线 RL vs 离线 DPO"。

2. 位置无关 batching + 一致性奖励:从训练机制根除位置偏置 判决奖励是二元的:最终判决选对则 \(+1\)、否则 \(0\)。在此之上引入一致性奖励——只有当模型对同一对回答的两种顺序 \((x,a,b)\)\((x,b,a)\) 都判对时才给 \(+1\),任一顺序判错即 \(0\)。这要求把同一对的两种顺序放进同一 batch(position-agnostic batching),让一致性奖励能在 batch 内直接计算。作者还试过加 <think> 标签的格式奖励,但发现无明显收益。

3. 多种评委形式 + 用成对监督蒸馏出逐点评委 J1 用 GRPO 联合优化思考与判决,并定义了多种形式:PaV(promptPaV\((x,a,b)\to(t,y)\),直接出判决,主力配方)、PaS(出实值分数 \(s_a,s_b\),分高者为判决,奖励看分数是否与 gold 一致)、PaVS(同时出分数与判决,分数作为隐变量观测、奖励只看判决)。更关键的是 PoS 逐点评委:promptPoS\((x,a)\to(t,s)\) 对单个回答打 0–10 分,天然位置一致。它仅靠成对数据的远程监督训练——把每个偏好对拆成两个逐点样本,联合评估两者分数,只有分数排序与 gold 判决一致才给奖励 \(1\)。由于偏好排序远比逐点标注易得,"用成对监督训出逐点 thinking-judge"是本文的新贡献之一。

4. 多任务统一:一个模型兼做逐点与成对 最后把 PoS 与 PaS 两套范式合进单一 MultiTask-J1,在成对 + 逐点数据上联合训练。由于成对判断整体优于逐点,最终在成对设置下评估这个多任务模型即可拿到最佳结果,且它同时超过单独训练的逐点、成对评委。

实验关键数据

主实验表格(PPE Correctness,成对设置,准确率,相对 base 的增益)

模型 训练偏好对 Overall MMLU-Pro MATH GPQA MBPP-Plus IFEval
Llama-3.1-8B-Instruct (base) 54.7 56.3 62.9 51.4 50.1 52.8
EvalPlanner-Llama-70B (DPO) 22K 70.2 78.4 81.7 64.4 62.2 64.3
DeepSeek-BTRM-27B (标量 RM) 237K 66.7 68.8 73.2 56.8 68.8 66.0
J1-Llama-8B 22K 59.2 +4.5 65.6 70.0 53.2 53.1 54.0
J1-Llama-70B 22K 72.9 +7.2 79.0 86.0 65.9 66.0 67.3
J1-Qwen-32B 22K 74.6 +8.1 82.2 93.3 65.2 65.3 66.8
J1-Qwen-32B-MultiTask 22K 76.8 +10.3 85.0 94.3 68.6 66.3 69.5

J1-Qwen-32B-MultiTask 以 76.8 取得 SOTA(\(p<0.0001\)),比 EvalPlanner 高 6.8%、比 DeepSeek-GRM-27B(用 1270K + 237K 数据)高 17%。

跨基准对比(5 个 reward 基准 Overall)

模型 Overall PPE RewardBench RM-Bench JudgeBench† FollowBenchEval†
J1-Llama-8B 61.9 +13.6 59.8 85.7 73.4 42.0 48.3
J1-Llama-70B 75.0 +10.7 69.6 93.3 82.7 60.0 69.3
J1-Qwen-32B-MultiTask 80.8 71.8 93.6 90.3 71.4 77.1
OpenAI-o3 77.4 72.1 86.4 86.1 75.7 66.8
DeepSeek-R1-671B 78.4 72.3 90.6 88.6 68.9 71.7

仅 32B 规模的 J1-MultiTask 在 5 项中 3 项超过 o3 和 R1-671B。

消融实验(位置一致性,PPE Correctness)

模型 类型 Consistent Acc ↑ Verdict Flip/Ties ↓
J1-Qwen-32B Pairwise 65.2 14.5
J1-Qwen-32B Pointwise 69.3 13.0
J1-Qwen-32B-MultiTask Pairwise 67.0 17.0
J1-Qwen-32B-MultiTask Pointwise 70.6 10.5

逐点评委在一致性准确率与翻转率上都优于成对,多任务模型逐点评估时翻转率最低(10.5)。

关键发现

  • 在线 RL > 离线 DPO:同数据下 J1 全面超过两轮 DPO 的 EvalPlanner,验证在线优化评估思考的优势。
  • 小模型 + 合成数据可反超巨型模型:32B 合成数据训练即超 o3、R1-671B 多项。
  • 测试时扩展有效:majority vote / 平均分数 N 越大,位置一致准确率上升、tie 率下降。
  • 行为涌现:J1 自发学会动态生成评估准则、自建参照答案、迭代自我纠错、对低质回答给反馈。

亮点与洞察

  • "统一可验证化"是关键抓手:把主观评估硬转成有 ground-truth 的偏好预测,让可验证奖励 RL 这套强工具直接吃下原本无法 RL 的主观判断任务。
  • 位置偏置从机制层面治理:双顺序同 batch + 一致性奖励,比单纯靠 prompt 提示"保持一致"更彻底。
  • 逐点评委靠成对监督蒸馏,绕开昂贵的逐点标注,是工程上很划算的设计。
  • 数据效率惊人:仅 22K 合成偏好对就击败用百万级标注训练的模型。

局限与展望

  • 训练偏好对仅来自 WildChat + MATH 两类种子,领域覆盖与 rejected 构造方式(噪声指令)可能限制泛化到更复杂的真实评估场景。
  • 逐点评委虽位置一致但仍有较高 tie 率,缺少参照对象的"绝对打分"本质难题未根除。
  • 奖励是纯规则二元信号,对"判对但理由错"无法区分;过程层面的奖励仍有探索空间。
  • JudgeBench 上 32B 仍略逊 o3,超大思维模型在最难推理判断上仍有优势。

相关工作与启发

  • 方法谱系:从 prompt-based LLM-Judge → 迭代微调/DPO(EvalPlanner、Self-Taught Evaluator)→ 本文的在线 GRPO,延续 DeepSeek-R1 "可验证奖励 RL 激励推理"的思路并迁移到评委训练。
  • 对比对象:标量 RM(Skywork、Armo、DeepSeek-BTRM)、生成式 RM(DeepSeek-GRM、Reasoning Reward Model)、思维 LLM(o1-mini、o3、R1)。
  • 启发:任何"主观、难以验证"的任务,只要能构造成对偏好对,就可能改写成可验证奖励 RL 问题——这套"统一可验证化"范式有望迁移到 RLHF reward model、agent 自评、多模态评估等场景。

评分

  • 新颖性: ⭐⭐⭐⭐ — "统一可验证化 + 一致性奖励 + 成对监督蒸馏逐点评委"组合新颖,把判断任务系统纳入可验证 RL。
  • 实验充分度: ⭐⭐⭐⭐⭐ — 5 基准、3 规模、成对/逐点/多任务多形式消融、位置一致性与测试时扩展分析齐全。
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰、图表充分,多种形式命名(PaV/PaS/PaVS/PoS/MT)略增阅读负担。
  • 价值: ⭐⭐⭐⭐⭐ — 32B 反超 o3/R1-671B、纯合成数据、可直接落地为 RLHF/评估管线的强评委,实用价值高。