J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dnJEHl6DI1
代码: 待确认
领域: 强化学习 / LLM-as-a-Judge / 奖励建模
关键词: LLM-as-a-Judge, 可验证奖励 RL, GRPO, 位置偏置, 思维链评估

一句话总结¶

J1 把"主观/客观判断任务"统一改写成带可验证奖励的格式，用 GRPO 在线 RL 训练会"先思考再下判决"的 LLM 评委，在多个 reward 基准上以 32B 规模反超 o3、DeepSeek-R1-671B，并用纯合成数据消除位置偏置。

研究背景与动机¶

领域现状：AI 的进步越来越被"评估质量"卡脖子，LLM-as-a-Judge 成为核心解法。早期评委靠 prompt 直接生成思维链下判决，后来用迭代微调、DPO 等离线方法改进推理质量。与此并行的标量奖励模型（Bradley-Terry RM）则直接输出分数、没有显式推理。

现有痛点：(1) 离线方法（SFT/Self-Taught/DPO）无法在线优化"评估思考过程"本身，推理质量上限受限；(2) 成对评委存在顽固的位置偏置——交换两个回答的顺序，判决就翻转；(3) 逐点（pointwise）评委虽天然位置一致，但缺少参照对象、容易给两个回答打同样的分（ties）；(4) SOTA 生成式奖励模型（DeepSeek-GRM 等）依赖海量人工标注（百万级 judge 数据 + 几十万 RL 样本）。

核心矛盾：既要让评委"会推理"以提升判断准确率，又要让推理在线可优化、还要消除位置偏置——而判断任务大多是主观、不可验证的，无法直接套用可验证奖励 RL。

本文目标：训练一个既能成对、又能逐点评估的通才 thinking-judge，只用合成数据、不依赖人工标注，并系统性解决位置偏置。

核心 idea（加粗标签）：把所有判断任务统一转成"可验证奖励"格式 —— 无论是 MATH 这种可验证 prompt，还是 WildChat 这种主观 prompt，都构造成偏好对 \((a,b)\)，让"预测哪个回答更好"成为一个有 ground-truth 的可验证任务，从而用 RL from verifiable rewards 直接优化评估思考。

方法详解¶

整体框架¶

J1 在 verl 上用 GRPO 训练评委：先把 WildChat（主观）和 MATH（可验证）的 prompt 都构造成合成偏好对，并把两种顺序 \((x,a,b)\) 与 \((x,b,a)\) 放进同一 batch（position-agnostic batching）；再用基于规则的"判决正确性 + 一致性"奖励在线优化思维链与最终判决；最后探索成对、逐点、多任务等多种评委形式，统一进一个既能 pointwise 又能 pairwise 的多任务模型。

flowchart LR
    A[WildChat 主观 prompt<br/>MATH 可验证 prompt] --> B[合成偏好对 a,b<br/>22K 训练数据]
    B --> C[双顺序入同一 batch<br/>x,a,b 与 x,b,a]
    C --> D[Judge 生成思维链 t<br/>+ 判决/分数]
    D --> E[规则奖励:<br/>判决正确性 + 一致性]
    E --> F[GRPO 在线优化]
    F --> D
    D --> G[Pairwise / Pointwise /<br/>MultiTask J1]

关键设计¶

1. 统一可验证奖励训练：把主观判断也变成"有标准答案"的任务 J1 沿用合成偏好对策略，把评估任务转成"预测更优回答"这一可验证任务。22K 训练数据由 17K WildChat + 5K MATH prompt 构成：WildChat 的 rejected 回答通过让 LLM 先生成原指令的"噪声变体"再据此作答得到，MATH 的 rejected 则取那些没有命中 gold answer 的采样。这样即便是主观 prompt 也有了 ground-truth 偏好标签，使得可验证奖励 RL 能统一覆盖"可验证 + 不可验证"两类任务，且与 EvalPlanner（用同一数据做两轮 DPO）形成同分布、可直接对比"在线 RL vs 离线 DPO"。

2. 位置无关 batching + 一致性奖励：从训练机制根除位置偏置 判决奖励是二元的：最终判决选对则 \(+1\)、否则 \(0\)。在此之上引入一致性奖励——只有当模型对同一对回答的两种顺序 \((x,a,b)\) 和 \((x,b,a)\) 都判对时才给 \(+1\)，任一顺序判错即 \(0\)。这要求把同一对的两种顺序放进同一 batch（position-agnostic batching），让一致性奖励能在 batch 内直接计算。作者还试过加 <think> 标签的格式奖励，但发现无明显收益。

3. 多种评委形式 + 用成对监督蒸馏出逐点评委 J1 用 GRPO 联合优化思考与判决，并定义了多种形式：PaV（promptPaV\((x,a,b)\to(t,y)\)，直接出判决，主力配方）、PaS（出实值分数 \(s_a,s_b\)，分高者为判决，奖励看分数是否与 gold 一致）、PaVS（同时出分数与判决，分数作为隐变量观测、奖励只看判决）。更关键的是 PoS 逐点评委：promptPoS\((x,a)\to(t,s)\) 对单个回答打 0–10 分，天然位置一致。它仅靠成对数据的远程监督训练——把每个偏好对拆成两个逐点样本，联合评估两者分数，只有分数排序与 gold 判决一致才给奖励 \(1\)。由于偏好排序远比逐点标注易得，"用成对监督训出逐点 thinking-judge"是本文的新贡献之一。

4. 多任务统一：一个模型兼做逐点与成对 最后把 PoS 与 PaS 两套范式合进单一 MultiTask-J1，在成对 + 逐点数据上联合训练。由于成对判断整体优于逐点，最终在成对设置下评估这个多任务模型即可拿到最佳结果，且它同时超过单独训练的逐点、成对评委。

实验关键数据¶

主实验表格（PPE Correctness，成对设置，准确率，相对 base 的增益）¶

模型	训练偏好对	Overall	MMLU-Pro	MATH	GPQA	MBPP-Plus	IFEval
Llama-3.1-8B-Instruct (base)	–	54.7	56.3	62.9	51.4	50.1	52.8
EvalPlanner-Llama-70B (DPO)	22K	70.2	78.4	81.7	64.4	62.2	64.3
DeepSeek-BTRM-27B (标量 RM)	237K	66.7	68.8	73.2	56.8	68.8	66.0
J1-Llama-8B	22K	59.2 +4.5	65.6	70.0	53.2	53.1	54.0
J1-Llama-70B	22K	72.9 +7.2	79.0	86.0	65.9	66.0	67.3
J1-Qwen-32B	22K	74.6 +8.1	82.2	93.3	65.2	65.3	66.8
J1-Qwen-32B-MultiTask	22K	76.8 +10.3	85.0	94.3	68.6	66.3	69.5

J1-Qwen-32B-MultiTask 以 76.8 取得 SOTA（\(p<0.0001\)），比 EvalPlanner 高 6.8%、比 DeepSeek-GRM-27B（用 1270K + 237K 数据）高 17%。

跨基准对比（5 个 reward 基准 Overall）¶

模型	Overall	PPE	RewardBench	RM-Bench	JudgeBench†	FollowBenchEval†
J1-Llama-8B	61.9 +13.6	59.8	85.7	73.4	42.0	48.3
J1-Llama-70B	75.0 +10.7	69.6	93.3	82.7	60.0	69.3
J1-Qwen-32B-MultiTask	80.8	71.8	93.6	90.3	71.4	77.1
OpenAI-o3	77.4	72.1	86.4	86.1	75.7	66.8
DeepSeek-R1-671B	78.4	72.3	90.6	88.6	68.9	71.7

仅 32B 规模的 J1-MultiTask 在 5 项中 3 项超过 o3 和 R1-671B。

消融实验（位置一致性，PPE Correctness）¶

模型	类型	Consistent Acc ↑	Verdict Flip/Ties ↓
J1-Qwen-32B	Pairwise	65.2	14.5
J1-Qwen-32B	Pointwise	69.3	13.0
J1-Qwen-32B-MultiTask	Pairwise	67.0	17.0
J1-Qwen-32B-MultiTask	Pointwise	70.6	10.5

逐点评委在一致性准确率与翻转率上都优于成对，多任务模型逐点评估时翻转率最低（10.5）。

关键发现¶

在线 RL > 离线 DPO：同数据下 J1 全面超过两轮 DPO 的 EvalPlanner，验证在线优化评估思考的优势。
小模型 + 合成数据可反超巨型模型：32B 合成数据训练即超 o3、R1-671B 多项。
测试时扩展有效：majority vote / 平均分数 N 越大，位置一致准确率上升、tie 率下降。
行为涌现：J1 自发学会动态生成评估准则、自建参照答案、迭代自我纠错、对低质回答给反馈。

亮点与洞察¶

"统一可验证化"是关键抓手：把主观评估硬转成有 ground-truth 的偏好预测，让可验证奖励 RL 这套强工具直接吃下原本无法 RL 的主观判断任务。
位置偏置从机制层面治理：双顺序同 batch + 一致性奖励，比单纯靠 prompt 提示"保持一致"更彻底。
逐点评委靠成对监督蒸馏，绕开昂贵的逐点标注，是工程上很划算的设计。
数据效率惊人：仅 22K 合成偏好对就击败用百万级标注训练的模型。

局限与展望¶

训练偏好对仅来自 WildChat + MATH 两类种子，领域覆盖与 rejected 构造方式（噪声指令）可能限制泛化到更复杂的真实评估场景。
逐点评委虽位置一致但仍有较高 tie 率，缺少参照对象的"绝对打分"本质难题未根除。
奖励是纯规则二元信号，对"判对但理由错"无法区分；过程层面的奖励仍有探索空间。
JudgeBench 上 32B 仍略逊 o3，超大思维模型在最难推理判断上仍有优势。

评分¶

新颖性: ⭐⭐⭐⭐ — "统一可验证化 + 一致性奖励 + 成对监督蒸馏逐点评委"组合新颖，把判断任务系统纳入可验证 RL。
实验充分度: ⭐⭐⭐⭐⭐ — 5 基准、3 规模、成对/逐点/多任务多形式消融、位置一致性与测试时扩展分析齐全。
写作质量: ⭐⭐⭐⭐ — 结构清晰、图表充分，多种形式命名（PaV/PaS/PaVS/PoS/MT）略增阅读负担。
价值: ⭐⭐⭐⭐⭐ — 32B 反超 o3/R1-671B、纯合成数据、可直接落地为 RLHF/评估管线的强评委，实用价值高。