Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases¶
会议: ACL 2026
arXiv: 2601.03630
代码: https://github.com/HuihuiChyan/LRM-Judge
领域: LLM安全 / LLM评测 / LLM-as-a-Judge
关键词: 推理模型评审、评测偏差、PlanJudge、RewardBench、BiasBench
一句话总结¶
论文系统比较 reasoning model 与普通 LLM 作为 judge 的表现,发现推理模型在准确率、评测指令遵循和攻击鲁棒性上更强,但仍容易受表层质量偏差影响,并提出 prompt-only 的 PlanJudge 缓解偏差。
研究背景与动机¶
领域现状:随着开放式生成任务增多,BLEU、ROUGE 等传统指标难以覆盖 LLM 输出质量,LLM-as-a-Judge 成为主流评测方案之一。研究者常用强模型比较两个回答,或给回答打分,用它替代昂贵的人类评审。
现有痛点:judge 模型本身也会出错。已有研究发现 LLM-as-a-Judge 会受到位置、长度、风格、具体程度、格式等偏差影响。与此同时,大型推理模型通过长推理和自我检查在数学、代码等任务中表现更强,但它们是否更适合作为 judge 还没有系统结论。
核心矛盾:推理模型可能更擅长复杂判断,也可能因为“想太多”或过度依赖显式标准而更容易被表层特征诱导。判断它们是否更好,不能只看一个 reward benchmark,需要同时看准确率、指令遵循、攻击鲁棒性和偏差鲁棒性。
本文目标:在 reasoning-as-the-only-variant 的受控设置下,比较四组 reasoning 与 non-reasoning 模型作为 judge 的差异,并设计一个轻量策略降低偏差。
切入角度:作者选择同一模型家族中的 reasoning / instruct 变体,例如 DeepSeek-V3 vs DeepSeek-R1、Qwen2.5-32B-Instruct vs QwQ-32B、Qwen3 instruct vs thinking mode。这样可以最大程度隔离“推理过程”本身的影响。
核心 idea:推理模型确实是更强 judge,但要让它们先写清评估计划,再按计划执行判断,才能减少对长度、具体性等表层信号的过度偏好。
方法详解¶
论文由两部分组成。第一部分是系统实证比较,考察 LRM-as-a-Judge 的四个维度:一般评测准确率、评测指令遵循、对 prompt injection 的鲁棒性、对评测偏差的鲁棒性。第二部分提出 PlanJudge:不训练新模型,只在评测前让 judge 生成或接收细粒度评估计划,然后按计划完成比较。
整体框架¶
实验先选定四组模型对,并在 RewardBench、JudgeBench、Helpsteer2-trivial、RobustJudge、BiasBench、LLMBar 上比较。Helpsteer2-trivial 是作者构造的新数据:Response A 整体更好,但 Response B 在某个指定维度更好。一个合格 judge 应该在 overall prompt 下选 A,在 specific prompt 下切换到 B,因此作者用 Reversal Rate 衡量评测指令遵循能力。
随后,作者在同一批 judge 上加入 PlanJudge。PlanJudge 将评测拆成“计划”和“执行”两步:先根据任务写出评估维度、优先级和注意事项,再让模型根据计划进行判断。计划可以来自人工启发式、模型自生成,或二者组合。
关键设计¶
-
受控的 reasoning vs non-reasoning 比较:
- 功能:判断推理过程本身是否提升 judge 能力。
- 核心思路:选择同一模型家族内的 instruct/thinking 变体,尽量避免把参数规模、预训练语料或架构差异误当作 reasoning 带来的收益。
- 设计动机:如果只比较任意强模型和弱模型,结论会混入模型规模与训练数据差异。受控模型对使结论更可信。
-
Helpsteer2-trivial 与 Reversal Rate:
- 功能:专门测试 judge 是否能按指定评估维度切换偏好。
- 核心思路:构造 A 整体更好、B 在单一维度更好的样本。若模型在 overall prompt 选 A,在 specific prompt 选 B,则说明它理解并执行了评测维度指令。
- 设计动机:评测任务中的指令遵循不同于普通聊天。一个 judge 可能知道整体哪个好,却不能在“只评 helpfulness”时忽略其他维度。
-
PlanJudge 两阶段评测:
- 功能:降低 judge 对表层质量偏差的敏感性。
- 核心思路:先生成具体评估计划,再执行评估。计划可以是 heuristic-based、自合成 self-synthesized,或 combined。Combined 同时利用人工规则与模型对当前样本的理解。
- 设计动机:推理模型本身会逐项检查标准,但如果标准不明确,它可能把长度、细节和语气误当作质量。显式计划能把注意力重新拉回任务要求。
损失函数 / 训练策略¶
PlanJudge 是 prompt-only 方法,不需要额外微调、奖励模型或外部资源。它的成本来自更长的推理与评估 prompt,但部署门槛低。相比需要训练 judge 的方法,PlanJudge 更像一个评测协议改造:把“直接判断”改成“先规划评估维度,再执行判断”。
实验关键数据¶
主实验¶
一般评测准确率上,reasoning 变体大多强于 instruct 变体,尤其 Qwen 系列在 JudgeBench 上提升明显。DeepSeek-R1 在 RewardBench 高于 V3,但 JudgeBench 低于 V3,作者将其归因于知识类任务上的幻觉问题。
| 模型对 | RewardBench | JudgeBench | 结论 |
|---|---|---|---|
| DeepSeek-V3 | 89.74 | 84.19 | 普通模型在 JudgeBench 更稳 |
| DeepSeek-R1 | 91.18 | 80.48 | RewardBench 更强,知识判断有例外 |
| Qwen2.5-32B-Instruct | 89.31 | 60.40 | 非推理版本 JudgeBench 明显弱 |
| QwQ-32B | 91.05 | 79.75 | reasoning 带来大幅提升 |
| Qwen3-30B-A3B-Instruct | 89.88 | 74.00 | instruct 基线较强 |
| Qwen3-30B-A3B-Thinking | 92.01 | 83.87 | reasoning 双指标更优 |
| Qwen3-Next-80B-A3B-Instruct | 88.96 | 79.45 | instruct 版本稳定 |
| Qwen3-Next-80B-A3B-Thinking | 92.90 | 82.42 | reasoning 继续提升 |
评测指令遵循上,reasoning 版本的 Reversal Rate 普遍更高,说明长推理并没有削弱评测场景中的指令遵循,反而让模型更会反复核对评价维度。
| 模型 | OriACC | RR | 观察 |
|---|---|---|---|
| DeepSeek-V3 | 78.22 | 87.80 | overall 判断准确,但维度切换略弱 |
| DeepSeek-R1 | 73.61 | 95.24 | RR 明显更高 |
| Qwen2.5-32B-Instruct | 71.13 | 83.19 | instruct 版本维度切换不足 |
| QwQ-32B | 76.49 | 91.11 | reasoning 提升指令遵循 |
| Qwen3-30B-A3B-Instruct | 72.78 | 95.67 | 本身较强 |
| Qwen3-30B-A3B-Thinking | 78.14 | 97.44 | 双指标最佳之一 |
| Qwen3-Next-80B-A3B-Instruct | 75.88 | 82.50 | RR 较低 |
| Qwen3-Next-80B-A3B-Thinking | 77.94 | 91.18 | reasoning 后明显提升 |
消融实验¶
偏差鲁棒性上,结果更复杂。LRM 在 LLMBar 上通常更强,因为它更能识别明确的 instruction misalignment;但在 BiasBench 上会受长度、具体性等表层质量影响。
| 模型 | BiasBench | LLMBar | 解释 |
|---|---|---|---|
| DeepSeek-V3 | 81.25 | 76.49 | 偏差鲁棒性较均衡 |
| DeepSeek-R1 | 65.00 | 79.00 | 表层质量偏差更强,但能识别明显失配 |
| Qwen2.5-32B-Instruct | 82.50 | 67.71 | BiasBench 高,LLMBar 较弱 |
| QwQ-32B | 67.50 | 79.31 | reasoning 提升 LLMBar,降低 BiasBench |
| Qwen3-30B-Instruct | 81.25 | 59.25 | LLMBar 较弱 |
| Qwen3-30B-Thinking | 77.50 | 83.07 | reasoning 显著提升 LLMBar |
| Qwen3-Next-Instruct | 80.00 | 64.55 | instruct 版本偏差较低 |
| Qwen3-Next-Thinking | 75.00 | 77.55 | reasoning 后 LLMBar 提升 |
PlanJudge 的 combined 策略能显著提升 BiasBench,并通常保留或提升 RewardBench/LLMBar。
| 模型 | 方法 | RewardBench | BiasBench | LLMBar |
|---|---|---|---|---|
| DeepSeek-V3 | 原始 | 89.70 | 81.25 | 76.49 |
| DeepSeek-V3 | Combined | 93.07 | 98.75 | 86.83 |
| DeepSeek-R1 | 原始 | 91.10 | 65.00 | 79.00 |
| DeepSeek-R1 | Combined | 92.47 | 97.50 | 86.21 |
| Qwen2.5-32B | 原始 | 89.30 | 82.50 | 67.71 |
| Qwen2.5-32B | Combined | 89.68 | 93.59 | 75.55 |
| QwQ-32B | 原始 | 91.00 | 67.50 | 79.31 |
| QwQ-32B | Combined | 93.13 | 95.00 | 83.07 |
关键发现¶
- LRM-as-a-Judge 整体优于普通 LLM judge,尤其在推理密集的代码、数学和复杂判断任务中更明显。
- 推理模型在评测指令遵循上更强,这与一些普通指令跟随研究中“reasoning model 更固执”的结论不同,说明评测场景有其特殊性。
- 推理模型对 prompt injection 类攻击更稳,因为它会在推理中检查任务边界和评估要求。
- 但推理模型仍会偏爱看起来更具体、更长或更有条理的回答,哪怕这些表层特征并不代表真正质量。
- PlanJudge 的核心价值不是让模型“多想”,而是让模型先明确“应该按什么标准想”。
亮点与洞察¶
- 论文把 judge 能力拆成四个维度,避免了“某个 benchmark 高分就更好”的单指标结论。
- Helpsteer2-trivial 很实用,它把评测指令遵循转成可度量的反转率,能测出 judge 是否真的按指定维度判断。
- PlanJudge 简单但击中要害。很多 judge 偏差来自评估标准含糊,把评估计划显式化能显著减少这种问题。
- 研究提醒我们:推理链并不是天然可靠,它会放大模型已有的评估偏好;因此需要用结构化标准约束推理过程。
局限与展望¶
- 模型覆盖刻意限制在有清晰 reasoning/non-reasoning 对照的家族,因此结论对 LLaMA 系、闭源 o 系列等模型还需进一步验证。
- 每个评估维度只使用一到两个 benchmark,仍可能受数据集设计偏差影响。
- PlanJudge 会增加推理成本和延迟,在大规模自动评测中需要权衡吞吐量。
- 偏差类型主要来自现有 BiasBench/LLMBar,现实评测中的领域偏差、文化偏差、语言偏差还没有充分覆盖。
- 后续可以研究计划质量如何自动验证,以及是否能把 PlanJudge 与校准、人类小样本审计结合。
相关工作与启发¶
- vs LLM-as-a-Judge 实证研究: 既有研究多讨论 GPT-4 类 judge 与人类一致性;本文进一步比较 reasoning 模式是否适合做 judge。
- vs BiasBench / LLMBar: 这些 benchmark 提供偏差诊断,本文发现 reasoning 在不同偏差上的方向并不一致,不能简单说 reasoning 更稳或更差。
- vs 训练式 judge 改进方法: 一些方法通过微调提升 judge 能力;PlanJudge 不训练模型,部署更轻,但也依赖模型本身能执行计划。
- 启发: 在论文实验中使用 LLM judge 时,可以把评价 rubrics 写成显式 plan,并报告是否使用 planning,以提高评测可复现性。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 系统比较 reasoning judge 的设计很及时,PlanJudge 简单但有效。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖四类 judge 能力和多个模型对,但 benchmark 维度还可以继续扩展。
- 写作质量: ⭐⭐⭐⭐☆ 结论清晰,表格信息密集;作者列表处缓存中有模板残留但不影响主体内容。
- 价值: ⭐⭐⭐⭐⭐ 对 LLM-as-a-Judge 的模型选择、偏差控制和评测协议设计有直接指导意义。