跳转至

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

会议: ICLR 2026
arXiv: 2505.15801
代码: GitHub
领域: 强化学习
关键词: reward model, benchmark, verification, LLM, reinforcement-learning

一句话总结

针对大型推理模型(LRM)训练中广泛使用的基于参考答案的奖励系统,构建了 VerifyBench 和 VerifyBench-Hard 两个评测基准,通过严格的人工标注评估各类验证系统的准确性,发现即使最强模型在困难样本上也仅达约 88% 准确率,揭示了当前验证系统的显著改进空间。

研究背景与动机

LRM 训练依赖参考答案奖励:OpenAI o1、DeepSeek-R1 等推理模型在 RL 训练中使用基于参考答案的奖励系统(reference-based reward),即根据模型输出与标准答案的一致性来给予奖励。

现有 benchmark 聚焦偏好比较:现有奖励模型评测(如 RewardBench)主要评估成对偏好判断——在两个回答中选择更好的一个,而非判断单个回答是否正确。

评测与实际使用场景脱节:LRM 训练中的奖励系统需要判断回答与参考答案是否一致(绝对正确性),而非比较两个回答的优劣(相对偏好),存在本质区别。

规则方法的局限:SimpleRL 中使用的 math-verify 等规则方法在数学表达式匹配上存在明显缺陷,但缺乏标准化评测来量化这些不足。

困难样本的需求:模型在简单验证任务上表现良好(约 95%),但在真正有歧义的困难样本上差距显著(约 70-88%),需要专门的困难基准来推动进步。

方法详解

整体框架

VerifyBench 的构建遵循以下流程: 1. 数据收集:从 41 个开源数据集收集推理问题及参考答案,涵盖通用推理、逻辑推理和数学推理。 2. 答案类型标注:自动分类为 4 种答案类型(数值、代数表达式、选择题、自由文本)。 3. 模型生成回答:使用 22 个开/闭源模型生成回答,并通过 LLM 进行预标注。 4. 人工标注:每个样本至少两名标注者独立标注正确性,不一致时由 meta-annotator 裁决。 5. 平衡采样:控制采样确保 4 种答案类型均匀分布,每题 1 正确 + 1 错误回答。

关键设计

设计 1:VerifyBench 数据集

  • 功能:构建 2,000 个平衡的 (问题, 参考答案, 模型回答, 正确性标签) 四元组。
  • 核心思路:1,000 个问题 × 每题 2 个回答(1 正确 + 1 错误),跨 4 种答案类型均匀分布(每类 250 题 × 500 回答),确保无偏评估。使用 22 个模型生成多样化回答,通过人工标注确保标签质量。
  • 设计动机:反映 LRM RL 训练中的真实场景——判断单个回答是否与参考答案一致,而非比较两个回答。平衡采样消除答案类型和正确性比例的偏差。

设计 2:VerifyBench-Hard 数据集

  • 功能:构建 1,000 个困难验证样本,聚焦模型高度不一致的争议性案例。
  • 核心思路:使用 18 个开源模型生成约 145 万个回答,选取 5 个顶级模型评判后出现 2:3 分歧的案例(即两个模型与其余三个判断不一致)。再经过分层采样和人工标注生成最终数据集。自然采样(非强制平衡),正确回答仅占 29.1%。
  • 设计动机:普通验证任务上模型已达 93-95% 准确率,难以区分不同验证方法的能力。困难样本集中在真正有歧义的 case 上,更有效地暴露验证系统的不足。

设计 3:四种答案类型的分类评估

  • 功能:将答案分为数值(Numeric)、代数表达式(Expression)、选择题(Multi-choice)和自由文本(String)四类,分别评估。
  • 核心思路:不同答案类型对验证系统的挑战不同——数值比较相对简单、代数表达式需要数学等价判断、选择题需理解选项语义、自由文本最难准确匹配。
  • 设计动机:细粒度分析可以揭示验证系统在不同场景下的具体弱点,指导针对性改进。

设计 4:多维度评估框架

  • 功能:同时评估规则方法(math-verify)和 LLM-as-judge 两类验证系统。
  • 核心思路:评估指标为准确率 Accuracy = (1/|D|) Σ I[E(Rφ(q,gt,r)) = y],其中 Rφ 为验证系统的输出,y 为人工标注的正确性标签。
  • 设计动机:DeepSeek-R1 使用规则方法防止 reward hacking,Seed1.5-Thinking 使用模型方法获取更精确信号。两类方法各有优劣,需要在统一框架下比较。

损失函数 / 训练策略

VerifyBench 是评测基准,不涉及训练。核心质量保证措施: - 双人标注 + 裁决机制:每个样本至少两名标注者,不一致时由 meta-annotator 统一。 - 严格的正确性定义:可执行 + 正确才算成功,使用 1,000 个随机测试输入验证。 - 分层采样:控制数据域和来源的分布,避免采样偏差。

实验关键数据

主实验

VerifyBench 总体准确率(%)

模型/方法 Numeric Expression MC String AVG
math-verify (规则) 85.60 75.60 55.00 51.60 66.95
GPT-4o 94.80 90.20 96.80 90.80 93.15
DeepSeek-V3 96.80 93.00 97.60 91.60 94.75
DeepSeek-R1 98.00 92.60 98.00 92.00 95.15
Qwen3-32B 97.60 94.00 99.00 92.60 95.80
gpt-oss-120b 98.00 94.80 99.20 91.40 95.85

VerifyBench-Hard 总体准确率(%)

模型/方法 Numeric Expression MC String AVG
math-verify (规则) 84.52 82.95 68.37 78.26 76.00
GPT-4o 71.43 65.91 75.35 71.30 72.60
DeepSeek-R1 82.14 81.82 90.93 85.22 86.60
gpt-oss-120b 84.13 80.68 92.56 86.09 87.90
Llama-3.2-1B 44.40 41.00 37.60 53.60 44.15

消融实验

不同答案类型的难度分析(VB-Hard)

答案类型 VerifyBench 最高 VB-Hard 最高 下降幅度
Numeric 98.00% 84.52% -13.5%
Expression 94.80% 82.95% -11.9%
Multi-choice 99.20% 92.56% -6.6%
String 92.60% 86.09% -6.5%

模型规模效应(Llama 系列,VB-Hard)

模型 参数量 VB-Hard AVG
Llama-3.2-1B 1B 25.60%
Llama-3.2-3B 3B 33.90%
Llama-3.1-8B 8B 43.20%
Llama-3.3-70B 70B 54.70%
Llama-4-17B-16E 17B×16E 48.50%

关键发现

  1. 规则方法严重不足:math-verify 在 VerifyBench 上仅 66.95%,特别是在选择题(55.00%)和自由文本(51.60%)上接近随机猜测,说明 DeepSeek-R1 使用的规则奖励存在显著缺陷。
  2. VB vs VB-Hard 的巨大差距:顶级模型在 VerifyBench 上达 95%+ 但在 VB-Hard 上仅 87-88%,证明困难验证任务确实是当前瓶颈。
  3. 大模型更容易"误接受":VB-Hard 中正确回答仅占 29.1%,说明更大模型更倾向于错误地将不正确答案判为正确——这对 RL 训练尤其危险,会产生虚假正奖励。
  4. 模型规模提升有限:在 VB-Hard 上,从 Llama-1B 到 70B 准确率从 25.6% 提升到 54.7%,但仍远未达到可靠水平,表明单纯扩大模型规模不够。
  5. 推理能力有助于验证:DeepSeek-R1 的推理能力在 VB-Hard 上带来了明显优势(86.60% vs GPT-4o 的 72.60%)。

亮点与洞察

  1. 填补了评测空白:首个专门评估基于参考答案的奖励系统的 benchmark,直接对应 LRM RL 训练的实际场景。
  2. VerifyBench-Hard 的构建方法巧妙:利用多模型分歧来识别困难样本,确保 benchmark 具有区分度。
  3. 规则方法的系统性弱点:量化了 math-verify 在不同答案类型上的表现差异,为 RL 训练中奖励系统的选择提供了实证指导。
  4. "误接受"偏向的发现:大模型倾向于接受错误答案的发现,对 RL 训练中的 reward hacking 有重要警示意义。
  5. 严格的数据质量保证:双人标注 + meta-annotator 仲裁,41 个数据源 × 22 个模型的大规模覆盖。

局限与展望

  1. 仅限推理任务:VerifyBench 聚焦数学和逻辑推理,未覆盖代码生成、创意写作等场景的验证。
  2. 答案类型有限:排除了证明型和开放式问题,而这些在实际研究中同样重要。
  3. 静态 benchmark:随着模型能力提升,VB-Hard 可能很快饱和,需要持续更新。
  4. 评测方式单一:仅使用 prompt-based LLM-as-judge,未深入探索专门训练的验证模型。
  5. 未探索验证失败的下游影响:验证不准确如何具体影响 RL 训练质量(如 reward hacking、训练不稳定)未做实证分析。

相关工作与启发

  • RewardBench:评估成对偏好判断的 benchmark,VerifyBench 与之互补——一个评估相对偏好,一个评估绝对正确性。
  • DeepSeek-R1:使用规则方法(rule-based reward)防止 reward hacking,但 VerifyBench 揭示了规则方法的显著不足(66.95%),建议结合模型方法。
  • Seed1.5-Thinking:使用模型方法生成更精确的奖励信号,VerifyBench 为评估这类方法提供了标准化工具。
  • 启发:RL 训练中的验证准确性直接影响模型推理能力的上限。在 VB-Hard 上的 ~88% 准确率意味着约 12% 的奖励信号是错误的,这会系统性地降低 RL 训练的效果。建立更准确的验证系统可能是提升推理模型能力的关键瓶颈之一。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统性地将 reference-based reward 评估从偏好比较中独立出来,VB-Hard 的构建方法有创意
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 20+ 个模型、4 种答案类型、两个难度级别,人工标注严格
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,benchmark 构建流程完整,数据统计详尽
  • 价值: ⭐⭐⭐⭐ 对 LRM RL 训练中的奖励系统设计有直接指导意义,揭示了规则方法的不足和模型验证的改进空间