VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models¶
会议: ICLR 2026
arXiv: 2505.15801
代码: GitHub
领域: 强化学习
关键词: reward model, benchmark, verification, LLM, reinforcement-learning
一句话总结¶
针对大型推理模型(LRM)训练中广泛使用的基于参考答案的奖励系统,构建了 VerifyBench 和 VerifyBench-Hard 两个评测基准,通过严格的人工标注评估各类验证系统的准确性,发现即使最强模型在困难样本上也仅达约 88% 准确率,揭示了当前验证系统的显著改进空间。
研究背景与动机¶
LRM 训练依赖参考答案奖励:OpenAI o1、DeepSeek-R1 等推理模型在 RL 训练中使用基于参考答案的奖励系统(reference-based reward),即根据模型输出与标准答案的一致性来给予奖励。
现有 benchmark 聚焦偏好比较:现有奖励模型评测(如 RewardBench)主要评估成对偏好判断——在两个回答中选择更好的一个,而非判断单个回答是否正确。
评测与实际使用场景脱节:LRM 训练中的奖励系统需要判断回答与参考答案是否一致(绝对正确性),而非比较两个回答的优劣(相对偏好),存在本质区别。
规则方法的局限:SimpleRL 中使用的 math-verify 等规则方法在数学表达式匹配上存在明显缺陷,但缺乏标准化评测来量化这些不足。
困难样本的需求:模型在简单验证任务上表现良好(约 95%),但在真正有歧义的困难样本上差距显著(约 70-88%),需要专门的困难基准来推动进步。
方法详解¶
整体框架¶
VerifyBench 的构建遵循以下流程: 1. 数据收集:从 41 个开源数据集收集推理问题及参考答案,涵盖通用推理、逻辑推理和数学推理。 2. 答案类型标注:自动分类为 4 种答案类型(数值、代数表达式、选择题、自由文本)。 3. 模型生成回答:使用 22 个开/闭源模型生成回答,并通过 LLM 进行预标注。 4. 人工标注:每个样本至少两名标注者独立标注正确性,不一致时由 meta-annotator 裁决。 5. 平衡采样:控制采样确保 4 种答案类型均匀分布,每题 1 正确 + 1 错误回答。
关键设计¶
设计 1:VerifyBench 数据集
- 功能:构建 2,000 个平衡的 (问题, 参考答案, 模型回答, 正确性标签) 四元组。
- 核心思路:1,000 个问题 × 每题 2 个回答(1 正确 + 1 错误),跨 4 种答案类型均匀分布(每类 250 题 × 500 回答),确保无偏评估。使用 22 个模型生成多样化回答,通过人工标注确保标签质量。
- 设计动机:反映 LRM RL 训练中的真实场景——判断单个回答是否与参考答案一致,而非比较两个回答。平衡采样消除答案类型和正确性比例的偏差。
设计 2:VerifyBench-Hard 数据集
- 功能:构建 1,000 个困难验证样本,聚焦模型高度不一致的争议性案例。
- 核心思路:使用 18 个开源模型生成约 145 万个回答,选取 5 个顶级模型评判后出现 2:3 分歧的案例(即两个模型与其余三个判断不一致)。再经过分层采样和人工标注生成最终数据集。自然采样(非强制平衡),正确回答仅占 29.1%。
- 设计动机:普通验证任务上模型已达 93-95% 准确率,难以区分不同验证方法的能力。困难样本集中在真正有歧义的 case 上,更有效地暴露验证系统的不足。
设计 3:四种答案类型的分类评估
- 功能:将答案分为数值(Numeric)、代数表达式(Expression)、选择题(Multi-choice)和自由文本(String)四类,分别评估。
- 核心思路:不同答案类型对验证系统的挑战不同——数值比较相对简单、代数表达式需要数学等价判断、选择题需理解选项语义、自由文本最难准确匹配。
- 设计动机:细粒度分析可以揭示验证系统在不同场景下的具体弱点,指导针对性改进。
设计 4:多维度评估框架
- 功能:同时评估规则方法(math-verify)和 LLM-as-judge 两类验证系统。
- 核心思路:评估指标为准确率 Accuracy = (1/|D|) Σ I[E(Rφ(q,gt,r)) = y],其中 Rφ 为验证系统的输出,y 为人工标注的正确性标签。
- 设计动机:DeepSeek-R1 使用规则方法防止 reward hacking,Seed1.5-Thinking 使用模型方法获取更精确信号。两类方法各有优劣,需要在统一框架下比较。
损失函数 / 训练策略¶
VerifyBench 是评测基准,不涉及训练。核心质量保证措施: - 双人标注 + 裁决机制:每个样本至少两名标注者,不一致时由 meta-annotator 统一。 - 严格的正确性定义:可执行 + 正确才算成功,使用 1,000 个随机测试输入验证。 - 分层采样:控制数据域和来源的分布,避免采样偏差。
实验关键数据¶
主实验¶
VerifyBench 总体准确率(%):
| 模型/方法 | Numeric | Expression | MC | String | AVG |
|---|---|---|---|---|---|
| math-verify (规则) | 85.60 | 75.60 | 55.00 | 51.60 | 66.95 |
| GPT-4o | 94.80 | 90.20 | 96.80 | 90.80 | 93.15 |
| DeepSeek-V3 | 96.80 | 93.00 | 97.60 | 91.60 | 94.75 |
| DeepSeek-R1 | 98.00 | 92.60 | 98.00 | 92.00 | 95.15 |
| Qwen3-32B | 97.60 | 94.00 | 99.00 | 92.60 | 95.80 |
| gpt-oss-120b | 98.00 | 94.80 | 99.20 | 91.40 | 95.85 |
VerifyBench-Hard 总体准确率(%):
| 模型/方法 | Numeric | Expression | MC | String | AVG |
|---|---|---|---|---|---|
| math-verify (规则) | 84.52 | 82.95 | 68.37 | 78.26 | 76.00 |
| GPT-4o | 71.43 | 65.91 | 75.35 | 71.30 | 72.60 |
| DeepSeek-R1 | 82.14 | 81.82 | 90.93 | 85.22 | 86.60 |
| gpt-oss-120b | 84.13 | 80.68 | 92.56 | 86.09 | 87.90 |
| Llama-3.2-1B | 44.40 | 41.00 | 37.60 | 53.60 | 44.15 |
消融实验¶
不同答案类型的难度分析(VB-Hard):
| 答案类型 | VerifyBench 最高 | VB-Hard 最高 | 下降幅度 |
|---|---|---|---|
| Numeric | 98.00% | 84.52% | -13.5% |
| Expression | 94.80% | 82.95% | -11.9% |
| Multi-choice | 99.20% | 92.56% | -6.6% |
| String | 92.60% | 86.09% | -6.5% |
模型规模效应(Llama 系列,VB-Hard):
| 模型 | 参数量 | VB-Hard AVG |
|---|---|---|
| Llama-3.2-1B | 1B | 25.60% |
| Llama-3.2-3B | 3B | 33.90% |
| Llama-3.1-8B | 8B | 43.20% |
| Llama-3.3-70B | 70B | 54.70% |
| Llama-4-17B-16E | 17B×16E | 48.50% |
关键发现¶
- 规则方法严重不足:math-verify 在 VerifyBench 上仅 66.95%,特别是在选择题(55.00%)和自由文本(51.60%)上接近随机猜测,说明 DeepSeek-R1 使用的规则奖励存在显著缺陷。
- VB vs VB-Hard 的巨大差距:顶级模型在 VerifyBench 上达 95%+ 但在 VB-Hard 上仅 87-88%,证明困难验证任务确实是当前瓶颈。
- 大模型更容易"误接受":VB-Hard 中正确回答仅占 29.1%,说明更大模型更倾向于错误地将不正确答案判为正确——这对 RL 训练尤其危险,会产生虚假正奖励。
- 模型规模提升有限:在 VB-Hard 上,从 Llama-1B 到 70B 准确率从 25.6% 提升到 54.7%,但仍远未达到可靠水平,表明单纯扩大模型规模不够。
- 推理能力有助于验证:DeepSeek-R1 的推理能力在 VB-Hard 上带来了明显优势(86.60% vs GPT-4o 的 72.60%)。
亮点与洞察¶
- 填补了评测空白:首个专门评估基于参考答案的奖励系统的 benchmark,直接对应 LRM RL 训练的实际场景。
- VerifyBench-Hard 的构建方法巧妙:利用多模型分歧来识别困难样本,确保 benchmark 具有区分度。
- 规则方法的系统性弱点:量化了 math-verify 在不同答案类型上的表现差异,为 RL 训练中奖励系统的选择提供了实证指导。
- "误接受"偏向的发现:大模型倾向于接受错误答案的发现,对 RL 训练中的 reward hacking 有重要警示意义。
- 严格的数据质量保证:双人标注 + meta-annotator 仲裁,41 个数据源 × 22 个模型的大规模覆盖。
局限与展望¶
- 仅限推理任务:VerifyBench 聚焦数学和逻辑推理,未覆盖代码生成、创意写作等场景的验证。
- 答案类型有限:排除了证明型和开放式问题,而这些在实际研究中同样重要。
- 静态 benchmark:随着模型能力提升,VB-Hard 可能很快饱和,需要持续更新。
- 评测方式单一:仅使用 prompt-based LLM-as-judge,未深入探索专门训练的验证模型。
- 未探索验证失败的下游影响:验证不准确如何具体影响 RL 训练质量(如 reward hacking、训练不稳定)未做实证分析。
相关工作与启发¶
- RewardBench:评估成对偏好判断的 benchmark,VerifyBench 与之互补——一个评估相对偏好,一个评估绝对正确性。
- DeepSeek-R1:使用规则方法(rule-based reward)防止 reward hacking,但 VerifyBench 揭示了规则方法的显著不足(66.95%),建议结合模型方法。
- Seed1.5-Thinking:使用模型方法生成更精确的奖励信号,VerifyBench 为评估这类方法提供了标准化工具。
- 启发:RL 训练中的验证准确性直接影响模型推理能力的上限。在 VB-Hard 上的 ~88% 准确率意味着约 12% 的奖励信号是错误的,这会系统性地降低 RL 训练的效果。建立更准确的验证系统可能是提升推理模型能力的关键瓶颈之一。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性地将 reference-based reward 评估从偏好比较中独立出来,VB-Hard 的构建方法有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 20+ 个模型、4 种答案类型、两个难度级别,人工标注严格
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,benchmark 构建流程完整,数据统计详尽
- 价值: ⭐⭐⭐⭐ 对 LRM RL 训练中的奖励系统设计有直接指导意义,揭示了规则方法的不足和模型验证的改进空间