VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models¶

会议: ICLR 2026
arXiv: 2505.15801
代码: GitHub
领域: 强化学习
关键词: reward model, benchmark, verification, LLM, reinforcement-learning

一句话总结¶

针对大型推理模型（LRM）训练中广泛使用的基于参考答案的奖励系统，构建了 VerifyBench 和 VerifyBench-Hard 两个评测基准，通过严格的人工标注评估各类验证系统的准确性，发现即使最强模型在困难样本上也仅达约 88% 准确率，揭示了当前验证系统的显著改进空间。

研究背景与动机¶

LRM 训练依赖参考答案奖励：OpenAI o1、DeepSeek-R1 等推理模型在 RL 训练中使用基于参考答案的奖励系统（reference-based reward），即根据模型输出与标准答案的一致性来给予奖励。

现有 benchmark 聚焦偏好比较：现有奖励模型评测（如 RewardBench）主要评估成对偏好判断——在两个回答中选择更好的一个，而非判断单个回答是否正确。

评测与实际使用场景脱节：LRM 训练中的奖励系统需要判断回答与参考答案是否一致（绝对正确性），而非比较两个回答的优劣（相对偏好），存在本质区别。

规则方法的局限：SimpleRL 中使用的 math-verify 等规则方法在数学表达式匹配上存在明显缺陷，但缺乏标准化评测来量化这些不足。

困难样本的需求：模型在简单验证任务上表现良好（约 95%），但在真正有歧义的困难样本上差距显著（约 70-88%），需要专门的困难基准来推动进步。

方法详解¶

整体框架¶

VerifyBench 的构建遵循以下流程： 1. 数据收集：从 41 个开源数据集收集推理问题及参考答案，涵盖通用推理、逻辑推理和数学推理。 2. 答案类型标注：自动分类为 4 种答案类型（数值、代数表达式、选择题、自由文本）。 3. 模型生成回答：使用 22 个开/闭源模型生成回答，并通过 LLM 进行预标注。 4. 人工标注：每个样本至少两名标注者独立标注正确性，不一致时由 meta-annotator 裁决。 5. 平衡采样：控制采样确保 4 种答案类型均匀分布，每题 1 正确 + 1 错误回答。

关键设计¶

设计 1：VerifyBench 数据集

功能：构建 2,000 个平衡的 (问题, 参考答案, 模型回答, 正确性标签) 四元组。
核心思路：1,000 个问题 × 每题 2 个回答（1 正确 + 1 错误），跨 4 种答案类型均匀分布（每类 250 题 × 500 回答），确保无偏评估。使用 22 个模型生成多样化回答，通过人工标注确保标签质量。
设计动机：反映 LRM RL 训练中的真实场景——判断单个回答是否与参考答案一致，而非比较两个回答。平衡采样消除答案类型和正确性比例的偏差。

设计 2：VerifyBench-Hard 数据集

功能：构建 1,000 个困难验证样本，聚焦模型高度不一致的争议性案例。
核心思路：使用 18 个开源模型生成约 145 万个回答，选取 5 个顶级模型评判后出现 2:3 分歧的案例（即两个模型与其余三个判断不一致）。再经过分层采样和人工标注生成最终数据集。自然采样（非强制平衡），正确回答仅占 29.1%。
设计动机：普通验证任务上模型已达 93-95% 准确率，难以区分不同验证方法的能力。困难样本集中在真正有歧义的 case 上，更有效地暴露验证系统的不足。

设计 3：四种答案类型的分类评估

功能：将答案分为数值（Numeric）、代数表达式（Expression）、选择题（Multi-choice）和自由文本（String）四类，分别评估。
核心思路：不同答案类型对验证系统的挑战不同——数值比较相对简单、代数表达式需要数学等价判断、选择题需理解选项语义、自由文本最难准确匹配。
设计动机：细粒度分析可以揭示验证系统在不同场景下的具体弱点，指导针对性改进。

设计 4：多维度评估框架

功能：同时评估规则方法（math-verify）和 LLM-as-judge 两类验证系统。
核心思路：评估指标为准确率 Accuracy = (1/|D|) Σ I[E(Rφ(q,gt,r)) = y]，其中 Rφ 为验证系统的输出，y 为人工标注的正确性标签。
设计动机：DeepSeek-R1 使用规则方法防止 reward hacking，Seed1.5-Thinking 使用模型方法获取更精确信号。两类方法各有优劣，需要在统一框架下比较。

损失函数 / 训练策略¶

VerifyBench 是评测基准，不涉及训练。核心质量保证措施： - 双人标注 + 裁决机制：每个样本至少两名标注者，不一致时由 meta-annotator 统一。 - 严格的正确性定义：可执行 + 正确才算成功，使用 1,000 个随机测试输入验证。 - 分层采样：控制数据域和来源的分布，避免采样偏差。

实验关键数据¶

主实验¶

VerifyBench 总体准确率（%）：

模型/方法	Numeric	Expression	MC	String	AVG
math-verify (规则)	85.60	75.60	55.00	51.60	66.95
GPT-4o	94.80	90.20	96.80	90.80	93.15
DeepSeek-V3	96.80	93.00	97.60	91.60	94.75
DeepSeek-R1	98.00	92.60	98.00	92.00	95.15
Qwen3-32B	97.60	94.00	99.00	92.60	95.80
gpt-oss-120b	98.00	94.80	99.20	91.40	95.85

VerifyBench-Hard 总体准确率（%）：

模型/方法	Numeric	Expression	MC	String	AVG
math-verify (规则)	84.52	82.95	68.37	78.26	76.00
GPT-4o	71.43	65.91	75.35	71.30	72.60
DeepSeek-R1	82.14	81.82	90.93	85.22	86.60
gpt-oss-120b	84.13	80.68	92.56	86.09	87.90
Llama-3.2-1B	44.40	41.00	37.60	53.60	44.15

消融实验¶

不同答案类型的难度分析（VB-Hard）：

答案类型	VerifyBench 最高	VB-Hard 最高	下降幅度
Numeric	98.00%	84.52%	-13.5%
Expression	94.80%	82.95%	-11.9%
Multi-choice	99.20%	92.56%	-6.6%
String	92.60%	86.09%	-6.5%

模型规模效应（Llama 系列，VB-Hard）：

模型	参数量	VB-Hard AVG
Llama-3.2-1B	1B	25.60%
Llama-3.2-3B	3B	33.90%
Llama-3.1-8B	8B	43.20%
Llama-3.3-70B	70B	54.70%
Llama-4-17B-16E	17B×16E	48.50%

关键发现¶

规则方法严重不足：math-verify 在 VerifyBench 上仅 66.95%，特别是在选择题（55.00%）和自由文本（51.60%）上接近随机猜测，说明 DeepSeek-R1 使用的规则奖励存在显著缺陷。
VB vs VB-Hard 的巨大差距：顶级模型在 VerifyBench 上达 95%+ 但在 VB-Hard 上仅 87-88%，证明困难验证任务确实是当前瓶颈。
大模型更容易"误接受"：VB-Hard 中正确回答仅占 29.1%，说明更大模型更倾向于错误地将不正确答案判为正确——这对 RL 训练尤其危险，会产生虚假正奖励。
模型规模提升有限：在 VB-Hard 上，从 Llama-1B 到 70B 准确率从 25.6% 提升到 54.7%，但仍远未达到可靠水平，表明单纯扩大模型规模不够。
推理能力有助于验证：DeepSeek-R1 的推理能力在 VB-Hard 上带来了明显优势（86.60% vs GPT-4o 的 72.60%）。

亮点与洞察¶

填补了评测空白：首个专门评估基于参考答案的奖励系统的 benchmark，直接对应 LRM RL 训练的实际场景。
VerifyBench-Hard 的构建方法巧妙：利用多模型分歧来识别困难样本，确保 benchmark 具有区分度。
规则方法的系统性弱点：量化了 math-verify 在不同答案类型上的表现差异，为 RL 训练中奖励系统的选择提供了实证指导。
"误接受"偏向的发现：大模型倾向于接受错误答案的发现，对 RL 训练中的 reward hacking 有重要警示意义。
严格的数据质量保证：双人标注 + meta-annotator 仲裁，41 个数据源 × 22 个模型的大规模覆盖。

局限与展望¶

仅限推理任务：VerifyBench 聚焦数学和逻辑推理，未覆盖代码生成、创意写作等场景的验证。
答案类型有限：排除了证明型和开放式问题，而这些在实际研究中同样重要。
静态 benchmark：随着模型能力提升，VB-Hard 可能很快饱和，需要持续更新。
评测方式单一：仅使用 prompt-based LLM-as-judge，未深入探索专门训练的验证模型。
未探索验证失败的下游影响：验证不准确如何具体影响 RL 训练质量（如 reward hacking、训练不稳定）未做实证分析。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性地将 reference-based reward 评估从偏好比较中独立出来，VB-Hard 的构建方法有创意
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 20+ 个模型、4 种答案类型、两个难度级别，人工标注严格
写作质量: ⭐⭐⭐⭐ 问题定义清晰，benchmark 构建流程完整，数据统计详尽
价值: ⭐⭐⭐⭐ 对 LRM RL 训练中的奖励系统设计有直接指导意义，揭示了规则方法的不足和模型验证的改进空间