SCI-Verifier: Scientific Verifier with Thinking¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=kBzqPE8FTE
代码: 无（项目页 SCI-Verifier）
领域: LLM推理 / 答案验证 / 科学推理
关键词: 答案验证器、等价性判断、思维链、跨学科基准、后训练

一句话总结¶

针对科学推理答案"形式多样、等价表达难判"的痛点，本文同时从数据和模型两侧出手：构建覆盖数理化生与通用 QA 五大学科、带等价变换的跨学科验证基准 SCI-VerifyBench，并用 SFT+RL 两阶段后训练出一个"带简洁思考"的验证器 SCI-Verifier，8B 版本在科学验证任务上追平闭源 SOTA 模型 GPT-5。

研究背景与动机¶

领域现状：随着 LLM 越来越多地用于科学推理，"判断模型输出的答案是否和参考答案等价"成了评估能力、做 RL 奖励、刷 benchmark 的基础环节。目前的验证手段主要有两类——一类是规则匹配（手写模板、正则、字符串归一化），另一类是用通用大模型或专门训练的验证器（如 xVerify、CompassVerifier）直接给"对/错"判断。

现有痛点：这两类做法在科学场景都不够用。规则法依赖人工堆模板和启发式，面对单位换算、公式改写、蛋白质序列的三字母/单字母表示这类领域特有的等价形式就会失效；而现有验证器/通用模型则严重依赖 prompt 工程，输出不稳定，且在多步推理和跨学科任务上泛化差。更糟的是，评测这件事本身也没有好标尺——现有验证基准学科覆盖窄（多停留在数学/逻辑），且不刻意构造"等价但形式不同"的难样本，导致没法真正衡量验证器的能力。

核心矛盾：科学答案的本质复杂性（多步推理 + 同一答案有大量等价写法）与现有验证器"无思考、靠表面匹配"之间存在根本矛盾。大多数验证器研究为了部署效率，刻意砍掉了推理过程，直接吐结论，而这恰恰丢掉了判断等价性最需要的那部分能力。

本文目标：拆成两个子问题——(1) 造一个跨学科、带难度控制、专门塞进等价变换难样本的验证基准；(2) 训一个既会推理、又输出简洁稳定、能跨学科泛化的验证器。

切入角度：作者做了一个被多数验证器忽视的观察——给各种规模的模型开启 CoT 思考后，科学验证准确率普遍显著上升（Fig. 1）。原因在于科学答案常有多种等价形式，需要从多个角度推演才能判断等价，单纯比对表面字符串不够。

核心 idea：把"推理能力"重新注入验证器，但要"简洁的推理"——用 SFT 蒸馏短 CoT、再用带长度惩罚的 RL 收紧，使验证器既能做复杂等价判断，又保持短而稳定的输出便于部署。

方法详解¶

整体框架¶

本文是"基准 + 模型"双线工作。数据侧 SCI-VerifyBench 走一条"采集真实回答 → 合成等价难样本 → LLM+专家混合标注 → 按难度/分歧过滤"的流水线，最终产出 2,500 条测试样本（五学科各 500）和 14K 训练样本，每条样本是一个四元组 \((q, a, r, l)\)：问题、参考答案、待判断回答、真值标签（对/错）。模型侧 SCI-Verifier 则在 Qwen3-4B/8B-Base 上做两阶段后训练：先用大模型拒绝采样产生的高质量短推理轨迹做 SFT 把基础验证推理能力"注入"小模型，再用 DAPO（带长度惩罚的 GRPO 变体）做 RL 防过拟合、强化简洁推理。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["五学科真实 LLM 回答<br/>100K+ 条"] --> B["等价变换难样本构建<br/>公式/单位/表示改写"]
    B --> C["LLM+专家混合标注<br/>留高分歧样本"]
    C --> D["训练集 14K + 测试集 2500"]
    D --> E["短 CoT 蒸馏 SFT<br/>注入简洁验证推理"]
    E --> F["DAPO 强化学习<br/>长度惩罚 + 数据再平衡"]
    F --> G["SCI-Verifier<br/>带思考的科学验证器"]

关键设计¶

1. 等价变换难样本构建：把"形式不同但答案相同"做成基准的核心难度

现有验证基准的盲区是：样本大多是"回答和参考答案长得一模一样"的简单情况，再强的验证器在这种数据上都接近满分，根本测不出真实差距。本文先从五个学科各采集 15k+ 问答对、用 8 个不同规模的模型生成 100K+ 真实回答，覆盖各种问题与答案风格；再针对每个学科挑出 500 个允许等价变换的代表性问题，每题生成 5 个等价答案，涵盖数学的数值等价、物理的单位换算、化学的名称↔分子式转换、生物的蛋白序列单字母↔三字母表示、QA 的等价表述等。生成时用 5 个 LLM 互评等价质量，明显无效且多模型一致否决的样本被丢弃重生成。正是这批等价样本最能拉开差距——实验里连 GPT-5 在数学、物理的等价子集上都掉到 60% 以下，而 SCI-Verifier 显著更高。

2. LLM+专家混合标注与难度过滤：用"模型分歧"自动筛出值得人标的硬骨头

全量人工标注 5,000+ 样本成本高、且容易把简单样本也标了浪费预算。作者的做法是先让 5 个 LLM 对每条样本判对错，只保留"五个模型意见不一致"的样本——分歧大恰恰意味着这是难样本。从两条数据通路（真实/合成）里挑出模型分歧最大的 2,500 条（每学科 500）交给人标，每条至少两名本科及以上学历专家判断，分歧时引入第三人仲裁，判据是"两答案能否相互转化即视为等价"。测试集进一步要求专家全体一致、并优先纳入人机分歧样本以提高难度；训练集则反过来滤掉 LLM 之间分歧过大的样本以保证标签可靠，得到 14K 训练集。这套"用分歧度当难度信号"的机制让基准在控制标注成本的同时保持了高区分度。

3. 短 CoT 蒸馏 SFT：把"会推理"注入小模型，但只留精炼的推理痕迹

验证任务和数学/物理那种 IMO 级难题不同——它相对简单，只需领域知识 + 简短推理，长链思考反而浪费资源还可能跑偏。所以 SFT 阶段用大模型 + 拒绝采样产生结构化推理路径后，做严格过滤：对推理模型只保留结论性的总结段，对非推理模型丢弃过长或无结构的回答，只留下"有价值且简洁"的轨迹去微调小模型。训练目标是标准的轨迹似然 \(L_{\text{SFT}}(\theta) = -\mathbb{E}_{(x,y)\sim D_{\text{SFT}}}[\log \pi_\theta(y\mid x)]\)。和数学/物理领域 SFT 主要管"输出格式"不同，验证 SFT 的核心是把领域特定的验证知识迁移进小模型。消融显示蒸馏完整 CoT 不仅没涨点、反而大幅拉长输出，证实"短推理"才是验证任务的正确选择。

4. 带长度惩罚的 DAPO 强化学习：防过拟合、压输出长度、再平衡正负样本

SFT 后模型已具备基础验证能力和格式，但容易过拟合。RL 阶段用 DAPO（GRPO 的改良版），它会过滤掉过易和过难的样本，并加长度惩罚鼓励简洁推理。优势函数按组内奖励归一化 \(\hat{A}_{i,t} = (R_i - \text{mean}(\{R_j\}))/\text{std}(\{R_j\})\)，最终奖励是对齐奖励加超长惩罚 \(R_i = R_{\text{align},i} + P_{\text{overlong},i}\)：预测与真值一致时 \(R_{\text{align}}=1\) 否则为 0；超长惩罚分三段——长度 \(\le L_{\max}\) 不罚，在 \(L_{\max}\) 到 \(L_{\max}+L_{\text{buffer}}\) 之间按超出比例线性惩罚 \(-\frac{|o_i|-L_{\max}}{L_{\text{buffer}}}\cdot\lambda_{\text{penalty}}\)，再超则固定罚 \(-\lambda_{\text{penalty}}\)。由于验证是二分类，标签不均会让模型靠先验而非推理作答，所以 RL 阶段把正负样本再平衡到 1:1。SFT 与 RL 互补：实验显示二者结合在跨数据集泛化上最佳，直接对 Base 模型上 RL（无 SFT 暖启）效果很差。

实验关键数据¶

主实验¶

在自建 SCI-VerifyBench（五学科各 500，正负平衡，报 Accuracy）上，SCI-Verifier-8B 全面领先，并追平/反超闭源 SOTA GPT-5：

模型	Math	Physics	Chemistry	Biology	QA	Total	Avg.Token
GPT-5（闭源）	90.0	89.0	85.4	84.8	95.4	88.92	384.6
CompassVerifier-32B	90.0	82.0	84.0	85.4	89.8	86.24	212.0
xVerify-8B（无思考）	77.8	60.6	85.8	88.6	88.0	80.16	1.0
SCI-Verifier-4B	92.4	84.6	86.4	94.2	93.4	90.20	485.1
SCI-Verifier-8B	93.8	90.4	87.8	96.4	95.2	92.72	490.7

在两个外部基准 VerifierBench 与 VerifyBench-Hard 上同样领先，验证跨任务泛化：

模型	VerifierBench Acc/F1	VerifyBench-Hard Acc/F1
GPT-5	91.80 / 90.48	90.40 / 85.34
CompassVerifier-32B	89.88 / 88.91	88.30 / 85.86
SCI-Verifier-8B	93.01 / 93.06	90.30 / 87.45

消融实验¶

配置	关键结论	说明
SFT only	已有较强验证能力	监督适配即可注入基础任务推理
Only-RL（从 Base 直接 RL）	表现最差	缺 SFT 暖启，学不到针对性推理
RL from 推理模型	有竞争力	但不及 SFT+RL
SFT+RL	最佳，尤其跨数据集泛化	两阶段互补
完整 CoT 蒸馏	不涨点 + 输出大幅变长	验证任务不需长链推理
w/o CoT（无思考推理模式）	推理更快但显著掉点	证实思考对科学验证的必要性

关键发现¶

思考是验证科学答案的关键：开启 CoT 普遍带来显著提升；去掉思考虽快但大幅掉点，因为科学答案常有多种等价形式，需多角度推演。
等价样本是真正的试金石：在等价增强子集上，连 GPT-5 在数学/物理都跌破 60%，而 SCI-Verifier 显著更高，说明针对等价做优化是核心价值。
模型规模不是决定因素：增大参数不一定涨点（Fig. 4a），因为现有模型并未针对"答案等价"这个目标优化，光堆容量没用——这也解释了为何 4B/8B 小模型能反超百亿级通用模型。
学科难度有别：数学/物理因泰勒展开等复杂变换得分偏低，其他学科只要具备前置知识判断就更直接，提示需要学科特化验证器。
prompt 鲁棒性强：换用 xVerify 风格 prompt 时 SCI-Verifier 几乎不掉点，而通用模型（如 Qwen3-30B 在 VerifyBench-Hard 上从 88.7 掉到 75.4）对 prompt 高度敏感，因为它们缺乏对"答案等价"的内在概念。

亮点与洞察¶

"用模型分歧度当难度信号"很巧：既自动筛出真正难判的样本，又把昂贵的人工标注集中在刀刃上，是个可复用的数据构建 trick。
反直觉的"短推理胜过长推理"：验证不是解题，需要的是"从固定几个角度快速核对等价"而非长链演算，蒸馏短 CoT 既省 token 又不掉点，对部署友好。
重新发现被验证器社区忽视的"思考"：多数验证器为效率砍掉推理，本文证明这恰恰丢掉了判断等价最需要的能力，是个有说服力的"回归常识"洞见。
可迁移性：把"等价变换"显式做进基准的思路，可推广到代码、SQL、化学反应式等任何"同一正确答案有多种合法写法"的验证场景。

局限与展望¶

学科特化未真正落地：作者自己指出不同学科难度差异大、暗示需要学科特化验证器，但本文给的是统一模型，未做学科级定制。
基准规模有限：测试集 2,500 条、每学科 500，等价变换类型虽列举但未穷尽，复杂跨学科混合题（如物理化学交叉）覆盖不足。
依赖 LLM 标注：训练集大多靠 LLM 标注，仅小部分人标，标签噪声对 RL 奖励的影响未充分量化。
改进方向：可探索按学科自适应选择推理深度（数学多推、QA 少推）、把验证器直接当 RL 奖励模型闭环训练更强的推理 LLM。

评分¶

新颖性: ⭐⭐⭐⭐ 把"被忽视的思考"重新引入验证器 + 等价变换难样本基准，角度扎实但属于"组合已知技术做对方向"。
实验充分度: ⭐⭐⭐⭐⭐ 三基准、四类 baseline、规模/学科/prompt/训练四维消融，证据链完整。
写作质量: ⭐⭐⭐⭐ 动机清晰、图表支撑充分，部分等价案例细节散在附录。
价值: ⭐⭐⭐⭐⭐ 小模型追平 GPT-5、可直接当 RL 奖励，对科学推理评测与训练管线实用价值高。