Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty¶

会议: ACL 2026
arXiv: 2604.10072
代码: 无
领域: 模型压缩/LLM效率
关键词: 生成式奖励模型, 动态CoT触发, 模型内部不确定性, 判别式评分, 推理效率

一句话总结¶

提出 E-GRM 框架，利用模型并行解码的收敛行为估计不确定性，仅在必要时触发 CoT 推理，并通过混合损失训练的判别式评分器精细评估推理路径质量，在多个奖励模型基准上实现 SOTA 同时降低 62% 推理延迟。

研究背景与动机¶

领域现状：生成式奖励模型（GRM）通过 CoT 提示增强 LLM 的推理评估能力，已在数学问题求解、多步决策等复杂任务中表现突出。

现有痛点：现有 GRM 存在两个核心问题。其一，CoT 推理被无差别应用于所有输入，不管问题难度如何，简单问题也要走完整 CoT 流程，造成大量不必要的计算开销。其二，现有方法主要依赖投票机制（voting）来聚合 CoT 输出的答案，这种评估方式粒度粗糙，无法精细区分推理路径的质量差异。

核心矛盾：效率与质量的双重瓶颈——一方面需要根据问题复杂度自适应分配推理资源，另一方面需要更精细的评分机制来区分推理质量。已有的自适应 CoT 方法（如 AdaCoT）依赖任务相关的启发式规则或手工特征，泛化能力受限。

本文目标：(1) 找到一种任务无关的信号来判断是否需要 CoT；(2) 设计比投票更精细的推理路径评估方法。

切入角度：作者观察到，对同一提示进行多次并行解码时，简单问题的输出会迅速收敛一致，而困难问题的输出则呈现高度发散——这种收敛行为本身就是问题复杂度的天然指标。

核心 idea：用模型自身并行生成的一致性（consensus）作为不确定性估计信号，动态决定是否触发 CoT，同时训练一个混合回归-排序损失的轻量判别式评分器来精细打分。

方法详解¶

整体框架¶

E-GRM 包含两个核心模块：(1) 基于模型内部不确定性的动态 CoT 触发机制；(2) 基于混合损失的判别式评分模块。训练分两阶段：先 SFT 让模型学会短推理/长推理两种模式，再通过扩展的 GRPO 进行偏好优化。推理时先快速判断是否需要 CoT，需要时再生成多条推理路径并用评分器选最优。

关键设计¶

动态 CoT 触发（Dynamic CoT Triggering）:
- 功能：根据问题复杂度自动决定是否启用 CoT 推理
- 核心思路：对输入 \(x\) 进行 \(M\) 次并行解码（使用不同温度/采样参数），统计答案的一致性 \(\text{Consensus}(x) = \max_y \text{Count}(y) / M\)。若一致性 \(\geq \tau\)（默认 0.8），直接输出共识答案；否则触发完整 CoT 生成。实验中约 58% 的样本被识别为"短推理"，可直接跳过 CoT
- 设计动机：利用模型自身生成行为作为复杂度探针，无需外部特征或任务相关启发式规则，真正做到任务无关的自适应推理
判别式评分模块（Discriminative Scoring Module）:
- 功能：对生成的推理路径进行精细质量评分
- 核心思路：训练轻量评分模型 \(\mathcal{S}_\phi\)，输出 \([0,1]\) 质量分数。损失函数结合 Huber Loss（回归鲁棒性，对异常值从 L2 平滑过渡到 L1）和 Hinge Loss（排序判别性，强制高质量路径与低质量路径保持 margin \(m\) 的分数差距），总损失为 \(\mathcal{L} = \alpha \cdot \ell_{\text{Huber}} + (1-\alpha) \cdot \ell_{\text{Hinge}}\)
- 设计动机：纯投票机制只看答案是否一致，忽略推理过程质量；混合损失让评分器既能校准绝对质量又能可靠区分微妙差异
扩展 GRPO 偏好优化（Coupled-GRPO）:
- 功能：在 RL 阶段利用配对偏好数据优化策略
- 核心思路：在标准 GRPO 基础上引入配对奖励信号 \(R_{\text{pair}} = \mathcal{S}_\phi(x, r^+) - \mathcal{S}_\phi(x, r^-) + \beta \cdot \mathbb{I}(\text{Ans}(r^+) = y)\)，直接对比正负样本的评分器输出差异，提供更强的学习信号
- 设计动机：标准 GRPO 在独立采样的组内计算相对奖励，而配对数据天然包含正负对比信息，直接利用这种结构能提供更有针对性的梯度

损失函数 / 训练策略¶

训练分两阶段：(1) SFT 阶段混合训练短推理样本（直接预测答案）和长推理样本（学习 CoT 序列），通过不确定性估计自动划分数据集；(2) GRPO 阶段使用配对偏好数据和判别式评分器进行对齐优化，加 KL 正则化防止偏离参考策略过远。

实验关键数据¶

主实验¶

基准	指标	E-GRM (32B)	之前SOTA	提升
RM-Bench	Avg	79.2%	76.4% (14B)	+2.8%
RMB	Overall	0.743	0.738 (GPT-4o)	+0.005
RewardBench	Overall	91.5%	90.0% (Self-taught-70B)	+1.5%
RewardBench	Reasoning	95.4%	88.4% (Self-taught-70B)	+7.0%

消融实验¶

配置	Acc (%)	FLOPs (T)	Latency (s)
Full E-GRM	78.4	15.7	2.2
w/o Dynamic CoT	75.2	23.4	3.4
w/o Discrim. Scoring	72.8	15.9	2.2
Base CoT-GRM	69.1	23.7	3.6

关键发现¶

判别式评分模块贡献最大：去掉后准确率下降 5.6%，说明精细评分对推理质量至关重要
动态 CoT 触发带来 49% FLOPs 下降和 55% 延迟降低，同时准确率反而提升 3.2%，证明不必要的 CoT 会引入错误传播
与 AdaCoT 等启发式方法对比，E-GRM 在无需任务相关先验的情况下取得更高准确率（78.4% vs 76.8%）和更低延迟（2.2s vs 2.9s）
扩展 GRPO 相比标准 GRPO 带来一致但温和的提升（MATH: 78.4% vs 76.9%）

亮点与洞察¶

并行解码一致性作为复杂度探针：这是一个非常优雅的设计——利用模型自身的行为特征而非外部信号来判断推理需求，天然具备任务无关性和零额外参数成本。这个思路可迁移到任何需要自适应计算的场景（如 early exit、动态深度）
混合回归-排序损失：Huber + Hinge 的组合巧妙解决了评分器需要同时做好"绝对校准"和"相对排序"两个目标的矛盾，比纯 MSE 或纯排序损失都更稳健
58% 样本被识别为不需要 CoT 的"简单问题"，这个比例本身就是一个重要发现——说明当前 GRM 在大量简单任务上存在严重的计算浪费

局限与展望¶

并行解码一致性估计本身需要 M 次前向传播（M=5），虽然开销小于完整 CoT，但并非零成本；极端低延迟场景下这个开销是否可接受需要验证
阈值 \(\tau\) 和并行次数 \(M\) 的选择目前是手动设定的，不同任务域可能需要不同设置
判别式评分器需要有标注的质量数据进行训练，数据获取成本可能限制在新领域的快速部署
可探索：将不确定性估计与 speculative decoding 结合，或用单次前向传播中的内部表示（如注意力熵）替代多次采样

评分¶

新颖性: ⭐⭐⭐⭐ 并行解码一致性作为不确定性信号是新颖的切入点，但混合损失和 GRPO 扩展偏增量
实验充分度: ⭐⭐⭐⭐⭐ 三个主流基准全面评测，消融完整，与 AdaCoT 的对比实验设计合理
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详尽，但部分公式较冗长
价值: ⭐⭐⭐⭐ 解决了 GRM 效率痛点，62% 延迟降低在实际部署中价值很大