Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty¶
会议: ACL 2026
arXiv: 2604.10072
代码: 无
领域: 模型压缩/LLM效率
关键词: 生成式奖励模型, 动态CoT触发, 模型内部不确定性, 判别式评分, 推理效率
一句话总结¶
提出 E-GRM 框架,利用模型并行解码的收敛行为估计不确定性,仅在必要时触发 CoT 推理,并通过混合损失训练的判别式评分器精细评估推理路径质量,在多个奖励模型基准上实现 SOTA 同时降低 62% 推理延迟。
研究背景与动机¶
领域现状:生成式奖励模型(GRM)通过 CoT 提示增强 LLM 的推理评估能力,已在数学问题求解、多步决策等复杂任务中表现突出。
现有痛点:现有 GRM 存在两个核心问题。其一,CoT 推理被无差别应用于所有输入,不管问题难度如何,简单问题也要走完整 CoT 流程,造成大量不必要的计算开销。其二,现有方法主要依赖投票机制(voting)来聚合 CoT 输出的答案,这种评估方式粒度粗糙,无法精细区分推理路径的质量差异。
核心矛盾:效率与质量的双重瓶颈——一方面需要根据问题复杂度自适应分配推理资源,另一方面需要更精细的评分机制来区分推理质量。已有的自适应 CoT 方法(如 AdaCoT)依赖任务相关的启发式规则或手工特征,泛化能力受限。
本文目标:(1) 找到一种任务无关的信号来判断是否需要 CoT;(2) 设计比投票更精细的推理路径评估方法。
切入角度:作者观察到,对同一提示进行多次并行解码时,简单问题的输出会迅速收敛一致,而困难问题的输出则呈现高度发散——这种收敛行为本身就是问题复杂度的天然指标。
核心 idea:用模型自身并行生成的一致性(consensus)作为不确定性估计信号,动态决定是否触发 CoT,同时训练一个混合回归-排序损失的轻量判别式评分器来精细打分。
方法详解¶
整体框架¶
E-GRM 包含两个核心模块:(1) 基于模型内部不确定性的动态 CoT 触发机制;(2) 基于混合损失的判别式评分模块。训练分两阶段:先 SFT 让模型学会短推理/长推理两种模式,再通过扩展的 GRPO 进行偏好优化。推理时先快速判断是否需要 CoT,需要时再生成多条推理路径并用评分器选最优。
关键设计¶
-
动态 CoT 触发(Dynamic CoT Triggering):
- 功能:根据问题复杂度自动决定是否启用 CoT 推理
- 核心思路:对输入 \(x\) 进行 \(M\) 次并行解码(使用不同温度/采样参数),统计答案的一致性 \(\text{Consensus}(x) = \max_y \text{Count}(y) / M\)。若一致性 \(\geq \tau\)(默认 0.8),直接输出共识答案;否则触发完整 CoT 生成。实验中约 58% 的样本被识别为"短推理",可直接跳过 CoT
- 设计动机:利用模型自身生成行为作为复杂度探针,无需外部特征或任务相关启发式规则,真正做到任务无关的自适应推理
-
判别式评分模块(Discriminative Scoring Module):
- 功能:对生成的推理路径进行精细质量评分
- 核心思路:训练轻量评分模型 \(\mathcal{S}_\phi\),输出 \([0,1]\) 质量分数。损失函数结合 Huber Loss(回归鲁棒性,对异常值从 L2 平滑过渡到 L1)和 Hinge Loss(排序判别性,强制高质量路径与低质量路径保持 margin \(m\) 的分数差距),总损失为 \(\mathcal{L} = \alpha \cdot \ell_{\text{Huber}} + (1-\alpha) \cdot \ell_{\text{Hinge}}\)
- 设计动机:纯投票机制只看答案是否一致,忽略推理过程质量;混合损失让评分器既能校准绝对质量又能可靠区分微妙差异
-
扩展 GRPO 偏好优化(Coupled-GRPO):
- 功能:在 RL 阶段利用配对偏好数据优化策略
- 核心思路:在标准 GRPO 基础上引入配对奖励信号 \(R_{\text{pair}} = \mathcal{S}_\phi(x, r^+) - \mathcal{S}_\phi(x, r^-) + \beta \cdot \mathbb{I}(\text{Ans}(r^+) = y)\),直接对比正负样本的评分器输出差异,提供更强的学习信号
- 设计动机:标准 GRPO 在独立采样的组内计算相对奖励,而配对数据天然包含正负对比信息,直接利用这种结构能提供更有针对性的梯度
损失函数 / 训练策略¶
训练分两阶段:(1) SFT 阶段混合训练短推理样本(直接预测答案)和长推理样本(学习 CoT 序列),通过不确定性估计自动划分数据集;(2) GRPO 阶段使用配对偏好数据和判别式评分器进行对齐优化,加 KL 正则化防止偏离参考策略过远。
实验关键数据¶
主实验¶
| 基准 | 指标 | E-GRM (32B) | 之前SOTA | 提升 |
|---|---|---|---|---|
| RM-Bench | Avg | 79.2% | 76.4% (14B) | +2.8% |
| RMB | Overall | 0.743 | 0.738 (GPT-4o) | +0.005 |
| RewardBench | Overall | 91.5% | 90.0% (Self-taught-70B) | +1.5% |
| RewardBench | Reasoning | 95.4% | 88.4% (Self-taught-70B) | +7.0% |
消融实验¶
| 配置 | Acc (%) | FLOPs (T) | Latency (s) |
|---|---|---|---|
| Full E-GRM | 78.4 | 15.7 | 2.2 |
| w/o Dynamic CoT | 75.2 | 23.4 | 3.4 |
| w/o Discrim. Scoring | 72.8 | 15.9 | 2.2 |
| Base CoT-GRM | 69.1 | 23.7 | 3.6 |
关键发现¶
- 判别式评分模块贡献最大:去掉后准确率下降 5.6%,说明精细评分对推理质量至关重要
- 动态 CoT 触发带来 49% FLOPs 下降和 55% 延迟降低,同时准确率反而提升 3.2%,证明不必要的 CoT 会引入错误传播
- 与 AdaCoT 等启发式方法对比,E-GRM 在无需任务相关先验的情况下取得更高准确率(78.4% vs 76.8%)和更低延迟(2.2s vs 2.9s)
- 扩展 GRPO 相比标准 GRPO 带来一致但温和的提升(MATH: 78.4% vs 76.9%)
亮点与洞察¶
- 并行解码一致性作为复杂度探针:这是一个非常优雅的设计——利用模型自身的行为特征而非外部信号来判断推理需求,天然具备任务无关性和零额外参数成本。这个思路可迁移到任何需要自适应计算的场景(如 early exit、动态深度)
- 混合回归-排序损失:Huber + Hinge 的组合巧妙解决了评分器需要同时做好"绝对校准"和"相对排序"两个目标的矛盾,比纯 MSE 或纯排序损失都更稳健
- 58% 样本被识别为不需要 CoT 的"简单问题",这个比例本身就是一个重要发现——说明当前 GRM 在大量简单任务上存在严重的计算浪费
局限与展望¶
- 并行解码一致性估计本身需要 M 次前向传播(M=5),虽然开销小于完整 CoT,但并非零成本;极端低延迟场景下这个开销是否可接受需要验证
- 阈值 \(\tau\) 和并行次数 \(M\) 的选择目前是手动设定的,不同任务域可能需要不同设置
- 判别式评分器需要有标注的质量数据进行训练,数据获取成本可能限制在新领域的快速部署
- 可探索:将不确定性估计与 speculative decoding 结合,或用单次前向传播中的内部表示(如注意力熵)替代多次采样
相关工作与启发¶
- vs DeepSeek-GRM:DeepSeek-GRM 也是生成式奖励模型但无自适应推理机制,对所有输入统一使用 CoT;E-GRM 通过动态触发在同等甚至更高准确率下大幅降低计算成本
- vs AdaCoT:AdaCoT 使用基于解题长度估计的任务相关启发式判断是否需要 CoT;E-GRM 的并行一致性方法完全任务无关,且实验证明更优
评分¶
- 新颖性: ⭐⭐⭐⭐ 并行解码一致性作为不确定性信号是新颖的切入点,但混合损失和 GRPO 扩展偏增量
- 实验充分度: ⭐⭐⭐⭐⭐ 三个主流基准全面评测,消融完整,与 AdaCoT 的对比实验设计合理
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详尽,但部分公式较冗长
- 价值: ⭐⭐⭐⭐ 解决了 GRM 效率痛点,62% 延迟降低在实际部署中价值很大