跳转至

Know What You Don't Know: Uncertainty Calibration of Process Reward Models

会议: NeurIPS 2025
arXiv: 2506.09338
代码: http://young-j-park.github.io/know-what-you-dont-know
领域: LLM推理
关键词: 过程奖励模型, 校准, 分位数回归, 推理时缩放, 自适应采样

一句话总结

本文提出了一种基于分位数回归的PRM校准方法,使PRM输出的分数更准确地反映LLM实际推理成功概率,并基于校准后的PRM设计了实例自适应推理时缩放(IAS)策略,在保持准确率的同时显著降低推理成本。

研究背景与动机

领域现状:Process Reward Model (PRM) 在推理时缩放中扮演关键角色,用于引导Best-of-N采样和Beam Search等方法。PRM为每个中间推理步骤打分,评估当前推理路径最终得到正确答案的概率。

现有痛点:即使是SOTA的PRM(如Qwen-PRM、Shepherd-PRM)也存在严重的校准问题——它们倾向于高估成功概率,特别是在使用较弱的LLM或面对困难问题时。这是因为PRM是在特定策略模型上训练的,换用不同能力的LLM时会产生分布不匹配。

核心矛盾:PRM训练时绑定了特定策略模型的生成分布 \(\pi_\theta\),但部署时可能使用不同能力的模型。一个在72B模型上训练的PRM会系统性高估1B模型的成功概率。

本文目标 (1) 如何校准现成PRM使其输出可靠的成功概率估计?(2) 如何利用校准后的概率实现自适应计算资源分配?

切入角度:传统的温度缩放等校准方法不适用于PRM(因为成功概率本身就是中间概率而非二元标签),因此提出用分位数回归来预测成功概率的分布,并利用保守的下分位数估计来指导资源分配。

核心 idea:用分位数回归微调PRM,预测成功概率的下界,从而实现保守但可靠的实例自适应推理预算分配。

方法详解

整体框架

给定一个现成PRM和目标LLM,通过三阶段数据收集(初始轨迹生成→前缀提取+Monte Carlo rollout→成功概率估计)构建校准数据集,然后用分位数回归微调PRM的预测头,最后基于校准后的PRM实现自适应采样。

关键设计

  1. 校准数据收集三阶段:

    • 功能:为每个问题生成多条推理轨迹,对每条轨迹的每个前缀进行Monte Carlo rollout估计真实成功概率
    • 核心思路:从MATH训练集采样500个问题,每个问题生成 \(N_{\text{val}}=8\) 条轨迹,对每个前缀再生成 \(N_{\text{MC}}=8\) 条续写,统计正确率作为真实成功概率 \(\tilde{p}^{(i,t)}\)
    • 设计动机:Monte Carlo采样提供了与具体LLM绑定的经验成功概率,解决了PRM与策略模型不匹配的问题
  2. 分位数回归校准:

    • 功能:修改PRM的预测头,输出多个分位数(如10%、50%、90%)的预测
    • 核心思路:使用加权分位数损失 \(\text{wQL}(\hat{r}, \tilde{p}) = \frac{1}{N_q} \sum_{n=1}^{N_q} [\beta_n \cdot \max(0, \tilde{p} - \hat{r}^{(\beta_n)}) + (1-\beta_n) \cdot \max(0, \hat{r}^{(\beta_n)} - \tilde{p})]\)
    • 设计动机:预测条件均值会导致约50%的情况高估成功概率,预测低分位数(如10th percentile)可以提供保守的下界估计,避免计算资源分配不足
  3. 实例自适应缩放(IAS):

    • 功能:根据校准后PRM估计的成功概率,动态调整每个问题的采样数量
    • 核心思路:对于成功概率为 \(p\) 的问题,要达到目标正确率 \(C\),所需最小采样数为 \(N_{\text{IAS}}(p, C) = \lceil \frac{\log(1-C)}{\log(1-p)} \rceil\)
    • 设计动机:简单问题(高 \(p\))需要很少的样本,困难问题(低 \(p\))需要更多样本——这模拟了人类"简单题快做,难题多花时间"的策略

训练策略

  • 仅微调PRM的预测头(扩展输出维度以支持多分位数预测),保持主干模型冻结
  • 使用Qwen-PRM-7B和Shepherd-PRM-7B作为基础模型进行校准

实验关键数据

主实验 - PRM校准效果(Qwen-PRM-7B, Brier Score↓)

数据集 目标LLM 未校准 校准后 降幅
MATH500 Llama-3.2-1B 0.2414 0.0692 -71%
MATH500 Qwen-2.5-7B 0.1008 0.0818 -19%
MATH500 R1-Qwen-7B 0.1480 0.0828 -44%
AIME24-25 Llama-3.2-1B 0.1936 0.0029 -98%
AIME24-25 R1-Qwen-7B 0.4144 0.0694 -83%

消融实验 - BoN+IAS计算节约

数据集 模型 BoN(N=64) BoN+IAS(校准) Budget Ratio
MATH500 Qwen-2.5-7B 0.854 0.837 23.4%
MATH500 R1-Qwen-7B 0.864 0.857 31.3%
MATH500 Llama-3.2-1B 0.476 0.462 63.8%
AIME24-25 R1-Qwen-7B 0.267 0.180 96.4%

关键发现

  • PRM系统性高估成功概率,尤其对弱模型和OOD问题(偏差分布右偏,峰值接近1.0)
  • 校准是IAS有效的前提——未校准的PRM无法可靠地指导资源分配
  • 使用低分位数(如10%)比条件均值更适合IAS场景,因为它提供了保守估计
  • IAS在简单问题上节约大量计算,在难问题上分配更多资源,整体效率显著提升

亮点与洞察

  • 分位数回归的巧妙应用:不同于传统校准方法只预测均值,分位数回归可以给出成功概率的分布信息(上界、中位数、下界)。低分位数提供保守估计,这对资源分配决策非常关键——宁可多采样也不要漏掉正确答案。
  • PRM不校准的根本原因分析:PRM的训练是策略依赖的,这意味着同一个PRM在不同LLM上的校准性完全不同。本文清楚地揭示了这一根本原因,并提供了优雅的解决方案。
  • IAS的采样复杂度公式 \(N_{\text{IAS}} = \lceil \log(1-C)/\log(1-p) \rceil\) 非常简洁实用,可以直接迁移到任何需要自适应采样的场景。

局限与展望

  • 校准数据收集需要对目标LLM做大量rollout,成本不低
  • 仅在数学推理任务上验证,未测试代码生成、开放问答等场景
  • Monte Carlo rollout的样本数(\(N_{\text{MC}}=8\))相对较少,可能导致经验概率估计不准
  • 改进方向:可以探索跨模型的校准迁移;减少rollout数量的高效校准方法;与更复杂的搜索策略(如MCTS)结合

相关工作与启发

  • vs Snell et al. (2024): 他们研究推理时缩放的通用框架但未关注PRM校准问题
  • vs Shepherd-PRM: 用纯自动化标注但精度较低,本文的校准方法可以弥补这一不足
  • vs 传统温度缩放: 温度缩放假设良好校准的对数几率,不适用于PRM的中间概率预测场景

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统研究PRM校准问题,分位数回归的应用很巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多种PRM、多种LLM、多个benchmark,但可以更多样化
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,理论和实验结合紧密
  • 价值: ⭐⭐⭐⭐⭐ PRM校准是推理时缩放的关键瓶颈,本文的解决方案简洁实用