AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence¶

会议: ICML 2025
arXiv: 2502.13943
代码: https://github.com/Lux0926/ASPRM
领域: LLM Reasoning / Process Reward Model
关键词: 过程奖励模型, 推理步骤划分, 模型置信度, Token-level Value-guided Decoding, 数学推理

一句话总结¶

提出基于模型预测置信度自动划分推理步骤的方法 AdaptiveStep，用于训练更精确的 Process Reward Model（ASPRM），在数学推理和代码生成任务上以不到 70% 的数据构建成本超越现有开源 PRM，并能通过 Token 级引导解码进一步提升推理性能。

研究背景与动机¶

Process Reward Model（PRM）通过对推理过程中的每个步骤给予奖励信号，能比 Outcome Reward Model（ORM）提供更细粒度的反馈，从而引导 LLM 生成更高质量的推理响应。然而，现有 PRM 面临一个核心问题：推理步骤的划分方式过于粗糙。

当前主流做法是基于规则进行步骤划分，例如用换行符或固定 token 数来切分。但这种方式存在两个关键缺陷：（1）换行符处模型置信度往往很高，即该位置并非真正的"决策点"，信息量低；（2）在代码生成等领域，难以定义通用的切分规则。手动标注虽然能产生高质量的步骤划分，但成本高昂且高度依赖专家知识。

作者从认知科学获得启发——Kahneman 指出人类深度思考仅占总思考量的约 2%，关键的推理决策集中在少数节点。受此启发，作者提出让模型自己告诉我们哪里是关键决策点：当模型对下一个 token 的预测置信度低时，说明该位置是一个需要做出重要选择的决策点，应该作为步骤的分界线。

方法详解¶

整体框架¶

AdaptiveStep 的整体流程分三步：（1）采样生成响应并收集每个 token 的置信度分布；（2）根据置信度阈值划分推理步骤，并通过 rollout 标注每步的奖励；（3）使用标注数据训练 PRM，并可选地将 PRM 用于 Token-level Value-guided Decoding（TVD）进行推理增强。

关键设计¶

基于置信度的步骤划分（AdaptiveStep）:
- 功能：将推理响应自动分割成多个具有高信息量的推理步骤
- 核心思路：对于生成的响应 $s^n$ 中的第 $i$ 个 token，其置信度定义为 $c_{s_i^n} = p(s_i^n | \pi, q, s_{<i}^n)$，即模型预测该 token 的概率。收集所有样本的置信度分布后，设定一个阈值 $\tau$（基于 token 数目的一定百分比，论文使用 2%），低于阈值的 token 位置即为步骤分界点。这样响应 $s^n$ 被划分为 $K$ 个推理步骤 $\{r_1, r_2, ..., r_K\}$
- 设计动机：低置信度位置代表模型面临困难的决策点——可能是数学表达式中的计算、语义词汇的选择、或最终答案的确定。统计分析表明，3.85% 的数学表达式 token 贡献了 21.03% 的决策 token，仅 2.7% 的决策 token 出现在换行符处，证实了规则划分的低效
基于 Rollout 的步骤奖励估计:
- 功能：为每个划分出的推理步骤估计目标奖励值
- 核心思路：从每个步骤 $r_k$ 开始进行 $J$ 次 rollout 续写，使用 Hard Estimation (HE) 判断是否存在任何一条续写路径能到达正确答案。目标奖励为： $$r_k^e = \begin{cases} 1, & \exists j \in [J], \{r_1,...,r_k,t_j\} \text{ is correct} \\ 0, & \text{otherwise} \end{cases}$$
- 设计动机：通过在决策点做 rollout，每一步的奖励信号更加精准，因为步骤末尾恰好是决策发生的位置
Token-level Value-guided Decoding (TVD):
- 功能：在推理阶段利用 PRM 实时指导 token 选择，无需额外采样
- 核心思路：在解码过程中，当模型遇到低置信度位置（$c_p < \tau$）时，取概率最高的 $M$ 个候选 token，用 PRM 对每个候选评分，选择得分最高的 token： $$s_i = \arg\max_{s_i^m \in s_i^*} R^\theta(p, s_{<i}, s_i^m)$$
- 设计动机：传统 PRM 仅用于 Best-of-N 后评估，TVD 将 PRM 嵌入生成过程实现细粒度实时指导，且仅在低置信度位置介入，计算开销可控

损失函数 / 训练策略¶

PRM 使用二元交叉熵损失训练： $$\mathcal{L}_{PRM}^\theta = -\sum_{k=1}^{K} (r_k^e \log r_k^\theta + (1 - r_k^e) \log(1 - r_k^\theta))$$

训练数据构建：每个数据点采样 30 次并去重，每步 8 次 rollout，最终生成约 388k 数学 PRM 训练样本和 49k 代码 PRM 样本。阈值设为 2%，含义是约 2% 的 token 会成为步骤分界点。

实验关键数据¶

主实验¶

数据集	指标	ASPRM	之前SOTA	提升
GSM8k (BoN, N=64)	Accuracy	90.45 (ASPRM-L)	88.70 (ER-PRM)	+1.75
MATH500 (TVD)	Accuracy	42.00 (ASPRM-L)	38.80 (Greedy)	+3.20
GSM8k (TVD)	Accuracy	83.47 (ASPRM-L)	81.80 (Greedy)	+1.67
LeetCodeDataset (TVD)	Pass@1	28.00	26.28 (Greedy)	+1.72
LiveCodeBench (TVD)	Pass@1	19.92	19.21 (Greedy)	+0.71

注：TVD 中 Math-Shepherd 和 ER-PRM 在 GSM8k 上反而导致性能下降（低于 Greedy），而 ASPRM 始终带来提升。

消融实验¶

配置	关键指标	说明
阈值 0.5%	BoN GSM8k 较低	划分点太少，信息不足
阈值 1.0%	性能递增	更多决策点下判别力增强
阈值 2.0%	最佳	与认知科学 2% 深度思考比例吻合
L→M 迁移	Bo64 下降，TVD 能提升	跨模型训练数据有一定迁移性但有限
混合数学+代码	数学 Bo64 86.35↑, MATH500 TVD 29.00↑	跨域数据能互相增强

关键发现¶

AdaptiveStep 划分的信息量远高于规则划分：数学任务中仅 2.7% 的决策 token 是换行符，而 29% 在连接词处，21% 在数学表达式中
代码任务中 80% 的决策点在代码注释中，其中 91% 是"规划下步操作"类型，说明模型在"想"的时候最不确定
数据构建成本优势显著：ASPRM 仅用单模型、30 次采样、8 次 rollout，成本不到 Math-Shepherd 和 ER-PRM 的 70%
跨域泛化：数学 PRM 可在代码任务上提供有效指导（LeetCodeDataset BoN 34.29↑），反之亦然
评分位置泛化：ASPRM 在随机评分位置下性能几乎不降，而基于换行符训练的模型在不同设置下差异大

亮点与洞察¶

用模型自身的置信度作为步骤划分信号，思路简洁优雅且有认知科学理论支撑（Kahneman 的 2% 深度思考）
TVD 策略将 PRM 从"事后评判"升级为"实时引导"，只在低置信度位置介入，计算开销极小但效果显著
开源了功能级 LeetCode 数据集（含测试用例和沙盒），填补了代码 PRM 训练数据的空白
跨域数据混合训练是一个低成本增强 PRM 的实用 trick

局限与展望¶

阈值 2% 并非对所有模型最优，更强的模型可能需要更少的训练数据（论文已观察到但未深入探讨自适应阈值选择）
单模型生成训练数据限制了迁移能力，论文在 MATH500 上的 ASPRM-M 表现不如多模型构建的基线
代码任务的 PRM 训练数据较难获取（49k vs 388k），在更大规模数据下效果可能进一步提升
TVD 虽然只在低置信度位置介入，但仍需额外的 PRM 推理，对于极长生成场景可能有延迟

评分¶

新颖性: ⭐⭐⭐⭐ 基于置信度划分步骤的想法自然且有效，但核心技术组件（rollout、PRM训练）较为标准
实验充分度: ⭐⭐⭐⭐⭐ 覆盖数学和代码两个领域，BoN 和 TVD 两种评估，有迁移性、泛化性、阈值分析和特征分析
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富且直观，分析深入
价值: ⭐⭐⭐⭐ 实用价值高，降低 PRM 构建成本同时提升性能，对 PRM 研究有重要参考意义