Smarter Not Harder: Generative Process Evaluation with Intrinsic-Signal Driving and Ability-Adaptive Reward Shaping¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=LZZENDlZt9
代码: 无
领域: LLM推理
关键词: 过程奖励, GenPRM, 强化学习, 数学推理, 训练效率

一句话总结¶

针对生成式过程奖励模型（GenPRM）做 RL 时三大隐患——判分依赖推理能力、密集步奖励触发 reward hacking、静态奖励压制探索——本文提出"用解题轨迹里的内在语义信号（反思/匹配）来判对错"+"把连续同对错的步合并成 thought 再发奖"+"按当前难度自适应缩放奖励"，整合进过程监督 GRPO 得到 TP-GRPO，在 1.5B/7B 模型上用 5× 更少的样本超过 outcome-only GRPO。

研究背景与动机¶

领域现状：RLVR（带可验证奖励的强化学习）靠规则化的结果奖励（答对 +1 / 答错 -1）训练大推理模型（LRM），在数学推理上效果显著（DeepSeek-R1、Kimi k1.5）。但结果奖励只看最终答案对错，对中间几千 token 的推理轨迹一概不评，反馈极其稀疏，样本利用率低。

现有痛点：为了利用中间过程，研究者转向过程奖励模型（PRM）。判别式 PRM 受困于步骤切分不稳、泛化差、标注贵；生成式 PRM（GenPRM）让强模型"边想边判"更灵活，但作者发现把 GenPRM 朴素地塞进 reward shaping 会引入三个致命隐患：① 判分阶段——GenPRM 靠"重新推一遍/模拟推理"来判每一步对错，这隐含假设 PRM 的推理能力 ≥ actor LRM；任务越难、actor 越强，对 PRM 的要求水涨船高，评估可靠性崩塌（自评场景还有 bias）；② 发奖阶段（密集）——给每一步都发静态 ±1，步数一多，过程奖励就主导了 advantage 估计，模型转而去最大化"过程收益"而非答对，即 reward hacking；③ 发奖阶段（静态）——对错误尝试一律惩罚，会压制本该鼓励的试错探索，使模型困在局部最优。

核心矛盾：过程奖励想"更细粒度地利用轨迹"，但越细就越要求 PRM 有强推理能力来判分、越密集就越容易扭曲优化目标。判分依赖、密集偏置、探索压制三者纠缠。

本文目标：设计一套 GenPRM 机制，使其 ① 判分不依赖强推理；② 奖励粒度合适不扭曲优化；③ 平衡探索与利用。对应三条原则 P1 解耦评估与推理、P2 适当粒度发奖、P3 平衡探索利用。

切入角度：作者观察到 Long CoT 里本身就埋着内在信号——正确解里若有错误步，必然伴随一次"反思纠错"（否则错误会传播到最终答案），错误解里"被采纳进答案的步"天然可作为惩罚目标。这些语义/匹配线索，恰是 LLM 比"再推一遍"更稳的基础能力。

核心 idea：把"判推理对错"这件难事，拆成 LLM 更擅长的"语义理解+匹配"子任务（intrinsic-signal-driven），并把奖励上提到 thought 粒度、按难度自适应缩放，整合进 GRPO 成 TP-GRPO。

方法详解¶

整体框架¶

TP-GRPO 把 GenPRM 拆成两个阶段串进 GRPO 训练回路：输入是 LRM 对某道数学题采样出的一组 Long CoT（think + answer），输出是给每个 token 的 advantage，最终用标准 GRPO 目标优化。阶段 I（评估）先把 think 切成语义步，再用"内在信号"判每步对错——不靠重新推理，而是对正确解走"反思定位→错因溯源→区间核验"三步、对错误解走"答案匹配"协议。阶段 II（发奖）把连续同对错的步合并成 thought，按当前题目的组内准确率 \(acc_G\) 自适应地给每个 thought 发 \(\pm r_c\)，并刻意保持关键 token 的优化目标不变以抑制 reward hacking。两阶段结果接入过程监督 GRPO 的 advantage 计算，得到 TP-GRPO。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["一组 Long CoT<br/>think + answer"] --> B["语义切步<br/>(prompt LRM 分步)"]
    B -->|答案正确| C["内在信号判分<br/>反思定位→错因溯源→区间核验"]
    B -->|答案错误| D["内在信号判分<br/>答案匹配→匹配为错/不匹配存疑"]
    C --> E["Thought 合并<br/>连续同对错步并成一个 thought"]
    D --> E
    E --> F["难度自适应发奖<br/>rc ∝ accG，保关键token目标"]
    F --> G["TP-GRPO<br/>过程+结果奖励算 advantage 优化"]

关键设计¶

1. 内在信号驱动评估：把"判对错"从"会不会推理"上解耦

这针对第①个隐患——现有 GenPRM 要"重新推一遍"才能判每步对错，等于要求 PRM 推理能力压过 actor，越难越靠不住。作者的做法是把判分换成 LLM 更稳的语义理解/匹配能力，并对正确解和错误解设计两套协议。对正确解（找出无效步），基于一个自洽假设：答案既然对了，任何错误步必然伴随一次有效反思把它纠回来，否则错误会传到最终答案——所以错误与反思成对出现。于是走三步：1) 反思定位，用语义理解找到 LRM 自我反思（如 "wait, I made a mistake"）的步；2) 错因溯源，顺着反思里对错因的分析回溯，圈出一段候选错误区间；3) 区间核验，在区间内用启发式规则（如"依赖前面错误结论的步也算错"）逐步判定。对错误解（避免过度惩罚），先做保守假设"答案里所有步都错"，再把 think 中语义匹配错误答案的步标错、不匹配的步标为"存疑"——这样既不像纯结果奖励那样把 think 里的有效探索一棍子打死，又不需要 PRM 有超强判分力，只要会语义对齐。本质是用"语义理解+匹配"这种 LLM 的根基能力替掉"再推理"这种异质且不稳的能力。

2. Thought 级奖励单元：把密集步奖励上提到段落粒度

这针对第②个隐患——think 常被切成大量步，若按步发静态奖励，过程奖励会主导 advantage 把优化带歪。论文给的反例很直观：第 4 步本是对的，但后面连续 5 个错误步的累积负回报会反过来把这个正确步也惩罚掉（advantage 是 token 之后所有标准化过程奖励的累加 \(\hat{A}_{i,t}=\sum_{index(j)\ge t}\hat{r}_i^{index(j)}\)，负号会污染前面）。解法很简单：把连续且同对错的步合并成一个逻辑单元——thought（正确解里连续对/错步并成正确/错误 thought，错误解里连续匹配/不匹配步同理），奖励发在 thought 级而非 step 级。这不是盲目过滤奖励信号，而是保留"正确引导优化所需的最小奖励集"、最大化削减冗余。实验显示这条最简单的策略掉点反而最多（去掉它 AIME 25 从 25.63 掉到 22.29），因为它显著降低了 token advantage 的方差、提高了 advantage 与 token 正确性的互信息。

3. 难度自适应奖励：按题目难度缩放，既不压探索也不被 hack

这针对第③个隐患（静态奖励压探索）并兜住 reward hacking。核心是奖励强度随当前能力动态调。对正确解，每个正确 thought 发 \(+r_c\)、错误 thought 发 \(-r_c\)，其中

\[r_c = \alpha \cdot acc_G,\quad \alpha>0\]

\(acc_G\) 是同一题 \(G\) 个采样解的准确率。当 \(acc_G=0\)（题很难）时 \(r_c\to 0\)，退化成纯结果奖励、优先放开探索；当 \(acc_G=1\)（题很简单）时 \(r_c=\alpha\)，过程奖励最强，狠抓强化对的步、压制错的步。这样难题让它自由探索、易题给强过程引导，避免过早压制探索。对错误解，只惩罚"被采纳进错误答案"的匹配 thought：给定标准化结果奖励 \(\hat{r}_i^o\le 0\)，匹配 thought 拿 \(\hat{r}_i^o\)、不匹配 thought 拿 \(-\hat{r}_i^o\)（非负），让那些没进答案的探索性尝试不挨罚。

4. TP-GRPO：保关键 token 优化目标的 advantage 构造

把上面两阶段结果接进过程监督 GRPO 即 TP-GRPO，过程奖励不做 Eq.2 的标准化、结果奖励照常组内标准化。它最关键的性质是"引入过程奖励但不改原训练目标"，作者用两条命题刻画：正确解里正确 thought 的 token advantage 仍等于纯结果奖励 \(\hat{r}_i^o\)（命题 1），错误解里匹配 thought 的 token advantage 也仍等于 \(\hat{r}_i^o\)、不匹配 thought 拿 0（命题 2）。也就是说，"该往哪个方向优化"的关键 token 目标被原封保留，过程奖励只对错误/无效步做减权（正确解错误 thought 拿 \(\hat{r}_i^o-r_c\)），从而从根上避免 reward hacking——因为模型没法靠刷过程奖励来偏移主目标。

损失函数 / 训练策略¶

沿用 GRPO 的 clipped surrogate + KL 正则目标（Eq.1），advantage 由 token 之后过程/结果奖励累加得到。因 GenPRM 推理开销大，训练用 off-policy：每轮先用最新模型采够 50 步训练量的 rollout，再并行部署多个 GenPRM 评估，评完做多步训练。框架基于 TRL + vLLM，batch=5、lr=1e-6、每 prompt 采 8 rollout。

实验关键数据¶

骨干为 DeepSeek-R1-Distill-Qwen 1.5B/7B，训练数据 DeepScaler-40K，在 AIME24/25、AMC23、MATH-500、Olympiad 五个数学基准评测。自定义效率指标 \(\text{Effic.}=\frac{\text{Improvement}}{\#\text{training solutions}}\times 10^5\)，越高越省样本。

主实验¶

模型(1.5B)	AIME24	AIME25	Avg.	#Solution	Effic.
Base Model	28.80	22.50	48.06	-	-
GRPO Replication (850步)	32.71	24.58	49.64	34K	4.65
GRPO + LLM-as-judge (118步)	30.41	24.58	48.85	4.7K	16.8
GRPO + GenPRM-32B (262步)	31.45	23.12	48.86	10.4K	7.63
TP-GRPO (140步)	33.12	25.63	50.10	5.6K	36.43

7B 上 TP-GRPO（214 步、8.56K 解）平均 67.23，超过 16K 解（400 步）的 on-policy GRPO（65.34），AIME24/25 分别 +6.67/+6.66。效率指标 40.07，远高于 GRPO Replication 的 9.6。核心结论：用约 5× 更少样本就超过 outcome-only GRPO，且两个 GenPRM baseline（LLM-as-judge、GenPRM-32B）只比 base 微涨，远不及 TP-GRPO，说明过程奖励"设计不当则用不上"。

消融实验¶

配置(1.5B)	AIME24	AIME25	AMC23	说明
TP-GRPO	33.12	25.63	64.01	完整模型
- w/o Stage I	31.04	23.54	63.93	换成 LLM-as-judge 直判
- w/o S1 (步合并)	31.66	22.29	62.19	直接按 step 发奖，掉最多
- w/o S2 (难度自适应)	32.71	22.92	63.47	固定 ±1 静态奖励

奖励拆解消融（Table 4）：只用正确解奖励在 AIME24 更好（30.00），只用错误解奖励在 AIME25 更好——印证两套奖励分工不同（错误解奖励缓解过度惩罚利于难题探索，正确解奖励强化有效模式），缺一都掉。

关键发现¶

步合并（S1）贡献最大：去掉它 AIME25 从 25.63 掉到 22.29。分析显示按 step 发奖会让 token advantage 方差飙到 ~77.97、advantage 与 token 正确性互信息仅 0.22；合并到 thought 后互信息升到 0.69，因为连续错误步不再扭曲甚至翻转前面步的 advantage 符号。
对评估器推理能力依赖小：用 Qwen3-32B/4B、Gemma3-12B-it（推理力递减）做 PRM，TP-GRPO 几乎不掉（51.64→51.13），而 LLM-as-judge 显著下滑（51.33→48.75，Gemma 甚至低于 base），验证"解耦评估与推理"的有效性。
收益绝对值不大但稳定且高效：作者坦言提升幅度有限（1.5B 平均 +2.04），但在更少步数内取得，支持"合理的 GenPRM 能超过纯结果奖励提升训练效率"的核心假设。

亮点与洞察¶

"用反思找错"是个聪明的免费信号：正确解里"错误必伴反思"的自洽假设，把"判哪步错"这个难问题转成"定位反思+回溯错因"，绕开了"PRM 得比 actor 还会推理"的死结，这个观察可迁移到任何带自反思的 Long CoT 评估。
保关键 token 目标不变 = 从结构上堵死 reward hacking：命题 1/2 表明过程奖励只对错误步减权、不动正确步的主目标，这比"事后检测 hacking"更根本。
难度自适应 \(r_c\propto acc_G\) 一行公式串起探索/利用：难题自动退化成纯结果奖励放开探索、易题加强过程引导，把 trade-off 编码进一个标量，简洁可复用。

局限与展望¶

绝对增益偏小：1.5B 平均仅 +2.04，作者自承"modest in absolute scale"，主要卖点是效率而非天花板。
只在 1.5B/7B 小模型、数学单领域验证：受算力所限，未测更大规模、更多模型族与非数学任务，泛化性待证。
off-policy 流水线增加工程复杂度：每轮需并行部署多个 GenPRM 评估，且 TP-GRPO 只保留非零过程奖励的解，实际每轮训练步少于 50，curve 比较不完全对齐。
正确解假设可能被违反：若正确答案是"蒙对/错误抵消"而非真有反思纠错，"错误必伴反思"的前提会失效，三步评估可能漏判。

评分¶

新颖性: ⭐⭐⭐⭐ "内在信号解耦判分"+"thought 级难度自适应奖励"是对 GenPRM 隐患的有针对性新解法。
实验充分度: ⭐⭐⭐⭐ 五基准 + 两规模 + 三类消融 + 评估器依赖分析，但限于小模型与数学单域。
写作质量: ⭐⭐⭐⭐ 三隐患→三原则→三创新的主线清晰，命题刻画到位。
价值: ⭐⭐⭐⭐ 把"过程奖励用不起来"的根因讲清并给出可落地修法，效率指标提升显著。