Dynamic and Generalizable Process Reward Modeling (DG-PRM)¶

会议: ACL 2025
arXiv: 2507.17849
代码: 未公开
领域: LLM推理/奖励建模
关键词: process reward model, reward tree, Pareto dominance, LLM-as-judge, dynamic evaluation

一句话总结¶

提出DG-PRM框架，通过构建层次化奖励树动态存储和选择多维评估标准，结合Pareto支配估计识别多目标下的正负样本对，实现动态、可泛化的过程奖励建模。

研究背景与动机¶

问题定义：过程奖励模型（PRM）为LLM在复杂推理中的每个中间步骤提供密集奖励信号，对提升推理质量至关重要
启发式PRM的局限：依赖人工制定的固定评估标准（如答案正确性），需要客观参考答案，跨领域泛化能力差，容易遭受reward hacking
生成式PRM的局限：虽利用LLM-as-Judge提供反馈，但现有方法仅使用最终判断（正确/错误），忽略了判断文本中包含的丰富细节信息（如错误严重程度、错误类型）
核心观察：LLM的评判反馈中包含丰富的多维指导信息（如逻辑一致性、计算准确性等），但当前方法对错误步骤统一赋予负奖励，无法区分不同错误的严重程度

方法详解¶

整体框架¶

DG-PRM包含三个核心模块：(1) 自动过程奖励设计——从LLM判断中提取多维评估标准并组织为层次化奖励树；(2) 动态过程奖励分配——根据每个步骤的内容从奖励树中动态选择相关标准进行评分；(3) 多目标奖励优化——使用Pareto支配识别正负样本对进行step-wise DPO训练。

关键设计¶

奖励树构建：对正负输出对 \((y_+, y_-)\) 使用LLM Judge分析差异并提取评估标准 \(R_{raw}\) → 过滤低质量标准 → 用文本编码器将标准映射到向量空间 → 通过增量层次聚类构建树结构 \(\mathcal{T}\)（粗粒度父节点 + 细粒度子节点），余弦距离低于阈值 \(\xi\) 的标准合并去重
动态奖励分配：评估步骤 \(y^{(t)}\) 时，先从奖励树顶层选择相关父标准 → 分析函数 \(\Phi\) 判断是否需要细粒度评估 → 用余弦距离匹配子节点标准（距离 < 阈值 \(\zeta\) ）→ 引入滑动窗口 \(\mu\) 利用前序步骤的奖励上下文信息
Pareto支配优化：对同一步骤的多个候选输出，在多维奖励分数下计算Pareto前沿 → Pareto最优解为正样本，被支配的解为负样本 → 构造偏好对进行step-wise DPO训练

损失函数¶

基于DPO的step-wise优化目标：

\[\mathcal{L}_{\text{DG-PRM}}(\theta) = -\mathbb{E}_{(\hat{y}_+^{(t)}, \hat{y}_-^{(t)}) \in \mathbf{V}} \left[\log \sigma\left(\beta \Delta^{(t)}\right)\right]\]

其中 \(\Delta^{(t)} = r_\theta^{(t)}(\hat{y}_+^{(t)}) - r_\theta^{(t)}(\hat{y}_-^{(t)})\)，\(r_\theta^{(t)}\) 为策略与参考策略的log-ratio。

实验¶

主实验（PRMBench）¶

模型	Overall	Simplicity	Soundness Avg.	Sensitivity Avg.
Llemma-PRM800k-7B	52.0	51.4	50.9	66.0
RLHFlow-PRM-Mistral-8B	54.4	46.7	57.5	68.5
GPT-4o (Critic)	66.8	59.7	70.9	75.8
o1-mini (Critic)	68.8	64.6	72.1	75.5
DeepSeek-R1 (Critic)	69.5	65.6	72.5	76.5
DG-PRM (o1-mini)	73.5	70.2	76.1	-

消融实验¶

组件	效果
去除奖励树（固定标准）	性能显著下降，跨领域泛化变差
去除Pareto支配（随机选正负对）	训练目标不清晰，性能下降
去除动态选择（使用所有标准）	噪声标准干扰评分，性能下降
去除上下文窗口	失去跨步骤一致性信号

关键发现¶

DG-PRM在PRMBench上显著超越所有开源判别式PRM和LLM-as-Critic方法
相比直接使用LLM做Critic，DG-PRM训练效率更高且泛化到OOD场景的能力更强
奖励树的层次化组织使得细粒度标准可以在不同领域间复用
Pareto支配估计比简单的正/负二分法提供了更清晰的优化方向

亮点¶

首次系统性地利用LLM Judge反馈中的多维细节信息构建过程奖励
奖励树结构优雅地解决了评估标准的存储、去重和动态检索问题
Pareto支配估计是处理多目标奖励信号的自然且有效的方案

局限性¶

奖励树的构建依赖高性能LLM（如GPT-4o/o1-mini）的判断质量，API调用成本较高
层次聚类的阈值参数（ξ、ζ）和滑动窗口大小 \(\mu\) 需要手动调优
实验主要在数学推理和评估任务上验证，在代码生成、创意写作等其他推理场景的表现有待探索
奖励树随任务领域扩展可能变得庞大，检索效率会受影响
Pareto支配在高维奖励空间中区分度可能下降（大量解互不支配）

评分¶

维度	分数
新颖性	⭐⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
总体推荐	⭐⭐⭐⭐⭐