Dynamic and Generalizable Process Reward Modeling (DG-PRM)¶
会议: ACL 2025
arXiv: 2507.17849
代码: 未公开
领域: LLM推理/奖励建模
关键词: process reward model, reward tree, Pareto dominance, LLM-as-judge, dynamic evaluation
一句话总结¶
提出DG-PRM框架,通过构建层次化奖励树动态存储和选择多维评估标准,结合Pareto支配估计识别多目标下的正负样本对,实现动态、可泛化的过程奖励建模。
研究背景与动机¶
- 问题定义:过程奖励模型(PRM)为LLM在复杂推理中的每个中间步骤提供密集奖励信号,对提升推理质量至关重要
- 启发式PRM的局限:依赖人工制定的固定评估标准(如答案正确性),需要客观参考答案,跨领域泛化能力差,容易遭受reward hacking
- 生成式PRM的局限:虽利用LLM-as-Judge提供反馈,但现有方法仅使用最终判断(正确/错误),忽略了判断文本中包含的丰富细节信息(如错误严重程度、错误类型)
- 核心观察:LLM的评判反馈中包含丰富的多维指导信息(如逻辑一致性、计算准确性等),但当前方法对错误步骤统一赋予负奖励,无法区分不同错误的严重程度
方法详解¶
整体框架¶
DG-PRM包含三个核心模块:(1) 自动过程奖励设计——从LLM判断中提取多维评估标准并组织为层次化奖励树;(2) 动态过程奖励分配——根据每个步骤的内容从奖励树中动态选择相关标准进行评分;(3) 多目标奖励优化——使用Pareto支配识别正负样本对进行step-wise DPO训练。
关键设计¶
- 奖励树构建:对正负输出对 \((y_+, y_-)\) 使用LLM Judge分析差异并提取评估标准 \(R_{raw}\) → 过滤低质量标准 → 用文本编码器将标准映射到向量空间 → 通过增量层次聚类构建树结构 \(\mathcal{T}\)(粗粒度父节点 + 细粒度子节点),余弦距离低于阈值 \(\xi\) 的标准合并去重
- 动态奖励分配:评估步骤 \(y^{(t)}\) 时,先从奖励树顶层选择相关父标准 → 分析函数 \(\Phi\) 判断是否需要细粒度评估 → 用余弦距离匹配子节点标准(距离 < 阈值 \(\zeta\) )→ 引入滑动窗口 \(\mu\) 利用前序步骤的奖励上下文信息
- Pareto支配优化:对同一步骤的多个候选输出,在多维奖励分数下计算Pareto前沿 → Pareto最优解为正样本,被支配的解为负样本 → 构造偏好对进行step-wise DPO训练
损失函数¶
基于DPO的step-wise优化目标:
\[\mathcal{L}_{\text{DG-PRM}}(\theta) = -\mathbb{E}_{(\hat{y}_+^{(t)}, \hat{y}_-^{(t)}) \in \mathbf{V}} \left[\log \sigma\left(\beta \Delta^{(t)}\right)\right]\]
其中 \(\Delta^{(t)} = r_\theta^{(t)}(\hat{y}_+^{(t)}) - r_\theta^{(t)}(\hat{y}_-^{(t)})\),\(r_\theta^{(t)}\) 为策略与参考策略的log-ratio。
实验¶
主实验(PRMBench)¶
| 模型 | Overall | Simplicity | Soundness Avg. | Sensitivity Avg. |
|---|---|---|---|---|
| Llemma-PRM800k-7B | 52.0 | 51.4 | 50.9 | 66.0 |
| RLHFlow-PRM-Mistral-8B | 54.4 | 46.7 | 57.5 | 68.5 |
| GPT-4o (Critic) | 66.8 | 59.7 | 70.9 | 75.8 |
| o1-mini (Critic) | 68.8 | 64.6 | 72.1 | 75.5 |
| DeepSeek-R1 (Critic) | 69.5 | 65.6 | 72.5 | 76.5 |
| DG-PRM (o1-mini) | 73.5 | 70.2 | 76.1 | - |
消融实验¶
| 组件 | 效果 |
|---|---|
| 去除奖励树(固定标准) | 性能显著下降,跨领域泛化变差 |
| 去除Pareto支配(随机选正负对) | 训练目标不清晰,性能下降 |
| 去除动态选择(使用所有标准) | 噪声标准干扰评分,性能下降 |
| 去除上下文窗口 | 失去跨步骤一致性信号 |
关键发现¶
- DG-PRM在PRMBench上显著超越所有开源判别式PRM和LLM-as-Critic方法
- 相比直接使用LLM做Critic,DG-PRM训练效率更高且泛化到OOD场景的能力更强
- 奖励树的层次化组织使得细粒度标准可以在不同领域间复用
- Pareto支配估计比简单的正/负二分法提供了更清晰的优化方向
亮点¶
- 首次系统性地利用LLM Judge反馈中的多维细节信息构建过程奖励
- 奖励树结构优雅地解决了评估标准的存储、去重和动态检索问题
- Pareto支配估计是处理多目标奖励信号的自然且有效的方案
局限性¶
- 奖励树的构建依赖高性能LLM(如GPT-4o/o1-mini)的判断质量,API调用成本较高
- 层次聚类的阈值参数(ξ、ζ)和滑动窗口大小 \(\mu\) 需要手动调优
- 实验主要在数学推理和评估任务上验证,在代码生成、创意写作等其他推理场景的表现有待探索
- 奖励树随任务领域扩展可能变得庞大,检索效率会受影响
- Pareto支配在高维奖励空间中区分度可能下降(大量解互不支配)
相关工作¶
- 结果奖励模型(ORM):Stiennon et al. 2020; Ouyang et al. 2022
- 过程奖励模型(PRM):Lightman et al. 2024; Wang et al. 2024a(Math-Shepherd)
- LLM-as-Judge:Zheng et al. 2023(MT-Bench); Kwon et al. 2023
- 多目标优化与Pareto:Miettinen 1999
- DPO:Rafailov et al. 2023
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐⭐ |
| 实验充分度 | ⭐⭐⭐⭐ |
| 实用价值 | ⭐⭐⭐⭐ |
| 总体推荐 | ⭐⭐⭐⭐⭐ |