SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning¶

会议: NeurIPS 2025
arXiv: 2509.16548
代码: 有
领域: 图像复原
关键词: 过程奖励模型, Monte Carlo估计, 噪声标签, 自去噪, 数学推理

一句话总结¶

提出 SCAN 框架，通过分析 Monte Carlo 注释中的噪声分布，设计自去噪采样策略和鲁棒学习损失，仅用 1.5B 模型生成的 101K 样本训练的 PRM 即超越人工标注数据集 PRM800K 的效果。

研究背景与动机¶

过程奖励模型（PRM）通过步骤级评估来引导 LLM 的推理过程，在数学推理等复杂任务中表现出色。然而 PRM 面临数据标注困境：

人工标注成本极高：PRM800K 等数据集虽然质量好但标注代价大，难以规模化。

Monte Carlo（MC）估计噪声大：使用模型进行多次 rollout 来估计步骤正确性是有前景的替代方案，但噪声比例高，模型容易过拟合。

现有去噪方法依赖强模型蒸馏：如使用 72B 的 critic 模型来过滤数据，本质上是将大模型能力蒸馏到小模型。

本文的问题是：能否不依赖外部强监督，仅通过挖掘 MC 估计自身的去噪潜力和设计鲁棒学习策略来训练高质量 PRM？

作者首先对 MC 注释中的噪声分布进行了系统研究。定义了 self-confidence 指标 \(SC_\theta(q)\) 来量化 completer 模型对问题的信心，发现噪声主要来自两类：

低估（Under-Estimation, \(t_{pred} < t_{true}\)）：模型能力不足，即使正确前缀也无法生成正确 rollout，导致过早判定错误。集中在低 self-confidence 区域。
高估（Over-Estimation, \(t_{pred} > t_{true}\)）：模型具有纠错能力，在错误步骤后仍能生成正确 rollout，导致错误位置延迟检测。

方法详解¶

整体框架¶

SCAN 包含两个核心模块：(1) 高效数据合成框架——通过选择性采样减少推理成本；(2) 鲁棒学习策略——通过噪声容忍标签和置信度重加权抵抗噪声。

关键设计¶

选择性 MC 注释（Efficient Data Synthesis）:
- 只注释负样本：生成响应后，直接答案正确的（正样本）直接用于训练，不进行逐步 MC 注释。因为高 self-confidence 区域的正样本噪声极低（Observation 4），节省了 80 次 rollout/样本的成本。
- 仅对高置信度负样本做逐步注释：筛选 \(SC_\pi(q_i) > \epsilon\) 的负样本进行步骤级 MC 估计。这确保 100% 的 MC 注释样本都被纳入训练集。
噪声容忍标签（Noise-tolerant Labeling）: 针对高估问题（\(t_{pred} > t_{true}\)，Observation 5 表明误差通常在真实错误位置附近），对预测错误位置前 \(d\) 步的标签使用 soft label \(\hat{y}_t = \min(c_t / SC_\pi(q), 1)\)，而非硬标签。这允许模型从噪声位置学习而不过拟合。
置信度重加权（Confidence-wise Reweighting）: MC 标注的正确性概率 \(c_t\) 受 completer 模型能力影响，与真实正确性 \(c_t^*\) 存在偏差。通过 self-confidence 校正：\(\hat{c}_i^* = \min(c_i / SC_\pi(q), 1)\)。核心思想是：强模型和弱模型标注同一样本时，校正后的分数应一致——用 self-confidence 归一化消除模型能力偏差。

损失函数 / 训练策略¶

改进的 BCE 损失：

\[\mathcal{L}_{\text{SCAN}}(\theta) = -\mathbb{E}_{(x_{\leq t}, y_t) \sim D_{\text{final}}} [y_t \log P_\theta(y_t|q, \mathbf{x}_{\leq t}) + (1-y_t) \log(1 - P_\theta(y_t|q, \mathbf{x}_{\leq t}))]\]

其中标签 \(\hat{y}_t\) 在错误位置附近使用 soft label，并通过置信度重加权。

实验关键数据¶

主实验（Best-of-8, Policy: Qwen2.5-Math-7B-Instruct）¶

模型	训练样本	标注方式	GSM8K	MATH	College Math	Olympiad	Avg
Majority Vote@8	—	—	96.9	87.3	47.4	43.0	68.7
RLHFlow-PRM-8B	253K	MC	96.8	87.3	47.9	43.9	69.0
Qwen2.5-Math-PRM-7B	1500K	MC+KD	96.8	88.1	47.7	47.6	70.1
PRM800K	264K	人工	97.0	87.6	47.7	45.0	69.3
Scan-Base	101K	MC	97.1	86.9	47.8	44.4	69.1
Scan-Pro	197K	MC	97.1	87.3	48.1	47.7	70.1

消融实验（ProcessBench F1）¶

配置	GSM8K F1	MATH F1	Olympiad F1	Avg F1	说明
Baseline（无去噪）	—	—	—	~35	快速过拟合
+ Selective Sampling	—	—	—	~45	减少正样本噪声
+ Tolerance Labeling	—	—	—	~52	抗高估噪声
+ Confidence Reweight	—	—	—	59.1	消除模型能力偏差
Qwen2.5-7B-Ins (critic)	26.8	25.7	14.2	19.9	原始模型
Scan-Pro	80.9	65.3	45.9	59.1	自训练后

关键发现¶

仅用 1.5B 模型即可生成高质量数据：Scan-Base 用 Qwen2.5-Math-1.5B 生成 101K 样本，PRM 性能接近 264K 人工标注的 PRM800K
自我提升显著：Qwen2.5-7B-Ins 的 ProcessBench F1 从 19.9 提升到 59.1（+39.2），超越 70B 级 critic 模型
容忍距离 \(d=2\) 最优：\(d=0\)（硬标签）导致严重过拟合，\(d=n\)（全软标签）引入过多噪声
无去噪策略的 baseline 很快过拟合：验证了 MC 噪声对 PRM 训练的严重影响
数据来源多样性有帮助：Scan-Pro 融合三个模型的数据比单一来源更好

亮点与洞察¶

噪声分布的系统分析是核心贡献：首次从 self-confidence 视角揭示 MC 注释中低估和高估噪声的来源和分布规律
自去噪策略极其高效——不需要外部强模型，仅利用 completer 自身的 self-confidence
置信度重加权巧妙解决了多模型混合标注的一致性问题
仅 101K 样本 + 1.5B 模型 = 媲美人工标注，验证了"小模型 + 好策略"的可行性

局限与展望¶

容忍距离 \(d\) 需手动选择，可探索自适应设定
self-confidence 度量依赖足够的采样（16次），采样不足时估计不准
目前仅在数学推理验证，代码推理/通用推理的噪声分布可能不同
正样本直接跳过 MC 注释可能遗漏少量隐蔽错误

评分¶

新颖性: ⭐⭐⭐⭐ — 从噪声分布视角切入 PRM 数据合成是新角度
实验充分度: ⭐⭐⭐⭐⭐ — BoN + ProcessBench 双评估、完整消融、多模型扩展
写作质量: ⭐⭐⭐⭐⭐ — 预备研究→动机→方法→实验的逻辑链非常流畅
价值: ⭐⭐⭐⭐⭐ — 低成本PRM训练方案，对推理增强有直接实用价值