FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning¶
会议: ICLR2026
arXiv: 2510.22543
代码: fapo-rl.github.io
领域: 强化学习
关键词: RLVR, flawed positives, reward shaping, generative reward model, process reward, GRPO
一句话总结¶
针对 RLVR 训练中"答案正确但推理有缺陷"的 flawed-positive rollout 问题,提出 FAPO 算法:用 GenRM 检测缺陷推理,通过无参数奖励惩罚机制实现"先利用后抑制"的自然学习轨迹,同时提升结果正确性、过程可靠性和训练稳定性。
背景与动机¶
RLVR(Reinforcement Learning with Verifiable Rewards)是当前提升 LLM 推理能力的主流范式,模型通过探索推理轨迹、利用正确答案作为正信号来优化策略。然而,标准的 rule-based outcome reward 仅检查最终答案是否正确,无法区分推理过程的质量。
这导致了一个严重问题:flawed-positive rollouts——模型通过猜答案(answer-guessing)或跳跃推理(jump-in-reasoning)等不可靠方式碰巧得到正确答案,却获得与完全正确推理相同的正奖励。这些缺陷推理模式在训练中被持续强化,最终限制模型的推理上限。
作者对 Qwen2.5-Math-7B、Llama3.3-70B 等模型的分析表明,flawed positives 在正确 rollout 中占比高达 20%–40%,且在整个 RL 训练过程中持续存在(约 30% 的比例几乎不变)。
核心问题¶
- Flawed positives 的双面性:早期训练阶段,模型能力不足以产生完全正确的推理,flawed positives 作为"跳板"帮助快速获得能力增长;但后期它们阻碍模型向真正的问题求解能力进化
- 如何检测 flawed positives:现有模型要么过度批评(高 recall 低 precision),要么参数量过大不适合在线 RL 使用
- 如何平衡利用与抑制的时机:需要一个自适应机制,在热身阶段允许利用、在精炼阶段逐步抑制
方法详解¶
1. Flawed-Positive 检测:FAPO-GenRM¶
在 Qwen3-4B-Instruct 基础上,通过 RL 训练一个紧凑高效的生成式奖励模型(GenRM),奖励设计为:
- \(R_{\text{Outcome}}\):结果奖励,预测正确/错误(+1/-1)
- \(R_{\text{Process}}\):步骤级惩罚,仅在正确检测到 flawed positive 时生效,值为 \(-|\hat{t}_\theta - t^*|/n\),其中 \(\hat{t}_\theta\) 是预测错误位置,\(t^*\) 是真实错误位置,\(n\) 是总步数
这一设计的两个关键点: - 超越猜测:过程惩罚迫使模型真正定位错误位置,而非仅猜测"是否有缺陷" - 自然奖励转移:早期以结果正确性为主(\(-1 \to 1\) 增益大),后期结果饱和后自动转向过程优化
训练数据 FAPO-Critic-85K 通过多个 LLaMA/Qwen 系列模型(7B–70B)在 DAPO-Math-17K 上生成 rollout,由 Qwen3-32B 标注步骤级错误位置。
2. Flawed-Positive 惩罚:自适应奖励调整¶
检测到 flawed positives 后,对 RL 训练中的奖励进行调整:
其中 \(R_\Delta = -\lambda\)(当 rollout 被检测为 flawed positive 时),否则为 0。默认 \(\lambda = 1\),即将 flawed positive 的奖励从 +1 降至 0。
自然优化转移机制:设当前 rollout 中正样本占比 \(\alpha\)、负样本占比 \(\beta\),学习进度 \(\rho = \alpha/\beta\)。 - 当 \(\rho < 1\)(负样本占多数,即热身阶段):flawed positives 仍有正优势值,被利用 - 当 \(\rho > 1\)(正样本占多数,即精炼阶段):flawed positives 的优势值接近或低于零,被自然抑制 - 当 \(\rho > 3\):正样本优势值被缩放,训练更稳定
\(\lambda = 1\) 的选择来自 majority-guided 策略,使转移点恰好在 \(\rho = 1\),无需额外超参数。
3. 工程架构¶
- GenRM 作为外部 LLM 服务部署在计算集群上,与 rollout 推理和 actor 训练异步解耦
- 多 worker + 路由器实现负载均衡
- 通过 overlong reward 策略和 checkpoint 选择控制 GenRM 的 token 预算
- 总训练时间仅增加不到 20%
实验关键数据¶
GenRM 检测性能¶
- FAPO-GenRM-4B 在 FlawedPositiveBench 和 ProcessBench 上超越了教师模型 Qwen3-32B
- 相比 Qwen3-4B-Instruct 基线和 Qwen2.5-Math-PRM-72B 等强基线均有显著提升
- 解决了现有模型"过度批评"(高 recall 低 precision)的问题
推理性能(Qwen2.5-Math-7B + GRPO 基线)¶
- AIME24 / AIME25 / GPQA-Diamond 三个基准上,FAPO 在几乎所有中间 checkpoint 上均优于基线
- Flawed-positive 比例显著降低(从约 30% 大幅下降)
- 训练曲线更平滑,后期无明显性能下降
- Token 预算未增加(不依赖更长的 response 获得提升)
消融实验¶
- 更强的 GenRM → 更好的最终 RL 性能(检测精度与最终性能正相关)
- 自我纠正分析:FAPO 在后期自然转向完全正确的 rollout,响应长度缩短,推理更高效
- Step-ratio reward(按正确步骤比例给分)会导致 reward hacking——模型只输出高置信度步骤,跳过不确定的步骤
亮点¶
- 对 flawed positives 的系统性分析:首次揭示其"早期跳板、后期障碍"的双面角色,为 RLVR 训练提供了新视角
- 无参数的自适应机制:\(\lambda=1\) 由理论推导得出,不引入额外超参数,优化方向自然随训练进展转移
- 紧凑高效的 GenRM:4B 参数模型超越 32B 教师模型,且与 RL 训练异步解耦,仅增加不到 20% 训练时间
- 全面的验证:不仅报告最终性能,还展示全过程中间 checkpoint 的表现,充分说明训练稳定性
局限与展望¶
- GenRM 引入额外推理开销,虽然目前控制在 20% 以内,但在更大规模系统中可能成为瓶颈
- FlawedPositiveBench 基于 ProcessBench 构建,评价覆盖面有限
- 实验主要在数学推理和通用 QA 上验证,对代码生成等更复杂的可验证任务尚未充分探索
- GenRM 本身也可能被 reward hacking——虽然论文讨论了这一风险,但长期训练的稳健性有待进一步验证
- 异步架构设计是工程妥协,全同步方案可能有更好的系统效率
与相关工作的对比¶
| 方法 | 奖励类型 | 是否处理 flawed positives | 是否无参数 | 特点 |
|---|---|---|---|---|
| 标准 RLVR | 二值 outcome | 否 | 是 | 简单但强化缺陷推理 |
| PRM (判别式) | 步骤级分数 | 间接 | 否 | 密集奖励,易被 hacking |
| Step-ratio reward | 步骤比例 | 间接 | 否 | 导致跳跃推理 |
| FAPO | outcome + 惩罚 | 直接检测+自适应惩罚 | 是 | 自然学习轨迹,稳定高效 |
启发与关联¶
- FAPO 的"先利用后抑制"思路可推广到其他 RL 场景中错误信号的处理
- GenRM 的 step-wise RL 训练方法可用于提升任何过程级评估模型(如代码 review 模型)
- 论文对 reward hacking 的分析(step-ratio reward 的失败案例)对设计新的奖励信号有警示意义
- 异步 GenRM 架构为大规模 RL 系统引入外部评估器提供了实用参考
评分¶
- 新颖性: ⭐⭐⭐⭐ — 对 flawed positives 的系统分析和无参数惩罚机制有新意
- 实验充分度: ⭐⭐⭐⭐⭐ — 全 checkpoint 评估、多维度消融、人工验证、reward hacking 分析
- 写作质量: ⭐⭐⭐⭐ — 行文流畅,动机-分析-方法-实验环环相扣
- 价值: ⭐⭐⭐⭐ — 对 RLVR 训练质量提升有实际意义,GenRM 方案可直接集成