FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning¶

会议: ICLR2026
arXiv: 2510.22543
代码: fapo-rl.github.io
领域: 强化学习
关键词: RLVR, flawed positives, reward shaping, generative reward model, process reward, GRPO

一句话总结¶

针对 RLVR 训练中"答案正确但推理有缺陷"的 flawed-positive rollout 问题，提出 FAPO 算法：用 GenRM 检测缺陷推理，通过无参数奖励惩罚机制实现"先利用后抑制"的自然学习轨迹，同时提升结果正确性、过程可靠性和训练稳定性。

背景与动机¶

RLVR（Reinforcement Learning with Verifiable Rewards）是当前提升 LLM 推理能力的主流范式，模型通过探索推理轨迹、利用正确答案作为正信号来优化策略。然而，标准的 rule-based outcome reward 仅检查最终答案是否正确，无法区分推理过程的质量。

这导致了一个严重问题：flawed-positive rollouts——模型通过猜答案（answer-guessing）或跳跃推理（jump-in-reasoning）等不可靠方式碰巧得到正确答案，却获得与完全正确推理相同的正奖励。这些缺陷推理模式在训练中被持续强化，最终限制模型的推理上限。

作者对 Qwen2.5-Math-7B、Llama3.3-70B 等模型的分析表明，flawed positives 在正确 rollout 中占比高达 20%–40%，且在整个 RL 训练过程中持续存在（约 30% 的比例几乎不变）。

核心问题¶

Flawed positives 的双面性：早期训练阶段，模型能力不足以产生完全正确的推理，flawed positives 作为"跳板"帮助快速获得能力增长；但后期它们阻碍模型向真正的问题求解能力进化
如何检测 flawed positives：现有模型要么过度批评（高 recall 低 precision），要么参数量过大不适合在线 RL 使用
如何平衡利用与抑制的时机：需要一个自适应机制，在热身阶段允许利用、在精炼阶段逐步抑制

方法详解¶

1. Flawed-Positive 检测：FAPO-GenRM¶

在 Qwen3-4B-Instruct 基础上，通过 RL 训练一个紧凑高效的生成式奖励模型（GenRM），奖励设计为：

\[R_{\text{FAPO-GenRM}} = R_{\text{Outcome}} + R_{\text{Process}}\]

\(R_{\text{Outcome}}\)：结果奖励，预测正确/错误（+1/-1）
\(R_{\text{Process}}\)：步骤级惩罚，仅在正确检测到 flawed positive 时生效，值为 \(-|\hat{t}_\theta - t^*|/n\)，其中 \(\hat{t}_\theta\) 是预测错误位置，\(t^*\) 是真实错误位置，\(n\) 是总步数

这一设计的两个关键点： - 超越猜测：过程惩罚迫使模型真正定位错误位置，而非仅猜测"是否有缺陷" - 自然奖励转移：早期以结果正确性为主（\(-1 \to 1\) 增益大），后期结果饱和后自动转向过程优化

训练数据 FAPO-Critic-85K 通过多个 LLaMA/Qwen 系列模型（7B–70B）在 DAPO-Math-17K 上生成 rollout，由 Qwen3-32B 标注步骤级错误位置。

2. Flawed-Positive 惩罚：自适应奖励调整¶

检测到 flawed positives 后，对 RL 训练中的奖励进行调整：

\[R_{\text{FAPO}}(o, a^* | \theta) = R_{\text{RLVR}}(o, a^*) + R_\Delta(o, a^* | \theta)\]

其中 \(R_\Delta = -\lambda\)（当 rollout 被检测为 flawed positive 时），否则为 0。默认 \(\lambda = 1\)，即将 flawed positive 的奖励从 +1 降至 0。

自然优化转移机制：设当前 rollout 中正样本占比 \(\alpha\)、负样本占比 \(\beta\)，学习进度 \(\rho = \alpha/\beta\)。 - 当 \(\rho < 1\)（负样本占多数，即热身阶段）：flawed positives 仍有正优势值，被利用 - 当 \(\rho > 1\)（正样本占多数，即精炼阶段）：flawed positives 的优势值接近或低于零，被自然抑制 - 当 \(\rho > 3\)：正样本优势值被缩放，训练更稳定

\(\lambda = 1\) 的选择来自 majority-guided 策略，使转移点恰好在 \(\rho = 1\)，无需额外超参数。

3. 工程架构¶

GenRM 作为外部 LLM 服务部署在计算集群上，与 rollout 推理和 actor 训练异步解耦
多 worker + 路由器实现负载均衡
通过 overlong reward 策略和 checkpoint 选择控制 GenRM 的 token 预算
总训练时间仅增加不到 20%

实验关键数据¶

GenRM 检测性能¶

FAPO-GenRM-4B 在 FlawedPositiveBench 和 ProcessBench 上超越了教师模型 Qwen3-32B
相比 Qwen3-4B-Instruct 基线和 Qwen2.5-Math-PRM-72B 等强基线均有显著提升
解决了现有模型"过度批评"（高 recall 低 precision）的问题

推理性能（Qwen2.5-Math-7B + GRPO 基线）¶

AIME24 / AIME25 / GPQA-Diamond 三个基准上，FAPO 在几乎所有中间 checkpoint 上均优于基线
Flawed-positive 比例显著降低（从约 30% 大幅下降）
训练曲线更平滑，后期无明显性能下降
Token 预算未增加（不依赖更长的 response 获得提升）

消融实验¶

更强的 GenRM → 更好的最终 RL 性能（检测精度与最终性能正相关）
自我纠正分析：FAPO 在后期自然转向完全正确的 rollout，响应长度缩短，推理更高效
Step-ratio reward（按正确步骤比例给分）会导致 reward hacking——模型只输出高置信度步骤，跳过不确定的步骤

亮点¶

对 flawed positives 的系统性分析：首次揭示其"早期跳板、后期障碍"的双面角色，为 RLVR 训练提供了新视角
无参数的自适应机制：\(\lambda=1\) 由理论推导得出，不引入额外超参数，优化方向自然随训练进展转移
紧凑高效的 GenRM：4B 参数模型超越 32B 教师模型，且与 RL 训练异步解耦，仅增加不到 20% 训练时间
全面的验证：不仅报告最终性能，还展示全过程中间 checkpoint 的表现，充分说明训练稳定性

局限与展望¶

GenRM 引入额外推理开销，虽然目前控制在 20% 以内，但在更大规模系统中可能成为瓶颈
FlawedPositiveBench 基于 ProcessBench 构建，评价覆盖面有限
实验主要在数学推理和通用 QA 上验证，对代码生成等更复杂的可验证任务尚未充分探索
GenRM 本身也可能被 reward hacking——虽然论文讨论了这一风险，但长期训练的稳健性有待进一步验证
异步架构设计是工程妥协，全同步方案可能有更好的系统效率

与相关工作的对比¶

方法	奖励类型	是否处理 flawed positives	是否无参数	特点
标准 RLVR	二值 outcome	否	是	简单但强化缺陷推理
PRM (判别式)	步骤级分数	间接	否	密集奖励，易被 hacking
Step-ratio reward	步骤比例	间接	否	导致跳跃推理
FAPO	outcome + 惩罚	直接检测+自适应惩罚	是	自然学习轨迹，稳定高效

启发与关联¶

FAPO 的"先利用后抑制"思路可推广到其他 RL 场景中错误信号的处理
GenRM 的 step-wise RL 训练方法可用于提升任何过程级评估模型（如代码 review 模型）
论文对 reward hacking 的分析（step-ratio reward 的失败案例）对设计新的奖励信号有警示意义
异步 GenRM 架构为大规模 RL 系统引入外部评估器提供了实用参考

评分¶

新颖性: ⭐⭐⭐⭐ — 对 flawed positives 的系统分析和无参数惩罚机制有新意
实验充分度: ⭐⭐⭐⭐⭐ — 全 checkpoint 评估、多维度消融、人工验证、reward hacking 分析
写作质量: ⭐⭐⭐⭐ — 行文流畅，动机-分析-方法-实验环环相扣
价值: ⭐⭐⭐⭐ — 对 RLVR 训练质量提升有实际意义，GenRM 方案可直接集成