跳转至

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

会议: ACL2026
arXiv: 2603.09803
代码: https://github.com/Mithas-114/IC-DAPO
领域: 强化学习 / LLM推理 / RLVR
关键词: RLVR, Evidence Gain, in-context learning, DAPO, 数学推理

一句话总结

这篇论文指出 RLVR 不能区分“推理质量高的正确答案”和“碰巧答对的低质量推理”,并提出用示范的 in-context 教学效用 Evidence Gain 作为隐式质量信号,通过 In-Context RLVR 在不训练 PRM 的情况下提升数学推理准确率和推理质量。

研究背景与动机

领域现状:Reinforcement Learning with Verifiable Rewards (RLVR) 已成为提升大语言模型数学推理能力的重要范式。它依赖可验证答案,把正确结果给正奖励,避免了昂贵的逐步人工过程标注。

现有痛点:RLVR 的结果奖励过于粗粒度。只要最终答案正确,不管推理过程是严谨、冗余、跳步还是碰巧猜对,都会得到同样奖励。这样会把低质量推理轨迹也强化进模型,长期看可能破坏模型的内部解题策略。

核心矛盾:过程奖励模型可以区分推理质量,但需要额外标注或训练 evaluator;只用答案奖励又无法区分正确轨迹内部的好坏。作者要解决的是:能否在不引入 PRM 的前提下,让 RLVR 自动偏向高质量推理轨迹。

本文目标:定义一个能反映推理质量的全局信号,并把它低成本接入 RLVR,使训练过程对高质量正确轨迹赋予更高权重,对低质量正确轨迹赋予更低权重。

切入角度:作者把“好推理”理解成“好示范”。如果一条推理轨迹真的清晰、相关、可迁移,那么把它作为 in-context demonstration 放到别的问题前面,应该会帮助当前 policy 更容易生成高质量参考解。

核心 idea:用模型自身的 ICL 能力衡量一条推理作为示范后带来的 log-likelihood 提升,即 Evidence Gain;训练时不显式计算它,而是在 rollout 前加入高质量示范,让目标函数隐式地按 Evidence Gain 重加权奖励。

方法详解

论文的方法由两部分组成。第一部分先证明 Evidence Gain 确实能作为推理质量代理信号;第二部分把同一个思想反过来用于训练,形成 In-Context RLVR。

整体框架

给定一个训练问题 \(q\) 和模型生成的推理轨迹 \(r\),作者准备一个 held-out validation set,其中每个样本包含问题和高质量参考推理。Evidence Gain 衡量的是:把 \((q,r)\) 作为 demonstration 放到验证样本前面后,模型生成验证参考推理的 log-likelihood 相比 zero-shot 提升了多少。

直接把 Evidence Gain 当奖励会非常昂贵。缓存中给出的估计是,对约 12K 样本和 100 个 demonstrations 显式计算 Evidence Gain 需要约 80 小时 H800。作者因此不在 rollout 后计算奖励,而是在 rollout 前从 demonstration set 中采样一个示范,拼到当前问题前面,再执行标准 RLVR 更新。这个简单的输入侧改动就是 In-Context RLVR。

关键设计

  1. Evidence Gain 作为示范效用信号:

    • 功能:衡量一条推理轨迹能否帮助模型更好地产生高质量参考解,从而间接反映这条推理本身的质量。
    • 核心思路:对验证集中的高质量参考推理,比较加入候选示范前后的生成 log-likelihood 差值,并对验证样本求平均。高 Evidence Gain 表示这条推理提供了可迁移的解题模式。
    • 设计动机:相比长度、logprob 或 majority vote,Evidence Gain 不只看表面特征,而是直接测试“这条推理能不能教会模型做类似推理”。
  2. In-Context RLVR 的输入侧训练改动:

    • 功能:在不显式计算 Evidence Gain 的情况下,把高质量推理轨迹的梯度权重自然放大。
    • 核心思路:每次 rollout 前,从 demonstration set 随机采样一个高质量问答/推理对,拼接到当前问题前面;模型在这个 demonstration-conditioned 输入上生成回答,仍使用标准可验证答案奖励训练。
    • 设计动机:输入中加入示范会改变采样分布。作者理论上证明,该目标等价于 zero-shot RLVR 下的奖励重加权,权重近似正比于 Evidence Gain 的指数。
  3. 与 DAPO/GRPO 的解耦组合:

    • 功能:证明该思想不是某个 RL 优化器的特例,而是可以作为输入侧增强模块接到已有 RLVR 上。
    • 核心思路:主实验把 In-Context RLVR 接到 DAPO,得到 IC-DAPO;同时在 1.5B 模型上接到 GRPO,得到 IC-GRPO。训练仍用答案正确性奖励,示范只改变输入条件和隐式权重。
    • 设计动机:如果一个方法只在特定 objective 上有效,很难说明它捕捉的是推理质量。跨 DAPO 和 GRPO 的稳定增益说明 Evidence Gain 重加权是更通用的训练信号。

损失函数 / 训练策略

标准 RLVR 优化的是问题 \(q\) 上的答案奖励 \(R(q,r)\)。In-Context RLVR 改成先采样示范 \(e\),再从 \(pi_theta(r|e,q)\) 中采样回答。作者通过 Bayesian identity 推导出,这等价于在基础分布 \(pi_theta(r|q)\) 上优化 \(R(q,r) * w(q,r)\),其中 \(w(q,r)\) 是 demonstration likelihood ratio 的期望,并且 \(log w(q,r)\) 近似等于 Evidence Gain 加上一个模型相关常数。

实验中训练数据来自 KlearReasoner-MathSub-30K,并被划分为 policy optimization 训练集、包含 1,082 个问答/推理对的 demonstration set,以及 100 个额外样本的 held-out set。评估覆盖 AIME24、AIME25、HMMT25、MATH500、AMC23 和 OlympiadBench,MATH500/OlympiadBench 报告 avg@4,其余报告 avg@32。

实验关键数据

主实验

模型/方法 AIME24 AIME25 HMMT25 MATH500 AMC23 Olympiad Average Time/Step
DS-R1-Distill-Qwen-1.5B 29.2 24.1 13.1 86.0 73.7 51.8 46.3 未报告
+ GRPO 33.4 28.1 16.6 88.3 79.3 56.2 50.3 457.4s
+ IC-GRPO 38.3 30.6 17.7 89.5 82.5 56.9 52.6 461.8s
+ DAPO 40.0 28.4 19.2 90.0 84.4 61.6 53.9 459.6s
+ CE-GPPO 42.8 32.5 20.5 91.0 85.8 61.8 55.7 464.0s
+ IC-DAPO 45.6 34.2 19.7 90.6 86.2 62.1 56.4 477.2s
模型/方法 AIME24 AIME25 HMMT25 MATH500 AMC23 Olympiad Average Time/Step
DS-R1-Distill-Qwen-7B 54.5 39.1 26.2 93.6 90.6 67.0 61.8 未报告
+ GRPO 55.3 40.3 24.5 93.7 88.8 65.6 61.4 305.6s
+ DAPO 62.0 45.9 27.4 94.1 92.3 69.9 65.3 303.1s
+ CE-GPPO 64.2 50.3 28.9 95.3 93.3 71.6 67.3 292.5s
+ IC-DAPO 66.5 49.8 29.4 95.6 93.7 71.7 67.8 315.6s

IC-DAPO 相比 DAPO 在 1.5B 和 7B 上平均都提升 2.5 分;IC-GRPO 相比 GRPO 在 1.5B 上平均提升 2.3 分。训练开销有增加,但作者强调 IC-DAPO 的额外开销小于 5%。

消融实验

代理信号 1.5B Spearman rho 7B Spearman rho 说明
Length -0.147 -0.161 推理越长不代表越好
LogProb 0.129 0.178 置信度只弱相关
MajorVote 0.079 0.109 多数答案一致性区分能力弱
Evidence Gain 0.405 0.444 与推理质量相关性最强
难度 DAPO 1.5B IC-DAPO 1.5B DAPO 7B IC-DAPO 7B 主要结论
Easy 98.3 98.8 (+0.5%) 98.6 99.3 (+0.7%) 简单题空间很小
Medium 90.1 93.5 (+3.8%) 97.8 98.2 (+0.4%) 中等题有稳定收益
Hard 23.1 26.0 (+12.6%) 39.2 43.2 (+10.2%) 收益集中在困难题
示范来源 1.5B Average 7B Average 说明
DAPO 53.9 65.3 不使用 in-context demonstration
IC-DAPO (V3.1) 55.7 66.4 使用非 reasoning 模型 DeepSeek-V3.1 生成的示范
IC-DAPO (R1) 56.4 67.8 使用 DeepSeek-R1 refined reasoning traces,效果最好

关键发现

  • Evidence Gain 在 1.5B 和 7B 上都比 length、logprob、major vote 更能预测推理质量,说明它捕捉的是可迁移解题模式,而不是表面长度或答案一致性。
  • 训练动态中,IC-DAPO 的平均 Evidence Gain 增长更快,推理质量分数也更高;Evidence Gain 与质量的 Spearman 相关在训练中稳定在约 0.4。
  • 增益主要来自困难题:1.5B hard split 相对 DAPO 提升 12.6%,7B hard split 提升 10.2%,符合“质量重加权最适合需要深推理的题”的解释。

亮点与洞察

  • 把推理质量转化为教学效用:论文没有直接问“这条推理看起来好不好”,而是问“它作为示范能不能帮助模型解决别的问题”。这个定义很聪明,因为它天然强调可迁移结构。
  • 输入侧改动实现奖励侧重加权:最有价值的部分是理论解释:简单地在 rollout 前加 demonstration,就能隐式放大高 Evidence Gain 轨迹的梯度信号。实现简单,但解释很强。
  • 不需要 PRM 也能做过程质量偏好:方法绕开了过程标注和训练 evaluator 的成本,对已经有 verifiable answer 的数学/代码任务尤其实用。
  • 质量信号不是越强模型越单调变大,而是相对排序稳定:7B 模型的 Evidence Gain 绝对值整体更高,但高质量轨迹相对更高的现象仍成立,这说明该信号更适合做同模型内部排序。

局限与展望

  • 任务范围主要是数学推理:论文承认在其他推理密集领域如 STEM 综合问题、代码推理或开放问答上的泛化仍未验证。数学题有规则奖励,迁移到非严格可验证任务会更难。
  • demonstration set 依赖强模型:当前高质量参考轨迹由 DeepSeek-R1 等强模型生成。若没有强 teacher,或者 teacher 的推理风格有偏,Evidence Gain 和 IC-RLVR 的效果可能下降。
  • 只重加权正确答案内部质量:RLVR 的第一层过滤仍是答案正确性,错误但有启发性的推理轨迹不会被直接利用。未来可以考虑把局部正确步骤或可修复错误也纳入训练。
  • 输入变长和训练成本:虽然作者报告额外开销小于 5%,但 demonstration 拼接会增加上下文长度;在更长问题、更多示范或更大模型上,成本可能成为部署瓶颈。

相关工作与启发

  • vs 标准 RLVR/GRPO/DAPO:标准方法只看最终答案,本文通过 in-context demonstration 改变采样分布,等价于对高质量正确轨迹加权。实验中 IC-GRPO 和 IC-DAPO 都优于各自基线。
  • vs PRM:PRM 显式评估中间步骤,但需要标注或额外模型;Evidence Gain 用 policy 自身的 ICL 能力做隐式评价,不需要训练新的过程奖励器。
  • vs 长度/logprob/major vote 代理信号:这些信号只看表面统计或答案一致性,相关性明显低于 Evidence Gain。启发是:推理质量应通过“是否能迁移为示范”来衡量,而不是通过轨迹外观衡量。
  • 对后续 RLHF/RLVR 的启发:可以把 demonstration-conditioned rollout 当成一种通用 wrapper,接到代码、定理证明、科学问答等可验证任务上,用高质量示范缓解 correct-but-bad-reasoning 的问题。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Evidence Gain 的“示范效用”定义和隐式重加权推导都很有新意。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多个数学 benchmark、两个模型尺度、DAPO/GRPO 两个优化器和示范质量消融;但领域仍集中在数学。
  • 写作质量: ⭐⭐⭐⭐⭐ 动机、理论和实验闭环清楚,主张和证据对应得很好。
  • 价值: ⭐⭐⭐⭐⭐ 对 RLVR 训练非常实用,尤其适合想提升推理质量但不想训练 PRM 的场景。