RL for Reasoning by Adaptively Revealing Rationales¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=wdbgTG5kib
领域: LLM推理 / 强化学习
关键词: 课程学习, 部分监督, GRPO, 推理链, 自适应回溯

一句话总结¶

本文提出 AdaBack（自适应回溯）：在 RL 训练中按样本动态揭示目标推理链的一段前缀作为提示，并用奖励反馈对"揭示比例"做随机二分搜索，让模型从"补最后一步"逐步过渡到"从零生成全链"，从而在 SFT 和标准 RL 都学不会的稀疏奖励任务上学到全新的推理能力。

研究背景与动机¶

领域现状：让大模型学会长链推理（chain-of-thought）主要有两条路。一是 SFT，直接用专家给出的完整推理轨迹做监督学习；二是 RL（STaR / PPO / GRPO 等），只用一个可验证的奖励（如最终答案对不对）让模型自己探索出推理路径。

现有痛点：两条路在长链推理上都会失效。SFT 需要海量高质量推理轨迹，对数学这类专业领域代价极高；RL 则被探索难题卡死——推理链越长，合法输出序列空间随长度指数爆炸，而奖励稀疏且常常是二值的，随机采到一条正确解的概率随序列长度指数衰减。结果是标准 RL 基本只会强化预训练模型本来就有较高概率的路径（Havrilla、Yue 等的实证都支持这一点），很难真正学到新能力。

核心矛盾：稠密示范（SFT）和零示范（RL）之间存在一段被忽视的中间地带——部分监督。一个需要 \(n\) 个连续步骤都做对才成功的任务，若每步正确率为常数 \(p\)，整条链一次做对的概率只有 \(p^n\)，正反馈平均每 \(p^{-n}\) 次才出现一次；但若先把前面步骤都"喂"给模型、只让它补最后一步，正反馈概率立刻回到 \(\Theta(p)\)。

本文目标：能否用"自适应的部分监督"把一个成功率 \(p^n\) 的搜索，拆成 \(n\) 个成功率各为 \(\Theta(p)\) 的简单子搜索，从而让模型学到原本指数级不可能采到的解？

切入角度：作者从一个朴素观察出发——揭示目标解的前缀越多，剩下要生成的部分越短、越容易拿到奖励；那么只要随着模型变强逐步减少揭示的前缀，就能始终维持稠密的正反馈，把长链拆成可学的小步。难点在于：不同样本难度不一，统一的揭示比例既浪费又不公平，必须逐样本、由模型当前表现自动驱动。

核心 idea：用"按样本自适应揭示目标前缀比例"取代固定的人工课程表，奖励高就少给提示、奖励低就多给提示，本质是对揭示比例做一次以奖励为成功信号的随机二分搜索。

方法详解¶

整体框架¶

AdaBack 嫁接在 GRPO 这类"每个样本采多条 rollout、用平均奖励估计难度"的 RL 框架之上。给定问题 \(X^{(i)}\) 和它的目标推理链 \(Y^{(i)}=(Y_1,\dots,Y_{m_i})\)，每个训练步先为该样本采一个揭示比例 \(\rho^{(i)}_t\)，揭示前 \(k=\lfloor \rho^{(i)}_t\cdot m_i\rfloor\) 个 token 作为提示，模型在"问题 + 已揭示前缀"的条件下续写剩余部分 \(\hat Y^{(i)}_{k+1:}\sim P_\theta(\cdot\mid X^{(i)}, Y^{(i)}_{1:k})\)。多条 rollout 的平均奖励 \(r^{(i)}_t\) 与阈值 \(\tau\) 比较，据此收缩该样本的揭示比例区间 \([\rho^{(i)}_{\min},\rho^{(i)}_{\max}]\)，下一轮再从更新后的区间里采新的 \(\rho\)。整个过程对每个样本独立维护一条"从全监督走向全生成"的轨迹，无需任何全局课程阶段或人工调度。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["问题 X + 目标链 Y"] --> B["前缀部分监督<br/>采 ρ，揭示前 k=⌊ρ·m⌋ 个 token"]
    B --> C["模型在 X+前缀 上续写剩余部分<br/>GRPO 多条 rollout"]
    C --> D["计算平均奖励 r"]
    D -->|"r ≥ τ：表现好，减提示"| E["逐样本自适应更新<br/>ρmax←ρ, ρmin←0"]
    D -->|"r < τ：表现差，加提示"| F["逐样本自适应更新<br/>ρmin←ρ"]
    E --> G["从更新后的 [ρmin,ρmax] 采下一轮 ρ<br/>含冷启动与训练-测试对齐"]
    F --> G
    G --> B

关键设计¶

1. 前缀部分监督：把长链拆成可拿到奖励的短续写

针对的痛点是标准 RL 在长链上"采不到正确解、拿不到奖励"。AdaBack 不让模型从零生成整条链，而是从数据集里直接揭示目标解的前 \(k\) 个 token（\(k=\lfloor\rho\cdot m\rfloor\)），让模型条件于一段已知正确的前缀去续写后半段。这样剩余要生成的长度可控，正反馈概率从整链的 \(\approx 2^{-L}\)（合成 parity 任务里）拉回到 \(\Theta(p)\)。关键在于"揭示的是真实正确前缀"——它既是脚手架又是探索的锚点：模型只需在一个已知可达的局部解附近探索最后几步，而不是在指数大的全空间里盲找。随着 \(\rho\) 从 1 逐步降到 0，模型被引导着从"补最后一步"过渡到"完成更长片段"直到"从零生成全链"，整条推理链被等价地拆成一串成功率各约 \(\Theta(p)\) 的子搜索。

2. 逐样本自适应更新规则：以奖励为信号对揭示比例做随机二分搜索

针对的痛点是不同样本难度差异巨大，统一或人工设计的课程表既低效又需反复调参。AdaBack 为每个样本 \(i\) 维护一个揭示比例区间 \([\rho^{(i)}_{\min},\rho^{(i)}_{\max}]\)（初始 \([0,1]\)），每轮从中均匀采 \(\rho^{(i)}_t\sim U(\rho^{(i)}_{\min},\rho^{(i)}_{\max})\)。拿到平均奖励 \(r^{(i)}_t\) 后按固定阈值 \(\tau\) 更新区间：

\[\text{若 } r^{(i)}_t<\tau:\ \rho^{(i)}_{\min}\leftarrow\rho^{(i)}_t;\qquad \text{若 } r^{(i)}_t\ge\tau:\ \rho^{(i)}_{\max}\leftarrow\rho^{(i)}_t,\ \rho^{(i)}_{\min}\leftarrow 0\]

直觉很直接：表现好（\(r\ge\tau\)）就把上界压低、少给提示，把任务变难；表现差（\(r<\tau\)）就抬高下界、多给提示，保证还能拿到有用奖励。这本质是对"在维持足够奖励的前提下尽量少揭示"这一目标做的随机二分搜索，\(\tau\) 是唯一需要设的超参（论文称训练对它不敏感）。相比 R3 那种"在所有空白处切片、对所有片段统一施加 RL"的非自适应做法，逐样本调度让每个训练点都"准备好了才前进"，既不浪费容易样本的算力，也不会让困难样本一直采不到奖励。

3. 冷启动与训练-测试对齐：让无历史样本和最终部署都不掉链子

针对两个工程性裂缝。其一是冷启动：刚进入训练、还没有奖励历史的样本无从估计难度，AdaBack 用全局移动平均 \(\bar\rho_{\min}\)、\(\bar\rho_{\max}\)（用指数移动平均持续更新）来初始化它们的 \(\rho^{(i)}\)，相当于借"同批样本的平均难度"给新样本一个合理起点。其二是训练-测试分布失配：训练时模型总能看到一段真实前缀，但测试时要从零生成，若不处理就会出现"训练靠提示、测试裸奔"的落差。为此 AdaBack 以一个小概率把揭示比例直接置零，强制部分样本在训练中也体验"无提示从零生成"，把训练行为往测试行为上拉近。这两点虽不改变核心更新规则，却是让自适应课程在真实数据上稳定收敛的必要补丁。

实验关键数据¶

合成任务：Chain-of-Parities 的分离结果¶

作者构造了一个链式奇偶（chain-of-parities）合成任务：给定二进制输入 \(X\in\{0,1\}^L\)，要生成 \(Y_1,Z_1,\dots,Y_L,Z_L\)，其中 \(Y_i\) 任意、\(Z_i=Z_{i-1}\oplus Y_i\oplus X_i\)。每个 \(Z_i\) 都依赖前一步，早错则全错，随机生成一条合法输出的概率仅 \(2^{-L}\)，是稀疏奖励的理想缩影。在 \(L=16\)、\(n=1024\)、Llama 3.2 1B 上：

方法	是否学会该任务	说明
SFT	✗	小样本下连"弱学习"degree-3 parity 都达不到（SQ 样本复杂度 \(\Omega(L^{k-1})\)）
标准 RL	✗	奖励稀疏，奖励长期停在 0.1（只保住格式）
SFT + RL	✗	SFT 没提供弱学习，RL 仍随机探索，奖励指数稀疏
R3	部分	1.6 万+ 迭代后测试奖励仅约 0.8，非自适应切片效率低
AdaBack	✓	<700 迭代即学会，揭示比例随训练自然下降

这给出一个清晰的分离结果：存在一类任务 SFT、RL 及其朴素组合都学不会，而 AdaBack 能可靠学会。

主实验：三个数学推理基准 + 两个泛化变体¶

在 DeepScaleR、MATH、GSM8k 以及作者新造的 Base-7 GSM8k（数字改用 7 进制、制造预训练没见过的符号偏移）和 Tensor-2 GSM8k（拼接两道题、加长推理链）上，用 Llama-3 1B/3B base 模型、GRPO 训练，对比四种配置的最终测试准确率：

方法	DeepScaleR 1B/3B	MATH 1B/3B	GSM8k 1B/3B	Base-7 1B/3B	Tensor-2 1B/3B
Base+RL	6.8 / 6.6	6.4 / 15.0	7.9 / 63.7	4.8 / 4.9	0.0 / 0.0
SFT+RL	7.1 / 9.1	7.4 / 17.7	36.7 / 72.7	14.4 / 45.4	6.9 / 42.7
AdaBack	9.0 / 10.6	9.1 / 19.1	39.2 / 73.3	18.4 / 43.9	8.5 / 49.2
SFT+AdaBack	9.5 / 12.5	9.5 / 19.9	43.2 / 70.7	24.5 / 49.9	11.3 / 42.2

AdaBack 在多数设置上稳定优于 GRPO 和 SFT+GRPO，越是"出预训练分布"的任务（如 Base-7、Tensor-2）优势越明显。一个有意思的现象：直接在 base 模型上跑 AdaBack 常能追平甚至超过先 SFT 再 RL 的标准管线（Tensor-2 1B 上 AdaBack-base 9.0% 反超 SFT+AdaBack 11.3%? 这里 base 8.5 vs SFT 11.3，但 base AdaBack 8.5 高于 SFT+RL 6.9），暗示 SFT 初始化有时会过早收窄搜索空间、反而限制探索。

关键发现¶

AdaBack 确实扩展了解空间，而非只重加权：用 pass@k 评估，AdaBack 在 base 和 SFT 模型上都显著高于标准 RL，尤其在大 \(k\) 处差距更大；这反驳了 Yue 等"RL 只是重加权已有分布、不增加推理能力"的论断——AdaBack 在 base 覆盖率很低时仍能抬高 pass@k，说明它发现了新的解模式。
什么时候 AdaBack 不起作用：当数据集对模型太简单（如 Llama 3.2 3B-Instruct 在 MATH 上、Qwen2.5-1.5B 在 GSM8k 上）、RL 几百步内就达到接近满分训练奖励时，AdaBack 没有额外收益。它的价值集中在"稀疏奖励或符号失配制造了真实学习壁垒"的场景。
vs R3 的难度趋势：在难度递增的 GSM8k < MATH < DeepScaleR 上，越难 AdaBack 越占优（DeepScaleR 上 1B/3B 都赢、MATH 上 1B 赢）；但在 GSM8k 上略逊 R3——因为 GSM8k 的步骤能用换行干净切分，按"真实推理步"切（R3）比按随机点切（AdaBack）更准，而 MATH/DeepScaleR 的长 LaTeX 块让 R3 的启发式切分变脆，AdaBack 用奖励驱动免去了切分超参的优势就显现了。

亮点与洞察¶

把"课程设计"从人工启发式变成奖励驱动的二分搜索：传统课程学习要手工定阶段、调每阶段训多久、何时升级；AdaBack 只留一个阈值 \(\tau\)，让每个样本自己沿揭示比例做随机二分搜索，工程上极简且对 \(\tau\) 不敏感——这个"用现成的 GRPO 平均奖励当难度估计器"的复用很巧妙。
部分监督是一个被忽视的连续谱：论文最"啊哈"的点是把 SFT（揭示比例 1）和 RL（揭示比例 0）统一进同一根坐标轴，揭示比例 \(\rho\) 连续地在两者间滑动，让"中间地带"成为一个可优化的量。
逐样本自适应可迁移：这种"按样本表现动态调监督强度"的思路不限于前缀揭示，凡是能为样本估出一个成功信号的结构化生成任务（代码、定理证明、规划），都能套用同一根二分搜索骨架。

局限与展望¶

作者承认的局限：对 instruct-tuned 模型、或预训练已充分覆盖任务类型的低不确定性场景，AdaBack 与标准 RL 一样几乎没有增益——它只在探索本身是瓶颈时才有用。
依赖真实目标链：AdaBack 揭示的是数据集里的 ground-truth 前缀，因此仍需要带正确推理轨迹的数据；对完全没有参考解、只有最终答案验证器的任务如何揭示前缀，论文未给出方案。
随机切点 vs 语义切点：在能干净分步的任务（GSM8k）上，按随机 token 位置切前缀不如按真实推理步切（R3）；一个自然的改进是把奖励驱动的自适应揭示与"语义边界感知的切分"结合，兼得两者之长。
指标自洽提醒：正文关于"base 反超 SFT"的个别表述需对照 Table 1 谨慎解读，不同任务/规模下趋势并不完全一致，⚠️ 具体数值以原文表格为准。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 SFT 与 RL 统一进"揭示比例"连续谱，并给出逐样本自适应的二分搜索课程，视角新颖
实验充分度: ⭐⭐⭐⭐ 合成分离结果 + 三基准 + 两泛化变体 + pass@k + R3 对比都覆盖，但多为 1B/3B 小模型
写作质量: ⭐⭐⭐⭐ 动机的 \(p^n\to n\cdot\Theta(p)\) 论证清晰，合成任务设计有说服力
价值: ⭐⭐⭐⭐ 为稀疏奖励长链推理提供了简单可落地的中间方案，并诚实标出失效边界