Learning to Reason Efficiently with Discounted Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=R4GPttoDyn
代码: 待确认（基于 HuggingFace TRL + vLLM 实现）
领域: 强化学习 / 高效推理（LLM Reasoning）
关键词: 折扣强化学习, Blackwell 最优, 随机最短路, GRPO, 高效推理, RLVR

一句话总结¶

把 LLM 的可验证奖励推理建模成"有限时域随机最短路 MDP"，仅对推理 token 施加折扣因子 \(\gamma<1\)，用 Blackwell 最优性证明：只要 \(\gamma\) 足够接近 1，折扣最优策略会先最大化正确率、再在所有正确策略里挑最短轨迹——从而"无损精度地缩短思维链"。

研究背景与动机¶

领域现状：大推理模型（LRM）靠在最终答案前吐出大量中间推理 token 来解数学/代码题，RL 后训练（如 GRPO）能提精度，却往往把回答越训越长。

现有痛点：更长的思维链不是免费的——注意力是二次复杂度、KV cache 随长度膨胀，推理延迟和服务吞吐都受损。现有"高效推理"做法主要有三类：(i) 在策略优化里加 per-token 长度惩罚；(ii) 在变长/压缩轨迹上做 SFT；(iii) 用 prompt 直接要求模型简洁。这些方法多是工程启发式，缺乏"为什么能在不掉精度的前提下缩短"的原理性解释。

核心矛盾：学界对"长度 vs 精度"是否存在内在权衡争论不休，很多工作默认"缩短就要牺牲精度"。本文要正面挑战这个假设。

本文目标：训练出"既对又短"的 LRM——在不损失 Pass@1 精度的前提下尽量缩短回答。

核心 idea（折扣即最短路）：把推理建模成二值终止奖励的有限时域 MDP，每多吐一个推理 token 就是多走一步，正确终止就是到达目标。只要给正确性奖励乘上折扣 \(\gamma^{K(\tau)}\)（\(K\) 为推理 token 数），并让 \(\gamma\) 趋近 1，折扣目标就退化成随机最短路（SSP）准则：先最大化成功概率，再在成功者中最小化路径长度。这套"plain old discounting"等价于加一个小的 per-step 负奖励，却有 Blackwell 最优性做严格背书。

方法详解¶

整体框架¶

全文是"一套理论 + 一份训练配方"。理论侧：把 RLVR 推理写成 MDP \(M=(S,A,P,r,H,\gamma,\mu)\)，状态是 token 序列、动作是词表 token、eos 触发 verifier 给二值奖励；用对 \(\gamma\to 1\) 的 Taylor 展开揭示折扣目标里"精度项 + 长度项"的层级结构，再用 Blackwell 最优性证明折扣最优 = 最短路最优。配方侧：把"折扣"落到 GRPO 上，只折扣推理 token 的正确性奖励、配 KL 正则、对齐 token 预算，无需改动策略优化算法本身。

flowchart LR
    A[推理任务] --> B[建模为有限时域 MDP<br/>二值终止 verifier 奖励]
    B --> C["折扣目标 J_γ(π)<br/>对 γ=1 做 Taylor 展开"]
    C --> D["主项 = 成功概率 p(π)<br/>次项 ∝ 路径长度 L(π)"]
    D --> E[Blackwell 最优性<br/>γ→1 时折扣最优=最短路最优]
    E --> F["训练配方：GRPO + 折扣 R(τ)=γ^K(τ)·r_e + r_f<br/>仅折扣推理 token 的正确性奖励"]
    F --> G[既对又短的推理策略]

关键设计¶

1. 把 RLVR 推理写成"随机最短路"MDP，用 Taylor 展开拆出精度/长度层级。作者在 RLVR 假设（仅终止动作 aterm 给二值奖励 \(r(s,a_{term})=\mathbb{I}\{s\in G\}\)、其余动作奖励为 0）下，定义成功概率 \(p(\pi)=P_{\pi,\mu}(\text{success})\) 和条件成功路径长度 \(L(\pi)=E_{\pi,\mu}[\tau\mid\text{success}]\)。核心是 Lemma 3.5 的一致 Taylor 展开（令 \(\varepsilon=1-\gamma\)）：

\[J_\gamma(\pi)=E_{\pi,\mu}[\gamma^{\tau-1}\mathbb{1}\{\text{success}\}]=p(\pi)\big(1-\varepsilon(L(\pi)-1)\big)+R_\pi(\varepsilon),\quad |R_\pi(\varepsilon)|\le C_H\varepsilon^2\]

其中 \(C_H=\tfrac12(H-1)(H-2)\)。这一步是全文的"解释器"：当 \(\gamma\uparrow 1\)，主项就是成功概率 \(p(\pi)\)（即 Pass@1 精度），次项 \(-\varepsilon\,p(\pi)(L(\pi)-1)\) 才用长度来给同样成功的策略打破平局。于是"最大化折扣回报"在近 \(\gamma=1\) 区间就精确实现了 SSP 目标"先最大化成功、再最小化步数"。

2. 用 Blackwell 最优性证明"折扣最优 = 最短路最优"，并保证受限策略类里它存在。论文用比常规更强的 Blackwell 最优（对所有足够接近 1 的 \(\gamma\) 都最优）来形式化"既对又短"。Theorem 3.6 给出主结论：在二值终止 verifier MDP 下，每个 Blackwell 最优策略都是最短路策略，即

\[\Pi^\star_{bw}\subseteq\arg\min_{\pi\in\Pi_{\max p}}L(\pi),\qquad \Pi_{\max p}=\arg\max_{\pi\in\Pi}p(\pi).\]

证明直觉来自把 \(J_\gamma(\pi^\star)-J_\gamma(\pi)\) 展开：若某 \(\pi\) 的成功概率更高，主项会让 \(\gamma\) 足够接近 1 时折扣值反超，与 Blackwell 最优矛盾，故 \(\pi^\star\) 必是精度最大者；在同精度策略中主项抵消，\(\gamma\to 1\) 又逼出最短长度。关键还在于 Theorem 3.8 证明：对有限受限策略类 \(\Pi\)，存在 \(\gamma'<1\) 使 \((\gamma',1)\) 上的折扣最优集恒定且等于 Blackwell 最优集——这点很重要，因为 softmax/greedy 部署得到的就是有限确定性策略类。Proposition 3.1 用一个三策略反例说明：\(\gamma\) 若离 1 不够近，反而可能偏好"更短但更不准"的策略，所以 Blackwell 视角不可或缺。

3. 实例相关的 Blackwell 折扣因子 \(\gamma_{bw}\)，给出"\(\gamma\) 该取多接近 1"的判据。作者引入 \(\gamma_{bw}:=\inf\{\gamma:\Pi^\star_{\gamma'}=\Pi^\star_{bw}\ \forall\gamma'\in(\gamma,1)\}\)，并证明（Lemma 3.10）它存在且 \(<1\)。\(\gamma_{bw}\) 衡量"折扣要多接近 1 才能可靠实现 SSP 打破平局而不牺牲精度"——越接近 1 说明 \(\Pi\) 里最优 SSP 行为与近似平局的间隔越小、越难调。由于每个推理实例都诱导一个有限时域 MDP，对任意有限实例集 \(\{M_i\}\) 可取统一临界折扣 \(\gamma_{crit}=\max_i\gamma_{bw}(M_i,\Pi)<1\)，从而存在一个 \(\gamma\) 同时对整族实例保持 SSP 最优。Lemma 3.11 进一步保证 Blackwell 最优策略在无折扣问题上也最优，闭合了"折扣训练 ↔ 无损精度"的逻辑。

4. 落地训练配方：折扣化 GRPO，只折扣推理 token 的正确性奖励。由于正确性与格式信号都在轨迹末端计算，作者用序列级回报。设 \(m_t\in\{0,1\}\) 标记 token \(t\) 是否落在推理 span，推理 token 数 \(K(\tau)=\sum_t m_t\)，正确性奖励 \(r_e(\tau)\)、格式/塑形奖励 \(r_f(\tau)\)，则折扣回报为

\[R(\tau)=\gamma^{K(\tau)}r_e(\tau)+r_f(\tau),\]

优化目标 \(E_{S_1\sim\mu,\tau\sim\pi}[R(\tau)]-\beta\,\mathrm{KL}(\pi\,\|\,\pi')\)。四条工程原则支撑它：(i) 只折扣外在正确性奖励，内在格式奖励不折扣——否则模型会为了短而丢格式标签或把长整数尾零删掉，实测全程折扣会让 GSM8K 掉 0.5%–1.0%；(ii) KL 正则锚到滑动参考策略，每 \(u\) 步执行 \(\pi_{ref}\leftarrow\text{stop\_grad}(\pi)\)，像信任域一样防止策略过快坍缩成"提前停、忘了推理"；(iii) 只折扣推理 token，用 <reasoning>...</reasoning> 标签界定 span，格式与答案 token 的 \(m_t=0\)；(iv) 对齐 token 预算，因折扣化轨迹更短、同样 epoch 见的样本更少，故增加折扣方法的 rollout 数使总 token 量可比，保证公平对照。该配方对策略优化算法无侵入——REINFORCE/RLOO/GRPO 都能直接套，本文用 GRPO。

实验关键数据¶

主实验（GSM8K / MATH，Qwen2.5-7B & Llama3-8B）¶

数据集	模型	无折扣 Pass@1	无折扣长度	折扣 Pass@1	折扣长度
GSM8K	Qwen2.5-7B-Instruct	91.06	217.60	91.07	170.08（−22%）
GSM8K	Llama3-8B-Instruct	80.87	125.43	81.07	108.67（−13%）
MATH	Qwen2.5-7B-Instruct	64.80	491.32	64.55	384.96（−22%）
MATH	Llama3-8B-Instruct	24.48	328.43	24.75	257.73（−22%）

3 训练种子 × 10 评测种子平均，评测种子在两种方法间固定做配对比较。精度变化均不显著，长度显著缩短，印证 Theorem 3.6 的"定成功率下走最短路"。

泛化实验（DeepScaleR 训练，跨数据集评测，Phi-4 & Qwen2.5-14B）¶

模型	数据集	无折扣 Pass@1	无折扣长度	折扣 Pass@1	折扣长度
Phi-4	AMC 2023	51.00	1134.30	61.00	716.29
Phi-4	AIME 2025	14.00	1263.87	19.33	800.09
Phi-4	MINERVA	28.46	553.74	29.85	318.10
Phi-4	OLYMPIAD	36.91	1059.92	35.67	707.64
Qwen2.5-14B	AMC 2023	50.00	737.47	59.50	582.31
Qwen2.5-14B	OLYMPIAD	35.13	797.57	34.76	684.02

训练集（DeepScaleR）不含 OLYMPIAD/MINERVA/AIME2025 题目，仍能跨集缩短长度且部分精度反升（Phi-4 在 AMC/AIME 上既更准又更短）。

消融 / 折扣因子扫描¶

\(\gamma\) 扫描（Qwen3-1.7B / GSM8K）：随 \(1-\gamma\) 增大，长度单调下降但精度先稳后掉——与理论一致，\(\gamma\) 越接近 1 越先保精度，过激折扣会把概率推向"短但错"的轨迹。
折扣范围消融：折扣整条回答（含格式 token）会掉 0.5%–1.0% 精度，证明"只折扣推理 token"这一设计的必要性。
\(\gamma\) 选取：用二分搜索取"在不掉训练精度前提下尽量远离 1"的 \(\gamma\)；KL 更新频率与 \(\beta\) 先在无折扣模型上调到最优再原样套用。

关键发现¶

折扣几乎不动 Pass@1，却能砍掉 13%–37% 长度，在 4 种模型 × 6 个数学基准上一致成立。
长度与精度并非天生冲突——存在一个实例相关阈值，阈值之上缩短无损精度，跌破才开始掉。
较大模型在分布外数据集上甚至"又对又短"，暗示压缩推理可能利于泛化。

亮点与洞察¶

用最古老的 RL 工具解释最新现象：把"discounting"这件 RL 教科书里的小事，借 Blackwell 最优性 + Taylor 展开，证成"无损精度缩短思维链"的原理，统一解释了一票启发式长度惩罚方法。
理论与实践少见地对齐：Theorem 3.6 的"先精度后长度"预测，在 4 模型 6 基准上几乎逐条复现，且给出了实例相关的 \(\gamma_{crit}\) 选取判据。
配方极简、零侵入：不改策略优化算法，只把正确性奖励乘 \(\gamma^{K(\tau)}\) 并加 token 掩码，任意 REINFORCE 类算法都能直接用。
澄清长度争论：正面回应"长度 vs 精度是否权衡"，给出"阈值之内无权衡、阈值之外才有"的清晰结论。

局限与展望¶

理论限定在有限受限策略类：Blackwell 存在性结论依赖 \(|\Pi|<\infty\)（softmax→greedy 部署类），对连续/无限策略类的保证有限；\(\gamma_{bw}\) 虽存在但实践中不可直接计算，只能靠二分搜索近似。
仅验证数学推理 + 二值 verifier：RLVR 假设要求确定性二值终止奖励，代码、开放域、过程奖励（非二值/带塑形）等场景能否照搬尚未验证。
公平对照靠手工对齐预算：折扣方法样本更短，需人工调 rollout 数对齐总 token，存在调参负担。
展望：(i) 探究压缩推理是否提升泛化（呼应 Hutter 的"压缩=泛化"）；(ii) 把"长推理找路 + 短推理压缩"结合，先长链探索策略再蒸馏压缩，或得更强推理策略。

评分¶

新颖性: ⭐⭐⭐⭐ — 用 Blackwell 最优性把"折扣 = 无损缩短推理"讲透，视角新且统一了一批启发式方法，但底层工具是经典 RL 理论的迁移。
实验充分度: ⭐⭐⭐⭐ — 4 模型 × 6 数学基准、多训练/评测种子配对、\(\gamma\) 扫描与折扣范围消融齐备；但仅限数学 + 二值 verifier，缺代码/开放域验证。
写作质量: ⭐⭐⭐⭐ — 理论roadmap清晰、定理与配方一一对应、动机反例直观，符号略密但可读。
价值: ⭐⭐⭐⭐ — 给"高效推理"提供原理性背书 + 零侵入可落地配方，对学界（长度争论）和工业界（降推理成本）都有直接用处。