Learn to Reason Efficiently with Adaptive Length-based Reward Shaping¶

会议: ICLR 2026
arXiv: 2505.15612
代码: hkust-nlp/Laser
领域: 强化学习 / 高效推理 / Large Reasoning Models
关键词: 长度奖励塑形、过度思考、RL、CoT 压缩、难度感知、动态目标长度

一句话总结¶

本文把各种"压缩长推理链"的 RL 方法统一进一个"长度奖励塑形"框架，并基于该视角提出阶跃式奖励 LASER 及其动态、难度感知版本 LASER-D，在 1.5B–32B 五个推理模型上同时提升准确率与 token 效率（AIME24 上 +5.3 准确率、-64% token）。

研究背景与动机¶

领域现状：DeepSeek-R1、Kimi-k1.5 等大推理模型（LRM）靠 RL 学会生成长 CoT 来解决复杂问题，但这些长输出往往充满冗余——对"1+1=?"这种小学题都能输出上千 token 反复"自我反思"，即所谓 over-thinking。近期最有效的压缩手段是 RL：在正确性奖励之外引入长度相关的惩罚/奖励，逼模型短而准。

现有痛点：作者把现有 RL 压缩方法分成三类，各有硬伤。Budget（预算式）给固定目标长度（如 L1、E1），但人工预算天生次优——对难题太紧、对易题太松；且大上下文窗口下目标分布稀疏，奖励震荡训练不稳。Adaptive（双模式切换）让模型自己决定"思不思考"（如 Thinkless、AutoThink），实践中却退化成"易题直接不思考、难题照样啰嗦"的极端模式。Full（全量压缩）追求所有难度上都更高效（如 ThinkPrune、Kimi-k1.5），但很难在压缩的同时还涨准确率，不少方法还得靠多阶段 SFT 拼凑。

核心矛盾：几乎没有方法能同时做到——在硬题（AIME）上砍掉 >50% token、且准确率不降反升、且单阶段训练不需要额外 SFT。最简单的"截断 baseline"（把上下文窗口砍小、超长当错）效率提升明显但对硬题伤害过大（AIME 准确率掉 4–9.7 点），因为它把"长但对"的探索和"错误"一样狠罚。

本文目标：沿 full-mode 路线，用简洁、单阶段、原理化的方法同时改善推理效率和准确率。核心 idea：① 统一视角——把截断及各种长度奖励纳入同一公式，看清各方法的本质差异；② 阶跃奖励 LASER——只奖励"短且对"，不惩罚"长但对"；③ 动态难度感知 LASER-D——目标长度随训练演化、按题目难度自动分配。

方法详解¶

整体框架¶

论文先用一个统一公式把所有 RL 长度压缩方法表达成"正确性项 + 长度项"的组合，从而暴露各方法在三个设计位（正确性项 C、控制变量 λ、长度奖励 S）上的取舍；在此框架下提出阶跃奖励 LASER，再叠加"动态 + 难度感知"两层升级成 LASER-D。整套训练用 GRPO 在线 RL、单阶段完成、无需额外 SFT。

flowchart LR
    A[统一奖励公式<br/>R = C + λ·S] --> B[LASER<br/>阶跃奖励: 短且对才加分]
    B --> C[动态: 目标长度随训练自适应]
    B --> D[难度感知: 按易/中/难分桶给不同目标长度]
    C --> E[LASER-D]
    D --> E
    E --> F[自动适配模块<br/>每 N 步用监控集搜目标长度 LA]

关键设计¶

1. 统一长度奖励公式：把所有方法摆到同一张桌子上。 作者定义塑形后的奖励 \(\hat{R}(x,y) = C(y) + \lambda(y)\cdot S(y)\)，其中 \(C(y)\) 是正确性项、\(S(y)\) 是长度奖励、\(\lambda(y)\) 是控制长度奖励何时生效的开关。这个公式的威力在于一眼区分各家路数：vanilla 截断是 \(C(y)=0\)、超长直接给负奖励 \(\rho\)（与错误同罚）；ThinkPrune 把固定目标长度 \(L_T\) 换成可迭代调整的 \(L_A\)；group-based（Efficient Reasoning、Kimi）用组内相对长度排名给奖励，但易引发"reward hacking"——模型对简单题生成极短答案骗奖励，训练准确率反降；budget-based（L1）用 \(-\alpha|L(y)-L_T|\) 惩罚偏离目标，缓解了 hacking 但在大窗口下奖励震荡。看清这些后，改进方向自然浮现。

2. LASER —— 阶跃奖励，只奖"短且对"不罚"长且对"。 截断 baseline 最大的问题是把"长但正确的探索"和"错误"一视同仁地狠罚，过度打压有益的长推理。LASER 改成阶跃式：长度奖励 \(S(y) = \alpha\cdot \mathbb{I}(L(y)\le L_T)\)，且令 \(\lambda(y)=\mathbb{I}(R)\)——只有答对时长度奖励才激活。同时把上下文窗口设得远大于目标长度（如 16384 vs 4096），让真正的截断几乎不发生。直觉上，LASER 与截断几乎一样，唯一区别是：不再砍掉长答案，而是给"不超过目标长度的正确答案"发一笔 bonus。系数取 \(\alpha=0.5\) 平衡正确性与长度，且对 \(\alpha\) 取值鲁棒。这一改让 LASER 成为首个在硬题 AIME24 上同时显著提升准确率和 token 效率的方法。

3. LASER-D 的动态化：目标长度随训练自动演化。 LASER 仍是固定目标长度，但模型推理行为在训练中不断变化，最优长度也该随之变。LASER-D 把 \(L_T\) 换成动态的 \(L_A\)，由一个自动适配模块驱动：从训练数据抽一个约 500 条的小监控集 \(D_M\)，每 \(N\) 步（如 20）重新搜一遍目标长度。搜法基于一个 Expected Correct Responses 指标 \(\text{ECR}_d(l) = P_{l,d}\cdot C_d\)，其中 \(P_{l,d}\) 是长度不超过 \(l\) 的 rollout 占比（经验覆盖率），\(C_d\) 是该难度判定所需的最少正确 rollout 数。对每个难度从下界 \(L_T\) 枚举到窗口上限，取满足 \(\text{ECR}_d\ge 1\) 的最小长度作为 \(L_A\)——即"至少能期望出一条完整正确答案"的最短长度：再短会害正确率，再长则冗余。监控只占额外约 3.5% 计算。

4. LASER-D 的难度感知：易题短、难题长的差异化目标。 作者主张长度奖励不该一刀切地鼓励所有题变短，而要 difficulty-aware。LASER-D 把每个 query 按 rollout batch 内的正确率分成易/中/难三桶（\(k\) 个 rollout 用 \(k/3\)、\(2k/3\) 两个阈值切分），三桶各自维护独立的目标长度 \(L_A\)。难度评估直接复用训练时的 rollout batch、实时进行，开销可忽略。最终易题被压到很短的目标长度、难题保留较大预算，从而实现"快慢思考"的组合：trivial 题直接给答案，硬题保留充分推理。整个机制全自动、无需任何手工调度。

实验关键数据¶

设置：五个 LRM（DeepSeek-R1-Distill-Qwen 1.5B/7B/32B、OpenReasoning-Nemotron-1.5B、DeepSeek-R1-Distill-Llama-8B），DeepScaleR 40K 数学数据，GRPO 在线 RL，\(\alpha=0.5\)。评测 MATH500 / AIME2024 / AMC2023 / OlympiadBench。

主实验表格（1.5B，准确率 % / 平均 token）¶

方法	AIME 准确率	AIME token	四项均值准确率	均值 token
Original	28.9	15956	56.9	10177
T8192（截断）	24.8	4465	55.3	2915
L1-Max-4096	20.0	1718	51.4	1245
AutoThink（adaptive）	34.6	9514	57.6	5581
LAPO（full）	29.3	8318	59.1	5581
LASER (LT=8192)	31.5	6589	60.2	4509
LASER-D (LT=4096)	34.2	5750	60.3	3520

LASER-D 在 AIME 上 34.2%（比原模型 +5.3）同时 token 减 64%；均值上 60.3% 准确率仅用 3520 token（原 10177）。adaptive 类（AutoThink/Thinkless）虽省 token，但 AIME 上仍耗约 1 万 token，难题压不动。

大模型 / 跨家族（7B & 32B）¶

模型/方法	AIME 准确率	AIME token	均值准确率	均值 token
7B Original	53.1	13414	73.3	8213
7B LASER	54.4	6320	73.6	4158
7B LASER-D	58.3 (+5.2)	5379	75.4	3315
32B Original	71.7	10335	80.9	—

7B 上 LASER-D AIME +5.2 且 token 从 13414 砍到 5379；32B 因训练集已饱和（>76%）准确率持平但 token 大降。

消融实验¶

消融项	结论
去掉 difficulty-aware	各 benchmark 准确率一致下降，证明按难度调目标长度是关键
系数 \(\alpha\) / 分桶阈值 / ECR 阈值	全部稳定、性能保持，框架对超参鲁棒

关键发现¶

LASER 是首个在 AIME24 上同时涨准确率、省 token 的方法；LASER-D 进一步刷新 full-mode 前沿。
RL 压缩产出的是真正"更简洁的推理模式"——冗余的"自我反思"显著减少，而非简单截断。
难度感知 + 动态目标长度是同时拿到"硬题大幅压缩 + 准确率提升"的核心。

亮点与洞察¶

统一视角的方法论价值：一个 \(\hat{R}=C+\lambda S\) 公式把截断、group-based、budget、LASER 全部装进去，直接暴露各方法"为什么不行"（如截断把长且对当错罚、group 易 hacking），改进点是被框架"推导"出来的而非拍脑袋。
阶跃奖励的极简优雅：从截断到 LASER 的关键改动只有一句话——"别砍长答案，改成给短答案发 bonus，且只在答对时发"，却换来质变。
全自动难度自适应：ECR≥1 的"最短可正确长度"判据物理意义清晰，配合实时 in-batch 难度估计，几乎零额外开销（+3.5%），不需要任何人工调度或多阶段拼接。

局限与展望¶

实验集中在数学推理（DeepScaleR），代码、科学、通用推理等域的迁移性未充分验证。
32B 上准确率提升受限，作者归因于训练集已接近饱和，需要更难更多样的数据才能体现 LASER-D 的进一步增益。
难度分桶用 rollout 正确率近似，对正确率极低/极高的题（信号稀疏）划分可能不稳；三桶粒度是否最优、能否连续化值得探索。
监控集大小、搜索间隔 \(I\)、更新频率 \(N\) 等仍是需要设定的工程超参，虽证明鲁棒但非完全无参。

评分¶

新颖性: ⭐⭐⭐⭐ 统一长度奖励框架 + 阶跃奖励 + 动态难度感知三连，框架视角有方法论贡献，单点创新（阶跃、ECR 判据）扎实但不颠覆。
实验充分度: ⭐⭐⭐⭐ 五模型 1.5B–32B、跨家族、四 benchmark、与三流派代表对比，消融覆盖难度感知与多超参鲁棒性，trade-off 曲线证据充分。
写作质量: ⭐⭐⭐⭐ 从截断 baseline 一步步推到统一框架再到 LASER-D，逻辑链清晰，Table 3 的公式可视化对照很到位。
价值: ⭐⭐⭐⭐ 单阶段、无需 SFT、全自动，开源 Models/Code/Data，对工业界做高效推理模型有直接落地价值。