LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?¶
会议: ACL 2026
arXiv: 2510.07962
代码: https://github.com/HKUDS/LightReasoner
领域: 模型压缩 / LLM 推理 / 高效微调
关键词: 小模型教师, 推理蒸馏, KL散度, 选择性微调, LoRA
一句话总结¶
LightReasoner 用较弱的 Amateur 模型和较强的 Expert 模型之间的 token 分布差异来自动找出高价值推理步骤,再只对这些步骤做对比式自蒸馏,使数学推理模型在接近或超过 SFT 的同时显著减少采样、训练时间和调参 token。
研究背景与动机¶
领域现状:提升 LLM 数学推理能力的常见路线是 rejection-sampling SFT:先让模型生成多条推理轨迹,用答案或验证器筛出正确轨迹,再把整条轨迹作为监督数据进行微调。这类方法直接、有效,也和 Chain-of-Thought、RFT 等推理增强范式相容。
现有痛点:rejection SFT 的代价非常高。它需要完整生成候选解、用 ground truth 或外部验证器筛选,还会把整条推理链上的所有 token 一视同仁地优化。论文指出,很多 token 只是常规连接词或低信息量步骤,真正决定推理成败的往往是少数关键转折点,因此全轨迹训练会把计算资源浪费在低回报 token 上。
核心矛盾:强模型已经具备一部分潜在推理能力,但现有训练信号往往依赖外部答案或人工构造数据;另一方面,弱模型虽然能力不足,却能在同一前缀下暴露出“哪里会走偏”。本文的核心矛盾是:如何不用标签、不完整生成轨迹,也能识别强模型相对于弱模型真正有优势的推理时刻。
本文目标:作者希望构造一种 verifier-free 的推理增强框架,自动定位高价值 token,只在这些 token 上训练 Expert,并让训练信号不仅是 Expert 自己的 one-hot 输出,而是体现 Expert 相对 Amateur 的优势分布。
切入角度:作者观察 Expert 和 Amateur 在同一 prefix 下的 next-token 分布。如果两者高度一致,该 token 大概率只是常规步骤;如果 KL 散度突然升高,则可能对应算术操作、逻辑转折或中间结论等关键推理点。论文还给出统计:约 60% token 的 KL 落在 \([0.0, 0.1)\),只有约 20% token 超过 0.4;当 Expert 和 Amateur top-1 不一致时,平均 KL 为 1.99,而 top-1 一致时为 0.166。
核心 idea:用 Expert-Amateur 分布差异替代人工标签和全轨迹 SFT,把弱模型变成“反面参照物”,只蒸馏 Expert 相对 Amateur 最明显的推理优势。
方法详解¶
LightReasoner 可以理解为一种面向推理模型的选择性自蒸馏。它不让小模型直接给大模型生成答案,也不是在推理时做双模型对比解码,而是在训练数据构造阶段比较两者的 token 分布,并把高差异步骤转化为 soft supervision。
整体框架¶
输入是一批推理问题,论文主实验使用 GSM8K 训练集生成监督样本。对于每个问题,Expert 模型先按 CoT 方式生成短前缀推理轨迹,采样 rollout 长度限制为 128 token。对轨迹上的每个 prefix \(s_t\),同时计算 Expert 分布 \(\pi_E(\cdot\mid s_t)\) 和 Amateur 分布 \(\pi_A(\cdot\mid s_t)\)。
第一阶段是采样和筛选:如果 \(D_{KL}(\pi_E\|\pi_A)>\beta\),该步骤被认为是 informative step。第二阶段是构造对比监督:在 Expert 高置信 token 的 mask 支撑集上计算 \(\log \pi_E(a\mid s_t) / \pi_A(a\mid s_t)\),再归一化成 soft target \(v_C\)。第三阶段是微调:用 LoRA 训练同一个 Expert,使它的输出分布靠近 \(v_C\),从而强化 Expert 已经比 Amateur 做得好的推理决策。
关键设计¶
-
KL 驱动的信息步骤筛选:
- 功能:从完整推理轨迹中筛出少数高价值 token,避免把训练预算平均花在所有 token 上。
- 核心思路:在同一 prefix 下比较 \(D_{KL}(\pi_E(\cdot\mid s_t)\|\pi_A(\cdot\mid s_t))\),主实验使用 \(\beta=0.4\) 作为筛选阈值。KL 越大,表示 Expert 和 Amateur 在下一步选择上差异越明显。
- 设计动机:推理错误常发生在算术、符号转换或逻辑跳转等瓶颈步骤。用 Expert-Amateur 分歧作为代理信号,比用固定前缀长度或人工规则更贴近每条轨迹的实际难点。
-
对比式分布监督:
- 功能:把“Expert 比 Amateur 强在哪里”转成训练标签,而不是简单复制 Expert 自己生成的 token。
- 核心思路:先用 \(\alpha=0.2\) 过滤 Expert 低概率尾部 token,保留 \(\pi_E(a\mid s_t) \geq \alpha \max_b \pi_E(b\mid s_t)\) 的 token;再计算对比得分 \(v'_C(a\mid s_t)=\log \pi_E(a\mid s_t)/\pi_A(a\mid s_t)\),softmax 后得到 \(v_C\)。
- 设计动机:one-hot 监督会丢掉分布信息,且容易把 Expert 的偶然输出当作唯一真相。对比 soft label 更强调 Expert 相对 Amateur 的优势 margin,也能弱化低置信噪声。
-
短 rollout 与 LoRA 自蒸馏:
- 功能:让监督构造和微调都保持低成本,并降低后期推理错误级联带来的假阳性。
- 核心思路:采样只保留前 128 token,Expert 使用 LoRA 训练 1000 steps,每步 16 个对比监督样本;损失为 \(D_{KL}(v_C\|\pi_E)\),等价于对 soft target 的 cross-entropy。
- 设计动机:论文认为早期推理步骤更稳定,后续完整答案更容易受到错误级联影响。短 rollout 加选择性 token 训练,使 LightReasoner 相比 rejection SFT 同时减少采样和调参 token。
损失函数 / 训练策略¶
训练目标是让 Expert 输出分布匹配对比监督 \(v_C\):\(\mathcal{L}(s_t)=D_{KL}(v_C(\cdot\mid s_t)\|\pi_E(\cdot\mid s_t))\)。由于 \(v_C\) 对当前训练参数是常量,该目标等价于 \(-\sum_a v_C(a\mid s_t)\log\pi_E(a\mid s_t)\)。实验中 Expert 包括 Qwen2.5-Math-1.5B/7B、Instruct 版本和 DeepSeek-R1-Distill-Qwen-1.5B,Amateur 固定为 Qwen2.5-0.5B。
实验关键数据¶
主实验¶
主结果使用 zero-shot pass@1 或文中说明的对应评估设置,覆盖 7 个数学推理基准。下表摘取 AVG 和若干代表性模型,说明 LightReasoner 在多数模型上能超过或接近 rejection SFT。
| Expert 模型 | 方法 | GSM8K | MATH | SVAMP | ASDiv | MMLU STEM | AVG |
|---|---|---|---|---|---|---|---|
| Qwen2.5-Math-1.5B | Baseline | 42.5 | 34.2 | 68.8 | 68.1 | 49.8 | 42.4 |
| Qwen2.5-Math-1.5B | SFT | 69.2 | 57.1 | 64.1 | 70.2 | 47.7 | 50.1 |
| Qwen2.5-Math-1.5B | LightR | 70.6 | 59.3 | 76.0 | 79.8 | 54.9 | 54.2 |
| DeepSeek-R1-Distill-Qwen-1.5B | Baseline | 75.2 | 54.2 | 79.9 | 84.9 | 22.3 | 50.3 |
| DeepSeek-R1-Distill-Qwen-1.5B | SFT | 78.2 | 60.3 | 81.5 | 87.4 | 26.2 | 53.3 |
| DeepSeek-R1-Distill-Qwen-1.5B | LightR | 79.5 | 60.2 | 83.5 | 87.5 | 26.2 | 55.9 |
| Qwen2.5-Math-7B | Baseline | 57.5 | 51.8 | 67.9 | 72.7 | 69.8 | 50.0 |
| Qwen2.5-Math-7B | SFT | 64.4 | 63.3 | 76.2 | 76.6 | 68.5 | 54.5 |
| Qwen2.5-Math-7B | LightR | 67.9 | 57.8 | 77.2 | 80.6 | 70.5 | 54.7 |
消融实验¶
论文的消融在 Qwen2.5-Math-1.5B 上逐步移除 step selection 和 contrastive supervision。完整 LightReasoner 平均 54.0,高于 rejection SFT 的 50.6;去掉 contrast 后平均降到 44.8,说明对比监督比单纯筛 token 更关键。
| 配置 | GSM8K | MATH | SVAMP | ASDiv | Minerva Math | Olympiad Bench | AVG |
|---|---|---|---|---|---|---|---|
| Baseline | 42.5 | 34.2 | 68.8 | 68.1 | 9.9 | 23.7 | 41.2 |
| Rejection SFT | 69.2 | 57.1 | 64.1 | 70.2 | 15.1 | 27.6 | 50.6 |
| GT Supervision | 43.4 | 34.8 | 70.4 | 69.7 | 10.2 | 19.8 | 41.4 |
| Full LightReasoner | 70.6 | 59.3 | 76.0 | 79.8 | 11.4 | 27.1 | 54.0 |
| 无 step selection, 有 contrast | 67.6 | 58.8 | 78.7 | 80.5 | 11.0 | 26.4 | 53.8 |
| 有 step selection, 无 contrast | 62.0 | 53.1 | 56.6 | 61.0 | 10.7 | 25.5 | 44.8 |
| 二者都移除 | 55.5 | 50.2 | 50.0 | 65.4 | 10.4 | 24.0 | 42.6 |
关键发现¶
- 效率表显示,Qwen2.5-Math-1.5B 上 SFT 需要 4.0h、3952 个问题和 1.77M tuned tokens,而 LightReasoner 只需要 0.5h、1000 个问题和 0.02M tuned tokens,平均增益反而从 +7.7% 提高到 +11.8%。
- Qwen2.5-Math-7B 上,SFT 为 9.5h、6029 个问题、2.20M tokens,LightReasoner 为 0.75h、1000 个问题、0.02M tokens,平均增益相近或略高。
- 整体口径上,论文报告最多 28.1% 的准确率提升,同时节省约 90% 时间、80% sampled problems 和 99% tuned tokens。
- 机制分析表明,Expert-Amateur 能力差越合适,对比信号越有效;若 Amateur 接近或强于 Expert,收益会减弱甚至退化。
亮点与洞察¶
- LightReasoner 的巧妙之处在于把“弱模型”从传统蒸馏中的学生,反转成识别强模型优势的参照物。它不是让小模型教大模型答案,而是让小模型暴露自己不会的地方,从而提醒大模型哪些 token 最值得强化。
- 方法把 contrastive decoding 的思想从推理时搬到训练时。这样保留了 Expert-Amateur 对比的优势,同时避免了每次推理都运行两套模型带来的延迟和显存开销。
- 选择性 token 训练的证据比较充分:KL 分布、top-1 分歧、消融表和效率表都指向同一个结论,即推理能力不是均匀分布在整条轨迹上,而是集中在少数高杠杆决策点。
- 对模型压缩和高效微调的启发是,压缩不一定只意味着把大模型知识迁移到小模型;也可以利用小模型的失败模式反向提高大模型训练效率。
局限与展望¶
- 论文主要评估数学推理,包括 GSM8K、MATH、SVAMP、ASDiv、Minerva Math、Olympiad Bench 和 MMLU STEM;代码推理、工具调用、开放式规划等领域是否同样有效仍需验证。
- Expert-Amateur 配对依赖合适的能力差。能力差太小会导致对比信号不足,能力差为负甚至可能误导 Expert,因此自动选择 Amateur 或动态调整配对是后续关键问题。
- \(\alpha\) mask 和 \(\beta\) filtering 都是额外超参,虽然论文给出默认值 \(\alpha=0.2\)、\(\beta=0.4\),但不同任务、不同模型族可能需要重新调参。
- 实验覆盖小到中等规模开源模型,尚未证明在更大闭源模型或强推理模型上的可扩展性。
相关工作与启发¶
- vs rejection SFT / RFT: SFT 依赖完整轨迹和答案验证,本文只用短 prefix 的分布差异构造监督,优势是成本低且不依赖 ground-truth,劣势是需要可访问两个模型的 logits。
- vs Contrastive Decoding: CD 在推理时同时运行 Expert 和 Amateur,本文把对比信号蒸馏进 Expert,优势是推理阶段不增加双模型开销,但训练前需要额外采样和分布计算。
- vs RHO-1 / selective token training: RHO-1 等方法关注 token 学习价值,LightReasoner 的不同点是用同族模型的领域能力差来定义 token 价值,不需要外部 reference scorer。
- 对后续工作的启发: 可以把 Expert-Amateur KL 用作通用“学习价值探针”,用于代码修复、工具规划或多模态推理中的局部监督构造。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用弱模型失败模式反向增强强模型,视角很有辨识度。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 5 个 Expert 和 7 个数学基准,消融清楚,但跨领域验证不足。
- 写作质量: ⭐⭐⭐⭐ 方法动机和效率论证清晰,部分表格在缓存文本中排版较密。
- 价值: ⭐⭐⭐⭐⭐ 对高效推理微调、标签稀缺场景和选择性训练都有直接参考价值。