InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models¶
会议: ICLR 2026
arXiv: 2503.06692
代码: Project Page
领域: 模型压缩
关键词: 长上下文推理, 迭代推理, 摘要压缩, 计算效率, 推理范式
一句话总结¶
提出 InftyThink,一种将整体式长推理转化为迭代式短推理+中间摘要的新范式,在不修改模型架构的前提下实现理论上无界的推理深度、显著降低计算成本,Qwen2.5-Math-7B 在 AIME24 上提升11%。
研究背景与动机¶
以DeepSeek-R1、o1为代表的推理模型通过长链思维实现了卓越性能,但长上下文推理面临三个根本问题:
二次方计算扩展:Decoder-based LLM的计算复杂度随序列长度呈二次增长,推理阶段资源消耗巨大
上下文长度天花板:推理过程受max_length约束,经常被截断而无法得出结论
超出训练窗口后性能退化:大多数模型预训练窗口仅4k-8k tokens,推理超过此范围时性能明显下降
现有解决方案(如CoT-Valve压缩推理链、TokenSkip删除冗余token、LightThinker用特殊token动态压缩)仍在"单次连续推理"范式内优化,未触及根本的计算扩展问题。
核心idea:借鉴人类认知——复杂问题分解为可管理的部分并总结中间进展。将整体推理分为多个边界长度的段落,每段后生成摘要,下一段基于摘要继续推理,形成"锯齿形"内存模式。
方法详解¶
整体框架¶
InftyThink 将推理分为多轮迭代:第1轮生成推理段 \(RP_1\) + 摘要 \(S_1\);后续轮以前一轮摘要作为历史上下文,生成新推理段 \(RP_i\) + 新摘要 \(S_i\);最后一轮生成推理段 \(RP_n\) + 最终结论 \(C\)。
关键设计¶
-
迭代推理范式 (Iterative Reasoning with Summarization):
- 功能:将单次整体推理替换为多轮有界推理
- 核心思路:
- 首轮:
<|U|>Q<|A|><think>RP₁</think><summary>S₁</summary> - 后续轮:
<|U|>Q<|A|><history>Sᵢ₋₁</history><think>RPᵢ</think><summary>Sᵢ</summary> - 终轮:
<|U|>Q<|A|><history>Sₙ₋₁</history><think>RPₙ</think>C
- 首轮:
- 设计动机:每轮保持有界上下文长度(锯齿形内存模式),理论上支持无限推理深度。简单问题可在第一轮直接得出结论,自然退化为传统范式
-
数据重构流水线 (Data Reconstruction):
- 功能:将现有长推理数据集转化为InftyThink格式
- 核心思路:三步流水线——
- Step I 推理分割:基于超参数 \(\eta\)(最大段长度),在语义边界(句子/段落)处切分
- Step II 摘要生成:用Meta-Llama-3.3-70B-Instruct为每段生成摘要,摘要考虑所有先前段的上下文以保持推理连续性
- Step III 训练实例构建:组装为多个训练实例,首段实例包含 \((Q, RP_1, S_1)\),中间段 \((Q, S_{i-1}, RP_i, S_i)\),末段 \((Q, S_{n-1}, RP_n, C)\)
- 设计动机:从OpenR1-Math(220K样本)重构为333K InftyThink格式样本(\(\eta\)=4k),利用已有高质量推理数据避免从零生成
-
推理时的执行机制:
- 功能:推理时模型迭代生成推理段和摘要,直到产生结论
- 核心思路:每轮输出被解析,摘要成为下一轮上下文。设置 max_iters=10 防止无限循环,实验表明训练良好的模型自然会在合理迭代次数内收敛
- 设计动机:无需架构修改,任何decoder-only模型均可使用
训练策略¶
使用instruction fine-tuning在OpenR1-Math-Inf(InftyThink格式)上训练多种基础模型。\(\eta\) = 4k, max_iters = 10。
实验关键数据¶
主实验(base models, pass@16, temperature=0.7)¶
| 模型 | 格式 | MATH500 ACC | AIME24 ACC | GPQA ACC | Avg ACC |
|---|---|---|---|---|---|
| Qwen2.5-Math-1.5B | Vanilla | 75.24 | 16.04 | 26.48 | 59.54 |
| Qwen2.5-Math-1.5B | InftyThink | 79.57 | 26.04 | 35.89 | 65.48 |
| Qwen2.5-Math-7B | Vanilla | 89.51 | 32.92 | 43.94 | 74.78 |
| Qwen2.5-Math-7B | InftyThink | 91.29 | 43.96 | 52.97 | 78.92 |
| Llama-3.1-8B | Vanilla | 82.10 | 20.83 | 41.35 | 68.49 |
| Llama-3.1-8B | InftyThink | 82.28 | 34.17 | 47.51 | 70.84 |
延迟对比(推理耗时)¶
| 模型 | MATH500延迟 Vanilla→InftyThink | AIME24延迟 |
|---|---|---|
| Qwen2.5-Math-7B | 1.26s→0.76s | 4.15s→4.66s |
| Qwen2.5-14B | 1.49s→1.43s | 11.30s→7.11s |
关键发现¶
- Qwen2.5-Math-7B 在 AIME24 上提升11%(32.92→43.96),GPQA上提升9%(43.94→52.97)
- 小模型(1.5B)获益更大:AIME24提升10%,GPQA提升9.4%
- MATH500延迟从1.26s降至0.76s,计算效率显著提升(曲线下面积更小)
- 模型规模越大(14B/32B),InftyThink的accuracy提升趋于平缓但延迟收益仍然显著
- 摘要生成模型的规模对最终性能影响不大(70B vs 更小模型差异有限)
亮点与洞察¶
- "锯齿形内存模式"概念直观且强大——周期性压缩使计算复杂度可控
- 无需架构修改、无需专门训练基础设施,仅需数据重构和SFT即可获得显著提升
- 挑战了"推理深度与计算效率必须权衡"的假设——两者可同时改善
局限与展望¶
- 摘要质量如何影响推理正确性缺乏系统分析——信息丢失可能在长推理链中累积
- \(\eta\)(段长度)固定为4K,动态调整可能更优(简单段无需4K,困难段可能不够)
- 依赖SFT训练,若结合RL(如GRPO)可能释放更大潜力
- 多轮摘要的可靠性在数值推理vs语言推理中可能表现不同
相关工作与启发¶
- vs CoT-Valve: CoT-Valve需预设压缩比,InftyThink自适应判断何时结束
- vs LightThinker: LightThinker压缩为隐式表示,InftyThink保持文本可解释性
- vs TokenSkip: TokenSkip删token会损失推理性能,InftyThink通过摘要保留关键信息
评分¶
- 新颖性: ⭐⭐⭐⭐ 迭代推理范式简单但有效,概念清晰
- 实验充分度: ⭐⭐⭐⭐⭐ 5种基础模型、多benchmark、延迟分析、消融丰富
- 写作质量: ⭐⭐⭐⭐⭐ 图示优秀,锯齿形对比图直观易懂
- 价值: ⭐⭐⭐⭐⭐ 实用价值极高,可直接用于现有模型