InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models¶

会议: ICLR 2026
arXiv: 2503.06692
代码: Project Page
领域: 模型压缩
关键词: 长上下文推理, 迭代推理, 摘要压缩, 计算效率, 推理范式

一句话总结¶

提出 InftyThink，一种将整体式长推理转化为迭代式短推理+中间摘要的新范式，在不修改模型架构的前提下实现理论上无界的推理深度、显著降低计算成本，Qwen2.5-Math-7B 在 AIME24 上提升11%。

研究背景与动机¶

以DeepSeek-R1、o1为代表的推理模型通过长链思维实现了卓越性能，但长上下文推理面临三个根本问题：

二次方计算扩展：Decoder-based LLM的计算复杂度随序列长度呈二次增长，推理阶段资源消耗巨大

上下文长度天花板：推理过程受max_length约束，经常被截断而无法得出结论

超出训练窗口后性能退化：大多数模型预训练窗口仅4k-8k tokens，推理超过此范围时性能明显下降

现有解决方案（如CoT-Valve压缩推理链、TokenSkip删除冗余token、LightThinker用特殊token动态压缩）仍在"单次连续推理"范式内优化，未触及根本的计算扩展问题。

核心idea：借鉴人类认知——复杂问题分解为可管理的部分并总结中间进展。将整体推理分为多个边界长度的段落，每段后生成摘要，下一段基于摘要继续推理，形成"锯齿形"内存模式。

方法详解¶

整体框架¶

InftyThink 将推理分为多轮迭代：第1轮生成推理段 \(RP_1\) + 摘要 \(S_1\)；后续轮以前一轮摘要作为历史上下文，生成新推理段 \(RP_i\) + 新摘要 \(S_i\)；最后一轮生成推理段 \(RP_n\) + 最终结论 \(C\)。

关键设计¶

迭代推理范式 (Iterative Reasoning with Summarization):
- 功能：将单次整体推理替换为多轮有界推理
- 核心思路：
  - 首轮：<|U|>Q<|A|><think>RP₁</think><summary>S₁</summary>
  - 后续轮：<|U|>Q<|A|><history>Sᵢ₋₁</history><think>RPᵢ</think><summary>Sᵢ</summary>
  - 终轮：<|U|>Q<|A|><history>Sₙ₋₁</history><think>RPₙ</think>C
- 设计动机：每轮保持有界上下文长度（锯齿形内存模式），理论上支持无限推理深度。简单问题可在第一轮直接得出结论，自然退化为传统范式
数据重构流水线 (Data Reconstruction):
- 功能：将现有长推理数据集转化为InftyThink格式
- 核心思路：三步流水线——
  - Step I 推理分割：基于超参数 \(\eta\)（最大段长度），在语义边界（句子/段落）处切分
  - Step II 摘要生成：用Meta-Llama-3.3-70B-Instruct为每段生成摘要，摘要考虑所有先前段的上下文以保持推理连续性
  - Step III 训练实例构建：组装为多个训练实例，首段实例包含 \((Q, RP_1, S_1)\)，中间段 \((Q, S_{i-1}, RP_i, S_i)\)，末段 \((Q, S_{n-1}, RP_n, C)\)
- 设计动机：从OpenR1-Math（220K样本）重构为333K InftyThink格式样本（\(\eta\)=4k），利用已有高质量推理数据避免从零生成
推理时的执行机制:
- 功能：推理时模型迭代生成推理段和摘要，直到产生结论
- 核心思路：每轮输出被解析，摘要成为下一轮上下文。设置 max_iters=10 防止无限循环，实验表明训练良好的模型自然会在合理迭代次数内收敛
- 设计动机：无需架构修改，任何decoder-only模型均可使用

训练策略¶

使用instruction fine-tuning在OpenR1-Math-Inf（InftyThink格式）上训练多种基础模型。\(\eta\) = 4k, max_iters = 10。

实验关键数据¶

主实验（base models, pass@16, temperature=0.7）¶

模型	格式	MATH500 ACC	AIME24 ACC	GPQA ACC	Avg ACC
Qwen2.5-Math-1.5B	Vanilla	75.24	16.04	26.48	59.54
Qwen2.5-Math-1.5B	InftyThink	79.57	26.04	35.89	65.48
Qwen2.5-Math-7B	Vanilla	89.51	32.92	43.94	74.78
Qwen2.5-Math-7B	InftyThink	91.29	43.96	52.97	78.92
Llama-3.1-8B	Vanilla	82.10	20.83	41.35	68.49
Llama-3.1-8B	InftyThink	82.28	34.17	47.51	70.84

延迟对比（推理耗时）¶

模型	MATH500延迟 Vanilla→InftyThink	AIME24延迟
Qwen2.5-Math-7B	1.26s→0.76s	4.15s→4.66s
Qwen2.5-14B	1.49s→1.43s	11.30s→7.11s

关键发现¶

Qwen2.5-Math-7B 在 AIME24 上提升11%（32.92→43.96），GPQA上提升9%（43.94→52.97）
小模型（1.5B）获益更大：AIME24提升10%，GPQA提升9.4%
MATH500延迟从1.26s降至0.76s，计算效率显著提升（曲线下面积更小）
模型规模越大（14B/32B），InftyThink的accuracy提升趋于平缓但延迟收益仍然显著
摘要生成模型的规模对最终性能影响不大（70B vs 更小模型差异有限）

亮点与洞察¶

"锯齿形内存模式"概念直观且强大——周期性压缩使计算复杂度可控
无需架构修改、无需专门训练基础设施，仅需数据重构和SFT即可获得显著提升
挑战了"推理深度与计算效率必须权衡"的假设——两者可同时改善

局限与展望¶

摘要质量如何影响推理正确性缺乏系统分析——信息丢失可能在长推理链中累积
\(\eta\)（段长度）固定为4K，动态调整可能更优（简单段无需4K，困难段可能不够）
依赖SFT训练，若结合RL（如GRPO）可能释放更大潜力
多轮摘要的可靠性在数值推理vs语言推理中可能表现不同

评分¶

新颖性: ⭐⭐⭐⭐ 迭代推理范式简单但有效，概念清晰
实验充分度: ⭐⭐⭐⭐⭐ 5种基础模型、多benchmark、延迟分析、消融丰富
写作质量: ⭐⭐⭐⭐⭐ 图示优秀，锯齿形对比图直观易懂
价值: ⭐⭐⭐⭐⭐ 实用价值极高，可直接用于现有模型