The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity¶
会议: NeurIPS 2025
arXiv: 2506.06941
代码: 暂未开源
领域: LLM推理
关键词: Large Reasoning Models, 问题复杂度, 思考Token, Chain-of-Thought, 推理崩溃
一句话总结¶
通过可控拼图环境系统揭示大型推理模型(LRMs)的三阶段行为:低复杂度不如标准 LLM、中等复杂度显著优于、高复杂度完全崩溃(0%),且反直觉地在崩溃时减少思考 token,证实当前 LRMs 并未发展出真正泛化的推理能力。
研究背景与动机¶
领域现状:o3、DeepSeek-R1、Claude-3.7-Thinking 等 LRMs 在 MATH、AIME 等基准上表现惊人,但这些基准存在数据污染风险且无法控制任务复杂度。
现有痛点:现有评估无法回答核心问题——LRMs 的推理是真正的泛化能力还是高级模式匹配?性能如何随复杂度精确变化?
核心矛盾:AIME25 表现不如 AIME24(尽管人类认为更容易),暗示数据污染。需要可控、无污染的评估环境。
本文目标:通过可精确控制复杂度的拼图任务,系统测量 LRMs 的推理能力边界和思考机制的有效性。
切入角度:设计 4 个经典智力拼图(汉诺塔、跳棋、过河、积木世界),支持从 \(2^1-1\) 到 \(2^{15}-1\) 步的连续复杂度调节。
核心 idea:用可控复杂度拼图 + 推理轨迹分析,揭示 LRMs "思考的幻觉"——存在硬性能力天花板且依赖训练分布。
方法详解¶
整体框架¶
设计 4 个拼图环境(汉诺塔/跳棋互换/过河问题/积木世界),每个支持通过参数 N 精确控制复杂度。逐步增大 N,对比 LRMs 和标准 LLMs 的准确率和思考 token 使用模式。
关键设计¶
-
三阶段复杂度行为发现:
- 功能:将模型行为按复杂度分为低/中/高三个区间
- 核心思路:低复杂度 LRM ≤ 标准 LLM(过度思考),中等复杂度 LRM >> 标准 LLM(探索后发现),高复杂度两者均完全崩溃(0%)
- 设计动机:颠覆"LRM 总是更好"的假设,精确定位"思考"真正有帮助的复杂度区间
-
思考 token 反直觉模式:
- 功能:追踪思考 token 数量与准确率的关系
- 核心思路:中等复杂度时思考 token 增长伴随准确率提升,但接近崩溃点时思考 token 反而下降——模型在"放弃思考"
- 设计动机:证实 LRMs 的推理存在硬限而非软限(不是 token 预算不够,是根本做不到)
-
推理轨迹精细分析:
- 功能:借助拼图模拟器提取思考过程中的所有中间解方案
- 核心思路:简单问题正确解出现在轨迹前1/3("过度思考"),中等难度解出现在后期("探索后发现"),复杂问题全程错误解密集分布("完全固着")
- 设计动机:解释三种失败模式的机制,特别是"过度思考"导致低复杂度时 LRM 劣于标准 LLM
实验设置¶
25 个样本/难度/模型,Claude-3.7 最大 64K token 预算。测试模型:o3-mini(high/medium)、Claude-3.7-Thinking vs no-thinking、DeepSeek-R1 vs V3、QwQ-32B vs Qwen2.5-32B。
实验关键数据¶
主实验(各模型崩溃阈值)¶
| 模型 | 汉诺塔(N) | 跳棋(n) | 过河(n) | 积木(n) |
|---|---|---|---|---|
| o3-mini (high) | ~9-10 | ~7-8 | ~4-5 | ~5-6 |
| DeepSeek-R1 | ~10-11 | ~8-9 | ~5-6 | ~6-7 |
| Claude-3.7-Thinking | ~11-12 | ~9-10 | ~6-7 | ~7-8 |
| 标准 LLM (同规模) | ~7-8 | ~5-6 | ~3-4 | ~4-5 |
LRM 将崩溃阈值推迟 2-3 级,但最终仍完全崩溃。
消融实验(算法指导的无效性)¶
| 条件 | 汉诺塔崩溃点 | 改善 |
|---|---|---|
| 无算法提示 | N=10-11 | 基线 |
| 给出完整算法伪代码 | N=10-11 | 无改善 |
| 给出分步指令 | N=10-11 | 无改善 |
关键发现¶
- 硬能力天花板:所有 LRM 都存在确定性的崩溃阈值,增加思考 token 无法突破
- 思考的悖论:崩溃前模型减少而非增加思考 token——"知道自己不会但仍尝试"
- 过度思考:低复杂度时 LRM 在早期就找到正确解,但继续探索错误路径导致最终给出错误答案
- 算法无效:即使提供完整解法,崩溃阈值不变——瓶颈在符号操作和步骤执行,不在策略发现
- 不一致的失败不对称:汉诺塔 vs 过河问题的崩溃阈值不对称(汉诺塔需更多步但崩溃更晚),暗示能力受训练分布驱动
亮点与洞察¶
- 颠覆性发现:LRMs 在高复杂度下完全崩溃(0%)且减少思考 token,证明"更多思考=更好推理"的假设根本错误
- 评估范式创新:可控拼图环境 + 连续复杂度梯度 + 推理轨迹分析,为推理模型评估树立新标杆
- 实用价值极高:对模型部署方——不能盲目依赖 LRM 处理高复杂度任务;对研究方——突破推理能力需解决符号操作和自我验证的根本缺陷
- 三种失败模式的精细分类:过度思考/探索后发现/完全固着,首次提供定量的推理轨迹位置分布分析
局限与展望¶
- 仅 4 个拼图任务,覆盖组合搜索/约束满足,无法推广到知识密集型推理
- 黑盒 API 访问,无法观察内部机制(注意力、激活等)
- 缺乏人类基线数据,无法判断崩溃是否反映任务本身的人类困难度
- 未涵盖其他推理架构(树搜索、显式规划器)
- 样本量 N=25/难度/模型,统计power 可能不足
相关工作与启发¶
- vs MATH/AIME 基准: 存在数据污染风险,无法控制复杂度。本文用拼图环境排除污染
- vs Faith & Fate (Dziri et al.): 证实 LLM 在组合泛化上的失败,本文扩展到 LRMs 并发现同样的崩溃行为
- vs Ruoss/Valmeekam et al.: 用类似拼图评估 o1,本文提供更深的三阶段分析和推理轨迹质量分析
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统揭露 LRMs 三阶段行为和思考 token 悖论,颠覆"更多思考=更好推理"的直觉
- 实验充分度: ⭐⭐⭐⭐ 4 个拼图×5+ 模型×连续复杂度,但缺人类基线和开源模型的深层分析
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图表信息密度极高,限制性讨论诚恳
- 价值: ⭐⭐⭐⭐⭐ 对推理模型研究和部署有根本性启示,改变我们对"思考"机制的理解