跳转至

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

会议: NeurIPS 2025
arXiv: 2506.06941
代码: 暂未开源
领域: LLM推理
关键词: Large Reasoning Models, 问题复杂度, 思考Token, Chain-of-Thought, 推理崩溃

一句话总结

通过可控拼图环境系统揭示大型推理模型(LRMs)的三阶段行为:低复杂度不如标准 LLM、中等复杂度显著优于、高复杂度完全崩溃(0%),且反直觉地在崩溃时减少思考 token,证实当前 LRMs 并未发展出真正泛化的推理能力。

研究背景与动机

领域现状:o3、DeepSeek-R1、Claude-3.7-Thinking 等 LRMs 在 MATH、AIME 等基准上表现惊人,但这些基准存在数据污染风险且无法控制任务复杂度。

现有痛点:现有评估无法回答核心问题——LRMs 的推理是真正的泛化能力还是高级模式匹配?性能如何随复杂度精确变化?

核心矛盾:AIME25 表现不如 AIME24(尽管人类认为更容易),暗示数据污染。需要可控、无污染的评估环境。

本文目标:通过可精确控制复杂度的拼图任务,系统测量 LRMs 的推理能力边界和思考机制的有效性。

切入角度:设计 4 个经典智力拼图(汉诺塔、跳棋、过河、积木世界),支持从 \(2^1-1\)\(2^{15}-1\) 步的连续复杂度调节。

核心 idea:用可控复杂度拼图 + 推理轨迹分析,揭示 LRMs "思考的幻觉"——存在硬性能力天花板且依赖训练分布。

方法详解

整体框架

设计 4 个拼图环境(汉诺塔/跳棋互换/过河问题/积木世界),每个支持通过参数 N 精确控制复杂度。逐步增大 N,对比 LRMs 和标准 LLMs 的准确率和思考 token 使用模式。

关键设计

  1. 三阶段复杂度行为发现:

    • 功能:将模型行为按复杂度分为低/中/高三个区间
    • 核心思路:低复杂度 LRM ≤ 标准 LLM(过度思考),中等复杂度 LRM >> 标准 LLM(探索后发现),高复杂度两者均完全崩溃(0%)
    • 设计动机:颠覆"LRM 总是更好"的假设,精确定位"思考"真正有帮助的复杂度区间
  2. 思考 token 反直觉模式:

    • 功能:追踪思考 token 数量与准确率的关系
    • 核心思路:中等复杂度时思考 token 增长伴随准确率提升,但接近崩溃点时思考 token 反而下降——模型在"放弃思考"
    • 设计动机:证实 LRMs 的推理存在硬限而非软限(不是 token 预算不够,是根本做不到)
  3. 推理轨迹精细分析:

    • 功能:借助拼图模拟器提取思考过程中的所有中间解方案
    • 核心思路:简单问题正确解出现在轨迹前1/3("过度思考"),中等难度解出现在后期("探索后发现"),复杂问题全程错误解密集分布("完全固着")
    • 设计动机:解释三种失败模式的机制,特别是"过度思考"导致低复杂度时 LRM 劣于标准 LLM

实验设置

25 个样本/难度/模型,Claude-3.7 最大 64K token 预算。测试模型:o3-mini(high/medium)、Claude-3.7-Thinking vs no-thinking、DeepSeek-R1 vs V3、QwQ-32B vs Qwen2.5-32B。

实验关键数据

主实验(各模型崩溃阈值)

模型 汉诺塔(N) 跳棋(n) 过河(n) 积木(n)
o3-mini (high) ~9-10 ~7-8 ~4-5 ~5-6
DeepSeek-R1 ~10-11 ~8-9 ~5-6 ~6-7
Claude-3.7-Thinking ~11-12 ~9-10 ~6-7 ~7-8
标准 LLM (同规模) ~7-8 ~5-6 ~3-4 ~4-5

LRM 将崩溃阈值推迟 2-3 级,但最终仍完全崩溃。

消融实验(算法指导的无效性)

条件 汉诺塔崩溃点 改善
无算法提示 N=10-11 基线
给出完整算法伪代码 N=10-11 无改善
给出分步指令 N=10-11 无改善

关键发现

  • 硬能力天花板:所有 LRM 都存在确定性的崩溃阈值,增加思考 token 无法突破
  • 思考的悖论:崩溃前模型减少而非增加思考 token——"知道自己不会但仍尝试"
  • 过度思考:低复杂度时 LRM 在早期就找到正确解,但继续探索错误路径导致最终给出错误答案
  • 算法无效:即使提供完整解法,崩溃阈值不变——瓶颈在符号操作和步骤执行,不在策略发现
  • 不一致的失败不对称:汉诺塔 vs 过河问题的崩溃阈值不对称(汉诺塔需更多步但崩溃更晚),暗示能力受训练分布驱动

亮点与洞察

  • 颠覆性发现:LRMs 在高复杂度下完全崩溃(0%)且减少思考 token,证明"更多思考=更好推理"的假设根本错误
  • 评估范式创新:可控拼图环境 + 连续复杂度梯度 + 推理轨迹分析,为推理模型评估树立新标杆
  • 实用价值极高:对模型部署方——不能盲目依赖 LRM 处理高复杂度任务;对研究方——突破推理能力需解决符号操作和自我验证的根本缺陷
  • 三种失败模式的精细分类:过度思考/探索后发现/完全固着,首次提供定量的推理轨迹位置分布分析

局限与展望

  • 仅 4 个拼图任务,覆盖组合搜索/约束满足,无法推广到知识密集型推理
  • 黑盒 API 访问,无法观察内部机制(注意力、激活等)
  • 缺乏人类基线数据,无法判断崩溃是否反映任务本身的人类困难度
  • 未涵盖其他推理架构(树搜索、显式规划器)
  • 样本量 N=25/难度/模型,统计power 可能不足

相关工作与启发

  • vs MATH/AIME 基准: 存在数据污染风险,无法控制复杂度。本文用拼图环境排除污染
  • vs Faith & Fate (Dziri et al.): 证实 LLM 在组合泛化上的失败,本文扩展到 LRMs 并发现同样的崩溃行为
  • vs Ruoss/Valmeekam et al.: 用类似拼图评估 o1,本文提供更深的三阶段分析和推理轨迹质量分析

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统揭露 LRMs 三阶段行为和思考 token 悖论,颠覆"更多思考=更好推理"的直觉
  • 实验充分度: ⭐⭐⭐⭐ 4 个拼图×5+ 模型×连续复杂度,但缺人类基线和开源模型的深层分析
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图表信息密度极高,限制性讨论诚恳
  • 价值: ⭐⭐⭐⭐⭐ 对推理模型研究和部署有根本性启示,改变我们对"思考"机制的理解