The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity¶

会议: NeurIPS 2025
arXiv: 2506.06941
代码: 暂未开源
领域: LLM推理
关键词: Large Reasoning Models, 问题复杂度, 思考Token, Chain-of-Thought, 推理崩溃

一句话总结¶

通过可控拼图环境系统揭示大型推理模型（LRMs）的三阶段行为：低复杂度不如标准 LLM、中等复杂度显著优于、高复杂度完全崩溃(0%)，且反直觉地在崩溃时减少思考 token，证实当前 LRMs 并未发展出真正泛化的推理能力。

领域现状：o3、DeepSeek-R1、Claude-3.7-Thinking 等 LRMs 在 MATH、AIME 等基准上表现惊人，但这些基准存在数据污染风险且无法控制任务复杂度。

现有痛点：现有评估无法回答核心问题——LRMs 的推理是真正的泛化能力还是高级模式匹配？性能如何随复杂度精确变化？

核心矛盾：AIME25 表现不如 AIME24（尽管人类认为更容易），暗示数据污染。需要可控、无污染的评估环境。

本文目标：通过可精确控制复杂度的拼图任务，系统测量 LRMs 的推理能力边界和思考机制的有效性。

切入角度：设计 4 个经典智力拼图（汉诺塔、跳棋、过河、积木世界），支持从 \(2^1-1\) 到 \(2^{15}-1\) 步的连续复杂度调节。

核心 idea：用可控复杂度拼图 + 推理轨迹分析，揭示 LRMs "思考的幻觉"——存在硬性能力天花板且依赖训练分布。

设计 4 个拼图环境（汉诺塔/跳棋互换/过河问题/积木世界），每个支持通过参数 N 精确控制复杂度。逐步增大 N，对比 LRMs 和标准 LLMs 的准确率和思考 token 使用模式。

三阶段复杂度行为发现:
- 功能：将模型行为按复杂度分为低/中/高三个区间
- 核心思路：低复杂度 LRM ≤ 标准 LLM（过度思考），中等复杂度 LRM >> 标准 LLM（探索后发现），高复杂度两者均完全崩溃（0%）
- 设计动机：颠覆"LRM 总是更好"的假设，精确定位"思考"真正有帮助的复杂度区间
思考 token 反直觉模式:
- 功能：追踪思考 token 数量与准确率的关系
- 核心思路：中等复杂度时思考 token 增长伴随准确率提升，但接近崩溃点时思考 token 反而下降——模型在"放弃思考"
- 设计动机：证实 LRMs 的推理存在硬限而非软限（不是 token 预算不够，是根本做不到）
推理轨迹精细分析:
- 功能：借助拼图模拟器提取思考过程中的所有中间解方案
- 核心思路：简单问题正确解出现在轨迹前1/3（"过度思考"），中等难度解出现在后期（"探索后发现"），复杂问题全程错误解密集分布（"完全固着"）
- 设计动机：解释三种失败模式的机制，特别是"过度思考"导致低复杂度时 LRM 劣于标准 LLM

25 个样本/难度/模型，Claude-3.7 最大 64K token 预算。测试模型：o3-mini(high/medium)、Claude-3.7-Thinking vs no-thinking、DeepSeek-R1 vs V3、QwQ-32B vs Qwen2.5-32B。

模型	汉诺塔(N)	跳棋(n)	过河(n)	积木(n)
o3-mini (high)	~9-10	~7-8	~4-5	~5-6
DeepSeek-R1	~10-11	~8-9	~5-6	~6-7
Claude-3.7-Thinking	~11-12	~9-10	~6-7	~7-8
标准 LLM (同规模)	~7-8	~5-6	~3-4	~4-5

LRM 将崩溃阈值推迟 2-3 级，但最终仍完全崩溃。