When More Is Less: Understanding Chain-of-Thought Length in LLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=6QDFsYxtI1
代码: https://github.com/PKU-ML/CoT-Length
领域: LLM推理
关键词: 思维链, CoT长度, 误差累积, 过度思考, 强化学习校准

一句话总结¶

本文系统揭示了"思维链越长越好"是个误解——任务准确率随 CoT 长度呈倒 U 型曲线，存在一个随任务难度增大、随模型能力增强而缩短的最优长度；作者用一个误差累积理论模型解释了这一现象并推导出 scaling law，进而给出"按最优长度造训练数据 + 推理时按长度过滤投票"两个实用配方。

研究背景与动机¶

领域现状：思维链（Chain-of-Thought, CoT）已是 LLM 解决复杂推理任务的核心技术——让模型显式生成中间步骤，把难题拆成一串可管理的子问题，类似分治。随着 o1 这类推理模型兴起，"扩展 test-time compute、生成更长的 CoT"几乎成了提升推理能力的默认信仰。

现有痛点：主流直觉（以及不少早期研究）认为 CoT 越长越细、性能越好，尤其在难题上。但也有相反证据显示简洁 CoT 有时反而更有效。两派观点冲突，背后缺一个统一解释：推理性能到底是随 CoT 加长而单调改善，还是存在某个内在上限？而当前训练实践里，监督微调常常对不同模型、不同任务复用同一份 CoT 数据，完全没有自适应性。

核心矛盾：CoT 加长有两股相反的力——拆解（decomposition）让每一步变简单、降低单步难度；但步数变多会让单步误差不断累积。短到欠拆解（underthinking）则每步太难、单步错误率高。两者博弈意味着一定存在一个折中的最优长度，而非"越长越好"。

本文目标：(1) 证明最优 CoT 长度的存在性；(2) 刻画它如何随任务难度与模型能力 scaling；(3) 给出理论解释；(4) 把洞察落成可操作的训练/推理配方。

切入角度：真实 LLM 的 CoT 含太多不可控变量（反思、回溯、规划、异质预训练），难做机理分析。作者设计受控合成任务（算术加法、动态规划三角形最大路径和），用步长 \(t\)（每步处理的算子数）精确控制 CoT 长度 \(N \approx T/t\)，在固定总难度 \(T\) 下隔离"推理结构本身"的影响。

核心 idea：用"逐步误差累积"这一个视角统一解释倒 U 曲线、最优长度的 scaling law，以及 RL 为何能校准长度——并据此指导 CoT 数据设计与推理时投票。

方法详解¶

整体框架¶

本文不是提出一个新模型，而是一条"现象→受控验证→理论解释→实践落地"的研究链路。先在真实 Qwen2.5 系列（1.5B–72B）上观察到 CoT 长度与准确率的倒 U 关系；再用合成算术/DP 任务做受控实验，精确刻画最优长度 \(N^*\) 随任务难度 \(T\) 与模型能力 \(M\) 的 scaling；然后建立一个误差累积理论模型，从单步误差出发推导出倒 U 曲线、最优长度闭式解和 scaling law，并解释 RL 为何收敛到最优长度；最后据此给出两个 proof-of-concept 配方——按最优长度造训练数据、推理时按长度过滤投票。四个环节环环相扣，理论预测与经验观测高度吻合。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实 LLM + 受控合成任务<br/>(算术 / DP)"] --> B["倒 U 曲线与最优长度<br/>的 Scaling Laws"]
    B --> C["误差累积理论模型<br/>含 RL 长度校准"]
    C --> D["最优长度训练数据"]
    C --> E["长度过滤投票"]
    D --> F["更高效更准的推理"]
    E --> F

关键设计¶

1. 倒 U 曲线与最优长度的 Scaling Laws：把"越长越好"证伪并量化最优长度怎么动

作者首先在真实与合成两侧坐实了核心现象：固定任务难度 \(T\)、改变 CoT 步数 \(N\)，准确率呈倒 U 型——太短（欠思考，单步过难）和太长（过度思考，误差累积）都掉点，中间存在一个最优长度 \(N^*\)。在 MMLU STEM 上，用最优长度推理比用最长可能 CoT 在 72B 模型上高出 60% 以上。关键不止于"存在最优"，而是它随两个变量系统性移动：

随任务难度上升而变长：用 \((1-\text{acc})\) 当难度代理，Qwen2.5-7B 上难度与最优长度显著正相关（\(p = 1\times10^{-4} \ll 0.05\)）；合成实验里最优峰随 \(T\) 增大右移。
随模型能力增强而变短：最优长度从 1.5B/7B 的 11、10 步降到 32B/72B 的 3、4 步。强模型能把推理"压缩"进更少、更有力的步骤，呼应 Simplicity Bias。
难任务的最优单步也更难：合成实验（图 3a）显示随 \(T\) 增大，最优"每步算子数" \(t^*\) 也增大——难题不能只靠多堆简单步骤，还得提高每步子任务的复杂度，这直接指向循环 Transformer（loop 数可调，给每步分配更多算力）这类自适应深度结构。

这一节同时暴露了实践的系统性错配：监督训练对不同规模模型复用同一份 CoT 数据、或把大模型 CoT 直接蒸馏给小模型，都违背了"最优长度应随模型与任务自适应"的结论，甚至导致大模型表现不如小模型。

2. 误差累积理论模型：一个单步成功率就能推出倒 U 曲线和闭式最优长度

为解释上述现象，作者建一个极简但够用的理论模型。把 \(N\) 步 CoT 的最终正确率按似然分解为每步"子问题 + 子答案"的乘积，并聚焦两类误差：子问题误差 \(\sigma(T)\in[0,1)\) 随难度上升；子答案误差 \(E(N,M,T)\in[0,1]\) 取决于模型能力 \(M\) 与有效单步难度 \(T/N\)。其中能力 \(M(\theta)\) 用"推理边界"定义——模型能在单步内可靠解出的最大子问题规模。假设逐步平稳且条件独立，最终准确率为

\[A(N) = \alpha\big[(1-\sigma(T))(1-E(N,M,T))\big]^N.\]

取线性特例 \(\sigma(T)=T/C\)、\(E=T/(NM)\)，得 \(A(N)=\alpha(1-T/C)^N(1-T/(NM))^N\)：小 \(N\) 时拆解有益（准确率升），大 \(N\) 时误差累积（准确率降）——倒 U 自然浮现。进一步求极值得到最优长度闭式解

\[N^*(M,T) = \frac{TZ}{M(Z+1)}, \quad Z = W_{-1}\!\Big(-\big(1-\tfrac{T}{Ce}\big)\Big),\]

其中 \(W_{-1}\) 是 Lambert W 函数的负分支。由此形式化推导出前面三条 scaling law：\(N^*\) 随 \(T\) 增、随 \(M\) 减，且最优单步难度 \(t^*=T/N^*=M(1+1/Z)\) 随 \(T\) 增。这套分析还能扩展到非线性、随机误差函数，鲁棒性良好。

这个模型的价值在于：它不是事后拟合，而是从"每步有个成功概率、错误会沿步数复利累积"这一条直觉，同时导出了存在性、闭式解和经验观测到的全部 scaling 趋势，把零散现象收进一个统一框架。

3. RL 把推理引向最优长度：解释 RL 为何优于监督微调

作者把"选 CoT 长度"建模成一个无状态 bandit：在离散动作集 \(A=\{N_1,\dots,N_k\}\) 中选 \(N_i\)，得到二元奖励，成功概率即 \(A(N_i)\)；用 softmax 策略做梯度上升，可证明策略收敛到确定性最优 \(\pi_\theta(N_i)=1 \iff i=\arg\max_j A(N_j)\)，即 RL 自动收敛到最优 CoT 长度。合成实验印证：从混合长度预训练的 GPT-2 出发做 RL，长度分布从分散在 5/12/24 逐步坍缩到准确率最优的长度 5；真实 GRPO 训练（Qwen2.5-7B on LeetCode-2K）也显示平均 CoT 长度随准确率上升而下降——推翻了"RL 必然产生更长 CoT"的常见信念。这给监督微调与 RL 的差异提供了新视角：即便监督数据的 CoT 长度选得不对，RL 也能把模型行为自适应地校准回最优长度区间。作者还发现自纠错训练（按概率 \(p=0.3\) 注入"先错后改"片段）会显著缩短最优长度、同时抬高最优单步难度 \(t^*\)——学会修局部错误让模型对单步误差更鲁棒，于是能用更少但更强的步骤。

4. 最优长度训练数据 + 长度过滤投票：把洞察变成两个可操作配方

理论落地为两个 proof-of-concept。训练侧：用"对该模型规模与任务难度而言最优"的长度造 CoT 数据，对比均匀混合长度数据——结果一个 6 层小模型用最优长度数据训练，竟能超过用混合长度数据训练的 9 层大模型，且任务越难差距越大，证明训练数据的 CoT 长度匹配度至关重要。推理侧：提出 Length-Filtered Vote。标准 majority vote（self-consistency）对所有采样路径一视同仁，但太短/太长的路径会往投票池里塞噪声。作者先按 CoT 长度 \(\ell(c_i)\) 把候选答案分到等宽（\(D=2\)）的组 \(\{L_j\}\)，对每组算最终答案的 Shannon 熵 \(H(L_i)\)，只在熵最小的 \(K=3\) 个组里做多数投票——理论说准确率在某段长度上峰值，而低不确定性正是好预测的信号。在 GPQA 上，它稳定优于普通投票和随机分组过滤投票，且随采样数增加几乎不退化。这条配方的妙处是：当 token 级概率拿不到时，CoT 长度是最易计算、又与准确率相关的特征。

实验关键数据¶

主实验¶

真实 LLM 与合成任务一致呈现倒 U 曲线与可预测的 scaling；最优长度推理在大模型上远超最长 CoT。

场景	关键观测	数据
MMLU STEM (72B)	最优长度 vs 最长 CoT	准确率高出 >60%
Qwen2.5 1.5B→72B	最优长度随模型增大而缩短	11/10 步 → 3/4 步
Qwen2.5-7B	任务难度 vs 最优长度	正相关 \(r=0.39\), \(p=1\times10^{-4}\)
合成训练 (\(T=32/64\))	6 层(最优长度) vs 9 层(混合长度)	小模型反超大模型
GPQA (Llama3-8B / Qwen2.5-7B)	Length-Filtered Vote vs 普通投票	稳定更高且不随采样数退化

消融实验¶

自纠错训练（SC）对最优长度 \(N^*\) 与最优单步难度 \(t^*\) 的影响（算术任务，6 层 GPT-2）：

任务难度 \(T\)	16	24	32	40	说明
\(N^*\) w/o SC	4	5	8	10	无自纠错
\(N^*\) w/ SC	2	2	3	5	自纠错后步数显著减少
\(t^*\) w/o SC	4	5	4	4	单步难度
\(t^*\) w/ SC	8	12	11	8	单步难度显著升高

关键发现¶

倒 U 是普适的：算术、DP、真实 MMLU/MATH/WinoGrande 一致出现，且峰值随难度右移、随模型能力左移——不是个例而是规律。
RL 不一定让 CoT 变长：GRPO 训练中平均长度随准确率上升而下降，长度分布坍缩到最优值，说明 RL 本质在"校准长度"而非"加长推理"。
自纠错让步骤更少更强：注入"先错后改"信号后 \(N^*\) 几乎腰斩、\(t^*\) 翻倍，模型学会用更少但更难的步骤——对训练数据设计有直接启发。
长度即信号：在拿不到 token 概率的黑盒场景，仅靠 CoT 长度过滤就能稳定提升 self-consistency。

亮点与洞察¶

一个直觉撑起整篇理论：从"每步有成功概率、错误复利累积"出发，同时推出倒 U 存在性、Lambert-W 闭式最优长度和三条 scaling law，理论与经验严丝合缝，难得的"简单却有解释力"。
受控合成任务的巧设计：用算术加法的"每步算子数 \(t\)"在固定总难度 \(T\) 下精确调 CoT 长度 \(N\approx T/t\)，干净地隔离了"推理结构"这一变量，是真实 LLM 做不到的机理实验。
把 RL 优势归因到"长度校准"：用无状态 bandit 把 RL 选长度形式化，给"RL 为何强于 SFT"一个新且具体的解释，可迁移到任何把 test-time 行为当动作的分析。
可直接落地的两招：最优长度造数据（小模型反超大模型）、Length-Filtered Vote（黑盒可用），都不需要改模型结构，工程上很轻。

局限与展望¶

真实场景最优长度难精确估计：理论闭式解依赖 \(\sigma(T)\)、\(E\) 的形式假设和能力参数 \(M\)，作者也承认真实问题里只能粗估，训练配方仍是 proof-of-concept。
合成任务偏简单：算术/DP 三角形是高度结构化、可自动合成的任务，单步难度 \(t\) 与"总难度" \(T\) 都人为可控；真实推理的反思/回溯/规划被抽象成"任务拆解的不同选择"，是否完全覆盖存疑。
能力 \(M\) 用"层数"代理：合成实验用 GPT-2 层数代表模型能力、用"推理边界"定义 \(M\)，与真实 LLM 的能力维度（预训练数据、宽度、对齐）并不等价，跨设定外推需谨慎。
自适应单步算力仍待探索：作者指出循环 Transformer 是匹配"自适应单步难度"的天然结构，但承认这一方向"尚未充分研究"，本文只给了 6-loop vs 9-loop 的初步验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"越长越好"证伪并给出统一的倒 U + scaling law + 闭式最优长度，视角新且自洽
实验充分度: ⭐⭐⭐⭐ 真实 1.5B–72B + 合成受控 + 理论三线印证，但真实侧最优长度估计与配方仍偏 proof-of-concept
写作质量: ⭐⭐⭐⭐⭐ 现象→受控→理论→实践逻辑清晰，图表与结论对应紧密
价值: ⭐⭐⭐⭐⭐ 对"过度思考"给出原理性解释，并产出可直接用的训练/推理指导，影响面广