ICLR2026 Reasoning 测试时缩放 chain-of-thought 上下文学习 task hardness 过度思考 training data selection

Understanding the Role of Training Data in Test-Time Scaling¶

会议: ICLR2026
arXiv: 2510.03605
代码: 无
领域: LLM推理
关键词: 测试时缩放, chain-of-thought, 上下文学习, task hardness, 过度思考, training data selection

一句话总结¶

从理论上分析训练数据属性如何影响 test-time scaling 的效果，证明 CoT 推理等价于伪牛顿法迭代，提出基于特征协方差最小特征值的任务难度度量，揭示"更多思考不一定更好"的 overthinking 现象机制，并给出多任务训练中最优任务选择策略——训练集应多样、相关且困难。

研究背景与动机¶

领域现状：Test-time scaling（如 OpenAI o1、DeepSeek R1）通过在推理时分配更多计算资源生成更长的 CoT 来提升推理能力，已在数学竞赛、编程等任务上取得显著成功。

核心问题：尽管实践效果显著，训练数据在什么条件下支持 test-time scaling 仍不清楚——具体地： - 增加 test-time 计算是否总是能提升下游推理表现？ - 增加 test-time 计算能否降低训练时的计算需求？ - 什么是"困难"训练样本？它们为何对 test-time scaling 有益？

现有工作不足：先前关于训练数据多样性和难度的研究大多是经验性的，缺乏严格的理论框架解释 test-time scaling 的机制。

本文切入角度：在 linear regression 的 in-context learning 框架下，从理论和实验两个维度回答上述三个问题。

方法详解¶

整体框架¶

本文把 test-time scaling 放进一个可解析的玩具世界：用线性回归的上下文学习（in-context learning, ICL）作任务，用单层线性自注意力（linear self-attention, LSA）作模型，再把测试时的多步思维链（chain-of-thought, CoT）看成在这个模型上反复迭代。整篇论文沿一条因果链展开：先把"从 prompt 反推权重"写成可优化的回归问题，证明 LSA 的全局最优解只取决于一个由训练数据协方差决定的枢纽矩阵 \(\Gamma\)；再证明测试时跑 CoT 等价于用 \(\Gamma^{-1}\) 做伪牛顿迭代，于是"思考好不好"被翻译成"这个迭代收不收敛、收得快不快"；接着用协方差谱给任务难度下定义、推出 test-time scaling law，量化"多思考"和"多训练数据"如何互换；最后说明这套迭代只在训练协方差 \(\Gamma\) 与测试协方差 \(\Sigma\) 对齐时才有效，由此既解释了 overthinking（越想越糟）、又导出该挑什么训练数据。所有结论都从同一个协方差矩阵的谱性质里推出来，把原本只能靠经验观察的现象变成可证明的定理。

本文是纯理论分析（线性模型 + 谱性质推导），核心是一串环环相扣的定理而非数据流水线，故不画框架图；下面四个关键设计即按上述因果链顺序展开。

关键设计¶

1. 可解析的玩具世界：ICL 权重预测与 LSA 全局最优

要严格分析 test-time scaling，先得有一个能算出闭式解的设定。每个 prompt 是 \(P_\tau = (x_{\tau,1}, y_{\tau,1}, \ldots, x_{\tau,n}, y_{\tau,n})\)，标签由隐藏权重生成 \(y_{\tau,i} = \langle w_\tau, x_{\tau,i}\rangle\)，其中 \(x_{\tau,i}\sim\mathcal{N}(0,\Lambda)\)、\(w_\tau\sim\mathcal{N}(0,I_d)\)，模型要从 prompt 里反推出 \(w_\tau\)。输入被排成一个嵌入矩阵，最后一列专门留给权重估计位 \(\hat w_0\)：

\[E_\tau = \begin{bmatrix} X_\tau & 0 \\ y_\tau & 0 \\ 0_{d \times n} & \hat{w}_0 \\ 0_{1 \times n} & 1 \end{bmatrix}\]

训练目标就是让最后一列预测出真权重，最小化均方误差 \(L(\theta) = \tfrac{1}{2}\mathbb{E}\big[\| f_{\text{LSA}}(E_\tau;\theta)_{[:,-1]} - (0_d, 0, w_\tau, 1)\|^2\big]\)。Theorem 3.1 证明，在合适初始化下常数步长的梯度下降会收敛到全局最优 \(V_* = -\Gamma^{-1}/c\)，关键是这个最优解只依赖一个由数据协方差决定的矩阵 \(\Gamma := (1 + \tfrac{1}{n})\Lambda + \tfrac{1}{n}\text{tr}(\Lambda) I_d\)。\(\Gamma\) 是整篇论文的枢纽——它把训练数据属性（协方差 \(\Lambda\)、prompt 长度 \(n\)）一次性打包，后面所有定理都通过它来传导。

2. CoT 等价于伪牛顿法

设定搭好后，第一个问题是"测试时多跑几步 CoT 到底在算什么"。Proposition 3.2 表明，测试时跑 \(k\) 步 CoT，本质上是让权重估计按 \(w_{i+1} = w_i - \tfrac{1}{m}\Gamma^{-1} X_{\text{test}} X_{\text{test}}^\top (w_i - w_{\text{test}})\) 递推。这恰好是对测试损失 \(\ell(w) = \tfrac{1}{2m}\|y_{\text{test}} - X_{\text{test}}^\top w\|^2\) 做伪牛顿法——用训练得到的 \(\Gamma^{-1}\) 去近似真 Hessian 的逆 \(\Lambda^{-1}\)。展开 \(k\) 步得到闭式 \(w_{k+1} = \big(I - (I - \tfrac{1}{m}\Gamma^{-1} X_{\text{test}} X_{\text{test}}^\top)^k\big) w_{\text{test}}\)。这个等价关系把"链式思考"从黑盒动作翻译成收敛行为可分析的优化迭代，后面所有好坏判断都建立在"这个迭代收不收敛、收得快不快"之上——而收敛速度恰由枢纽 \(\Gamma\) 与测试数据的匹配程度决定。

3. 任务难度与 test-time scaling law

有了"CoT = 迭代"，就能量化什么任务难、思考多久才划算。Theorem 3.3 给出无 CoT 直接 ICL 的误差上界 \(\mathbb{E}\|\hat{w} - w_{\text{test}}\|^2 \leq \tfrac{d}{n^2}(1 + \tfrac{\text{tr}(\Lambda)}{\lambda_{\min}(\Lambda)})^2 + \tfrac{d}{m}(1 + \tfrac{\text{tr}(\Lambda)}{\lambda_{\min}(\Lambda)})\)，其中反复出现的比值被提炼成任务难度 \(\text{Hard}(\Lambda) := \tfrac{\text{tr}(\Lambda)}{\lambda_{\min}(\Lambda)}\)。直观上 \(\Lambda\) 的每个特征向量是一种"技能"、特征值是技能强度：容易任务只靠少数几种势均力敌的技能（特征值相近，\(\lambda_{\min}\) 不小），困难任务依赖多种技能且分布长尾（存在极小特征值，把比值顶得很大）。它不靠人工标注，而是直接从数据分布的几何结构里读出难度。把这个难度和伪牛顿迭代的收敛速度合在一起，Corollary 3.5 给出 \(k\) 步 CoT 后的误差

\[\mathbb{E}\|w_{k+1} - w_{\text{test}}\|^2 \leq d\,\Big(1 + \tfrac{n}{1 + \text{Hard}(\Lambda)}\Big)^{-2k}(1 + o(1))\]

这条 scaling law 一次读出三个结论：固定目标误差 \(\varepsilon\) 时，增大思考步数 \(k\) 可换取更短的训练 prompt 长度 \(n\)（训练算力和推理算力可互补）；任务越难（\(\text{Hard}(\Lambda)\) 越大），底数越接近 1、收敛越慢，需要越长的 CoT 才达标；整个过程复杂度只是 \(O(kd^2)\)。

4. 分布对齐决定成败：overthinking 与最优任务选择

前面 scaling law 的收敛有个前提——训练协方差 \(\Gamma\) 要跟测试协方差 \(\Sigma\) 对齐；这条前提一旦破了，就同时解释了"越想越糟"和"该练什么数据"。思考的净效果实际由 \(\text{tr}\big((I - \Gamma^{-1/2}\Sigma\Gamma^{-1/2})^{2k}\big)\) 控制：当目标任务的某些技能方向（\(\Sigma\) 的特征向量）在训练数据里覆盖不足、对应的 \(\Gamma\) 在该方向很弱时，括号里矩阵在该方向的特征值大于 1，该项随 \(k\) 指数级放大——多思考不是修正误差，而是把训练没学到的方向越推越偏。这就是 overthinking 的数学根源：不是模型"想累了"，而是迭代在未覆盖子空间上发散。反过来，既然表现取决于训练协方差能否覆盖并对齐目标谱，多任务训练就该优先挑能补上缺失方向的任务。Proposition 4.3 证明最优采样概率 \(\{\pi_\ell\}\) 会把至少一半概率分配给"困难"任务（\(\sigma_{\min}(\Lambda_\ell)\) 小的那些），而求最优配比本身是一个高效可解的二次规划：

\[\min_{\{\pi_\ell\}} \left\| I - \Sigma^{-1} \sum_{\ell} \Lambda_\ell \pi_\ell \right\|_F^2 \quad \text{s.t.} \sum_\ell \pi_\ell = 1,\ \pi_\ell \geq 0\]

目标函数让训练任务的加权协方差去逼近测试协方差 \(\Sigma\)，于是"好训练集"的三条标准自然浮现：多样（覆盖目标的所有技能方向）、相关（加权后与目标谱对齐）、困难（包含长尾、贡献小特征值方向的样本）。

实验关键数据¶

LSA 模型验证¶

设定	结论
训练 prompt 长度 \(n=10,20,30\)	增大 \(k\) 可弥补较短的训练上下文，\(n=10\) 在 \(k=20\) 时达到 \(n=30\) 直接预测的误差水平
训练协方差倾斜 (\(\lambda_i \propto 1/i\))	训练/测试分布不匹配时，\(k\) 增大后测试误差先降后升——overthinking 出现
overthinking 时大 \(n\) 反而更差	与非 overthinking 情况相反——更长训练上下文在倾斜分布下"学得更偏"

GPT-2（9.5M 参数）验证¶

实验	结果
训练 \(n=20,30,40\)，变化 \(k\)	与 LSA 趋势一致：更长 CoT 允许用更短训练上下文达到同等性能
倾斜协方差 + 全等测试	GPT-2 同样出现 overthinking：大约 \(k>10\) 后误差上升

任务选择实验¶

任务类型	\((\alpha, B)\)	平均选择概率
Easy-Short	(0.2, 20)	最低
Hard-Short	(0.8, 20)	中等
Easy-Long	(0.2, 100)	中等偏低
Hard-Long	(0.8, 100)	最高

真实推理基准（Qwen 2.5-7B）¶

模型	CoT 长度 [0, 1k)	CoT 长度 [1k, 2k]
Qwen-Base	30.39%	27.2%
Qwen-GCD（训练对齐）	75%（+44.6）	38.4%（+11.2）
Qwen-Poly（训练不对齐）	29%（-1.4）	20.83%（-6.4）

训练数据对齐时更多 thinking 有帮助，不对齐时更多 thinking 有害——完美验证了理论预测。

亮点与洞察¶

CoT = 伪牛顿法：将 test-time CoT 与优化算法建立了精确的数学对应，提供了理解推理过程的新视角
Overthinking 的理论解释：首次从理论上解释了为什么更多推理有时会损害性能——训练数据未覆盖的技能方向在迭代中被放大
任务难度的特征谱定义：\(\text{Hard}(\Lambda) = \text{tr}(\Lambda)/\lambda_{\min}(\Lambda)\) 是一个简洁而有洞察力的度量
训练-测试计算的可替代性：严格证明了 test-time compute 可以补偿训练时 context length 的不足——为实践中的资源分配提供了理论指导

局限与展望¶

理论局限于线性模型：主要分析限于 linear regression + LSA，对非线性任务和深层 Transformer 的推广需进一步工作
GPT-2 实验仍在合成数据上：真实推理基准实验（Qwen）只涉及两个特定任务（GCD 和多项式根），覆盖面有限
任务难度定义依赖协方差谱：实际 NLP 任务中"技能"和"特征分布"难以直接测量，理论到实践的 gap 明显
未考虑 RL 训练场景：当前分析基于 SFT/ICL，o1/R1 类模型的 RL 训练范式下理论是否成立未知

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从理论上系统地分析训练数据与 test-time scaling 的关系，overthinking 和任务选择的理论都是新贡献
实验充分度: ⭐⭐⭐⭐ LSA/GPT-2 合成实验充分验证理论，Qwen 真实基准实验为亮点，但真实任务覆盖面可更广
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨清晰，直觉解释到位，从单任务到多任务层层递进
价值: ⭐⭐⭐⭐⭐ 对理解和改进 test-time scaling 有重要指导意义，任务选择策略可直接用于 RL reasoning 训练