Bounds of Chain-of-Thought Robustness: Reasoning Steps, Embed Norms, and Beyond¶

会议: ICLR2026
OpenReview: cusZbViSLd
代码: 待确认
领域: 学习理论 / LLM推理
关键词: 思维链鲁棒性, 输入扰动, Lipschitz 连续, 线性自注意力, 嵌入范数

一句话总结¶

本文给思维链（CoT）对输入扰动的鲁棒性建立了第一套理论上界：在 Lipschitz 连续假设下证明"推理步数越多、输出波动上界越小，但无论推到无穷步都消不掉扰动"，再以线性自注意力（LSA）为案例证明"可容忍的输入扰动半径与输入嵌入、隐状态向量的范数成负相关"，并在 4 个主流 LLM × 3 个推理数据集上得到与理论一致的实验曲线。

研究背景与动机¶

领域现状：思维链（CoT）让大模型一步步写出推理过程，显著提升了复杂推理的表现。但大量实证研究发现 CoT 对输入极其敏感——prompt 上一点细微改动，最终答案就可能大幅波动。为缓解这一点，社区做了一堆 prompt 优化方法（TextGrad 用"文本梯度"改写、OPRO 让模型自己迭代生成更优 prompt 等）。

现有痛点：这些工作几乎都把"CoT 鲁棒性"当成一个纯经验现象来对待——观察到扰动会放大、然后靠各种 trick 去压，却没人说清楚扰动到底怎么在推理过程里传播、为什么会放大成输出波动。缺了这层机理，prompt 优化就只能停留在 ad-hoc 调参。

核心矛盾：一个很自然但没被回答的问题是：到底是什么在决定 CoT 对输入扰动的鲁棒性？是推理链的长度？是模型本身的某种性质？还是训练数据？这些因素各自起多大作用、方向如何，全是空白。

本文目标：把这个问题拆成两层来回答——（1）在不依赖具体架构的一般假设下，推理步数 \(K\) 如何影响输出波动的上界？（2）落到具体的注意力模型上，模型内部哪些量（向量范数、训练数据分布、残差系数）决定了鲁棒性？

切入角度：沿用前人把 CoT 看作多步迭代过程的视角——每一步的输出当作下一步的输入，\(h_{k,x}=f(h_{k-1,x},x)\)。只要给映射函数 \(f\) 加上一个温和且被广泛采用的 Lipschitz 连续假设（约束输出增长速率、防止爆炸），就能把"扰动如何逐步传播"用递推式精确刻画出来。

核心 idea：不发明新方法，而是为 CoT 鲁棒性推导可证明的上界——先证一般性的输出波动上界（揭示推理步数的作用与极限），再以线性自注意力为案例把上界落到可观测的向量范数上，从理论反推出可操作的鲁棒性杠杆。

方法详解¶

整体框架¶

全文是一条"从一般到具体、从理论到验证"的链条，没有可训练模块，核心是两条定理。

设用户 query 与输出的嵌入向量为 \(x,y\in\mathbb{R}^d\)，输入扰动为 \(\delta\)，扰动后输入 \(\tilde{x}=x+\delta\)。把 CoT 建模为多步迭代：第 \(k\) 步隐状态 \(h_{k,x}=f(h_{k-1,x},x)\)（\(h_{1,x}=f(0,x)\)），扰动在第 \(k\) 步造成的输出波动记为 \(\varepsilon_k=h_{k,\tilde{x}}-h_{k,x}\)。整条推导分四块：

一般上界：在 \(f\) 满足 Lipschitz 连续的前提下，递推展开得到最终步输出波动 \(\|\varepsilon_K\|\) 的上界（定理 1），看清"推理步数 \(K\)"如何进入这个界。
扰动可容忍半径：反过来问——若要求输出波动落在可接受范围 \(\|\varepsilon\|\le R\) 内，输入扰动 \(\|\delta\|\) 最大能多大？令 \(K\to\infty\) 得到一个非零下界，证明"无限推理也消不掉扰动"。
LSA 落地：把抽象的 Lipschitz 常数 \(C,\gamma\) 落到线性自注意力模型上（定理 2），证明可容忍扰动半径与输入嵌入范数 \(R_x\)、隐状态范数 \(R_h\) 成负相关，并讨论训练数据协方差 \(\Gamma\)、残差系数 \(\eta\) 的影响。
可操作杠杆：从定理 2 反推出一个 prompt 选择准则——选让扰动上界最大的 prompt，在不改模型的前提下提升鲁棒性。

关键设计¶

1. 把 CoT 建成 Lipschitz 迭代，推出"步数越多越鲁棒"的上界

针对"扰动如何传播说不清"的痛点，本文给映射函数 \(f\) 施加 Lipschitz 连续约束：存在常数 \(C,\gamma\in\mathbb{R}\) 使得

\[\|f(h_1,x_1)-f(h_2,x_2)\|\le \gamma\|h_1-h_2\|+C\|x_1-x_2\|.\]

把每一步的输入 \(h\) 替换为上一步输出并递归展开，得到定理 1：

\[\|\varepsilon_K\|\le\Big(A\gamma^K+\tfrac{C}{1-\gamma}(1-\gamma^K)\Big)\|\delta\|,\quad A=\max\tfrac{\|\varepsilon_1\|}{\|\delta\|}.\]

这个界的妙处在于它把扰动传播拆成了两条物理上不同的路径：（i）藏在隐状态里的那部分扰动，每步都要再乘一次 \(\gamma\)，系数是 \(A\gamma^K\)——若 \(\gamma<1\)（well-trained 模型的合理假设，论文在附录 F.1 用真实数据拟合验证），它随步数指数衰减；（ii）藏在输入向量里的那部分，因为输入 \(x\) 每步都不变，扰动会逐步累加，系数是 \(\sum_{k=1}^K C\gamma^k=\tfrac{C}{1-\gamma}(1-\gamma^K)\)。模型固定时 \(C,\gamma\) 固定，于是上界只由步数 \(K\) 和扰动幅度 \(\|\delta\|\) 决定，\(K\) 越大界越紧——这就从理论上解释了"更长、更结构化的推理链能压扰动"。

2. 反解输入扰动半径，证明"无限步也消不掉扰动"

实际任务能容忍一定的输出波动而不改最终答案（如分类只要最高概率的选项不翻转）。设可接受边界 \(\|\varepsilon\|\le R\)，要求定理 1 的右端 \(\le R\)，反解得（式 3）：

\[\|\delta\|\le\frac{R}{A\gamma^K+\tfrac{C}{1-\gamma}(1-\gamma^K)}.\]

这个可容忍输入扰动半径随 \(R\) 增大、随 \(C,\gamma\) 增大而缩小（\(C,\gamma\) 大意味着模型压不住波动）。真正的洞察来自取 \(\gamma<1\) 并令 \(K\to\infty\)（式 4）：

\[\|\delta\|\le\frac{R(1-\gamma)}{C}.\]

这是个非零常数——哪怕推理无限长，只要输入扰动超过这个阈值，模型就无法消除随之而来的输出波动。论文给了一个直觉例子：若把一道数值推理题"扰动"成一道编程题，无论推多久模型都给不出原题的答案。这条结论纠正了"只要让模型多想几步就能稳"的乐观期待：CoT 能衰减但不能中和扰动。

3. 以线性自注意力为案例，把上界落到可观测的向量范数

定理 1、式 4 里的 \(C,\gamma\) 还是抽象常数，第三块把它们落到具体模型。选线性自注意力（LSA）——把单层 Transformer 里的非线性 softmax 换成线性映射的简化版，便于解析：令 \(E=[h,x]\)，

\[f_{\mathrm{LSA}}(h,x;\theta)=E+\frac{W^{PV}E\,E^\top W^{KQ}E}{\rho}.\]

代入前人给出的 well-trained 最优参数 \(\theta^*\)、并引入残差系数 \(\eta\in(0,1)\) 防梯度爆炸后，引理 1 给出 \(C,\gamma\) 的上界（记 \(\alpha=(\mathrm{Tr}(\Gamma^{-2}))^{-1/4}\)，在 \(\|x\|\le R_x,\|h\|\le R_h\) 下）：

\[C\le\eta+\alpha^{-1}\|\Gamma^{-1}\|R_h^2,\qquad \gamma\le\sqrt{\eta^2+4R_x^2\alpha^{-2}\|\Gamma^{-1}\|^2R_h^2}.\]

代回式 3 得到定理 2——LSA 在推理步 \(K\) 下的认证可容忍扰动半径（\(\beta=\alpha^{-1}sR_h^2\)，\(s=\|\Gamma^{-1}\|\)）：

\[\|\delta\|\le\frac{(1-\gamma)R}{(\eta+\beta)+A(1-\gamma)(1+\beta)\gamma^K},\qquad K\to\infty:\ \|\delta\|\le\frac{(1-\gamma)R}{\eta+\beta}.\]

由此读出五个因素及其方向：\(R\)（可接受输出波动范围，正相关）；\(R_x\)（输入嵌入范数，负相关——输入向量越大鲁棒性越弱）；\(R_h\)（隐状态范数，负相关——内部状态越大越容易被带偏）；\(\Gamma\)（训练数据协方差，数据越不一致越敏感）；\(\eta\)（残差系数，越大越多保留输入信息、扰动跨层留存越多）。这把一个抽象的鲁棒性问题翻译成了推理时压小向量范数、训练时让数据更一致两条具体杠杆。

4. 从定理 2 反推 prompt 选择准则：最大化 \(A^{-1}\)

最后把理论变成可操作的小工具。令 \(\tau=\alpha^{-1}s\)、\(F\) 为定理 2 右端、\(A=(R_xR_h)^2\)，求导得（式 9）：

\[\frac{\partial F}{\partial A}=-\frac{R\tau^2}{2(\eta+\tau R_h^2)\sqrt{\eta^2+\tau^2 A}}<0.\]

即 \(F\) 与 \(A\) 严格负相关，\(A^{-1}\) 越大可容忍扰动半径越大。于是对每个问题：用所有候选 prompt 构造输入，取嵌入层向量与末层隐状态算出各自范数得到 \(A\)，选 \(A^{-1}\) 最大的那条 prompt 去推理。这是个零训练、纯前向的选择策略，作者强调本文目的是分析鲁棒性而非刷 prompt 优化的 SOTA，这个准则只为印证理论的可用性。

实验关键数据¶

实验在 4 个主流 LLM（Llama2-7b、Llama3.1-8b、Deepseek-R1-Distilled-Llama3.1-8b 记作 Llama-R1-8b、Qwen3-8b）× 3 个推理数据集（MATH、MMLU-Pro、GPQA）上进行。两个指标：EM（Exact Match，答对率，越高越好）与 OF（Output Fluctuation，多 prompt 答案的归一化熵，越低越稳）。输入扰动通过收集 TextGrad / OPRO / CFPO 优化过程中产生的多套 prompt 来构造。

主实验：模型越强越鲁棒¶

模型	MATH EM	MATH OF	MMLU-Pro EM	MMLU-Pro OF	GPQA EM	GPQA OF
Llama2-7b	14.2	0.475	11.2	0.622	17.5	0.509
Llama3.1-8b	45.8	0.366	41.0	0.350	26.6	0.467
Llama-R1-8b	64.8	0.158	44.8	0.292	28.5	0.371
Qwen3-8b	77.2	0.097	46.9	0.162	37.3	0.214

随能力上升，EM 升、OF 降同步发生。用理论解释：更强的模型往往（i）训练数据更一致（清洗/合成更好）→ \(\Gamma\) 抬高扰动上界，（ii）推理链更长更结构化 → 定理 1 里 \(K\) 增大、波动界更紧。支持 Long-CoT 的 Llama-R1、Qwen3 正是这种效应的体现。

理论预测的相关性验证¶

关系（图）	自变量	Pearson 系数	结论
图 1	输入扰动幅度	0.619	扰动越大输出越不稳（印证定理 1）
图 4	输入嵌入向量范数	0.506	范数越大越不稳（印证定理 2 中 \(R_x\) 负相关）
图 5	隐状态向量范数	0.229	范数越大越不稳，但相关性弱

关键发现¶

推理步数（图 2、3）：OF 随 CoT 步数 \(K\) 增加总体下降，符合定理 1；但 \(K=1\sim16\) 推到十几步后 OF 收敛到一个稳定的非零水平，正是式 4"无限步也消不掉扰动"的实证。EM 不一定随 \(K\) 升——步数多的题往往更难，准确率反而可能掉。
嵌入范数阈值：输入嵌入范数从 60 升到 70 时 OF 出现突跳，说明存在一个模型能稳定处理的范数阈值，越过后多数扰动超出定理 2 的上界、输出剧烈波动。
隐状态范数为何相关弱：多数数据点的隐状态范数集中在 (140,150) 窄区间——well-trained 模型倾向把数据编码到固定的小范数区间来抗扰动；且 \(\gamma\) 由范数上界而非具体值决定，加上 LayerNorm 的缓冲，使 OF 随隐状态范数变化不明显。
prompt 选择准则有效（表 3）：按 \(A^{-1}\) 最大选 prompt，在所有设置上 EM 都优于 TextGrad / OPRO / CFPO。如 Llama3.1-8b 在 GPQA 上从 base 23.7 提到 32.3（CFPO 仅 27.6）；Qwen3-8b 在 MMLU-Pro 上达 49.2（最优 baseline 45.9）。

亮点与洞察¶

把"经验现象"做成"可证明的界"：CoT 鲁棒性一直被当成调参问题，本文给出了第一套连接输入扰动与输出波动的上界，并且界里的每一项都对应一个可观测/可干预的量（步数、范数、数据一致性、残差），让"为什么不稳"第一次有了机理解释。
"衰减但不中和"这个结论很反直觉也很重要：式 4 的非零下界从理论上否定了"多想几步就能稳"的朴素期待，提醒大家盲目堆推理长度有上限，鲁棒性的天花板由模型与数据决定。
两路扰动分解的物理图像清晰：定理 1 把扰动拆成"隐状态路径（每步乘 \(\gamma\)、指数衰减）"和"输入路径（每步累加、收敛到 \(\tfrac{C}{1-\gamma}\)）"，这个分解本身就解释了为什么长链能压一部分扰动、又压不掉另一部分。
理论直接长出可迁移的杠杆：定理 2 把抽象常数落到嵌入/隐状态范数，于是"推理时压小范数、训练时让数据更一致"成了可操作建议；\(A^{-1}\) prompt 选择准则更是零训练即可用，可迁移到任何需要从候选 prompt 里挑稳健者的场景。

局限与展望¶

核心结论建立在 Lipschitz 连续与 LSA 简化上：定理 1 需要 \(f\) Lipschitz 且 \(\gamma<1\)，定理 2 把分析对象简化为线性自注意力（softmax 换线性、\(\rho=1\)、最优参数假设）。真实 Transformer 的非线性注意力、多头、深层堆叠是否完全保持这些结论，论文只在附录给了讨论，正文未端到端验证。
数据一致性 \(\Gamma\) 与残差系数 \(\eta\) 仅理论分析、未实证：作者明说验证 \(\Gamma\)、\(\eta\) 需要改训练数据和模型架构，本文只做理论推导以启发后续工作，实测只覆盖了 \(R,R_x,R_h\) 三个因素。
OF 指标自带饱和效应：输出波动用归一化熵度量，最大值受 prompt 数量约束，导致扰动超过 0.2、嵌入范数过大时 OF 会"封顶"，部分相关性（如隐状态范数 Pearson 仅 0.229）因此偏弱，可能掩盖真实趋势。
prompt 选择准则是副产品而非主菜：作者主动声明本文目标是分析而非优化 prompt，\(A^{-1}\) 准则只与三个 baseline 比、未做更广泛对比与效率深究，留作 future work。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次为 CoT 鲁棒性建立可证明的输入扰动—输出波动上界，并落到可观测量上
实验充分度: ⭐⭐⭐⭐ 4 模型 × 3 数据集系统验证理论曲线，但 \(\Gamma\)/\(\eta\) 未实证、OF 有饱和效应
写作质量: ⭐⭐⭐⭐⭐ 从一般到具体、理论与实验一一对应（表 1 把发现/证据/实验对齐），逻辑清晰
价值: ⭐⭐⭐⭐ 给"堆推理长度"划了理论天花板，并给出可迁移的范数/数据/prompt 杠杆