Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?¶

会议: ICLR 2026
arXiv: 2602.07470
代码: 无
领域: LLM推理
关键词: reasoning LLM, chain-of-thought, robustness, self-correction, doubt mechanism

一句话总结¶

系统评估推理型 LLM 对其 CoT 中各种干预（良性/中性/对抗性）的鲁棒性：发现模型总体鲁棒能从干预中恢复，但改写风格（paraphrasing）会抑制"自我怀疑"表达导致正确率下降，恢复过程有显著计算开销（CoT 膨胀最高 665%）。

研究背景与动机¶

领域现状：推理型 LLM（如 DeepSeek-R1、QwQ）通过生成 CoT 来逐步推理，提升了复杂任务表现。但在实际部署中 CoT 可能受到噪声工具输出、对抗性注入或自身幻觉的干扰。

现有痛点：已知传统（非推理）LLM 的自我纠错能力有限——经常把正确答案改错。但 RLVR 训练的推理模型是否获得了更强的鲁棒性和自纠能力，缺乏系统性研究。

核心矛盾：推理鲁棒性和推理效率之间存在 trade-off——模型可能能恢复正确答案，但代价是 CoT 大幅膨胀、推理成本飙升。

本文目标（1）推理 LLM 能否从 CoT 中的干预中恢复？（2）什么因素影响恢复能力？（3）恢复的计算代价是什么？

切入角度：设计受控实验框架，在模型自己正确的 CoT 上施加 7 种干预，测量是否仍能得到正确答案。

核心 idea：推理 LLM 对 CoT 干预总体鲁棒，但其鲁棒性依赖于"自我怀疑"（doubt）这一元认知机制，改写风格会抑制 doubt 并损害性能。

方法详解¶

整体框架¶

这篇论文想回答一个问题：当推理模型的思维链（CoT）在中途被各种方式"破坏"后，它还能不能把答案救回来？为此作者搭了一个受控的干预实验框架。先从 NuminaMath 里筛出 600 道所有待测模型都能独立答对的数学题——这一步保证了"模型本来会做"，于是干预后出现的任何变化都能归因于干预本身。接着把每条 CoT 按句/段切开，在 5 个相对时间步（\(t = 0.1, 0.3, 0.5, 0.7, 0.9\)，即推理进行到 10%–90% 处）插入一次干预，删掉干预点之后的原始内容，让同一个模型从被改动处继续往下推，独立采样 8 次，最后统计还能答对的比例。

整个评测规模很大：9 个开源推理模型 × 600 道数学题 × 7 种干预 × 5 个时间步 × 8 次采样，仅数学就有约 152 万条推理链；再加上 Science（231 题）和 Logic（326 题），总计约 292 万条，足以支撑跨模型、跨领域的统计结论。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["9 个推理模型 +<br/>NuminaMath 数学题"] --> B["筛 600 道<br/>所有模型都答对的题"]
    B --> C["把每条正确 CoT<br/>切成推理步骤"]
    C --> D["七种干预、三个层级<br/>在 5 个时间步各插入一次"]
    D --> E["删掉干预点后的内容<br/>同模型续写 ×8 次"]
    E --> F["分层鲁棒性指标<br/>统计答对次数 K"]
    E --> G["Doubt 分析<br/>对续写前 20 句逐句分类"]
    F --> H["跨模型/跨领域的<br/>鲁棒性 + 计算开销结论"]
    G --> H

关键设计¶

1. 七种干预、三个层级：用一套从良性到对抗的扰动逼出鲁棒性边界

只看"模型还能不能答对"说明不了问题，得知道它对什么样的破坏敏感，所以作者按破坏意图把干预分成三档、共 7 种。良性两种：(a) 用另一个模型续写一步正确推理，(b) paraphrasing——把整条 CoT 改写一遍但保留语义。中性两种：(c) 在当前步骤里随机插入乱码字符，(d) 用一段无关的 Wikipedia 段落替换当前步骤。对抗三种：(e) 插入一步错误的推理延续，(f) 插入伪造的数学事实，(g) 把当前内容换成无关话题的 CoT 开头。其中 4 种干预需要结合上下文生成（用 Qwen-2.5-32B-Instruct 来写），另外 3 种与上下文无关。这套设计的关键在于它同时覆盖了"看起来无害的改写"和"明显的恶意注入"，从而能区分模型究竟是真有逻辑韧性，还是只在某些扰动下侥幸没崩。

2. 分层鲁棒性指标：用三档严格度刻画"恢复"到底有多稳

8 次独立采样里只要有几次答对，算不算鲁棒？这取决于你要多严格。作者把 8 次采样中答对的次数记为 \(K\)，定义三个层级：at-least-once-robust（\(K \geq 1\)，只要有一次救回来就算）、majority-robust（\(K \geq 5/8\)，多数采样能恢复）、all-robust（\(K = 8\)，每次都恢复）。分析主要采用 majority-robust，因为它既排除了"碰巧蒙对一次"的偶然，又不像 all-robust 那样苛刻到把正常采样波动也判成失败，是对真实恢复能力更稳健的度量。

3. Doubt 分析：把"自我怀疑"量化成可统计的元认知信号

作者注意到推理模型在出错后常冒出 "Wait"、"Let me check" 这类犹疑性表达，怀疑这正是它纠错的抓手，于是想把这种"自我怀疑"变成可测量的量。做法是用一个 LLM 分类器，对干预后续写的前 20 句逐句做 doubt / non-doubt 二分类，统计 doubt 句的占比，再和未干预基线的 doubt 率（0.153）作对比。这个指标让"模型在恢复时是否更频繁地自我质疑"从一种观感变成能跨干预、跨模型横向比较的数字，后文 paraphrasing 抑制 doubt 的结论正是建立在它之上。

实验关键数据¶

主实验：Majority Robustness（数学）¶

发现	细节
总体鲁棒	除最小模型外，所有模型在所有干预下 majority robustness 接近 1.0
尺寸效应	R1-Distill-Qwen-1.5B 鲁棒性最差，32B 模型最强
时间步效应	干预越早（\(t=0.1\)），影响越大
唯一例外	Paraphrasing 是唯一导致所有模型一致下降的干预

CoT 长度膨胀（%变化 vs 原 CoT）¶

模型	Benign:Rewrite	Neutral:Add Text	Neutral:Insert Chars	Adv:Wrong Cont.
R1-Distill-Qwen-1.5B	-37%	+665%	+111%	+32%
R1-Distill-Qwen-7B	-60%	+124%	+34%	+9%
R1-Distill-Qwen-14B	-62%	+54%	+6%	+10%
QwQ-32B	-44%	+167%	+6%	+16%

关键发现¶

Doubt 是恢复的核心机制：干预后 doubt 表达显著上升，对抗性干预触发最强 doubt 信号。成功恢复的 trace 中 doubt 量略高于失败的，说明 doubt 支持但不保证恢复。
Paraphrasing 的致命问题：改写 CoT 会将 doubt 率从基线 0.153 降至 0.068-0.076，模型转为更"自信"但更容易出错的风格。在 \(t=0.1\) 改写后，CoT 缩短 59-61% 但准确率下降。
鲁棒性跨领域一致：Math/Science/Logic 三个领域的恢复模式基本一致。
小模型显著更脆弱：1.5B 模型在 Neutral 干预下 CoT 膨胀 665%，而大模型仅 54-167%。

亮点与洞察¶

Doubt 作为元认知的发现：这是首次系统量化推理 LLM 中 "Wait/Let me check" 等自我怀疑表达的功能作用。它们不是冗余输出而是主动的恢复机制——被训练出来的元认知能力。这一发现对理解 RLVR 训练产生的涌现行为有重要意义。
风格不变性的缺失：Paraphrasing 保留了语义但改变了风格，就导致性能下降。这揭示了一个深刻问题——当前推理 LLM 的鲁棒性部分依赖于特定的表述风格（hedging、self-questioning），而非纯粹的逻辑推理能力。
实用意义——工具输出注入的风险：在 Agent 系统中，工具返回的中间结果会被插入 CoT，本文量化了这种注入的影响（最高 +665% 计算开销），为优化推理效率提供了经验依据。

局限与展望¶

仅评估了开源模型，未包含 o1/o3 等闭源推理模型。
600 道数学题限制在"所有模型都能答对"的范围，可能高估了鲁棒性——更难的题目上恢复能力可能更差。
干预只在单个步骤上施加，实际场景中可能有连续多次干扰。
未探索如何通过训练改善 style invariance（如在 RLVR 中加入 paraphrased trace 的训练）。

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性的推理 LLM CoT 鲁棒性基准，doubt 机制的发现是重要洞察
实验充分度: ⭐⭐⭐⭐⭐ 9 模型 × 7 干预 × 3 领域 × 292 万条链，规模令人印象深刻
写作质量: ⭐⭐⭐⭐ 结构清晰，实验细节详尽，图表丰富
价值: ⭐⭐⭐⭐ 为推理 LLM 的鲁棒性提供了系统性证据，对部署安全和训练改进都有指导意义