Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models¶

会议: ICML2026
arXiv: 2606.15070
代码: 待确认
领域: LLM推理
关键词: 过度思考, 早停, 注意力熵, 测试时计算, 训练无关

一句话总结¶

ASAG 是一个训练无关、即插即用的推理早停框架：它在大推理模型（LRM）每个"思考动作"切换点上同时读取模型置信度和注意力熵，判断推理是否真的收敛，从而自适应地选择"早停 / 注入 logits 推一把 / 跳出思维陷阱 / 继续"四种策略，在 Qwen3-8B 上把平均准确率提升 3.2% 的同时把生成 token 数砍掉近 40%。

研究背景与动机¶

领域现状：DeepSeek-R1、GPT-o1、Qwen3 这类大推理模型（LRM）靠测试时计算扩展（test-time compute scaling）显式生成长链思维（CoT），把问题拆成多步"慢思考"后再给结论。链越长，复杂题答得越好。

现有痛点：但 LRM 普遍"过度思考"（overthinking）——已经推出正确答案了还在反复"wait、hmm、let me recheck"，不仅徒增延迟和算力，反而会让模型偏离正确路径、把对的答案改错。现有缓解手段分三类：训练类（SFT/RL 重训，代价大）、提示类（精心设计 prompt，难泛化）、输出类（即插即用，但只看模型内部置信度信号）。

核心矛盾：输出类方法走的是"推理-探测-退出"范式，假设"置信度高=答案对"，一旦某个动作切换点（ATP，由 wait/hmm 等 token 标记）的置信度超过阈值就早停。可置信度本身不可靠：模型在难题上过度自信（图 1a：错答案给到 0.99 的退出概率，被错误早停），在易题上信心不足（图 1b：对的答案 15 反复犹豫到 0.93 才肯停，白白浪费 token）。单一置信度信号同时踩了"过早停"和"该停不停"两个坑。

切入角度：作者从注意力分布入手。借鉴 KV-cache 驱逐的发现——注意力矩阵本质是个信息过滤器，会把权重集中到少数关键 token 上。于是提出假设：当 LRM 真正收敛到可靠结论时，它的注意力会从"弥散的探索式注意"转向"集中的证据驱动注意"，对应的注意力熵会显著下降。预实验（274 个答对样本）证实：答案尚未出现时注意力熵高且平稳，一旦推出正确中间答案，熵骤降，70% 以上的样本熵变率 \(\Delta H < -0.1\)。

核心 idea：用"模型置信度 + 注意力熵"两路信号联合刻画推理状态，替代单一置信度——熵告诉你信息流是否稳定，从而既治"过度自信导致的早停"，也治"信心不足导致的拖延"。

方法详解¶

整体框架¶

ASAG（Attention-State Adaptive Generation）是套在已有 LRM 外面的推理时控制器，不改任何权重。模型照常做 CoT 生成，每当遇到一个 ATP（如 "wait" token，标志一个思考动作结束），就进入"探测"：在当前生成后临时拼一段探测提示 \n\n Final Answer\n\n \boxed 逼出中间答案 \(A\)，据此算出两个量——平均置信度 \(C\) 和注意力熵 \(H\)（进而算熵变率 \(\Delta H\)）。然后根据 \((C,\Delta H)\) 落入哪个区间，从四种生成策略里选一种：注意力引导早停、收敛增强 logits 注入、陷阱逃逸跳转提示、或不干预继续。整个过程在每个 ATP 反复进行，直到早停或自然结束。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["LRM 慢思考 CoT 生成"] --> B{"遇到 ATP？<br/>(wait/hmm)"}
    B -->|否| A
    B -->|是| C["探测：拼接探测提示<br/>逼出中间答案 A"]
    C --> D["注意力熵作为收敛信号<br/>算置信度 C 与熵变率 ΔH"]
    D -->|"C>λ 且 ΔH<α"| E["注意力引导的早停判据<br/>判定收敛 → 早停出答案"]
    D -->|"C<λ 且 ΔH<α"| F["收敛增强的 logits 注入<br/>推模型尽早认定答案"]
    D -->|"ΔH≥α 且命中陷阱"| G["陷阱逃逸的跳转提示<br/>换个角度重审"]
    D -->|"其余"| A
    F --> A
    G --> A

关键设计¶

1. 注意力熵作为推理收敛信号：给"模型到底想清楚没"装一个内部探针

这一设计针对的是"单看置信度不可靠"这个根本痛点。ASAG 用当前解码窗口与全局 token 之间的 query-key 注意力矩阵，定义归一化香农熵来度量信息流的弥散程度：先对注意力分数做 softmax 得到权重矩阵 \(A^W_{h,l}\)，再算 \(H_{h,l} = -\frac{\sum_{i}\sum_{j} A^W_{h,l}[i,j]\log A^W_{h,l}[i,j]}{\log k}\)，其中 \(A^W_{h,l}[i,j]\) 表示第 \(j\) 个 token 对第 \(i\) 个 token 的影响、\(k\) 是 key 长度。把最后 4 层所有注意力头的熵相加得到聚合熵 \(H = \sum_{h=1}^{N}\sum_{l=L-3}^{L} H_{h,l}\)，并定义熵变率 \(\Delta H = \frac{H - H_1}{H_1}\)（\(H_1\) 是首个 ATP 的熵）。熵低且在下降，意味着注意力从"四处探索"收缩到"盯住少数关键证据"，是比 token 置信度更稳健的收敛指标——这正是后面三种策略共用的判据基础。

2. 注意力引导的早停判据：置信度与熵双闸门，堵住"过度自信的错误早停"

针对难题上的过度自信。DEER 等方法只要 \(C>\lambda\) 就早停，于是被难题上虚高的置信度骗到、过早退出给出错答案。ASAG 加了一道熵闸门：置信度 \(C\) 由中间答案各 token 概率的均值给出 \(C=\frac{1}{n}\sum_{i=1}^{n} p(a_i)\)；规则是——首个 ATP 只要 \(C>\lambda\) 就可早停；后续 ATP 必须 \(C>\lambda\) 且 \(\Delta H < \alpha\) 才允许早停，否则视为推理仍不稳定、继续生成。多了"熵确实在降"这一条，模型在难题上即便一时自信，只要注意力还没收敛就不会被放走，从而压住过早终止的风险。

3. 收敛增强的 logits 注入：对"想明白了却不敢下笔"的易题轻推一把

针对易题上的信心不足（图 1b 那种对着 15 反复 wait 的情形）。当出现 \(C<\lambda\) 但 \(\Delta H<\alpha\)——即注意力已收敛、关键证据已抓到，只是 token 级置信度偏低，模型按原轨迹会一直犹豫到阈值、白烧 token。直接改注意力代价大，ASAG 改成只动输出 logits 这种轻量做法：取中间答案里目标 token 的归一化 logits 概率 \(\text{Logits}_r\)，按 \(\text{Logits} = 0.95\cdot\text{Softmax}(M(P,T)) + 0.05\cdot\text{Logits}_r\) 注入，把已收敛的中间答案当作软引导，让模型更早对正确结论下定决心。仅需对语言模型头 \(M\) 做极小调整，几乎零额外开销。

4. 陷阱逃逸的跳转提示：识别"鬼打墙"并强制换条路

针对大熵变率（\(\Delta H \geq \alpha\)）情形——这意味着推理尚未收敛。但有时单纯继续没用：模型可能陷入"思维陷阱"，沿着一条错误初始路径不断回看、原地打转。ASAG 据此判别：构造全局注意力权重矩阵 \(A^W_{\text{global}} = \frac{1}{N}\cdot\frac{1}{4}\sum_{h=1}^{N}\sum_{l=L-3}^{L} A^W_{h,l}\)，若当前思考动作 \(T_i\) 分给上一动作 \(T_{i-1}\) 的平均注意力反而超过分给自己的，就判定模型在反刍旧推理、无实质进展，于是注入跳转提示 \(J\)（"Wait, my previous reasoning is not correct. I should adopt a more concise and different approach…"）迫使它从新视角重启。跳转未必每次奏效，故设最大尝试次数 \(s\)，超过即直接触发早停，避免无意义空转。

损失函数 / 训练策略¶

ASAG 完全训练无关：无 SFT、无 RL、无额外训练数据，所有逻辑都在推理时完成，只需读取已有 LRM 的注意力矩阵与 logits，对语言模型头做轻量 logits 注入即可，因此能即插即用接入 DeepSeek-R1-Distill、Qwen3 等任意主流 LRM。关键超参为置信度阈值 \(\lambda\)、熵变率阈值 \(\alpha\)、最大跳转次数 \(s\)。

实验关键数据¶

主实验¶

在 9 个推理基准上评测（6 个数学：GSM8K / MATH-500 / AMC2023 / AIME2024 / AIME2025 / OlympiadBench；1 个科学：GPQA Diamond；2 个代码：HumanEval / LiveCodeBench），覆盖 DeepSeek-R1-Distill 与 Qwen3 不同规模。指标为准确率 Acc↑、生成长度 Len↓、压缩率 CR↓（相对 vanilla 的 token 占比）。下表为 Qwen3-4B 部分结果（CR 越低越省、Acc 越高越好）：

方法	GSM8K Acc	AIME2024 Acc	OlympiadBench Acc	GPQA Acc	平均 Acc↑	平均 CR↓
Vanilla	93.8	63.3	59.0	46.5	71.0	100%
NoThinking	89.6	23.3	40.6	36.4	54.8	34.3%
TALE	91.3	60.0	54.7	41.9	67.1	58.7%
Dynasor	92.9	63.3	63.6	46.5	71.6	64.4%
DEER	94.2	60.0	62.9	47.0	71.3	64.4%
ASAG（本文）	94.2	70.0	64.6	48.0	更高	显著更低

ASAG 在 AIME2024 这种难题上把准确率从 vanilla 的 63.3 提到 70.0、同时把长度从 11,916 压到 8,768，正好印证"双信号既防过早停又防拖延"。

消融与整体增益¶

模型	准确率提升	token 减少
Qwen3-4B	+2.9%（绝对）	≈37%
Qwen3-8B	+3.2%（绝对）	≈40%

关键发现¶

熵信号是关键：预实验中答对样本一旦推出正确中间答案，注意力熵骤降，>70% 的 \(\Delta H_4\) 落在 \(-0.1\) 以下；而未答对时熵高且平稳——这是整套方法成立的实证地基。
难题增益最大：在 AIME 等高难度基准上提升最显著（AIME2024 +6.7 绝对准确率），说明熵闸门确实救回了被置信度骗走的难题。
效率与准确率同向：不同于多数早停方法"省 token 就掉点"，ASAG 在大幅压缩长度的同时反而涨点，因为它砍掉的是真正冗余/有害的过度思考。

亮点与洞察¶

把"信息论视角"落到可用信号上：注意力熵不是泛泛的可解释性概念，而是被做成一个能在每个 ATP 实时读取、直接驱动决策的收敛探针——是什么时候停的判据，从"猜置信度"换成了"看信息流收没收"。
四策略对症下药：早停、logits 注入、跳转提示分别精确对应"过度自信、信心不足、思维陷阱"三种失败模式，外加 vanilla 兜底，覆盖面比单纯早停完整得多。
零训练即插即用可迁移：只依赖注意力矩阵和 logits，任何开放注意力的 LRM 都能直接套用；其中"用 \(T_{i-1}\) 与 \(T_i\) 的注意力占比判陷阱"这一招，可迁移到任何需要检测"模型在原地打转"的生成任务。

局限与展望¶

依赖可读注意力：方法需要访问内部注意力矩阵和最后几层熵，对只暴露文本接口的闭源 API 模型不适用。
阈值需要校准：\(\lambda\)、\(\alpha\)、\(s\) 是经验阈值，跨模型/跨任务的最优值可能不同，论文未给出自适应设定方案。
跳转提示并非总有效：作者自己承认 jump prompt 有时无法真正换路（受根深蒂固的推理偏置影响），只能靠次数上限 \(s\) 兜底，治标性较强。
熵假设的边界："收敛即熵降"的假设在多数数学/代码推理上成立，但在更开放、答案非唯一的任务上是否仍稳健，需要更多验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用注意力熵替代置信度作早停判据、并据此设计四类干预，视角新且自洽
实验充分度: ⭐⭐⭐⭐ 9 个基准、跨两大 LRM 系列多规模，主结果扎实；阈值敏感性与跨任务边界可再充分些
写作质量: ⭐⭐⭐⭐ 动机—观察—方法逻辑链清晰，图 1/图 2 把失败模式与熵信号讲得直观
价值: ⭐⭐⭐⭐⭐ 训练无关、即插即用、同时涨点又省 40% token，对推理模型部署有直接实用价值