TrimR：基于验证器、免训练的思维裁剪，用于高效测试时扩展¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ofEkphaqg7
代码: 无
领域: LLM效率
关键词: 大推理模型, 测试时扩展, 思维裁剪, 过度思考, 在线推理系统

一句话总结¶

TrimR 用一个免微调的 7B 小验证器，在大推理模型（LRM）生成思维链的过程中实时检测「过度思考 / 思考不足 / 重复」三类冗余，并用引导提示温和或强制地让 LRM 提前收尾，在 MATH500、AIME24/25、GPQA 上把 QwQ-32B、R1-Distill-Qwen-32B、Pangu-R-38B 的推理运行时间最高砍掉 70%，而准确率几乎不掉（最多降 1.7%）。

研究背景与动机¶

领域现状：OpenAI o1、DeepSeek-R1、QwQ 这类大推理模型（LRM）靠拉长思维链（CoT）做逐步分析、自我纠错、探索多解，从而在数学/科学推理上达到专家级水平。测试时扩展（test-time scaling）进一步在解码阶段做 token 级探索来逼近准确率上界，但代价是巨大的解码开销——运行时间随序列长度超线性增长，部署成本高。

现有痛点：作者在 AIME24 与 MATH500 上观测到 LRM 有两类结构化的低效。一是过度思考（overthinking）：模型其实只用 30~50% 的 token 就已经得到正确答案，却仍不断「Wait」「Alternatively」地反复验证、换着花样重证，长度暴涨但准确率不增。二是思考不足（underthinking）：在难题上模型在多条不完整推理链之间来回震荡、迟迟不收敛，吐出又长又错的答案（QwQ 在难题上能甩出多达 140 段冗长却错误的思维）。此外还有 token 层面的重复循环，靠调高温度也压不住。

核心矛盾：现有省 token 的方案各有硬伤。训练类方法（带长度奖励的 RL、SFT 压缩、latent 推理）要重训大模型，算力贵、易过拟合任务、还可能损伤通用能力；免训练类方法（TokenBudget 动态调预算、Chain of Draft 用简洁指令）虽然无缝接入，但需要侵入式地改推理时行为；依赖 PRM/ORM 奖励模型对整条长序列打分的方案，则因为奖励在相同序列上不稳定、且要喂 8K~128K token 而开销巨大。简言之：既要省、又不能重训、不能侵入、还要能上工业级大批量在线服务，是个没被同时满足的组合。

本文目标：设计一个免训练、非侵入、可大批量在线部署的思维裁剪框架，同时治过度思考和思考不足，让 LRM 在测试时扩展中既快又不掉精度。

切入角度：作者把 LRM 推理类比成「语言空间里的数值优化搜索」——人类解简单题找到答案就停、解难题多次失败就放弃；数值优化器则在收敛或边际收益低于阈值时早停。于是只要有一个「验证器」判断推理是否已收敛，就能给出一个安全的停止时刻 \(t'\)，在不降低性能 \(\text{Perf}(X, y_{<t'}\mid\Pi)\ge\text{Perf}(X, y_{<t}\mid\Pi)\) 的约束下最小化推理成本 \(\text{Infer\_Cost}(y_{<t'})\)。

核心 idea：用一个免微调的轻量指令模型当验证器，把「检测冗余」这件难事化简成「答案是否存在 + 相邻两段答案是否等价」两个简单的二分类，一旦判定收敛/发散，就用提示让 LRM 提前停下——既不重训 LRM 也不重训验证器。

方法详解¶

整体框架¶

TrimR 在 LRM 在线生成思维链的过程中并行运行一个裁剪系统：每当 LRM 吐出新的反思 token，就把当前思维切成子思维并抽取其中的「中间答案」，交给一个 7B 小验证器判断；验证器只回答两件事——这段话有没有给出答案、相邻两段答案是否等价——据此触发三类裁剪决策（过度思考早停、思考不足强制收尾、重复截断），最后通过注入「引导提示」让 LRM 温和或强制地停止思考、直接给最终答案。整套检测与干预都跑在异步的在线系统 T4S 里，不阻塞 LRM 解码。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["LRM 流式生成<br/>思维链 CoT"] --> B["思维切分与答案抽取<br/>按反思 token 切段 + 取末 N 句"]
    B --> C["轻量验证器<br/>两阶段：存在性 p1 + 等价性 p2"]
    C -->|"连续 M 段答案等价"| D["三类冗余裁剪<br/>过度思考 / 思考不足 / 重复"]
    C -->|"预算耗尽仍不收敛"| D
    D --> E["引导提示停止思考<br/>温和 / 强制收尾"]
    E --> F["T4S 异步在线系统<br/>验证器与 LRM 并行解码"]
    F -->|"未触发则继续生成"| A

关键设计¶

1. 思维切分与中间答案抽取：把长 CoT 拆成可逐段验证的小单元

要让一个小模型频繁判断「该不该停」，前提是别让它读整条 8K~128K token 的长序列。作者利用 LRM 思维链本身的结构规律：思维之间几乎总以反思 token 分隔（\n\nWait、\n\nBut、\n\nAlternatively 等），而模型通常在每段思维末尾给出该段的答案再去验证。于是在生成途中按反思 token 把思维切成子思维 \(\text{Think\_Seg}(y_{<t})=[r_1, r_2, \dots, r_k]\)，再对每段只取最后 \(N_{\text{sent}}\) 句作为中间答案 \(s_l=\text{Last\_sentences}(r_l, N_{\text{sent}})\)——末尾几句既短又最可能含答案，极短的无效思维直接跳过。关键在于这一步是异步做的：反思 token 只占全部输出的约 0.5%、思维段数又远少于 token 数，所以验证器被调用得很稀疏，可以同时服务多个 LRM 而几乎不拖慢吞吐。这一步把「检测冗余」从「给整条长序列打分」降维成「读几句话做二分类」，是后面所有轻量化的基础。

2. 两阶段验证：用 7B 指令模型替代 PRM/ORM 做答案存在性 + 等价性二分类

这是 TrimR 免训练的核心。作者不训练复杂的过程奖励/结果奖励模型（PRM/ORM），而是把检测拆成两个小模型也能胜任的二分类任务，由同一个验证器 \(F_v\) 完成。第一阶段答案存在性检查：用提示 \(p_1\) 判断某段中间答案 \(s_i\) 是否真的解出了问题，只保留有结论的思维集合 \(S^* = \{ s_i \mid F_v(p_1(s_i)) \}\)，其中 \(F_v(p_1(s_i)) = \mathbb{I}\big[p_{F_v}(y{=}\text{“Yes”}\mid p_1(s_i)) > p_{F_v}(y{=}\text{“No”}\mid p_1(s_i))\big]\)。第二阶段等价性检查：用提示 \(p_2\) 判断 \(S^*\) 里相邻两段是否在数学/逻辑上等价，\(r(s^*_i, s^*_{i+1}) = F_v\big(p_2(s^*_i, s^*_{i+1})\big)\)。验证器只需对「Yes/No」两个 token 取概率、只做 prefill，不需要解码生成，再加上系统提示和问题的 KV cache 做前缀复用、把答案按三元组批处理，单次输入压到 200~400 token，相比 PRM/ORM 动辄读整条序列省下数量级的显存与算力。之所以有效，是因为「这段有没有答案」「两个答案等不等价」远比「给整条推理打一个连续分」稳定——后者在相同序列上常给出不一致的奖励，反而拖累检测可靠性。

3. 过度思考 / 思考不足 / 重复三类冗余的裁剪规则：同一套验证信号、三种停止条件

有了存在性与等价性信号，TrimR 用三条互补规则覆盖三类冗余。过度思考裁剪（Algorithm 1）模仿优化器的「多次探索收敛即停」：维护一个计数器，每当新出现的有结论思维与上一段结论等价就 +1、不等价就清零，连续等价达到阈值 \(M\) 次（实验用 \(M{=}2\)，即出现 \(M{+}1\) 段一致解）就判定收敛、注入停止提示。思考不足裁剪（Algorithm 2）针对难题的来回震荡：若已经用掉 \(R_{\text{thres}}\%\) 的 token 预算、跑过 \(N_{\text{thres}}\) 轮，模型仍没能产出至少三段一致的有结论链，就判定它陷在发散里、不太可能再突破，强制让它停下并总结现有洞见——这两个阈值要校准好，给模型足够探索空间又不至于无谓空转。重复截断则用滚动哈希实时检测重复的 token-ID 子序列，对每个新 token 增量更新哈希、不重算整条，默认开启，专治高温也压不住的死循环。三者共享同一个验证器输出，分别对应「该停不停」「越想越乱」「卡死循环」三种浪费。

4. 非侵入式引导提示 + 异步在线系统 T4S：只在检测到冗余时温和/强制收尾，且不阻塞解码

裁剪决策最终要落到「让 LRM 停下来」，作者用两类引导提示而非改模型权重或强行截断来实现非侵入。温和提示用于过度思考，把模型引导向 **Final Answer**\n 收束推理；强制提示用于思考不足和重复循环，在 </think> 之前就打断、保证不会无尽生成。由于干预只在检测到冗余时才激活，未触发时 LRM 保持原生行为，因此能保住模型原有的推理能力与知识。工程上，这一切由异步系统 T4S（Test-Time Thinking Trimming System） 承载：它构建在 vLLM 之上，由 Reasoning Verifier（去 token 化、切链、调用外部小验证器确认解的有效性）、Message Controller（每 \(N_{\text{send}}\) 个 token 与验证器交换 prompt 和 token-ID）、Sampling Controller（自适应改 logits 以强制特定 token 生成）三部分组成，检测与干预与 LRM 解码并行进行，从而在 Ascend NPU 的大批量在线负载下把验证开销摊薄到可忽略。

损失函数 / 训练策略¶

TrimR 完全免训练：既不微调 LRM，也不微调验证器，验证器（默认 Pangu-7B，亦可换 Qwen2.5-7B-Instruct）直接用预训练指令模型 + few-shot 提示工作。整套方法是推理时的算法 + 系统，没有训练目标。关键超参：\(M{=}2\)（过度思考连续等价阈值）、\(N_{\text{send}}{=}50\)（验证器通信间隔）、输入/输出长度固定为 2K/30K token。

实验关键数据¶

主实验¶

在 8×Ascend 910B-64GB NPU + vLLM 上，把整个数据集的请求并发提交，记录运行时间与单请求延迟。指标：Runtime（处理全部请求的总墙钟时间）、TPR（平均单请求时间）、TPR-T90（最快 90% 请求的 TPR）、#Tokens（百万级生成 token 数）、Acc.（准确率）。

模型 / 数据集	Runtime	TPR	Acc.	#Tokens
R1Q-32B / MATH500	7602s → 2511s（-67.0%）	-56.9%	92.4%（+2.0%）	-40.1%
R1Q-32B / GPQA Diamond	11366s → 3411s（-70.0%）	-74.7%	58.6%（+13.2%）	-46.1%
R1Q-32B / AIME25	13055s → 6169s（-52.7%）	-65.3%	56.3%（+8.4%）	-38.1%
QwQ-32B / MATH500	4413s → 3118s（-29.3%）	-15.7%	96.8%（+1.2%）	-14.3%
QwQ-32B / AIME24	6992s → 4255s（-39.1%）	-35.5%	76.6%（±0%）	-23.3%
Pangu-R-38B / MATH500	3665s → 2426s（-33.8%）	-17.8%	94.4%（-1.2%）	-18.9%

三个模型、四个基准全线获得稳定的效率收益（运行时间最高 -70%），准确率几乎不动（最差降 1.7%，多数持平甚至提升）。R1Q-32B 收益最大，因为它本身自我验证最频繁、冗余最多。

与并发基线对比（相对各自 baseline 的准确率变化 / token 缩减）：

模型 / 方法	MATH500 Acc.	MATH500 #Tok.	AIME24 Acc.	AIME24 #Tok.
R1Q-32B / Certaindex	-4.0%	-19.0%	-4.0%	-15.0%
R1Q-32B / CoThink	-2.0%	-36.6%	-13.3%	-12.5%
R1Q-32B / SpeedAdapt	+0.7%	-7.3%	+1.5%	-12.7%
R1Q-32B / TrimR	+2.4%	-40.1%	+3.3%	-35.6%

CoThink 虽省 token 但 AIME24 上准确率暴跌 13.3%；SpeedAdapt 保精度却只省 4~9%；TrimR 在「省得多」和「不掉精度」之间取得最佳平衡。

消融实验¶

配置（R1Q-32B / MATH500）	TPR	#Tokens	Accuracy
baseline	-	-	90.4%
w/ 仅过度思考裁剪	-43.5%	-28.1%	91.6%
w/ 仅思考不足裁剪	-41.4%	-25.0%	92.8%
w/ both（完整）	-56.9%	-40.1%	92.4%

验证器消融（MATH500，Verifier Acc. 为相邻链对判定的人工标注准确率）：

验证器	Verifier Acc.	Runtime	MATH500 Acc.	#Tokens
Pangu-7B（默认）	87.87%	3665s	95.6%	1.912M
Pangu-7B w/o 上下文样例	85.67%	3894s	95.6%	2.032M
Qwen2.5-7B-Instruct	86.70%	3722s	95.0%	1.982M

关键发现¶

两类裁剪互补、合起来最强：过度思考裁剪和思考不足裁剪单用各有约 -41~-44% TPR，合用能叠到 -56.9% 且准确率仍保在 92.4%，说明两类冗余确实是不同问题，需要双管齐下。
冗余越多的模型收益越大：R1Q-32B 因频繁自我验证而 token 用量高，裁剪收益（GPQA -70% 运行时间）远超本就简洁的 QwQ-32B。
裁剪还能反向提精度：在 GPQA 上 R1Q-32B 准确率从 45.4% 涨到 58.6%（+13.2%），说明砍掉发散的思考不足链不仅省钱，还避免了模型「越想越错」。
验证器选择不敏感：Pangu-7B 略优于 Qwen2.5-7B，但下游准确率几乎一致（95.6% vs 95.0%）；去掉验证器提示里的 in-context 样例只让运行时间和 token 略增，说明方法对验证器的具体选型相当鲁棒。
分布左移：QwQ-32B 上 0~5K token 的样本占比从约 64% 升到近 70%，≥10K 的长样本减少超 25%，20~32K 的最重尾从约 6% 降到不足 2%。

亮点与洞察¶

把「检测冗余」化简为两个二分类是最巧的一步：用「答案存在性 + 等价性」两个 Yes/No 判断替代 PRM/ORM 对整条长序列打连续分，既能用免微调的 7B 小模型胜任，又避开了奖励模型在相同序列上打分不稳的老毛病。
只做 prefill、不解码 + 前缀缓存 + 三元组批处理：验证器只对 Yes/No 取概率，单次输入压到 200~400 token，把检测开销摊到几乎为零，这是它能上工业级大批量在线服务的关键工程细节。
过度思考与思考不足用同一套验证信号、两个相反的停止条件（连续等价→收敛即停 vs 久不收敛→强制收尾），把「该停不停」和「越想越乱」统一在一个优化早停的视角下，思路可迁移到任何带迭代探索的生成场景。
非侵入：干预只在检测到冗余时激活、靠注入提示而非改权重/硬截断实现，保住了 LRM 原生能力，这让它能直接插进现有推理框架。

局限与展望¶

方法强依赖 LRM 思维链以反思 token 规律分段、且「末尾几句含答案」的结构假设；对不遵循这种结构、或反思 token 稀少的模型，切分与抽取可能失效。
评测集中在数学/科学推理（MATH500、AIME、GPQA），代码任务（LiveCodeBench）仅作附录补充；在开放域、多轮对话等答案难以做「等价性」判定的任务上效果未知。
阈值 \(M\)、\(R_{\text{thres}}\)、\(N_{\text{thres}}\) 需要按模型/任务校准，过松会过早截断、损失难题精度；论文把阈值消融放在附录，正文未充分展开其敏感性。
引入外部验证器虽轻量，但仍是一套需要与 LRM 并行调度的额外服务，部署复杂度高于纯 prompt 类方法；其收益也部分取决于底层硬件/框架（Ascend NPU + vLLM）的异步能力。

评分¶

新颖性: ⭐⭐⭐⭐ 把冗余检测化简为「存在性+等价性」二分类、用免微调小验证器替代 PRM/ORM，角度清晰实用。
实验充分度: ⭐⭐⭐⭐ 三模型四基准 + baseline 对比 + 双裁剪/验证器消融，但代码等非数学任务仅附录补充。
写作质量: ⭐⭐⭐⭐ 把算法、系统、优化类比讲得清楚，图 1 流程信息密但稍杂。
价值: ⭐⭐⭐⭐⭐ 免训练、非侵入、可大批量在线部署，最高省 70% 运行时间且不掉精度，工业落地价值高。