SuCo: Sufficiency-guided Continuous Adaptive Reasoning¶

会议: ICML2026
arXiv: 2606.17687
代码: 待确认
领域: LLM推理
关键词: 自适应推理, 思维链效率, 最小充分CoT, 强化学习, 过度思考

一句话总结¶

SuCo 提出"最小充分思维链（MSC）"——能产出正确答案的最短 CoT 前缀，并据此设计两阶段训练（MSC 对齐微调 MFT + 充分性感知策略优化 SAPO），让大推理模型在一个连续谱上自主调节推理长度，在数学/代码/科学多基准上同时拿到更高准确率与更少推理 token（7B 平均准确率 +2.7、推理长度从 5239 降到 1267）。

研究背景与动机¶

领域现状：DeepSeek-R1、o1、Qwen3 这类大推理模型（LRM）靠显式生成思维链（CoT）在难题上大幅领先。但它们对任何问题——哪怕"1+1"——都倾向写一长串推理，造成严重的计算与延迟浪费，在实时编码助手、边缘设备等场景难以落地。

现有痛点：现有自适应推理模型（ALRM）想按难度调推理量，但几乎都是离散控制：要么用户手动开关（Qwen3 的 think on/off）或选预设档（GPT-OSS 多档策略），要么靠外部分类器/领域标签（AdaCoT、LHRM）二选一。它们的共同毛病是——没有一个有原则的"推理到底够不够"的判据，只能在有限个手工模式里硬切。

核心矛盾：理想的自适应推理需要同时满足"推理长度随难度伸缩 + 无需人工干预 + 用最少推理拿到最优表现"。但这里有个反直觉的张力：test-time scaling 律说"推理越多越好"，那"少推理反而更好"可能吗？离散模式既答不了这个问题，也没法在问题级别精细标定推理深度。

本文目标：找到一个可量化的"推理充分性"判据，并据此训出能在连续谱上自主控制推理量的模型。

切入角度：作者定义并实测了最小充分 CoT（MSC）——一条 CoT 轨迹中"足以产出正确答案的最短前缀"。在 MATH 五个难度档上，MSC 不仅大幅减少 token，准确率还一致高于完整 CoT。这说明盲目堆推理是反效果的，恰到好处地"在充分点截断"反而更好。

核心 idea：用"模型对真值答案的置信度"定义充分性分数，找到每题的最小充分前缀作为监督目标；再用两阶段训练（先 SFT 内化简洁推理、后 RL 学会自主分配），把"何时该停"变成模型可连续调控的能力，而非外挂的离散开关。

方法详解¶

整体框架¶

SuCo 的核心是一个可计算的充分性判据，外加围绕它的两阶段训练。给定问题 \(x\)、真值答案 \(y^*\)，一条 CoT 轨迹 \(z\) 的推理充分性定义为模型对真值答案各 token 概率的几何均值：

\[\mathcal{S}_\theta(z\mid x,y^*) := \Big(\prod_{i=1}^{\|y^*\|}\pi_\theta(y^*_i\mid x,z,y^*_{<i})\Big)^{1/\|y^*\|}\]

用几何均值而非联合概率，是因为后者随答案变长指数衰减、对长序列脆弱。当 \(\mathcal{S}_\theta(z\mid x,y^*)\ge\delta\) 时称该轨迹 \(\delta\)-充分；MSC 就是满足充分性的最短句级前缀 \(z_{<t^*}\)（句子是原子推理步，避免碎片化截断破坏逻辑）。

整条 pipeline：先用强 LRM 生成完整 CoT → 按每题自适应阈值 \(\delta(x)\) 扫出最小充分前缀、再润色成 MSC 数据集 → Stage I（MFT） 用 SFT 把"简洁但充分"的推理内化进模型 → Stage II（SAPO） 用带动态复杂度池和充分性奖励的 RL，让模型在推理时自己决定该写多长。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["完整 CoT 轨迹<br/>(强 LRM 蒸馏)"] --> B["充分性分数<br/>真值答案 token 几何均值"]
    B --> C["问题自适应阈值<br/>δ(x)=δ0+α·C(x)"]
    C --> D["扫最小充分前缀<br/>+ 润色 → MSC 数据集"]
    D --> E["Stage I·MFT<br/>SFT 内化简洁充分推理"]
    E --> F["Stage II·SAPO<br/>GRPO + 动态复杂度池"]
    F --> G["充分性感知奖励<br/>同惩过度/不足思考"]
    G --> H["连续自适应推理模型"]

关键设计¶

1. 充分性分数与 MSC：给"推理够不够"一个可计算的判据

以往离散方法说不清"推理多少算够"，SuCo 用模型自身对真值答案的置信度来量化：充分性分数 \(\mathcal{S}_\theta\)（上式几何均值）越高，说明当前推理前缀越能支撑出正确答案。MSC 即满足 \(\mathcal{S}_\theta\ge\delta\) 的最短句级前缀，形式上要求充分性（\(\mathcal{S}_\theta(z_{<t^*})\ge\delta\)）与最小性（更短的前缀都 \(<\delta\)）。论文实测一个有意思的现象：一旦越过充分阈值，再继续"等一等/自我验证"，充分性反而急剧下滑——多写的推理不仅无益，甚至会动摇模型已有的正确判断。这正是"少推理反而更准"的微观证据，也把训练目标从"写得长"扭转为"写到充分即止"。

2. 问题自适应阈值：让"充分"的标准随难度自动伸缩

固定阈值 \(\delta\) 对所有题一刀切：简单题用高 \(\delta\) 会保留没必要的推理，难题用低 \(\delta\) 又会过早砍掉关键步。SuCo 改用随难度变化的阈值 \(\delta(x)=\delta_0+\alpha\cdot\mathcal{C}(x)\)，其中 \(\delta_0\) 是基准、\(\alpha\) 控制对复杂度的敏感度、\(\mathcal{C}(x)\in[0,1]\) 是问题复杂度。复杂度用推理长度的百分位秩估计：\(\mathcal{C}(x_i)=\frac1N\sum_j \mathbb{1}[\|z_j\|\le\|z_i\|]\)——以推理长度作为难度代理（Fig.1 实证支持），百分位形式对离群值鲁棒、且在 \([0,1]\) 上均匀分布，保证阈值缩放稳定。这样难题给更高的充分性门槛（多留推理）、简单题给更低门槛（早停），MSC 分布在难度上更具区分度。论文取 \(\delta_0=0.5\)、\(\alpha=0.4\)，于是 \(\delta(x)\in[0.5,0.9]\)。

3. Stage I — MSC 对齐微调（MFT）：用 SFT 先把简洁充分的推理习惯灌进去

光有判据还需把它变成模型行为。MFT 先从源数据用强 LRM 生成完整 CoT，按 Algorithm 1 给每题算自适应阈值、扫出最小充分前缀 \(z^{raw}\)；若前缀短于 \(L_{min}=5\) 句则判定该题"无需显式推理"、置空（让模型对简单题直接答）；否则用一个 refine 模型把原始截断润色成逻辑连贯的 \(z^{MSC}\)（自然导出答案、去冗余、保持风格）。最终数据格式为 <think> z^MSC </think> ŷ，其中 think 段可为空。训练就是对该数据集做负对数似然的 SFT：\(\mathcal{L}_{MFT}=-\mathbb{E}[\log\pi_\theta(z^{MSC}\mid x)+\log\pi_\theta(\hat y\mid x,z^{MSC})]\)。这一步让模型先学会"该简则简、该停则停"的基本盘，为后续 RL 提供良好初始化。

4. Stage II — 充分性感知策略优化（SAPO）：用 RL 学会推理时自主分配，并解决分布漂移

SFT 只是模仿静态的 MSC，真正"自主调度"要靠 RL。SAPO 基于 GRPO（每题采 \(K=8\) 条轨迹做组内优势估计）。这里有个关键难点：随着策略更新，推理长度分布会漂移，MFT 阶段离线算的复杂度/阈值很快失效，而每步全量重算又太贵。SuCo 维护一个动态复杂度池 \(\mathcal{P}=\{\|z_i^{avg}\|\}\) 在线跟踪每题的演化推理长度，用 EMA 更新：\(\|z_i^{avg}\|\leftarrow(1-\eta)\|z_i^{avg}\|+\eta\cdot\frac1K\sum_k\|z_i^{(k)}\|\)（\(\eta=0.1\)），再据此实时重算 \(\mathcal{C}(x)\) 与 \(\delta(x)\)，让充分性目标始终对齐当前策略行为、几乎不增成本。奖励为 \(\mathcal{R}=\mathcal{R}_{cor}+\mathcal{R}_{format}+\beta\mathcal{R}_{suff}\)，其中充分性奖励同时惩罚两种偏差：

\[\mathcal{R}_{suff}=\underbrace{-\lambda_{over}\mathbb{1}[L_z>t^*+\epsilon]}_{\text{过度思考}}-\underbrace{\mathbb{1}[y\ne y^*]\cdot\lambda_{under}\mathbb{1}[L_z<t^*]}_{\text{不足思考}}\]

即超过最小充分点 \(t^*\)（留容差 \(\epsilon=2\) 句）要扣分以压过度思考；而推理不足只在答错时才扣（答对的短推理不罚，鼓励该短就短）。这种"双向惩罚 + 容差"的设计，让模型既不啰嗦也不偷懒，把推理量稳稳收敛到充分点附近。

损失函数 / 训练策略¶

两阶段：MFT 用 SFT（3 epoch、lr \(1\times10^{-4}\)）；SAPO 用 GRPO（lr \(1\times10^{-6}\)、batch 128、micro-batch 8、\(K=8\) rollout、\(\beta=1.0\)、\(\lambda_{over}=\lambda_{under}=0.5\)、\(\epsilon=2\) 句）。数据来自 Llama-Nemotron、Mixture-of-Thoughts、OpenR1-Math-220k、OpenCodeReasoning、s1K-1.1 五个源，构造 MSC 并经 Qwen3-Next-80B 质检后得 270,011 条高质量样本；全部 MSC 用于 Stage I，子集用于 Stage II。训练于 8×H100。

实验关键数据¶

主实验¶

在数学（GSM8K / MATH500 / AMC23 / AIME25）、代码（MBPP / LiveCodeBench-V6）、科学（MMLU-STEM / GPQA-D）八个基准上，于 1.5B 与 7B 两个规模评测，同时报告准确率与响应长度。

方法 (Qwen2.5-7B)	平均准确率 ↑	平均长度(tokens) ↓
DeepSeek-R1-Distill	63.2	5,239
AdaCoT	66.2	3,419
AdaptThink	66.6	3,400
S-GRPO	69.4	2,478
LHRMs	68.6	1,891
SuCo (Ours)	72.1	1,267

方法 (Qwen2.5-1.5B)	平均准确率 ↑	平均长度(tokens) ↓
DeepSeek-R1-Distill	45.2	5,736
LHRMs	50.5	2,055
SuCo (Ours)	53.1	1,483

SuCo 在两个规模上都做到准确率与效率双赢：7B 上平均准确率比最强基线 S-GRPO 高 2.7、比蒸馏基线高 8.9，同时推理长度比蒸馏基线压缩约 4.1×（5239→1267），也明显短于次优的 LHRMs（1891）。

消融与分析¶

维度	现象	说明
MSC vs 完整 CoT（Fig.1）	MATH 五档难度上 MSC token 更少、准确率更高	验证"少推理反而更准"，是全文立论根基
越过充分点继续推理（Fig.2）	充分性分数急剧下滑	过度推理会动摇正确判断，支撑双向惩罚设计
几何均值 vs 联合概率（附录 A.4）	几何均值对长答案更稳健	解释充分性分数为何用几何均值
固定阈值 → 问题自适应阈值	MSC 分布在难度上更有区分度	难题留更多推理、简单题早停

关键发现¶

"充分即止"普遍成立：在所有难度档上，截到最小充分前缀都不输于（甚至优于）完整 CoT，说明冗余推理是 LRM 的系统性浪费。
动态复杂度池是 RL 能稳的关键：不在线跟踪长度漂移，离线阈值会迅速过时、奖励信号失真；EMA 跟踪几乎零成本地保持目标对齐。
难题上提升更醒目：在 AIME25、GPQA-D 这类硬基准上 SuCo 仍稳定领先（7B AIME25 61.7 vs S-GRPO 58.3），说明压缩推理并未牺牲难题能力。

亮点与洞察¶

把"够不够"变成可微调的连续量：用模型对真值答案的置信度定义充分性，绕开了"靠外部分类器/手工档位"的离散范式，是从"开关"到"旋钮"的范式转变。
百分位复杂度代理很轻巧：直接拿推理长度的百分位秩当难度，免去额外的难度标注模型，且天然均匀分布、对离群鲁棒——一个可直接迁移到其他自适应训练的小 trick。
不足思考只在答错时罚：这个不对称惩罚很关键，避免了"为了凑长度而强行加推理"，让"简单题敢于短"成为被奖励的行为。
动态复杂度池：把 RL 训练中的分布漂移问题用 EMA 池优雅解决，可复用到任何"监督目标依赖于策略当前行为统计"的在线训练场景。

局限与展望¶

充分性依赖真值答案：\(\mathcal{S}_\theta\) 的计算需要 \(y^*\)，因此该判据只能用于训练期构造数据/奖励，推理时模型是"内化"了这种习惯而非在线判断充分性，迁移到无标注新分布的效果有待观察。
复杂度≈推理长度的假设：用长度百分位当难度代理虽实用，但长推理未必等于难题（也可能是模型啰嗦），这个代理在某些域可能失真。
两阶段成本：需要先蒸馏完整 CoT、再 SFT、再 RL，且 MSC 构造与质检都依赖一个 80B 大模型，pipeline 偏重。
改进方向：能否设计无需真值的在线充分性估计，或把 MSC 判据直接做成可在推理时自评的信号，进一步去掉对标注的依赖。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 提出可计算的"最小充分 CoT"判据，把自适应推理从离散模式推进到连续谱控制
实验充分度: ⭐⭐⭐⭐⭐ 覆盖数学/代码/科学八基准、两个规模，准确率与长度双指标，含关键分析图
写作质量: ⭐⭐⭐⭐⭐ 立论清晰（先实证 MSC 再建框架），公式与算法完整
价值: ⭐⭐⭐⭐⭐ 同时提准确率与省 token，对 LRM 高效部署有直接意义