跳转至

CaTS: Calibrated Test-Time Scaling for Efficient LLM Reasoning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=jrSc4RJXy1
代码: https://github.com/Chengsong-Huang/Self-Calibration
领域: LLM 推理 / 测试时扩展
关键词: 测试时扩展, 置信度校准, 自一致性, Best-of-N, 自适应采样, 早停

一句话总结

通过把自一致性导出的置信度蒸馏回模型本身(Self-Calibration),让 LLM 在一次前向就能给出可靠的置信度,再以此对 Best-of-N / 自一致性等重复采样做"按题难度动态分配算力"的校准式测试时扩展,相同采样预算下显著提升精度、相同精度下大幅省算力。

研究背景与动机

领域现状:增大测试时算力是提升 LLM 回答质量最直接的手段,其中重复采样类方法——Best-of-N(采 N 条选最高分)与 Self-Consistency(采 N 条多数投票)——简单又有效,已成为推理任务的主力。

现有痛点:这些方法对每个 query 都固定采样 N 条,完全无视题目难度。对"2+3=?"这种简单题白白浪费算力,对难题又探索不足。已有的自适应采样(ASC、ESC、RASC)虽能动态停采,但大多依赖人工设计的特征或启发式规则(如"连续三次输出相同答案就停"),跨任务、跨模型的泛化性受限。

核心矛盾:模型置信度本是反映自身不确定性的内在信号,天然适合驱动动态采样;但 LLM 出了名地过度自信,原始 P(True)/logit 给出的置信度与真实准确率严重不符(尤其小模型),无法直接用。而自一致性虽能给出较准的置信度,却又需要先采一大堆样本,回到了"算力贵"的老问题。

本文目标:设计一个任务无关、模型无关、不依赖人工启发式的测试时采样框架,用一次前向就能得到可靠置信度,从而把算力按题难度自适应分配。

核心 idea置信度自蒸馏——既然自一致性能给出准的置信度但太贵,那就把它当作"软标签"蒸馏进模型本身,让模型学会一次前向直接输出校准后的置信度;再把这个便宜可靠的置信度插进 Best-of-N / SC / ASC,变成校准式测试时扩展 CaTS。

方法详解

整体框架

方法分两阶段:离线 Self-Calibration 训练 + 在线 CaTS 推理。训练阶段无需任何人工标注,先在种子数据上自采样、用 Soft Self-Consistency 给每条回答打软置信度标签,再用 SmoothL1(校准)+ 生成损失(保推理能力)联合训练模型;推理阶段直接复用训练好的模型一次前向得到的置信度,把它作为质量指标插进三种重复采样策略,实现按难度动态分配采样预算。

flowchart TD
    A[种子数据 query] --> B[Dynamic Temperature 采样 N 条回答]
    B --> C[每条回答用 P-True 取置信度]
    C --> D[按答案分组算 Soft Self-Consistency 软标签]
    D --> E[SmoothL1 校准 + 加权生成损失 联合训练]
    E --> F[校准后的模型: 一次前向出可靠置信度]
    F --> G1[CaTS-ES: Best-of-N 早停]
    F --> G2[CaTS-SC: 置信度加权投票]
    F --> G3[CaTS-ASC: 置信度加权自适应停采]

关键设计

1. Soft Self-Consistency 软置信度标签:把"投票频率"升级成"置信度加权频率"。 训练数据无人工标注,关键在于如何给每条回答打出一个准的置信度。直接用 P(True)(取"Is the answer correct? (Yes/No)"中 Yes token 概率)会过度自信;纯自一致性(数答案出现次数)又只看频率不看单条质量。本文把两者融合:对 query 采 N 条回答 \(\{(x,y_n,c_n)\}\),每条先有自身置信 \(c_n\),再按答案聚合得 \(\mathrm{SSC}(y)=\frac{\sum_{i:y_i=y} c_i}{\sum_{i=1}^N c_i}\),即"投我这个答案的所有回答的置信度之和占总和的比例"。这样既反映了答案被多少回答支持,又对低质量回答降权。Table 1 显示 SSC 的 ECE 在 GSM8K/SVAMP 上低至 3.42/3.75,优于 P(True)(12.03/28.94)和纯 SC(4.48/4.94),随后 \((x,y_i,\mathrm{SSC}(y_i))\) 即为训练三元组。

2. 联合损失:一边校准置信度,一边守住推理能力。 单纯训模型去拟合置信度,容易让它"只会报分、不会做题"。本文用 SmoothL1 把模型预测的 \(p_\theta(\text{Yes}\mid x,y,I)\) 拉向软标签 \(c\) 做校准,同时把高质量回答的标准 CoT 生成损失加进来共同优化——但只挑置信度高于阈值 \(\eta\) 的回答参与生成损失,保证学的是靠谱推理路径。总损失为 $\(\mathcal{L}_{total}(\theta)=\sum_{(x_j,y_j)\in D}\mathrm{SmoothL1}\!\big(p_\theta(\text{Yes}\mid x_j,y_j,I),\,c_j\big)+\omega\!\!\sum_{\substack{(x_i,y_i)\\ c_i>\eta}}\!\!\big(-\log p_\theta(y_i\mid x_i)\big),\)$ 权重 \(\omega\) 平衡两项。采样时还用 Entropy-based Dynamic Temperature(EDT):输出分布熵低时自动升温,提升多样性又不损质量。

3. 三种 CaTS 推理变体:同一套置信度,三种省算力姿势。 训练好的模型一次前向即给出可靠 \(c_i\),本文把它分别插进三种重复采样。CaTS-ES(对应 Best-of-N 的早停)顺序采样,一旦某条 \(c_i\ge\tau\) 立刻停采并选它,难题才会多采,简单题秒停。CaTS-SC(对应自一致性)把"一票一权"改成置信度加权投票 \(y=\arg\max_z\sum_{i=1}^N c_i\mathbf{1}(y_i=z)\),让高置信回答话语权更大。CaTS-ASC(对应自适应自一致性)把累计频率换成置信度加权频率 \(\hat r_k(z)=\frac{\sum_{i=1}^k c_i\mathbf{1}(y_i=z)}{\sum_{i=1}^k c_i}\),再按 ASC 原规则判停。

4. 理论保证:置信度足够准时 CaTS-SC 指数级优于普通自一致性。 本文给出严格证明,当置信度信号满足 $\(\frac{\mu_q^2}{2v_q+\frac{2}{3}\mu_q}>\frac{\mu_{MV}^2}{2v_{MV}+\frac{2}{3}\mu_{MV}}\)$ 时(其中 \(\mu\)\(v\) 分别为加权投票/普通多数投票的边际均值与方差,\(q\) 为给定置信度下的真实正确概率),CaTS-SC 的错误率以指数速率优于 vanilla SC。直觉上即:只要置信度信号"够准",加权投票就稳赢均匀投票。

实验关键数据

主实验表格

三模型 × 三个域外数据集(Object Counting / MathQA / ARC Challenge),采样预算固定为 16,括号内为相对各自基线的提升:

方法 Llama-8B Obj C. Llama MathQA Llama ARC C. Qwen MathQA DS-R1-1.5B ARC C.
SC 69.1 73.7 85.2 83.3 60.8
CaTS-SC 76.8 (+7.7) 83.6 (+9.9) 87.7 (+2.5) 87.8 (+4.5) 66.5 (+5.7)
Best-of-N 62.3 73.7 84.5 83.8 54.1
CaTS-ES 76.8 (+14.5) 83.6 (+9.9) 87.7 (+3.2) 87.8 (+4.0) 66.5 (+12.4)
ASC 67.9 72.7 84.6 83.2 59.5
CaTS-ASC 75.2 (+7.3) 81.9 (+9.2) 86.6 (+2.0) 87.2 (+4.0) 65.1 (+5.6)

三种 CaTS 变体在三模型九数据集上一致优于各自基线;CaTS-ES 把 DeepSeek-R1-1.5B 在 Object Counting 上从 48.1 拉到 70.8(+22.7)。相比 ESC/RASC 等强自适应基线也整体占优。

消融实验表格

置信度 vs. 外接奖励模型(Best-of-16,验证自校准置信度能替代额外 reward model):

模型 数据集 Reward Model CaTS 置信度
Llama MathQA 82.1 84.0
Llama ARC Challenge 86.2 86.6
Qwen ARC Challenge 89.6 89.8

自校准置信度与外接 reward model 精度相当甚至略高,却省掉了额外模型的显存、推理时间和"奖励分需逐数据集归一化"的麻烦。

关键发现

  • 省算力极猛:Fig. 1 中 CaTS-SC 在 MathQA 上达到 85.0 精度时,比 vanilla SC 节省 94.2% 的采样量;不同精度档位分别省 39.8% / 50.4% / 94.2%。
  • 预算小时 Best-of-N 反而略胜 CaTS-ES:阈值偏低时早停可能停得太早错过更优回答,说明阈值需按数据集校准。
  • SSC 校准最准:ECE 优于 P(True) 与纯 SC,是软标签可靠的根基。

亮点与洞察

  • "置信度自蒸馏"闭环很优雅:用贵但准的自一致性当老师,蒸馏出便宜又准的一次前向置信度,把"算力换置信度"变成"训练一次、推理永久受益"。
  • 一个置信度通吃三种采样:Best-of-N / SC / ASC 全部能即插即用地升级成 CaTS 版本,方法通用性强、落地成本低。
  • 理论 + 经验双支撑:不只刷点,还给出 CaTS-SC 指数级优于 SC 的充分条件,把"置信度够准就稳赢"说清楚了。
  • 替代 reward model 的实用价值:省掉额外评分模型的显存与延迟,对大规模部署友好。

局限与展望

  • 依赖阈值校准:CaTS-ES/ASC 的停采阈值需按数据集调,论文中是用目标预算反推阈值,真实场景下未知预算时的鲁棒性待验证。
  • 训练成本前置:虽然推理省,但需要先在多数据集上自采样并微调模型,对闭源/超大模型不一定可行。
  • 置信度准度上限决定收益:理论与实验都表明收益取决于置信度是否"够准",在分布外或对抗性难题上若校准退化,优势可能缩水。
  • 评测集中在中小模型:主要在 1.5B–8B 上验证,更大模型与更复杂推理(长链 CoT)上的表现仍待探索。

相关工作与启发

  • 重复采样:Best-of-N、Self-Consistency、Adaptive Self-Consistency 是本文直接改造的对象;ESC、RASC 为自适应停采的强基线。
  • 置信度估计:P(True)、自一致性置信度、CISC、Self-Certainty 是置信度信号的来源与对比项,本文用 SSC 把它们融合并蒸馏。
  • 启发:把"昂贵但可靠的聚合信号蒸馏进模型一次前向"这一思路,可迁移到其他需要在线昂贵估计的场景(如过程奖励、难度预测);置信度加权投票的理论分析框架也可推广到其他加权聚合策略。

评分

  • 新颖性: ⭐⭐⭐⭐ 把自一致性置信度自蒸馏回模型、再统一驱动三种测试时扩展,组合新颖且配有理论保证。
  • 实验充分度: ⭐⭐⭐⭐ 三模型九数据集、域内外都测,含与 reward model、强自适应基线的对比及理论分析,较充分。
  • 写作质量: ⭐⭐⭐⭐ 框架清晰、图表到位(省算力曲线很有说服力),公式与符号定义规整。
  • 价值: ⭐⭐⭐⭐ 显著降低测试时扩展成本、即插即用、可替代 reward model,工程落地价值高。