CaTS: Calibrated Test-Time Scaling for Efficient LLM Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=jrSc4RJXy1
代码: https://github.com/Chengsong-Huang/Self-Calibration
领域: LLM 推理 / 测试时扩展
关键词: 测试时扩展, 置信度校准, 自一致性, Best-of-N, 自适应采样, 早停

一句话总结¶

通过把自一致性导出的置信度蒸馏回模型本身（Self-Calibration），让 LLM 在一次前向就能给出可靠的置信度，再以此对 Best-of-N / 自一致性等重复采样做"按题难度动态分配算力"的校准式测试时扩展，相同采样预算下显著提升精度、相同精度下大幅省算力。

研究背景与动机¶

领域现状：增大测试时算力是提升 LLM 回答质量最直接的手段，其中重复采样类方法——Best-of-N（采 N 条选最高分）与 Self-Consistency（采 N 条多数投票）——简单又有效，已成为推理任务的主力。

现有痛点：这些方法对每个 query 都固定采样 N 条，完全无视题目难度。对"2+3=?"这种简单题白白浪费算力，对难题又探索不足。已有的自适应采样（ASC、ESC、RASC）虽能动态停采，但大多依赖人工设计的特征或启发式规则（如"连续三次输出相同答案就停"），跨任务、跨模型的泛化性受限。

核心矛盾：模型置信度本是反映自身不确定性的内在信号，天然适合驱动动态采样；但 LLM 出了名地过度自信，原始 P(True)/logit 给出的置信度与真实准确率严重不符（尤其小模型），无法直接用。而自一致性虽能给出较准的置信度，却又需要先采一大堆样本，回到了"算力贵"的老问题。

本文目标：设计一个任务无关、模型无关、不依赖人工启发式的测试时采样框架，用一次前向就能得到可靠置信度，从而把算力按题难度自适应分配。

核心 idea：置信度自蒸馏——既然自一致性能给出准的置信度但太贵，那就把它当作"软标签"蒸馏进模型本身，让模型学会一次前向直接输出校准后的置信度；再把这个便宜可靠的置信度插进 Best-of-N / SC / ASC，变成校准式测试时扩展 CaTS。

方法详解¶

整体框架¶

方法分两阶段：离线 Self-Calibration 训练 + 在线 CaTS 推理。训练阶段无需任何人工标注，先在种子数据上自采样、用 Soft Self-Consistency 给每条回答打软置信度标签，再用 SmoothL1（校准）+ 生成损失（保推理能力）联合训练模型；推理阶段直接复用训练好的模型一次前向得到的置信度，把它作为质量指标插进三种重复采样策略，实现按难度动态分配采样预算。

flowchart TD
    A[种子数据 query] --> B[Dynamic Temperature 采样 N 条回答]
    B --> C[每条回答用 P-True 取置信度]
    C --> D[按答案分组算 Soft Self-Consistency 软标签]
    D --> E[SmoothL1 校准 + 加权生成损失 联合训练]
    E --> F[校准后的模型: 一次前向出可靠置信度]
    F --> G1[CaTS-ES: Best-of-N 早停]
    F --> G2[CaTS-SC: 置信度加权投票]
    F --> G3[CaTS-ASC: 置信度加权自适应停采]

关键设计¶

1. Soft Self-Consistency 软置信度标签：把"投票频率"升级成"置信度加权频率"。 训练数据无人工标注，关键在于如何给每条回答打出一个准的置信度。直接用 P(True)（取"Is the answer correct? (Yes/No)"中 Yes token 概率）会过度自信；纯自一致性（数答案出现次数）又只看频率不看单条质量。本文把两者融合：对 query 采 N 条回答 $\{(x,y_n,c_n)\}$，每条先有自身置信 $c_n$，再按答案聚合得 $\mathrm{SSC}(y)=\frac{\sum_{i:y_i=y} c_i}{\sum_{i=1}^N c_i}$，即"投我这个答案的所有回答的置信度之和占总和的比例"。这样既反映了答案被多少回答支持，又对低质量回答降权。Table 1 显示 SSC 的 ECE 在 GSM8K/SVAMP 上低至 3.42/3.75，优于 P(True)（12.03/28.94）和纯 SC（4.48/4.94），随后 $(x,y_i,\mathrm{SSC}(y_i))$ 即为训练三元组。

2. 联合损失：一边校准置信度，一边守住推理能力。 单纯训模型去拟合置信度，容易让它"只会报分、不会做题"。本文用 SmoothL1 把模型预测的 $p_\theta(\text{Yes}\mid x,y,I)$ 拉向软标签 $c$ 做校准，同时把高质量回答的标准 CoT 生成损失加进来共同优化——但只挑置信度高于阈值 $\eta$ 的回答参与生成损失，保证学的是靠谱推理路径。总损失为 $$\mathcal{L}_{total}(\theta)=\sum_{(x_j,y_j)\in D}\mathrm{SmoothL1}\!\big(p_\theta(\text{Yes}\mid x_j,y_j,I),\,c_j\big)+\omega\!\!\sum_{\substack{(x_i,y_i)\\ c_i>\eta}}\!\!\big(-\log p_\theta(y_i\mid x_i)\big),$$ 权重 $\omega$ 平衡两项。采样时还用 Entropy-based Dynamic Temperature（EDT）：输出分布熵低时自动升温，提升多样性又不损质量。

3. 三种 CaTS 推理变体：同一套置信度，三种省算力姿势。 训练好的模型一次前向即给出可靠 $c_i$，本文把它分别插进三种重复采样。CaTS-ES（对应 Best-of-N 的早停）顺序采样，一旦某条 $c_i\ge\tau$ 立刻停采并选它，难题才会多采，简单题秒停。CaTS-SC（对应自一致性）把"一票一权"改成置信度加权投票 $y=\arg\max_z\sum_{i=1}^N c_i\mathbf{1}(y_i=z)$，让高置信回答话语权更大。CaTS-ASC（对应自适应自一致性）把累计频率换成置信度加权频率 $\hat r_k(z)=\frac{\sum_{i=1}^k c_i\mathbf{1}(y_i=z)}{\sum_{i=1}^k c_i}$，再按 ASC 原规则判停。

4. 理论保证：置信度足够准时 CaTS-SC 指数级优于普通自一致性。 本文给出严格证明，当置信度信号满足 $$\frac{\mu_q^2}{2v_q+\frac{2}{3}\mu_q}>\frac{\mu_{MV}^2}{2v_{MV}+\frac{2}{3}\mu_{MV}}$$ 时（其中 $\mu$、$v$ 分别为加权投票/普通多数投票的边际均值与方差，$q$ 为给定置信度下的真实正确概率），CaTS-SC 的错误率以指数速率优于 vanilla SC。直觉上即：只要置信度信号"够准"，加权投票就稳赢均匀投票。

实验关键数据¶

主实验表格¶

三模型 × 三个域外数据集（Object Counting / MathQA / ARC Challenge），采样预算固定为 16，括号内为相对各自基线的提升：

方法	Llama-8B Obj C.	Llama MathQA	Llama ARC C.	Qwen MathQA	DS-R1-1.5B ARC C.
SC	69.1	73.7	85.2	83.3	60.8
CaTS-SC	76.8 (+7.7)	83.6 (+9.9)	87.7 (+2.5)	87.8 (+4.5)	66.5 (+5.7)
Best-of-N	62.3	73.7	84.5	83.8	54.1
CaTS-ES	76.8 (+14.5)	83.6 (+9.9)	87.7 (+3.2)	87.8 (+4.0)	66.5 (+12.4)
ASC	67.9	72.7	84.6	83.2	59.5
CaTS-ASC	75.2 (+7.3)	81.9 (+9.2)	86.6 (+2.0)	87.2 (+4.0)	65.1 (+5.6)

三种 CaTS 变体在三模型九数据集上一致优于各自基线；CaTS-ES 把 DeepSeek-R1-1.5B 在 Object Counting 上从 48.1 拉到 70.8（+22.7）。相比 ESC/RASC 等强自适应基线也整体占优。

消融实验表格¶

置信度 vs. 外接奖励模型（Best-of-16，验证自校准置信度能替代额外 reward model）：

模型	数据集	Reward Model	CaTS 置信度
Llama	MathQA	82.1	84.0
Llama	ARC Challenge	86.2	86.6
Qwen	ARC Challenge	89.6	89.8

自校准置信度与外接 reward model 精度相当甚至略高，却省掉了额外模型的显存、推理时间和"奖励分需逐数据集归一化"的麻烦。

关键发现¶

省算力极猛：Fig. 1 中 CaTS-SC 在 MathQA 上达到 85.0 精度时，比 vanilla SC 节省 94.2% 的采样量；不同精度档位分别省 39.8% / 50.4% / 94.2%。
预算小时 Best-of-N 反而略胜 CaTS-ES：阈值偏低时早停可能停得太早错过更优回答，说明阈值需按数据集校准。
SSC 校准最准：ECE 优于 P(True) 与纯 SC，是软标签可靠的根基。

亮点与洞察¶

"置信度自蒸馏"闭环很优雅：用贵但准的自一致性当老师，蒸馏出便宜又准的一次前向置信度，把"算力换置信度"变成"训练一次、推理永久受益"。
一个置信度通吃三种采样：Best-of-N / SC / ASC 全部能即插即用地升级成 CaTS 版本，方法通用性强、落地成本低。
理论 + 经验双支撑：不只刷点，还给出 CaTS-SC 指数级优于 SC 的充分条件，把"置信度够准就稳赢"说清楚了。
替代 reward model 的实用价值：省掉额外评分模型的显存与延迟，对大规模部署友好。

局限与展望¶

依赖阈值校准：CaTS-ES/ASC 的停采阈值需按数据集调，论文中是用目标预算反推阈值，真实场景下未知预算时的鲁棒性待验证。
训练成本前置：虽然推理省，但需要先在多数据集上自采样并微调模型，对闭源/超大模型不一定可行。
置信度准度上限决定收益：理论与实验都表明收益取决于置信度是否"够准"，在分布外或对抗性难题上若校准退化，优势可能缩水。
评测集中在中小模型：主要在 1.5B–8B 上验证，更大模型与更复杂推理（长链 CoT）上的表现仍待探索。

评分¶

新颖性: ⭐⭐⭐⭐ 把自一致性置信度自蒸馏回模型、再统一驱动三种测试时扩展，组合新颖且配有理论保证。
实验充分度: ⭐⭐⭐⭐ 三模型九数据集、域内外都测，含与 reward model、强自适应基线的对比及理论分析，较充分。
写作质量: ⭐⭐⭐⭐ 框架清晰、图表到位（省算力曲线很有说服力），公式与符号定义规整。
价值: ⭐⭐⭐⭐ 显著降低测试时扩展成本、即插即用、可替代 reward model，工程落地价值高。