Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning¶

会议: ACL2026
arXiv: 2601.02970
代码: 未公开
领域: LLM推理
关键词: 自一致性、推理采样、置信度估计、自适应停止、推理效率

一句话总结¶

ReASC 将 adaptive self-consistency 从“数答案票数”改成“判断可靠证据是否足够”，用响应置信度加权 Beta 累积，在 GSM8K、MATH500、Omni-Math 和 GPQA-Diamond 上以接近原准确率显著降低多样本推理成本。

研究背景与动机¶

领域现状：Self-Consistency 通过采样多条推理路径并多数投票，能显著提升 LLM 在数学和复杂推理任务上的可靠性。但它通常固定采样 \(k\) 条输出，对简单题和困难题都花同样预算。

现有痛点：Adaptive Consistency 和 Early-Stopping Self-Consistency 等方法会根据已观察答案动态停止，但核心依据仍是答案计数或窗口内一致性。这默认每条回答的信息量相同，忽略了有些推理轨迹本身更可靠，有些则是低置信噪声。

核心矛盾：推理时真正需要判断的是“当前证据是否足够支持一个可靠答案”，而不是“某个答案出现了几次”。如果早期高置信回答已经给出强证据，继续采样会浪费算力；如果低置信回答频繁出现，纯计数又可能过早或错误聚合。

本文目标：作者希望设计一个无需额外训练、只在推理时工作的框架，能够用模型自身的置信度信号判断单样本是否足够，并在需要多样本时让高置信回答贡献更多证据。

切入角度：论文把响应级置信度解释为 evidence strength，并采用 Bottom 10% Group Confidence 捕捉推理链中最不稳定的低置信片段。这个信号比平均 self-certainty 更能区分正确和错误回答。

核心 idea：先用置信门控解决“单次回答已经足够可靠”的样本，再对剩余样本做置信度加权的 Beta 后验更新，从而以更少采样达到与 self-consistency 接近的决策可靠性。

方法详解¶

ReASC 是一个纯推理阶段方法，不改变模型参数。它把每道题的推理过程拆成两个阶段：第一阶段用单条回答的置信度做早停，第二阶段对未通过门控的题目继续采样，并把每条回答的置信度转成 Beta 更新中的软计数。相较 ASC/ESC，ReASC 的停止准则不仅看答案频率，还看回答本身是否可靠。

整体框架¶

给定一个问题，模型先生成一条推理回答，并从 token 概率分布中计算 Bottom 10% Group Confidence。如果该置信度超过校准阈值，ReASC 直接接受答案；否则进入 Stage 2，继续采样多条回答。每条回答按答案归类，同时根据其置信度给该答案增加加权证据。系统不断计算领先答案相对次领先答案保持优势的 Beta 后验概率，直到超过停止阈值或达到最大采样预算。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入问题"] --> B["生成首条回答<br/>计算 Bottom 10% Group Confidence"]
    B --> C{"单样本门控决策<br/>S(y) ≥ τ_gate ?"}
    C -->|是·证据已足够| D["采纳该答案"]
    C -->|否·需更多证据| E["Stage 2 多样本采样<br/>置信度加权 Beta 证据累积"]
    E --> F{"领先答案后验概率 > 0.95<br/>或达最大采样预算 ?"}
    F -->|否| E
    F -->|是| D
    D --> G["输出最终答案"]

关键设计¶

1. Bottom 10% Group Confidence：用推理链最薄弱的局部，而非整段平均，来判断这条回答可不可靠

整段平均置信度有个盲区：错误推理往往不是从头到尾都心虚，而是只在某几个关键步骤局部不确定，平均一摊就被高置信的大段稀释掉了。ReASC 的做法是把回答的 token 序列切成滑动窗口组，逐组算 token-level self-certainty，然后只取最低 10% 组的平均值作为这条回答的响应级置信度。这等于专门盯着推理链里最可能出错的尾部片段——这种"尾部低置信聚合"比看全局均值更贴合链式推理的失败模式，实验里它的 AUROC 0.860 也确实高于平均组置信度的 0.823。

2. 单样本门控决策：很多题 pass@1 就够可靠了，没必要再投票

固定采样 \(k\) 条对简单题是纯浪费，门控把"这题到底要不要自一致性"变成一个实例级判断。生成第一条回答后算其置信度 \(S(y)\)，若 \(S(y)\geq\tau_{gate}\) 就直接采纳、不再采样。关键在阈值 \(\tau_{gate}\) 怎么定：离线设置下用一小批有标签校准集，同时估计正确样本的置信度均值和能达到目标准确率的阈值；在线无标签时则用两成分 GMM 去拟合置信度分布，把其中的高置信成分近似当作正确回答的分布来卡阈值。实验显示在 GSM8K 上这一阶段能直接接掉 49%–61% 的题，且被接受样本的准确率普遍在 90% 以上，省下的全是本来要浪费的多样本采样。

3. 置信度加权 Beta 证据累积：进入多样本阶段后，让高置信的一致回答更快把停止条件顶过线

对没通过门控的题，ASC 原本是数票：最常见答案和次常见答案的计数分别构成 \(Beta(v_1+1, v_2+1)\)，看领先答案保持优势的概率。但频率只反映"证据有多少条"，不反映"每条证据有多硬"——两条高可靠回答和两条低可靠噪声不该算一样的分量。ReASC 把每条回答的置信度标准化为 \(z(y)\)，用 \(\max(1, \exp(\lambda z(y)))\) 作为该答案的软计数增量去更新 Beta，再算 \(1 - I_{1/2}(\alpha, \beta)\)，当领先答案保持优势的概率超过 \(C_{threshold}=0.95\) 时停止采样。这样高置信且一致的回答会更快攒够后验信心、更早触发停止，同时整套机制仍然套在 ASC 原有的 Beta 框架内，改动很轻。

损失函数 / 训练策略¶

ReASC 不训练模型，只需要推理时置信度计算和阈值校准。实验使用 LLaMA-3.2-3B、Qwen-2.5-3B/7B、Gemma-3-4B/27B 等指令模型。离线校准使用 128 个 held-out 样本，目标准确率 \(p_{target}=0.9\)；在线校准不使用标签，而是从测试集第一条回答的置信度分布拟合 GMM。Stage 2 使用 \(C_{threshold}=0.95\) 和 \(\lambda=0.7\)，最大预算与 SC 的 \(k=16\) 对齐。

实验关键数据¶

主实验¶

主表显示 ReASC 在不同模型和数据集上通常保持与 SC/ASC 接近的准确率，同时显著降低 TFLOPs。下表摘取代表性结果。

模型/数据集	方法	Acc ↑	TFLOPs ↓	Acc/TF ↑	相对 SC 成本变化
Gemma-3-4B / GSM8K	SC	92.12	32.67	2.82	-
Gemma-3-4B / GSM8K	ASC	92.12	12.26	7.52	-62.5%
Gemma-3-4B / GSM8K	ReASC offline	92.04	9.45	9.74	-71.1%
Qwen-2.5-7B / MATH500	SC	80.6	71.59	1.13	-
Qwen-2.5-7B / MATH500	ASC	80.8	37.25	2.17	-48.0%
Qwen-2.5-7B / MATH500	ReASC offline	81.2	29.26	2.78	-59.1%
Gemma-3-27B / GSM8K	SC	97.04	166.93	0.58	-
Gemma-3-27B / GSM8K	ReASC offline	96.89	29.36	3.30	-82.4%

消融实验¶

Stage 1 分析显示，大量题目可以被单样本可靠解决，且接受样本准确率普遍超过 90%。

模型	数据集	校准方式	Stage 1 接受比例	接受样本准确率
LLaMA-3.2-3B	GSM8K	Offline	48.98	91.33
Gemma-3-4B	GSM8K	Offline	51.18	97.78
Qwen-2.5-7B	GSM8K	Offline	59.59	97.58
Gemma-3-27B	GSM8K	Offline	60.58	98.62
Qwen-2.5-7B	MATH500	Online	31.8	93.08
Gemma-3-27B	MATH500	Online	36.2	97.31

Stage 2 与阶段消融说明，置信度加权不是只靠第一阶段省成本；即使排除 Stage 1 已接受的样本，Stage 2 也比 count-based ASC 更省。

模型/数据集	方法	Acc ↑	TFLOPs ↓	说明
LLaMA-3.2-3B / GSM8K	ASC	83.85	6.27	纯计数停止
LLaMA-3.2-3B / GSM8K	ReASC Stage2 only	84.38	5.33	加权 Beta 降低采样
LLaMA-3.2-3B / GSM8K	ReASC	83.85	4.38	Stage 1 进一步省成本
Qwen2.5-7B / MATH500	ASC	80.80	37.25	纯计数停止
Qwen2.5-7B / MATH500	ReASC Stage2 only	81.20	34.05	加权累积更高效
Qwen2.5-7B / MATH500	ReASC	81.20	29.26	两阶段互补最佳

关键发现¶

ReASC 的优势跨模型规模成立，从 3B 到 27B 都能提升 Acc/TF；模型越强，Stage 1 可接受比例通常越高。
在线校准无需标签也能工作，在 Omni-Math 和 GPQA-Diamond 上仍比 SC/ASC 有更好的准确率-成本折中。
Bottom 10% Group Confidence 的 AUROC 为 0.860，高于平均组置信度的 0.823，说明低置信局部片段确实更能区分正确/错误推理。
置信度分箱中，Qwen2.5-7B 的准确率从最低 20% 置信区间的 20.00% 单调升至最高 20% 的 93.27%，支撑“高置信通常更可靠”的假设。
在 StrategyQA、Last Letter Concatenation 和 NQ-Open 上，ReASC online 也取得最高 Acc/TF，说明方法不只适用于数学题。

亮点与洞察¶

论文把自一致性采样解释为证据累积，这个视角非常自然。它说明了为什么单纯数票不够：两条高可靠回答和两条低可靠回答不应该有同样分量。
Stage 1 是一个很实用的设计。很多部署场景中，简单请求占大多数，先判断 pass@1 是否足够可靠，可以直接避免大量无意义采样。
Bottom 10% Group Confidence 的选择很聪明，因为推理错误常由少数脆弱步骤触发。关注低置信片段比看整段平均置信度更符合链式推理的失败模式。
方法不需要训练新模型，也不依赖额外 verifier，因此很容易接入已有 self-consistency 推理服务；如果服务端已有 token logprob，额外成本主要是置信度统计和停止判断。

局限与展望¶

ReASC 依赖模型自身置信度与正确性相关这一假设。实验支持该趋势，但在系统性过度自信、幻觉强或分布外任务上，置信度可能失真。
Bottom 10% Group Confidence 需要访问生成过程中的 token 概率分布，某些闭源 API 或高吞吐推理框架不一定稳定提供这些信号。
在线校准用测试集置信分布拟合 GMM，虽然无需标签，但当置信度分布不是清晰双峰时，阈值估计可能不稳。
论文主要优化计算量和延迟，但没有深入讨论与 verifier、过程奖励模型或树搜索式推理结合后的互补关系。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把置信度作为自适应自一致性的证据权重很清晰有效，核心统计框架建立在已有 ASC 上。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖多模型、多数据集、离线/在线校准、阶段消融和扩展任务，证据较充分。
写作质量: ⭐⭐⭐⭐☆ 方法叙述顺畅，公式和实验分析能支撑主张。
价值: ⭐⭐⭐⭐⭐ 对需要多样本推理但受限于成本的 LLM 服务非常实用。