跳转至

Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning

会议: ACL2026
arXiv: 2601.02970
代码: 未公开
领域: llm_reasoning
关键词: 自一致性、推理采样、置信度估计、自适应停止、推理效率

一句话总结

ReASC 将 adaptive self-consistency 从“数答案票数”改成“判断可靠证据是否足够”,用响应置信度加权 Beta 累积,在 GSM8K、MATH500、Omni-Math 和 GPQA-Diamond 上以接近原准确率显著降低多样本推理成本。

研究背景与动机

领域现状:Self-Consistency 通过采样多条推理路径并多数投票,能显著提升 LLM 在数学和复杂推理任务上的可靠性。但它通常固定采样 \(k\) 条输出,对简单题和困难题都花同样预算。

现有痛点:Adaptive Consistency 和 Early-Stopping Self-Consistency 等方法会根据已观察答案动态停止,但核心依据仍是答案计数或窗口内一致性。这默认每条回答的信息量相同,忽略了有些推理轨迹本身更可靠,有些则是低置信噪声。

核心矛盾:推理时真正需要判断的是“当前证据是否足够支持一个可靠答案”,而不是“某个答案出现了几次”。如果早期高置信回答已经给出强证据,继续采样会浪费算力;如果低置信回答频繁出现,纯计数又可能过早或错误聚合。

本文目标:作者希望设计一个无需额外训练、只在推理时工作的框架,能够用模型自身的置信度信号判断单样本是否足够,并在需要多样本时让高置信回答贡献更多证据。

切入角度:论文把响应级置信度解释为 evidence strength,并采用 Bottom 10% Group Confidence 捕捉推理链中最不稳定的低置信片段。这个信号比平均 self-certainty 更能区分正确和错误回答。

核心 idea:先用置信门控解决“单次回答已经足够可靠”的样本,再对剩余样本做置信度加权的 Beta 后验更新,从而以更少采样达到与 self-consistency 接近的决策可靠性。

方法详解

ReASC 是一个纯推理阶段方法,不改变模型参数。它把每道题的推理过程拆成两个阶段:第一阶段用单条回答的置信度做早停,第二阶段对未通过门控的题目继续采样,并把每条回答的置信度转成 Beta 更新中的软计数。相较 ASC/ESC,ReASC 的停止准则不仅看答案频率,还看回答本身是否可靠。

整体框架

给定一个问题,模型先生成一条推理回答,并从 token 概率分布中计算 Bottom 10% Group Confidence。如果该置信度超过校准阈值,ReASC 直接接受答案;否则进入 Stage 2,继续采样多条回答。每条回答按答案归类,同时根据其置信度给该答案增加加权证据。系统不断计算领先答案相对次领先答案保持优势的 Beta 后验概率,直到超过停止阈值或达到最大采样预算。

关键设计

  1. Bottom 10% Group Confidence 作为可靠性信号:

    • 功能:从模型生成过程里估计一条推理轨迹是否可靠。
    • 核心思路:先把推理回答的 token 序列切成滑动窗口组,计算每组 token-level self-certainty,再取最低 10% 组的平均值作为响应级置信度。相比整段平均,它更关注推理链中最薄弱、最可能出错的局部片段。
    • 设计动机:错误推理常常不是全程低置信,而是在某些关键步骤出现局部不确定。尾部低置信聚合比平均值更能暴露这种风险。
  2. 单样本门控决策:

    • 功能:避免对已经足够可靠的简单样本继续采样。
    • 核心思路:生成第一条回答后计算置信度 \(S(y)\),若 \(S(y)\geq\tau_{gate}\),直接接受该回答。离线设置用有标签校准集同时估计正确样本均值和达到目标准确率的阈值;在线设置无标签时,用两成分 GMM 拟合置信度分布,把高置信成分近似为正确回答分布。
    • 设计动机:许多题目 pass@1 已经可靠,多样本投票只是浪费。门控把“是否需要自一致性”变成一个实例级判断。
  3. 置信度加权 Beta 证据累积:

    • 功能:在需要多样本时,让更可靠的回答更快推动停止。
    • 核心思路:ASC 中最常见答案和第二常见答案的计数分别形成 \(Beta(v_1+1,v_2+1)\)。ReASC 将每条回答的置信度标准化为 \(z(y)\),并用 \(\max(1,\exp(\lambda z(y)))\) 作为软计数增量。随后计算 \(1-I_{1/2}(\alpha,\beta)\),当领先答案保持优势的概率超过 \(C_{threshold}=0.95\) 时停止。
    • 设计动机:频率只是证据数量,置信度才反映证据质量。加权更新能让高置信一致回答更快形成足够后验信心,同时保留 ASC 的 Beta 框架。

损失函数 / 训练策略

ReASC 不训练模型,只需要推理时置信度计算和阈值校准。实验使用 LLaMA-3.2-3B、Qwen-2.5-3B/7B、Gemma-3-4B/27B 等指令模型。离线校准使用 128 个 held-out 样本,目标准确率 \(p_{target}=0.9\);在线校准不使用标签,而是从测试集第一条回答的置信度分布拟合 GMM。Stage 2 使用 \(C_{threshold}=0.95\)\(\lambda=0.7\),最大预算与 SC 的 \(k=16\) 对齐。

实验关键数据

主实验

主表显示 ReASC 在不同模型和数据集上通常保持与 SC/ASC 接近的准确率,同时显著降低 TFLOPs。下表摘取代表性结果。

模型/数据集 方法 Acc ↑ TFLOPs ↓ Acc/TF ↑ 相对 SC 成本变化
Gemma-3-4B / GSM8K SC 92.12 32.67 2.82 -
Gemma-3-4B / GSM8K ASC 92.12 12.26 7.52 -62.5%
Gemma-3-4B / GSM8K ReASC offline 92.04 9.45 9.74 -71.1%
Qwen-2.5-7B / MATH500 SC 80.6 71.59 1.13 -
Qwen-2.5-7B / MATH500 ASC 80.8 37.25 2.17 -48.0%
Qwen-2.5-7B / MATH500 ReASC offline 81.2 29.26 2.78 -59.1%
Gemma-3-27B / GSM8K SC 97.04 166.93 0.58 -
Gemma-3-27B / GSM8K ReASC offline 96.89 29.36 3.30 -82.4%

消融实验

Stage 1 分析显示,大量题目可以被单样本可靠解决,且接受样本准确率普遍超过 90%。

模型 数据集 校准方式 Stage 1 接受比例 接受样本准确率
LLaMA-3.2-3B GSM8K Offline 48.98 91.33
Gemma-3-4B GSM8K Offline 51.18 97.78
Qwen-2.5-7B GSM8K Offline 59.59 97.58
Gemma-3-27B GSM8K Offline 60.58 98.62
Qwen-2.5-7B MATH500 Online 31.8 93.08
Gemma-3-27B MATH500 Online 36.2 97.31

Stage 2 与阶段消融说明,置信度加权不是只靠第一阶段省成本;即使排除 Stage 1 已接受的样本,Stage 2 也比 count-based ASC 更省。

模型/数据集 方法 Acc ↑ TFLOPs ↓ 说明
LLaMA-3.2-3B / GSM8K ASC 83.85 6.27 纯计数停止
LLaMA-3.2-3B / GSM8K ReASC Stage2 only 84.38 5.33 加权 Beta 降低采样
LLaMA-3.2-3B / GSM8K ReASC 83.85 4.38 Stage 1 进一步省成本
Qwen2.5-7B / MATH500 ASC 80.80 37.25 纯计数停止
Qwen2.5-7B / MATH500 ReASC Stage2 only 81.20 34.05 加权累积更高效
Qwen2.5-7B / MATH500 ReASC 81.20 29.26 两阶段互补最佳

关键发现

  • ReASC 的优势跨模型规模成立,从 3B 到 27B 都能提升 Acc/TF;模型越强,Stage 1 可接受比例通常越高。
  • 在线校准无需标签也能工作,在 Omni-Math 和 GPQA-Diamond 上仍比 SC/ASC 有更好的准确率-成本折中。
  • Bottom 10% Group Confidence 的 AUROC 为 0.860,高于平均组置信度的 0.823,说明低置信局部片段确实更能区分正确/错误推理。
  • 置信度分箱中,Qwen2.5-7B 的准确率从最低 20% 置信区间的 20.00% 单调升至最高 20% 的 93.27%,支撑“高置信通常更可靠”的假设。
  • 在 StrategyQA、Last Letter Concatenation 和 NQ-Open 上,ReASC online 也取得最高 Acc/TF,说明方法不只适用于数学题。

亮点与洞察

  • 论文把自一致性采样解释为证据累积,这个视角非常自然。它说明了为什么单纯数票不够:两条高可靠回答和两条低可靠回答不应该有同样分量。
  • Stage 1 是一个很实用的设计。很多部署场景中,简单请求占大多数,先判断 pass@1 是否足够可靠,可以直接避免大量无意义采样。
  • Bottom 10% Group Confidence 的选择很聪明,因为推理错误常由少数脆弱步骤触发。关注低置信片段比看整段平均置信度更符合链式推理的失败模式。
  • 方法不需要训练新模型,也不依赖额外 verifier,因此很容易接入已有 self-consistency 推理服务;如果服务端已有 token logprob,额外成本主要是置信度统计和停止判断。

局限与展望

  • ReASC 依赖模型自身置信度与正确性相关这一假设。实验支持该趋势,但在系统性过度自信、幻觉强或分布外任务上,置信度可能失真。
  • Bottom 10% Group Confidence 需要访问生成过程中的 token 概率分布,某些闭源 API 或高吞吐推理框架不一定稳定提供这些信号。
  • 在线校准用测试集置信分布拟合 GMM,虽然无需标签,但当置信度分布不是清晰双峰时,阈值估计可能不稳。
  • 论文主要优化计算量和延迟,但没有深入讨论与 verifier、过程奖励模型或树搜索式推理结合后的互补关系。

相关工作与启发

  • vs Self-Consistency: SC 固定采样 \(k=16\) 并多数投票,ReASC 根据证据充分性动态停止,因此在准确率接近时成本低得多。
  • vs ASC / ESC: ASC 和 ESC 依赖计数或窗口一致性,ReASC 在相同 Beta 停止框架中加入置信度软计数,区别在于证据质量被建模。
  • vs verifier / reranker: verifier 通常需要额外模型或训练数据,ReASC 直接利用模型内生置信度,部署更轻,但对置信校准质量更敏感。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 把置信度作为自适应自一致性的证据权重很清晰有效,核心统计框架建立在已有 ASC 上。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖多模型、多数据集、离线/在线校准、阶段消融和扩展任务,证据较充分。
  • 写作质量: ⭐⭐⭐⭐☆ 方法叙述顺畅,公式和实验分析能支撑主张。
  • 价值: ⭐⭐⭐⭐⭐ 对需要多样本推理但受限于成本的 LLM 服务非常实用。