Don't Throw Away Your Beams: Improving Consistency-based Uncertainties in LLMs via Beam Search¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=igcQRiVlgu
代码: https://github.com/IINemo/lm-polygraph/tree/beam-uncertainty
领域: LLM评估 / 不确定性估计
关键词: LLM不确定性估计, 一致性评估, Beam Search, 短答案问答, Prediction-Rejection

一句话总结¶

这篇论文指出短答案问答里的多项式采样会大量重复高概率答案、导致一致性式不确定性估计方差很大，并用概率加权的 beam search 候选替代采样候选，在六个 QA 数据集和六个模型上稳定提升 PRR、ROC-AUC 与 PR-AUC。

研究背景与动机¶

领域现状：LLM 不确定性估计想回答一个很实际的问题：模型给出某个答案 \(y^*\) 后，我们能否判断这个答案靠不靠谱。现有方法大致分为三类：看 token likelihood 的信息式方法，让模型自己报置信度的反思式方法，以及生成多个候选答案再看它们是否一致的采样式方法。其中一致性式方法很有吸引力，因为它不只看某个 token 的概率，而是直接比较不同生成答案在语义上是否支持当前答案。

现有痛点：一致性式方法通常用 multinomial sampling 生成 \(M\) 个候选答案，再计算这些候选与目标答案 \(y^*\) 的相似度或语义聚类关系。但短答案 QA 的输出分布往往很尖：问题的答案可能只有一个姓名、数字或短短几个词。此时采样很容易反复抽到同一个高概率答案，论文在 TriviaQA 上展示，当输出只有 2 到 4 个 token 时，重复样本比例可达约 30% 到 50%。这些重复样本既浪费生成预算，也让不确定性分数在不同运行之间波动很大。

核心矛盾：一致性式 UQ 需要的候选集最好同时满足三个条件：语义上有差异、概率上代表模型分布、运行之间稳定。但普通采样在尖峰分布里会被最高概率路径吸住，候选不够多样；如果强行提高采样温度，又可能引入低质量、低概率的离群答案。也就是说，候选生成方式本身成了不确定性估计的瓶颈。

本文目标：作者要解决的不是“如何让 beam search 生成更好答案”，而是“如何用 beam search 产生更适合作一致性估计的候选集”。具体来说，论文希望在相同候选预算 \(M\) 下减少重复、降低估计方差、保留对模型概率分布的尊重，并把这个改动接入已有的一致性式和混合式 UQ 指标。

切入角度：beam search 在解码时本来就会维护若干条高概率候选路径。对于短答案 QA，这些 top-\(M\) 路径通常覆盖了相当一部分概率质量，而且天然比独立采样更稳定。作者的关键观察是：既然 beam search 已经把模型认为最可能的几个答案列出来了，就不应该在解码后把这些 beam 丢掉，再额外采样一批重复答案来估计不确定性。

核心 idea：用概率加权的 beam search 候选替代 multinomial samples，重新估计候选答案与目标答案的一致性，从而让短答案 LLM 的置信度排序更稳定、更准确。

方法详解¶

整体框架¶

论文的整体流程很直接：给定问题 \(x\) 和模型产生的目标答案 \(y^*\)，不再用随机采样生成辅助候选，而是运行宽度为 \(M\) 的 beam search 得到一组互异的高概率候选 \(B_M(x)=\{b^{(1)},\dots,b^{(M)}\}\)。随后用每个 beam 的序列概率做归一化权重，再把这些加权候选喂给 Dissimilarity、Eccentricity、CoCoA、EigVecDissimilarity 等一致性式 UQ 指标，输出一个越大越不确定的分数。

这个框架的重点不是发明一个全新的置信度函数，而是替换置信度函数里的“候选集近似器”。原来的近似器是 \(M\) 次独立采样，容易重复且运行不稳定；本文的近似器是 top-\(M\) beam 加概率权重，更适合短答案场景里尖峰分布的形状。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["问题 x + 目标答案 y*"] --> B["Beam候选集替代抽样<br/>互异高概率答案"]
    B --> C["概率质量归一化加权<br/>按序列概率分配权重"]
    C --> D["一致性指标的beam化改写<br/>替换Dissimilarity等估计器"]
    D --> E["误差条件与适用边界<br/>解释何时优于MC"]
    E --> F["不确定性分数<br/>用于拒答排序"]

关键设计¶

1. Beam候选集替代抽样：用互异高概率答案修复短答案重复问题

最基础的一致性式指标可以写成目标答案 \(y^*\) 与模型所有可能输出之间的期望语义不相似度：\(U_D(y^*|x)=\mathbb{E}_{y\sim p(\cdot|x)}[1-s(y,y^*)]\)。旧做法用 Monte Carlo 估计这个期望，即采样 \(M\) 个候选 \(y^{(i)}\) 后取平均：\(\hat U^{MC}_D=\frac{1}{M}\sum_i(1-s(y^{(i)},y^*))\)。问题在于，短答案 QA 的高概率答案经常被重复抽中，实际有效候选数远小于 \(M\)。

本文把候选来源改成 beam search：用 beam width \(M\) 得到 \(B_M(x)=\{b^{(1)},\ldots,b^{(M)}\}\)。这一步让候选集从“随机抽到什么算什么”变成“显式枚举模型分布顶部的几条路径”。对“谁唱了 Thriller”这类短答案问题，采样可能多次给出 Michael Jackson 或 Prince 的重复变体，而 beam search 更容易列出 Michael Jackson、Prince、Bruno Mars 等不同候选，从而让一致性分数真正反映答案空间里存在的竞争解释。

2. 概率质量归一化加权：不把低概率beam当成同等证据

如果直接把 beam 候选当作 \(M\) 个等权样本，也会有偏差：beam search 的后几名可能是低概率甚至古怪的答案，等权平均会夸大这些尾部候选对不确定性的影响。为此，论文用每个 beam 的自回归序列概率做 restricted top-\(M\) 归一化：\(w_i=\frac{p(b^{(i)}|x)}{\sum_{j=1}^{M}p(b^{(j)}|x)}\)。最终的 beam 版 Dissimilarity 是 \(\hat U^b_D(y^*|x)=\sum_i w_i(1-s(b^{(i)},y^*))\)。

这个权重有两层作用。第一，它保留了 beam search “互异候选”的优势，不会像采样那样把预算浪费在重复答案上。第二，它又把候选的重要性拉回模型概率分布，避免第十名 beam 和第一名 beam 被同等看待。附录的概率质量分析也支持这一点：beam 候选的概率随排名快速下降，前几个 beam 往往贡献了大部分质量，所以质量感知的加权比简单平均更贴近模型真实偏好。

3. 一致性指标的beam化改写：把候选生成替换成可复用的估计层

论文没有只停留在 Dissimilarity，而是把同一个 beam 加权思想接入多个已有指标。Eccentricity 原本会构造目标答案和采样候选之间的相似度矩阵 \(W\)，再用图 Laplacian 的低谱特征形成语义嵌入，最后比较 \(y^*\) 的嵌入与候选均值的距离。本文把候选均值改成加权均值：\(\hat U^b_{Ecc}=\|v^*_b-\sum_i w_i v^b_i\|_2^2\)，使高概率 beam 对语义中心的贡献更大。

CoCoA 这类白盒混合方法则把模型概率式不确定性 \(u(y^*|x)\) 与一致性信号相乘。本文保留 \(u(y^*|x)\)，只把一致性信号从 \(\hat U^{MC}_D\) 换成 \(\hat U^b_D\)，得到 \(\hat U^b_{CoCoA}=u(y^*|x)\cdot \hat U^b_D(y^*|x)\)。EigVecDissimilarity 也类似：先用 Laplacian 嵌入捕捉候选间的联合语义结构，再对 \(y^*\) 到每个 beam 嵌入的距离做概率加权平均。这样一来，beam search 不是某个单独指标的特殊技巧，而是可以复用到一系列一致性式 UQ 方法里的候选估计层。

4. 误差条件与适用边界：用beam概率质量解释何时优于Monte Carlo

作者还给出一个直观的理论条件，说明 beam 加权估计为什么会在尖峰分布里占优。设 beam 集合覆盖的总概率质量为 \(m_B=\sum_i p(b^{(i)}|x)\)，beam 内外的平均不相似度分别为 \(\mu_B\) 和 \(\bar\mu_B\)，Monte Carlo 估计的方差为 \(\sigma^2/M\)。beam 估计的误差来自 top-\(M\) 截断，即 \((1-m_B)^2(\mu_B-\bar\mu_B)^2\)；当 \((1-m_B)|\mu_B-\bar\mu_B|<\sigma/\sqrt{M}\) 时，beam 加权估计的均方误差小于 Monte Carlo。

论文进一步给出一个分布无关的充分条件：\(m_B>1-\frac{1}{2\sqrt{M}}\)。在 \(M=10\) 时阈值约为 \(0.842\)，也就是 top-10 beam 如果覆盖超过 84.2% 的概率质量，beam 估计有理论保证更优。这个条件不是必要条件；如果 beam 内外的不相似度差距 \(|\mu_B-\bar\mu_B|\) 较小，beam 即使覆盖不到 84.2% 也可能更好。实验中 beam 在大量未必满足强充分条件的样本上仍然优于采样，说明实际 break-even 往往比最保守边界宽松。

一个完整示例¶

假设问题是“贝多芬哪一部交响曲被称为 The Pastoral？”，模型的贪心答案是 “6”。如果用 multinomial sampling 生成 10 个候选，可能会出现 “sixth”“6”“seventh”“sixteenth”等答案，其中正确语义和错误语义混在一起，而且同义答案会重复多次。Dissimilarity 只能按这些随机候选的平均相似度给出一个分数；换一次随机种子，候选组成可能又变了。

用 beam search 时，模型会给出按序列概率排列的候选，例如 “sixth”、 “6”、 “6th”、 “ninth”、 “seventh”等，并带有各自概率。若前几个候选大多与 “6” 语义一致，低排名里才出现 “ninth” 或 “seventh”，概率加权后的不确定性就不会被尾部错误答案过度放大。反过来，如果高概率 beam 本身就分裂成多个互相矛盾的答案，beam 加权一致性分数会明显升高，说明模型对当前答案的信心不足。

这个例子体现了本文方法的核心判断逻辑：不是候选越多越好，而是候选集要覆盖模型真正可能给出的竞争答案，并且每个候选的影响要和它在模型分布中的质量匹配。

损失函数 / 训练策略¶

本文没有训练新的模型，也没有引入需要反向传播优化的损失函数。所有方法都是推理时的不确定性估计器：给定已有 LLM、问题、目标答案和候选生成策略，计算一个标量不确定性分数。

主要超参与实现选择包括：候选数 \(M\) 默认设为 10；beam 候选用自回归序列概率 \(p(b^{(i)}|x)\) 归一化得到 \(w_i\)；语义相似度函数 \(s(\cdot,\cdot)\) 在主实验中采用 MNLI 微调的 DeBERTa-large 的 entailment probability；Eccentricity 和 EigVecDissimilarity 的 Laplacian 特征选择使用阈值 \(\alpha=0.9\)；评估时主要用贪心解码得到的答案作为 \(y^*\)，附录还测试了把 top-1 beam 作为被评分答案的设置。

实验关键数据¶

主实验¶

主实验覆盖六个 QA 数据集：闭卷 TriviaQA、Web Questions，开卷 CoQA、HotpotQA，以及多选 CommonsenseQA、ARC-Challenge。模型包括 Gemma 3 4B、Llama 3.1 8B、Qwen 3 8B 的 base 和 instruct 版本。主指标是 Prediction-Rejection Ratio (PRR)，即看不确定性分数能否优先拒掉低质量答案；答案质量由 AlignScore 与金答案的对齐程度衡量。

方法	Llama 3.1 8B base	Llama 3.1 8B instruct	Gemma 3 4B base	Gemma 3 4B instruct	Qwen 3 8B base	Qwen 3 8B instruct
Dissimilarity	.505	.379	.630	.206	.477	.327
Dissimilarity + beamsearch	.543	.417	.650	.252	.478	.355
Eccentricity	.453	.368	.563	.231	.396	.251
Eccentricity + beamsearch	.505	.397	.603	.285	.410	.345
EigVecDissimilarity	.463	.370	.561	.236	.425	.256
EigVecDissimilarity + beamsearch	.510	.414	.598	.301	.450	.376
CocoaMSP	.505	.404	.587	.314	.461	.334
CocoaMSP + beamsearch	.521	.426	.615	.345	.473	.347
CocoaPPL	.523	.397	.628	.312	.461	.327
CocoaPPL + beamsearch	.536	.412	.649	.339	.461	.337

这个表最重要的信息是“几乎每一行 beam 版都高于原版”。Dissimilarity + beamsearch 在三个 base 模型上拿到最好 PRR；CocoaMSP + beamsearch 在 Llama instruct 和 Gemma instruct 上表现最好；CocoaPPL + beamsearch 也经常排到第二。换句话说，改候选生成方式本身就能带来稳定收益，而不是只对某个单一指标有效。

论文还报告 ROC-AUC 和 PR-AUC。以 Gemma 3 4B base 为例，Dissimilarity 的平均 ROC-AUC 从 .836 提升到 .848，CocoaPPL 从 .835 提升到 .846；平均 PR-AUC 中，CocoaPPL 从 .789 提升到 .801，Dissimilarity 从 .789 提升到 .794。这说明 PRR 的结论不是单一指标偶然现象。

消融实验¶

消融设置	关键结果	说明
候选数 \(M\) 从 1 到 15	\(M\ge 2\) 时 beam search 通常全程高于采样；TriviaQA 上约 \(M=3\) 到 5 已接近饱和	beam 更快用小预算覆盖有用候选；\(M=1\) 时 beam 退化为 greedy，Dissimilarity 信息很少
输出长度分桶	2 到 4 token 的短答案上 beam 优势最明显；7 token 以上差距变小	与重复率曲线一致，短答案采样最容易抽到重复样本
采样策略对比	普通 beam 是稳健默认；hybrid multinomial-beam 在部分超参下能赢，但需要调 \(B\)	论文没有把复杂策略作为主方法，因为收益不稳定且调参成本高
restricted-mass floor \(\epsilon\)	\(\epsilon=0\)、\(10^{-5}\)、\(10^{-3}\) 等都能给出强结果，但无统一最优值	加小概率地板可稳定低质量量 beam 的权重，最佳值依任务而变
Semantic Entropy / Degree Matrix 的 beam 化	Semantic Entropy 的 PR-AUC 从 .401 提到 .472，但仍弱于 Dissimilarity 系列	输入级不确定性与“当前答案是否正确”的排序目标不完全匹配
top-1 beam 作为 \(y^*\)	beam 加权家族多数情况下仍优于原方法	若部署时本来就用 beam 解码，本文估计器也能自然服务于 top beam 答案

关键发现¶

beam search 的收益最集中在短答案 QA，因为这类任务的输出空间小而尖，multinomial sampling 的重复问题最严重。
概率加权是必要的：beam 候选互异但概率差距很大，等权处理会让低概率尾部答案被高估。
论文的改动对多个一致性指标都有效，说明瓶颈主要在候选集近似，而不是某个具体相似度函数。
beam 并不总是神奇地提升所有 sampling-based 目标；例如 Degree Matrix 改善有限，Semantic Entropy 虽有提升但绝对表现仍弱于针对 \(y^*\) 的方法。
理论条件给出了可解释边界：当 top-\(M\) beam 覆盖足够概率质量，或者 beam 内外平均不相似度差距不大时，beam 估计更可能优于 Monte Carlo。

亮点与洞察¶

这篇论文最巧妙的地方在于它没有再设计一个复杂的新 UQ 分数，而是把注意力放到“已有分数到底用什么候选来近似”。很多一致性式 UQ 的失败并不是相似度函数不够聪明，而是候选集本身被重复采样污染了。
“Don't throw away your beams” 这个标题很准确：如果系统已经用 beam search 或可以低成本拿到 beam，直接把 beam 丢掉再采样是不经济的。把解码阶段产生的候选复用到置信度估计里，是一个工程上很自然、实验上又有效的改动。
理论分析虽然保守，但提供了一个清晰诊断变量：beam set probability mass \(m_B\)。这提示后续系统可以动态决定候选策略，例如当 top beams 覆盖质量高时用 beam，当概率分布更平坦时混入采样。
论文把“不确定性”明确定位为对当前答案 \(y^*\) 的预测性不确定性，而不是输入问题整体有多开放。这个区分解释了为什么 Dissimilarity / CoCoA 这类答案条件化方法强于 Semantic Entropy 等输入级指标。
对其他任务的迁移也很直接：任何需要“候选答案一致性”来估计置信度的场景，如检索增强问答、事实核验、医学短答、代码补全候选校验，都可以把随机候选替换成概率加权的 top-\(M\) 解码候选。

局限与展望¶

论文主要评估白盒设置，因为需要访问候选序列概率 \(p(b^{(i)}|x)\)。如果只能调用黑盒 API，就需要用经验频率、logprob API 或额外校准模型来近似权重，效果未必等同。
实验集中在 short-form QA。长文本生成里的答案空间更开放，beam search 可能导致模式坍缩或长度偏置，是否仍能比采样更好，需要单独验证。
方法依赖语义相似度函数 \(s\) 和质量指标 AlignScore。主实验用 NLI 模型估计候选答案是否语义一致，但在数学推理、代码、医学实体等任务中，通用 NLI 相似度可能不够可靠。
beam search 自身也有解码偏差。它偏向高概率、较保守的候选，可能漏掉低概率但语义重要的替代答案；附录的 hybrid 结果说明混合 beam 与 sampling 可能有潜力，但需要更稳健的自适应策略。
论文没有充分讨论计算开销在不同部署管线里的差异。如果原系统用 greedy decoding，额外跑 beam search 仍然有成本；“几乎免费”主要成立于本来就能复用 beam 或需要生成候选进行 UQ 的场景。

评分¶

新颖性: ⭐⭐⭐⭐☆ 思路朴素但击中关键瓶颈，把 beam search 作为一致性 UQ 的候选估计器有清晰价值。
实验充分度: ⭐⭐⭐⭐⭐ 六个数据集、六个模型、多个指标和大量附录消融，结论比较扎实。
写作质量: ⭐⭐⭐⭐☆ 主线清楚，理论条件和实验现象能互相支撑；个别附录表格较密，需要读者自己归纳。
价值: ⭐⭐⭐⭐⭐ 对短答案 QA 的置信度估计非常实用，尤其适合已有解码候选可复用的 LLM 评估与拒答系统。