Calibrating Verbalized Confidence with Self-Generated Distractors¶

会议: ICLR 2026
arXiv: 2509.25532
代码: victorwang37/dinco
领域: AIGC检测
关键词: 置信度校准, 语言化概率, 干扰项生成, NLI 重加权, 生成-验证一致性

一句话总结¶

提出 DiNCo 方法，通过让 LLM 独立评估自动生成的干扰选项（合理但错误的替代答案）来暴露其"暗示性偏差"，用干扰项上的总置信度进行归一化，并融合生成一致性与验证一致性两个互补维度，在短文本 QA 和长文本生成任务上显著改善置信度校准。

研究背景与动机¶

领域现状：LLM 可以通过"语言化置信度"（verbalized confidence）直接输出其对答案的确信程度——要么让模型自报数值（如"80%"），要么通过 \(P(\text{True})\) 方式计算。这种单次调用方式比多次采样高效得多，但校准质量堪忧。

现有痛点： - 过度自信：语言化置信度存在系统性过高问题，模型在错误答案上也常报出 0.8+ 的置信度 - 置信度饱和：分数集中在少数区间（如 0.9-1.0），使得无论如何设置阈值，都无法有效区分正确与错误答案 - 跨难度不可比：简单问题的错误答案和困难问题的正确答案可能获得相同分数

核心观察：作者提出"暗示性"（suggestibility）假说——当 LLM 对某个主题知之甚少时，将 claim 放入上下文本身就会拉高模型对该 claim 的置信度。实验验证表明，错误回答的问题其总置信度 \(\beta(C)\) 显著高于正确回答的问题，证实了模型在认知不确定时更容易"来者不拒"。

方法详解¶

暗示性偏差建模¶

将语言化置信度建模为潜在真实置信度乘以暗示性偏差标量：

\[f^{\text{VC}}(c) = \beta(c) \cdot f^{\text{lat}}(c)\]

其中 \(\beta(c)\) 是 claim \(c\) 的暗示性偏差。关键假设是：对于逻辑相关的互斥 claim 集合 \(C\)，偏差近似相等 \(\beta(c) \approx \beta(C)\)。由于潜在置信度应满足概率归一化 \(\sum_{c \in C} f^{\text{lat}}(c) = 1\)，可得：

\[\beta(C) \approx \sum_{c \in C} f^{\text{VC}}(c), \quad f^{\text{NVC}}(c_0) = \frac{f^{\text{VC}}(c_0)}{\beta(C)}\]

实际使用 \(\beta(C) \leftarrow \max(1, \beta(C))\) 避免 claim 集合不完备时的过度缩放。

干扰项生成策略¶

目标是找到高生成概率的互斥替代 claim 集合，最大化 \(\sum_{c \in C} f^{\text{VC}}(c)\) 且 \(|C| \leq K\)：

场景	干扰项生成方式	特点
开源模型（logit 可用）	Beam search 生成多个高概率替代答案	高效覆盖概率质量，避免独立采样的重复
API 模型（top-token 可用）	伪 beam search（利用 top token 概率）	近似 beam search 效果
纯黑盒模型	直接提示模型生成候选答案列表	无需任何概率访问
长文本生成	先分解为原子 claim，再为每个 claim 生成干扰项	适配 FactScore 评估框架

NLI 重加权机制¶

由于生成的干扰项无法保证严格互斥，使用 NLI 模型（DeBERTa-v3-base）计算两个权重：

唯一性权重：\(w_{\text{unique}}(c) = \frac{1}{\sum_{c' \in C} P(\text{entail} \mid c', c)}\)，对被其他 claim 蕴含的重复项降权
矛盾性权重：\(w_{\text{contra}}(c) = \frac{P(\text{contra} \mid c_0, c) + P(\text{contra} \mid c, c_0)}{2}\)，对与原始 claim 不矛盾的项降权

归一化因子变为：

\[\beta(C) = \max\left(1, f^{\text{VC}}(c_0) + \sum_{c \in C} f^{\text{VC}}(c) \cdot w_{\text{unique}}(c) \cdot w_{\text{contra}}(c)\right)\]

生成-验证一致性融合¶

作者发现 beam search 生成的最高概率答案与验证阶段最高置信度答案仅在 59.2% 的问题上一致，表明生成器和验证器存在系统性分歧。DiNCo 将两个互补维度融合：

\[f^{\text{DiNCo}}(c) = \frac{1}{2} f^{\text{SC}}(c) + \frac{1}{2} f^{\text{NVC}}(c)\]

其中 \(f^{\text{SC}}\) 是自一致性（self-consistency）估计的生成置信度，\(f^{\text{NVC}}\) 是归一化后的验证置信度。推理预算 \(K=10\) 时，5 个样本用于 SC，5 个干扰项用于 NVC。

关键设计¶

独立评估而非联合提示：对每个干扰项独立询问模型置信度，而非一次性呈现所有候选——如果联合呈现，模型可以通过简单算术满足概率归一化，从而掩盖不一致性
NLI 重加权保证归一化质量：通过蕴含和矛盾关系的连续权重处理部分等价/矛盾的 claim，消除简单计数的偏差
双维度一致性融合：将采样生成一致性（SC）和验证归一化一致性（NVC）作为互补信号整合，弥补单一维度的盲区

实验结果¶

短文本 QA 结果¶

方法	TriviaQA ECE ↓	TriviaQA AUC ↑	SimpleQA ECE ↓	SimpleQA AUC ↑
VC	0.240	0.817	0.547	0.644
K-VC	0.341	0.604	0.338	0.632
MSP	0.149	0.819	0.263	0.800
SC	0.236	0.785	0.220	0.750
NVC	0.171	0.853	0.164	0.729
DiNCo	0.097	0.879	0.089	0.786

以上 TriviaQA 结果为 Qwen3-8B，SimpleQA 结果为 GPT-4.1。DiNCo 在 ECE 上平均优于最佳 baseline（MSP）0.077（TriviaQA）和 0.092（SimpleQA）。

长文本生成结果（FactScore）¶

方法	Qwen3-8B ECE ↓	Qwen3-8B Pearson \(r\) ↑	Gemma-3-4B ECE ↓	Gemma-3-4B Pearson \(r\) ↑
VC	0.433	0.073	0.527	-0.081
SC	0.162	0.468	0.197	0.629
NVC	0.191	0.444	0.123	0.695
DiNCo	0.076	0.518	0.172	0.724

DiNCo 的 passage-level Pearson/Spearman 相关系数平均优于 SC 0.072/0.074。

饱和度与扩展性分析¶

饱和度：DiNCo 的 \(\Delta_0 = 0.998\)（几乎所有样本对置信度不同），而 VC 仅 0.670，SC@100 仅 0.832
扩展 SC 无法弥补差距：SC 从 10 扩到 100 个样本（FLOP 增加 7.6 倍于 DiNCo），ECE 改善微乎其微，无法追平 DiNCo
NLI 消融：移除 NLI 重加权后 NVC 的 ECE 从 0.171 恶化到 0.358，证实 NLI 权重的关键作用

论文评价¶

优点 ⭐⭐⭐⭐ - 从"暗示性偏差"角度分析过度自信，理论动机清晰且有实验验证 - 方法对开源/闭源模型均适用，且从短文本 QA 无缝迁移到长文本生成 - 仅需轻量 NLI 模型（184M 参数，<1% 总 FLOP），零资源、无训练 - 饱和度分析指标 \(\Delta_\epsilon\) 的提出量化了此前仅定性讨论的问题

不足 ⭐⭐⭐ - 干扰项质量依赖模型自身生成能力，对小模型效果可能受限 - 假设偏差 \(\beta\) 在逻辑相关 claim 间近似相等，对语义距离较远的 claim 可能不成立 - 长文本场景需要额外的 claim 分解步骤，增加了流水线复杂度 - 与最近的 post-hoc calibration 方法（如温度缩放）在有标注数据场景下的对比缺失

总结与展望¶

DiNCo 从 LLM "暗示性偏差" 这一被忽视的角度出发，通过自动生成干扰项并独立评估置信度来估计和校正偏差，再融合生成与验证两个互补的一致性维度。方法在零资源设定下以极低额外开销（相比 SC 仅多 32% FLOP）实现了跨任务、跨模型的校准改善。未来方向包括：用更小模型生成干扰项以进一步降低成本、将方法扩展到多轮对话和代理决策场景、以及探索与 post-hoc 校准方法的结合。

方法类型	代表工作	与 DiNCo 的区别
语言化置信度	P(True), Verbalized Numerical	单次评估，受暗示性偏差影响，置信度饱和
联合多候选提示	Top-K-VC, CaCoST	联合呈现候选允许模型通过算术满足归一化，掩盖不一致
自一致性	SC, SC-VC	仅利用生成一致性，忽略验证维度
序列概率	MSP	依赖标准答案形式，无法扩展到长文本
DiNCo	本文	独立评估干扰项 + NLI 重加权 + 生成/验证双维度融合