Calibrating Verbalized Confidence with Self-Generated Distractors¶
会议: ICLR 2026
arXiv: 2509.25532
代码: victorwang37/dinco
领域: AIGC检测
关键词: 置信度校准, 语言化概率, 干扰项生成, NLI 重加权, 生成-验证一致性
一句话总结¶
提出 DiNCo 方法,通过让 LLM 独立评估自动生成的干扰选项(合理但错误的替代答案)来暴露其"暗示性偏差",用干扰项上的总置信度进行归一化,并融合生成一致性与验证一致性两个互补维度,在短文本 QA 和长文本生成任务上显著改善置信度校准。
研究背景与动机¶
领域现状:LLM 可以通过"语言化置信度"(verbalized confidence)直接输出其对答案的确信程度——要么让模型自报数值(如"80%"),要么通过 \(P(\text{True})\) 方式计算。这种单次调用方式比多次采样高效得多,但校准质量堪忧。
现有痛点: - 过度自信:语言化置信度存在系统性过高问题,模型在错误答案上也常报出 0.8+ 的置信度 - 置信度饱和:分数集中在少数区间(如 0.9-1.0),使得无论如何设置阈值,都无法有效区分正确与错误答案 - 跨难度不可比:简单问题的错误答案和困难问题的正确答案可能获得相同分数
核心观察:作者提出"暗示性"(suggestibility)假说——当 LLM 对某个主题知之甚少时,将 claim 放入上下文本身就会拉高模型对该 claim 的置信度。实验验证表明,错误回答的问题其总置信度 \(\beta(C)\) 显著高于正确回答的问题,证实了模型在认知不确定时更容易"来者不拒"。
方法详解¶
暗示性偏差建模¶
将语言化置信度建模为潜在真实置信度乘以暗示性偏差标量:
其中 \(\beta(c)\) 是 claim \(c\) 的暗示性偏差。关键假设是:对于逻辑相关的互斥 claim 集合 \(C\),偏差近似相等 \(\beta(c) \approx \beta(C)\)。由于潜在置信度应满足概率归一化 \(\sum_{c \in C} f^{\text{lat}}(c) = 1\),可得:
实际使用 \(\beta(C) \leftarrow \max(1, \beta(C))\) 避免 claim 集合不完备时的过度缩放。
干扰项生成策略¶
目标是找到高生成概率的互斥替代 claim 集合,最大化 \(\sum_{c \in C} f^{\text{VC}}(c)\) 且 \(|C| \leq K\):
| 场景 | 干扰项生成方式 | 特点 |
|---|---|---|
| 开源模型(logit 可用) | Beam search 生成多个高概率替代答案 | 高效覆盖概率质量,避免独立采样的重复 |
| API 模型(top-token 可用) | 伪 beam search(利用 top token 概率) | 近似 beam search 效果 |
| 纯黑盒模型 | 直接提示模型生成候选答案列表 | 无需任何概率访问 |
| 长文本生成 | 先分解为原子 claim,再为每个 claim 生成干扰项 | 适配 FactScore 评估框架 |
NLI 重加权机制¶
由于生成的干扰项无法保证严格互斥,使用 NLI 模型(DeBERTa-v3-base)计算两个权重:
- 唯一性权重:\(w_{\text{unique}}(c) = \frac{1}{\sum_{c' \in C} P(\text{entail} \mid c', c)}\),对被其他 claim 蕴含的重复项降权
- 矛盾性权重:\(w_{\text{contra}}(c) = \frac{P(\text{contra} \mid c_0, c) + P(\text{contra} \mid c, c_0)}{2}\),对与原始 claim 不矛盾的项降权
归一化因子变为:
生成-验证一致性融合¶
作者发现 beam search 生成的最高概率答案与验证阶段最高置信度答案仅在 59.2% 的问题上一致,表明生成器和验证器存在系统性分歧。DiNCo 将两个互补维度融合:
其中 \(f^{\text{SC}}\) 是自一致性(self-consistency)估计的生成置信度,\(f^{\text{NVC}}\) 是归一化后的验证置信度。推理预算 \(K=10\) 时,5 个样本用于 SC,5 个干扰项用于 NVC。
关键设计¶
- 独立评估而非联合提示:对每个干扰项独立询问模型置信度,而非一次性呈现所有候选——如果联合呈现,模型可以通过简单算术满足概率归一化,从而掩盖不一致性
- NLI 重加权保证归一化质量:通过蕴含和矛盾关系的连续权重处理部分等价/矛盾的 claim,消除简单计数的偏差
- 双维度一致性融合:将采样生成一致性(SC)和验证归一化一致性(NVC)作为互补信号整合,弥补单一维度的盲区
实验结果¶
短文本 QA 结果¶
| 方法 | TriviaQA ECE ↓ | TriviaQA AUC ↑ | SimpleQA ECE ↓ | SimpleQA AUC ↑ |
|---|---|---|---|---|
| VC | 0.240 | 0.817 | 0.547 | 0.644 |
| K-VC | 0.341 | 0.604 | 0.338 | 0.632 |
| MSP | 0.149 | 0.819 | 0.263 | 0.800 |
| SC | 0.236 | 0.785 | 0.220 | 0.750 |
| NVC | 0.171 | 0.853 | 0.164 | 0.729 |
| DiNCo | 0.097 | 0.879 | 0.089 | 0.786 |
以上 TriviaQA 结果为 Qwen3-8B,SimpleQA 结果为 GPT-4.1。DiNCo 在 ECE 上平均优于最佳 baseline(MSP)0.077(TriviaQA)和 0.092(SimpleQA)。
长文本生成结果(FactScore)¶
| 方法 | Qwen3-8B ECE ↓ | Qwen3-8B Pearson \(r\) ↑ | Gemma-3-4B ECE ↓ | Gemma-3-4B Pearson \(r\) ↑ |
|---|---|---|---|---|
| VC | 0.433 | 0.073 | 0.527 | -0.081 |
| SC | 0.162 | 0.468 | 0.197 | 0.629 |
| NVC | 0.191 | 0.444 | 0.123 | 0.695 |
| DiNCo | 0.076 | 0.518 | 0.172 | 0.724 |
DiNCo 的 passage-level Pearson/Spearman 相关系数平均优于 SC 0.072/0.074。
饱和度与扩展性分析¶
- 饱和度:DiNCo 的 \(\Delta_0 = 0.998\)(几乎所有样本对置信度不同),而 VC 仅 0.670,SC@100 仅 0.832
- 扩展 SC 无法弥补差距:SC 从 10 扩到 100 个样本(FLOP 增加 7.6 倍于 DiNCo),ECE 改善微乎其微,无法追平 DiNCo
- NLI 消融:移除 NLI 重加权后 NVC 的 ECE 从 0.171 恶化到 0.358,证实 NLI 权重的关键作用
论文评价¶
优点 ⭐⭐⭐⭐ - 从"暗示性偏差"角度分析过度自信,理论动机清晰且有实验验证 - 方法对开源/闭源模型均适用,且从短文本 QA 无缝迁移到长文本生成 - 仅需轻量 NLI 模型(184M 参数,<1% 总 FLOP),零资源、无训练 - 饱和度分析指标 \(\Delta_\epsilon\) 的提出量化了此前仅定性讨论的问题
不足 ⭐⭐⭐ - 干扰项质量依赖模型自身生成能力,对小模型效果可能受限 - 假设偏差 \(\beta\) 在逻辑相关 claim 间近似相等,对语义距离较远的 claim 可能不成立 - 长文本场景需要额外的 claim 分解步骤,增加了流水线复杂度 - 与最近的 post-hoc calibration 方法(如温度缩放)在有标注数据场景下的对比缺失
相关工作与对比¶
| 方法类型 | 代表工作 | 与 DiNCo 的区别 |
|---|---|---|
| 语言化置信度 | P(True), Verbalized Numerical | 单次评估,受暗示性偏差影响,置信度饱和 |
| 联合多候选提示 | Top-K-VC, CaCoST | 联合呈现候选允许模型通过算术满足归一化,掩盖不一致 |
| 自一致性 | SC, SC-VC | 仅利用生成一致性,忽略验证维度 |
| 序列概率 | MSP | 依赖标准答案形式,无法扩展到长文本 |
| DiNCo | 本文 | 独立评估干扰项 + NLI 重加权 + 生成/验证双维度融合 |
总结与展望¶
DiNCo 从 LLM "暗示性偏差" 这一被忽视的角度出发,通过自动生成干扰项并独立评估置信度来估计和校正偏差,再融合生成与验证两个互补的一致性维度。方法在零资源设定下以极低额外开销(相比 SC 仅多 32% FLOP)实现了跨任务、跨模型的校准改善。未来方向包括:用更小模型生成干扰项以进一步降低成本、将方法扩展到多轮对话和代理决策场景、以及探索与 post-hoc 校准方法的结合。