Confidence Estimation for LLMs in Multi-turn Interactions¶
会议: ACL 2026
arXiv: 2601.02179
代码: 论文提及 GitHub(有,链接见原文)
领域: LLM 校准 / 对话 / 置信度估计
关键词: 多轮对话, 置信度估计, P(SUFFICIENT), InfoECE, 单调性
一句话总结¶
首次系统研究多轮对话场景下的 LLM 置信度估计,提出两个核心准则(per-turn 校准 + 信息增加时单调性)、对应的 InfoECE 指标和 Kendall's \(\tau\) 评估、Hinter-Guesser 数据集构造范式,并提出新颖的 P(SUFFICIENT) logit 探针——结果发现现有方法(verbalized / SC / P(TRUE))在多轮场景中校准和单调性都很差,而 P(SUFFICIENT) 在 GUESS 上 InfoECE 降到 5.27(vs P(TRUE) 79.97)、\(\tau\) 达 81.51,但任务远未解决。
研究背景与动机¶
领域现状:置信度估计是减轻 LLM 幻觉的核心方向,但绝大多数工作(FActScore、Tian 2023、Xiong 2024)都聚焦单轮 QA,假设输入是一次性给的完整问题。
现有痛点:(1) 真实人机交互是多轮、增量的——用户分次澄清需求、模型反复问询、假设空间逐渐收窄——这种动态信息累积下的置信度行为完全没人研究;(2) 现有方法在多轮上能否保持校准、能否反映"信息越多越确定"这种直觉,未知;(3) 缺少针对多轮的评测指标和数据集——单轮 ECE 不能处理对话长度差异,标准 QA 数据集没有增量信息结构。
核心矛盾:在多轮场景中,置信度不应该是"对单一答复的固定属性",而应该是"随对话演化、随信息积累而升高的动态信号"。但能否真的做到、用什么方法做、怎么测都没系统答案。
本文目标:(1) 形式化多轮置信度的两个 desiderata:per-turn 校准 + 单调性;(2) 设计长度归一化的 InfoECE 指标和 Kendall's \(\tau\) 单调性指标;(3) 构造适合多轮的数据集(under-specified 用 Hinter-Guesser 范式生成 20Q / GUESS;fully-specified 用现成 GRACE / TrickMe);(4) 实测主流置信度方法 + 提出新方法 P(SUFFICIENT)。
切入角度:作者观察到 under-specified 场景下"答案对了不等于信息足够" —— 模型可能蒙对正确答案但还有多个候选未被排除,这时置信度应该低;而 P(TRUE) 只问"答案对不对",无法捕捉这种 identifiability 缺失。
核心 idea:把置信度探针的语义从"答案是否正确(P(TRUE))"换成"现有信息是否足以唯一确定答案(P(SUFFICIENT))",让置信度对应 identifiability 而非 incidental correctness。
方法详解¶
整体框架¶
对每个对话 \(d\) 的每个 turn \(i\),模型输出答案 \(\hat{y}_{d,i}\) 和置信度 \(c_{d,i} \in [0, 1]\),记录正确性 \(z_{d,i} = \mathbb{I}[\hat{y}_{d,i} = y_d]\)。为消除对话长度差异,把 turn \(i\) 归一化为信息级别 \(s_{d,i} = i / L_d \in (0, 1]\),划分 \(B\) 个 bin。两个核心指标:(a) InfoECE = \(\frac{1}{B}\sum_b |\text{acc}_b - \text{conf}_b|\),衡量每个信息级别上的校准;(b) Kendall's \(\tau\) 衡量对话内置信度随 turn 单调递增的程度。再加上 5 种置信度估计方法(3 现有 + 1 新提)和 2 类数据集(under-spec / fully-spec)。
关键设计¶
-
Hinter-Guesser 范式(under-specified 数据集构造):
- 功能:解决 naive 双 LLM 玩 20Q / GUESS 时出现的"早期 turn 不相关问题导致置信度倒退"问题,构造满足 C1-C3(信息单调增 + 步步可答 + 置信度应单调)的对话。
- 核心思路:(a) QA 阶段——Hinter(LLM)被分配一个秘密实体,每轮给出"helpful 但非 trivial"的 hint;Guesser 做 best guess 并标记是否还有多个候选答案合理(uniqueness probing);(b) Uniqueness probing——即使猜对也要标记"是否还有其他候选符合证据",区分"碰巧蒙对"和"信息足以唯一锁定";(c) 停止 + 过滤——对话持续到 Guesser 既猜对又认证唯一性,只保留成功对话,丢弃无法收敛的轨迹。最终 20Q 收集 1848 turn / 226 实体,GUESS 收集 1625 turn / 223 实体。
- 设计动机:传统模拟 20Q 让两个 LLM 自由对话会出现"早期问题撞墙、置信度起伏"的问题,破坏了多轮置信度评估的实验基础;Hinter-Guesser 范式用结构化角色和 uniqueness 信号保证信息严格累积,让置信度方法的失败可归因于方法本身而非数据噪声。
-
InfoECE 指标(长度归一化的多轮校准):
- 功能:解决不同对话长度无法在同一 ECE 框架下公平比较的问题。
- 核心思路:把每个 turn 位置 \(i\) 转成对话内的分数信息级别 \(s_{d,i} = i/L_d \in (0, 1]\),再分 \(B\) 个等宽 bin。每个 bin 内对所有跨对话的 turn 求平均置信度 \(\text{conf}_b\) 和平均准确率 \(\text{acc}_b\),InfoECE \(= \frac{1}{B}\sum_b |\text{acc}_b - \text{conf}_b|\)。同时用 Kendall's \(\tau = \frac{1}{N}\sum_d \frac{N^{(d)}_{con} - N^{(d)}_{dis}}{\binom{L_d}{2}}\) 衡量对话内置信度的单调性。
- 设计动机:直接用 turn 索引 \(i\) 做 ECE 会让短对话和长对话不可比;归一化到 \([0, 1]\) 后能在同一"信息进度条"上对齐不同长度对话,让"信息级别 = 50% 时该有多自信"这类问题有了 well-defined 答案。
-
P(SUFFICIENT) logit 探针(核心方法贡献):
- 功能:在 under-specified 场景下让置信度反映"信息是否足够锁定唯一答案"而非"答案是否对"。
- 核心思路:和 P(TRUE) 一样是 logit-based 二选一探针,但 prompt 改成"基于上述信息,是否足以推断正确答案就是 \(\hat{y}\)",输出强制为 A(足够)或 B(不够)的单一大写字母,confidence = \(\Pr[\text{A} \mid p_{d,i}, \hat{y}_{d,i}]\)。这样即便模型偶然蒙对了正确答案,只要 hints 还不能排除其他候选,置信度就该是低的。
- 设计动机:P(TRUE) 在 under-specified 场景下有结构性缺陷——它只问"这个答案对吗",但 turn 1 的 best guess 即使正确也只是"在所有可能中蒙的",按 P(TRUE) 应该是高置信度,但实际上 epistemic 上还应该是低置信度。P(SUFFICIENT) 把置信度的语义从 accuracy 转到 identifiability,更贴合多轮信息累积的语义。Theorem 上没有形式化证明,但实验显示在 GUESS 上 InfoECE 比 P(TRUE) 从 79.97 暴降到 5.27,\(\tau\) 从 3.29 飙到 81.51,验证了语义切换的关键作用。
损失函数 / 训练策略¶
不训练任何模型,全部用现成开源 LLM:Llama3.1 Instruct (8B / 70B)、Qwen2.5 Instruct (7B / 72B)。生成温度 1,置信度估计温度 0。Self-Consistency 用 \(m=20\) 次采样。为公平起见对每个方法都先让模型先答一次得到 \(a\),再估计 \(a\) 的置信度。
实验关键数据¶
主实验(InfoECE↓ / \(\tau\)↑,Llama3.1-70B 为例)¶
| Method | 20Q InfoECE | 20Q \(\tau\) | GUESS InfoECE | GUESS \(\tau\) | GRACE InfoECE | TRICKME InfoECE |
|---|---|---|---|---|---|---|
| Vanilla-Verb | 59.63 | 17.60 | 65.52 | 16.92 | 39.06 | 47.47 |
| CoT-Verb | 58.39 | 34.49 | 70.16 | 18.24 | 96.04 | 80.97 |
| SC (m=20) | 32.99 | 28.98 | 56.88 | 2.59 | 15.91 | 19.90 |
| P(TRUE) | 67.82 | 40.82 | 79.97 | 3.29 | 37.04 | 35.62 |
| P(SUFFICIENT) | 13.05 | 48.43 | 5.27 | 81.51 | 11.52 | 23.16 |
P(SUFFICIENT) 在 4 数据集 × 4 模型的大多数 InfoECE 上都是最佳,尤其 GUESS 上 InfoECE 仅 5.27(vs P(TRUE) 79.97,提升 15×)、\(\tau\) 达 81.51(vs P(TRUE) 3.29)。对 ground-truth 答案评估时所有方法的 \(\tau\) 都大幅提升,P(SUFFICIENT) 在 GUESS 上 Qwen2.5-72B 达到 \(\tau = 93.91\),证明模型能部分识别 hints 是否对齐正确答案。
控制实验:placebo vs informative turn(Llama3.1-70B on GUESS)¶
| 方法 | Conf at \(i-1\) | Conf placebo at \(i'\) | Conf informative at \(i\) |
|---|---|---|---|
| Vanilla-Verb | 71.30 | 73.70 (+2.40) | 83.83 (+12.53) |
| CoT-Verb | 78.39 | 78.77 (+0.38) | 88.41 (+10.02) |
| SC | 52.42 | 53.18 (+0.76) | 72.33 (+19.91) |
| P(TRUE) | 88.16 | 88.14 (−0.02) | 95.17 (+7.01) |
| P(SUFFICIENT) | 14.27 | 2.97 (−11.30) | 27.58 (+13.31) |
P(SUFFICIENT) 是唯一在 placebo(无信息废话 hint)下显著降低置信度的方法,证明它真的在跟踪信息而非 turn 计数;P(TRUE) 在 Llama3.1-8B / Qwen2.5-72B 的 GUESS 上 placebo 加 +11.75 / +14.61,揭示它有长度artifact。
关键发现¶
- 现有方法在多轮上普遍不校准:Verbalized 类(VANILLA-VERB / COT-VERB)和 P(TRUE) 的 InfoECE 通常在 40-80 之间,远超合理水平。SC 是 fully-specified 场景下校准最好的默认选择,但在 under-specified 上 \(\tau\) 经常单位数。
- P(SUFFICIENT) 在 under-specified 上压倒性最佳:因为 GUESS / 20Q 中"信息累积 → 候选缩减"的语义和 sufficiency 探针完美匹配;而 fully-specified 数据集上优势缩小但仍领先(GRACE InfoECE 11.52 vs SC 15.91)。
- Placebo 实验是关键的诊断工具:5 种方法 × 4 模型 × 2 数据集 = 40 对比,informative turn 显著变化 27 次 vs placebo 仅 18 次,证明置信度增长部分来自真实信息但部分是 turn count artifact。P(SUFFICIENT) 把这两个因素分得最清。
- Multi-turn vs Single-turn summary:作者把多轮 hints 浓缩成单轮 prompt 再测,发现准确率差异 <1%,没出现 Laban et al. (2025) 的"get lost in conversation"效应(因为此处任务非复杂数学推理);但置信度行为差异巨大——P(SUFFICIENT) 在 single-turn 上骤降(20Q: Qwen2.5-7B 从 63.13 降到 13.23),说明它依赖对话结构线索。
- 模型规模效应:参数增加 \(\tau\) 提升明显(Qwen2.5-72B 在 GUESS 上 P(SUFFICIENT) \(\tau = 83.76\) vs 7B 的 51.44),但 InfoECE 改善更微妙,有时小模型反而绝对校准更好。
亮点与洞察¶
- 从"答案对不对"切换到"信息是否充分":这是非常深刻的语义切换——P(TRUE) 测的是 outcome correctness,P(SUFFICIENT) 测的是 epistemic identifiability。在信息逐步揭示的场景下,后者才是真正想要的"理性自信"信号。这种"重新定义探针的语义而非堆叠复杂度"是少见的优雅。
- Hinter-Guesser 范式 + uniqueness probing:用结构化角色 + 唯一性认证巧妙解决了多轮对话数据集构造的混乱问题,让评测能聚焦在置信度方法本身。这个数据构造范式可推广到任何需要"信息严格累积"的多轮评测(如多步推理、医疗诊断对话)。
- InfoECE 的长度归一化设计:用对话内的分数信息级别替代绝对 turn 索引,让 ECE 在变长对话间可比。这个归一化思想可迁移到所有变长序列的校准评测(如 chain-of-thought 步骤校准)。
- Placebo 控制实验:用"插入无信息废话 turn"作为 adversarial baseline 来分离"真信息驱动的置信度增长"和"turn count artifact",是非常巧妙的实验设计,可标准化为任何"动态置信度"研究的必备控制。
- 跨模型方差揭示稳健性差异:Qwen2.5 系列在 verbalized 上偶尔 \(\tau\) 最高但绝对校准差,提示读者"\(\tau\) 高 ≠ 可用",应该联合看 InfoECE + \(\tau\)。
局限与展望¶
- 作者承认数据集都是简化的信息检索游戏,没有真实对话中的话题切换、错误修复、混合意图等现象,对真实开放域对话的可迁移性有限。
- 多轮置信度评测只限于 information-seeking 任务;开放生成、创造性协作场景下的置信度动态完全没研究。
- 评测只覆盖校准 + 单调性两个维度,没量化对下游应用的真实价值(如什么时候触发澄清问题、什么时候调用工具)。
- 只研究 confidence 没研究 uncertainty——后者更难,但在 agentic 应用中可能更重要。
- 自己发现:P(SUFFICIENT) 的优势在 fully-specified 场景(GRACE / TRICKME)明显缩小,说明它本质是"借候选缩减"获得校准;如果初始候选空间已经很小,sufficiency 与 truth 等价,方法优势消失。
- 没有评估模型规模 + finetune 的影响——如果给模型 SFT 一下 sufficiency 判断,效果会怎样?
- 只对 4 个开源模型评测,闭源 LLM(GPT-4 / Claude)行为可能不同。
相关工作与启发¶
- vs Tian et al. (2023) Verbalized Confidence:单轮自报置信度的经典方法,本文证明其在多轮上严重失校准(InfoECE 经常 50+)。
- vs Kadavath et al. (2022) P(TRUE):单轮 logit 探针的标杆,本文证明它在 under-specified 多轮上既不校准也不单调,根本问题在"答案对错 ≠ 信息充分"。P(SUFFICIENT) 就是针对这个语义缺陷设计的替代。
- vs Self-Consistency (Manakul et al. 2023):在 fully-specified 上是最佳校准 baseline,但在 under-specified 上 \(\tau\) 极低(GUESS 单位数),因为多次采样模型只是反复确认同一个错误猜测。
- vs Laban et al. (2025) "LLMs get lost in multi-turn":作者用渐进式信息揭示数据集发现自家场景没有 lost in conversation 效应,因为任务不涉及复杂数学;这暗示"get lost"效应高度任务特异。
- vs Zhang et al. (2026)(同期)Conformity in Multi-turn Persuasion:讨论对抗 persuasion 下的置信度抵抗;本文是其互补——cooperative 信息累积下的置信度增长。
- vs Sung et al. (2025) GRACE / Wallace et al. (2019) TrickMe:直接借用这两个 incremental QA 数据集作为 fully-specified regime 的评测基准。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统化多轮置信度评测,方法论(InfoECE + Hinter-Guesser + P(SUFFICIENT) + placebo 控制)每一项都有原创贡献。
- 实验充分度: ⭐⭐⭐⭐⭐ 4 模型 × 5 方法 × 4 数据集 + ground-truth \(\tau\) + placebo 控制 + multi/single-turn 对比 + 模型规模扫描,非常彻底。
- 写作质量: ⭐⭐⭐⭐⭐ 形式化定义清晰、动机推导有力、所有 prompt 在附录给全、图表组织清晰。
- 价值: ⭐⭐⭐⭐⭐ 为多轮 LLM 校准奠定基础方法学,"sufficiency vs truth"的语义切换洞察对后续置信度研究有深远启发。