Confidence Estimation for LLMs in Multi-turn Interactions¶

会议: ACL 2026
arXiv: 2601.02179
代码: 论文提及 GitHub（有，链接见原文）
领域: LLM 校准 / 对话 / 置信度估计
关键词: 多轮对话, 置信度估计, P(SUFFICIENT), InfoECE, 单调性

一句话总结¶

首次系统研究多轮对话场景下的 LLM 置信度估计，提出两个核心准则（per-turn 校准 + 信息增加时单调性）、对应的 InfoECE 指标和 Kendall's \(\tau\) 评估、Hinter-Guesser 数据集构造范式，并提出新颖的 P(SUFFICIENT) logit 探针——结果发现现有方法（verbalized / SC / P(TRUE)）在多轮场景中校准和单调性都很差，而 P(SUFFICIENT) 在 GUESS 上 InfoECE 降到 5.27（vs P(TRUE) 79.97）、\(\tau\) 达 81.51，但任务远未解决。

研究背景与动机¶

领域现状：置信度估计是减轻 LLM 幻觉的核心方向，但绝大多数工作（FActScore、Tian 2023、Xiong 2024）都聚焦单轮 QA，假设输入是一次性给的完整问题。

现有痛点：(1) 真实人机交互是多轮、增量的——用户分次澄清需求、模型反复问询、假设空间逐渐收窄——这种动态信息累积下的置信度行为完全没人研究；(2) 现有方法在多轮上能否保持校准、能否反映"信息越多越确定"这种直觉，未知；(3) 缺少针对多轮的评测指标和数据集——单轮 ECE 不能处理对话长度差异，标准 QA 数据集没有增量信息结构。

核心矛盾：在多轮场景中，置信度不应该是"对单一答复的固定属性"，而应该是"随对话演化、随信息积累而升高的动态信号"。但能否真的做到、用什么方法做、怎么测都没系统答案。

本文目标：(1) 形式化多轮置信度的两个 desiderata：per-turn 校准 + 单调性；(2) 设计长度归一化的 InfoECE 指标和 Kendall's \(\tau\) 单调性指标；(3) 构造适合多轮的数据集（under-specified 用 Hinter-Guesser 范式生成 20Q / GUESS；fully-specified 用现成 GRACE / TrickMe）；(4) 实测主流置信度方法 + 提出新方法 P(SUFFICIENT)。

切入角度：作者观察到 under-specified 场景下"答案对了不等于信息足够" —— 模型可能蒙对正确答案但还有多个候选未被排除，这时置信度应该低；而 P(TRUE) 只问"答案对不对"，无法捕捉这种 identifiability 缺失。

核心 idea：把置信度探针的语义从"答案是否正确（P(TRUE)）"换成"现有信息是否足以唯一确定答案（P(SUFFICIENT)）"，让置信度对应 identifiability 而非 incidental correctness。

方法详解¶

整体框架¶

对每个对话 \(d\) 的每个 turn \(i\)，模型输出答案 \(\hat{y}_{d,i}\) 和置信度 \(c_{d,i} \in [0, 1]\)，记录正确性 \(z_{d,i} = \mathbb{I}[\hat{y}_{d,i} = y_d]\)。为消除对话长度差异，把 turn \(i\) 归一化为信息级别 \(s_{d,i} = i / L_d \in (0, 1]\)，划分 \(B\) 个 bin。两个核心指标：(a) InfoECE = \(\frac{1}{B}\sum_b |\text{acc}_b - \text{conf}_b|\)，衡量每个信息级别上的校准；(b) Kendall's \(\tau\) 衡量对话内置信度随 turn 单调递增的程度。再加上 5 种置信度估计方法（3 现有 + 1 新提）和 2 类数据集（under-spec / fully-spec）。

关键设计¶

Hinter-Guesser 范式（under-specified 数据集构造）:
- 功能：解决 naive 双 LLM 玩 20Q / GUESS 时出现的"早期 turn 不相关问题导致置信度倒退"问题，构造满足 C1-C3（信息单调增 + 步步可答 + 置信度应单调）的对话。
- 核心思路：(a) QA 阶段——Hinter（LLM）被分配一个秘密实体，每轮给出"helpful 但非 trivial"的 hint；Guesser 做 best guess 并标记是否还有多个候选答案合理（uniqueness probing）；(b) Uniqueness probing——即使猜对也要标记"是否还有其他候选符合证据"，区分"碰巧蒙对"和"信息足以唯一锁定"；(c) 停止 + 过滤——对话持续到 Guesser 既猜对又认证唯一性，只保留成功对话，丢弃无法收敛的轨迹。最终 20Q 收集 1848 turn / 226 实体，GUESS 收集 1625 turn / 223 实体。
- 设计动机：传统模拟 20Q 让两个 LLM 自由对话会出现"早期问题撞墙、置信度起伏"的问题，破坏了多轮置信度评估的实验基础；Hinter-Guesser 范式用结构化角色和 uniqueness 信号保证信息严格累积，让置信度方法的失败可归因于方法本身而非数据噪声。
InfoECE 指标（长度归一化的多轮校准）:
- 功能：解决不同对话长度无法在同一 ECE 框架下公平比较的问题。
- 核心思路：把每个 turn 位置 \(i\) 转成对话内的分数信息级别 \(s_{d,i} = i/L_d \in (0, 1]\)，再分 \(B\) 个等宽 bin。每个 bin 内对所有跨对话的 turn 求平均置信度 \(\text{conf}_b\) 和平均准确率 \(\text{acc}_b\)，InfoECE \(= \frac{1}{B}\sum_b |\text{acc}_b - \text{conf}_b|\)。同时用 Kendall's \(\tau = \frac{1}{N}\sum_d \frac{N^{(d)}_{con} - N^{(d)}_{dis}}{\binom{L_d}{2}}\) 衡量对话内置信度的单调性。
- 设计动机：直接用 turn 索引 \(i\) 做 ECE 会让短对话和长对话不可比；归一化到 \([0, 1]\) 后能在同一"信息进度条"上对齐不同长度对话，让"信息级别 = 50% 时该有多自信"这类问题有了 well-defined 答案。
P(SUFFICIENT) logit 探针（核心方法贡献）:
- 功能：在 under-specified 场景下让置信度反映"信息是否足够锁定唯一答案"而非"答案是否对"。
- 核心思路：和 P(TRUE) 一样是 logit-based 二选一探针，但 prompt 改成"基于上述信息，是否足以推断正确答案就是 \(\hat{y}\)"，输出强制为 A（足够）或 B（不够）的单一大写字母，confidence = \(\Pr[\text{A} \mid p_{d,i}, \hat{y}_{d,i}]\)。这样即便模型偶然蒙对了正确答案，只要 hints 还不能排除其他候选，置信度就该是低的。
- 设计动机：P(TRUE) 在 under-specified 场景下有结构性缺陷——它只问"这个答案对吗"，但 turn 1 的 best guess 即使正确也只是"在所有可能中蒙的"，按 P(TRUE) 应该是高置信度，但实际上 epistemic 上还应该是低置信度。P(SUFFICIENT) 把置信度的语义从 accuracy 转到 identifiability，更贴合多轮信息累积的语义。Theorem 上没有形式化证明，但实验显示在 GUESS 上 InfoECE 比 P(TRUE) 从 79.97 暴降到 5.27，\(\tau\) 从 3.29 飙到 81.51，验证了语义切换的关键作用。

损失函数 / 训练策略¶

不训练任何模型，全部用现成开源 LLM：Llama3.1 Instruct (8B / 70B)、Qwen2.5 Instruct (7B / 72B)。生成温度 1，置信度估计温度 0。Self-Consistency 用 \(m=20\) 次采样。为公平起见对每个方法都先让模型先答一次得到 \(a\)，再估计 \(a\) 的置信度。

实验关键数据¶

主实验（InfoECE↓ / \(\tau\)↑，Llama3.1-70B 为例）¶

Method	20Q InfoECE	20Q \(\tau\)	GUESS InfoECE	GUESS \(\tau\)	GRACE InfoECE	TRICKME InfoECE
Vanilla-Verb	59.63	17.60	65.52	16.92	39.06	47.47
CoT-Verb	58.39	34.49	70.16	18.24	96.04	80.97
SC (m=20)	32.99	28.98	56.88	2.59	15.91	19.90
P(TRUE)	67.82	40.82	79.97	3.29	37.04	35.62
P(SUFFICIENT)	13.05	48.43	5.27	81.51	11.52	23.16

P(SUFFICIENT) 在 4 数据集 × 4 模型的大多数 InfoECE 上都是最佳，尤其 GUESS 上 InfoECE 仅 5.27（vs P(TRUE) 79.97，提升 15×）、\(\tau\) 达 81.51（vs P(TRUE) 3.29）。对 ground-truth 答案评估时所有方法的 \(\tau\) 都大幅提升，P(SUFFICIENT) 在 GUESS 上 Qwen2.5-72B 达到 \(\tau = 93.91\)，证明模型能部分识别 hints 是否对齐正确答案。

控制实验：placebo vs informative turn（Llama3.1-70B on GUESS）¶

方法	Conf at \(i-1\)	Conf placebo at \(i'\)	Conf informative at \(i\)
Vanilla-Verb	71.30	73.70 (+2.40)	83.83 (+12.53)
CoT-Verb	78.39	78.77 (+0.38)	88.41 (+10.02)
SC	52.42	53.18 (+0.76)	72.33 (+19.91)
P(TRUE)	88.16	88.14 (−0.02)	95.17 (+7.01)
P(SUFFICIENT)	14.27	2.97 (−11.30)	27.58 (+13.31)

P(SUFFICIENT) 是唯一在 placebo（无信息废话 hint）下显著降低置信度的方法，证明它真的在跟踪信息而非 turn 计数；P(TRUE) 在 Llama3.1-8B / Qwen2.5-72B 的 GUESS 上 placebo 加 +11.75 / +14.61，揭示它有长度artifact。

关键发现¶

现有方法在多轮上普遍不校准：Verbalized 类（VANILLA-VERB / COT-VERB）和 P(TRUE) 的 InfoECE 通常在 40-80 之间，远超合理水平。SC 是 fully-specified 场景下校准最好的默认选择，但在 under-specified 上 \(\tau\) 经常单位数。
P(SUFFICIENT) 在 under-specified 上压倒性最佳：因为 GUESS / 20Q 中"信息累积 → 候选缩减"的语义和 sufficiency 探针完美匹配；而 fully-specified 数据集上优势缩小但仍领先（GRACE InfoECE 11.52 vs SC 15.91）。
Placebo 实验是关键的诊断工具：5 种方法 × 4 模型 × 2 数据集 = 40 对比，informative turn 显著变化 27 次 vs placebo 仅 18 次，证明置信度增长部分来自真实信息但部分是 turn count artifact。P(SUFFICIENT) 把这两个因素分得最清。
Multi-turn vs Single-turn summary：作者把多轮 hints 浓缩成单轮 prompt 再测，发现准确率差异 <1%，没出现 Laban et al. (2025) 的"get lost in conversation"效应（因为此处任务非复杂数学推理）；但置信度行为差异巨大——P(SUFFICIENT) 在 single-turn 上骤降（20Q: Qwen2.5-7B 从 63.13 降到 13.23），说明它依赖对话结构线索。
模型规模效应：参数增加 \(\tau\) 提升明显（Qwen2.5-72B 在 GUESS 上 P(SUFFICIENT) \(\tau = 83.76\) vs 7B 的 51.44），但 InfoECE 改善更微妙，有时小模型反而绝对校准更好。

亮点与洞察¶

从"答案对不对"切换到"信息是否充分"：这是非常深刻的语义切换——P(TRUE) 测的是 outcome correctness，P(SUFFICIENT) 测的是 epistemic identifiability。在信息逐步揭示的场景下，后者才是真正想要的"理性自信"信号。这种"重新定义探针的语义而非堆叠复杂度"是少见的优雅。
Hinter-Guesser 范式 + uniqueness probing：用结构化角色 + 唯一性认证巧妙解决了多轮对话数据集构造的混乱问题，让评测能聚焦在置信度方法本身。这个数据构造范式可推广到任何需要"信息严格累积"的多轮评测（如多步推理、医疗诊断对话）。
InfoECE 的长度归一化设计：用对话内的分数信息级别替代绝对 turn 索引，让 ECE 在变长对话间可比。这个归一化思想可迁移到所有变长序列的校准评测（如 chain-of-thought 步骤校准）。
Placebo 控制实验：用"插入无信息废话 turn"作为 adversarial baseline 来分离"真信息驱动的置信度增长"和"turn count artifact"，是非常巧妙的实验设计，可标准化为任何"动态置信度"研究的必备控制。
跨模型方差揭示稳健性差异：Qwen2.5 系列在 verbalized 上偶尔 \(\tau\) 最高但绝对校准差，提示读者"\(\tau\) 高 ≠ 可用"，应该联合看 InfoECE + \(\tau\)。

局限与展望¶

作者承认数据集都是简化的信息检索游戏，没有真实对话中的话题切换、错误修复、混合意图等现象，对真实开放域对话的可迁移性有限。
多轮置信度评测只限于 information-seeking 任务；开放生成、创造性协作场景下的置信度动态完全没研究。
评测只覆盖校准 + 单调性两个维度，没量化对下游应用的真实价值（如什么时候触发澄清问题、什么时候调用工具）。
只研究 confidence 没研究 uncertainty——后者更难，但在 agentic 应用中可能更重要。
自己发现：P(SUFFICIENT) 的优势在 fully-specified 场景（GRACE / TRICKME）明显缩小，说明它本质是"借候选缩减"获得校准；如果初始候选空间已经很小，sufficiency 与 truth 等价，方法优势消失。
没有评估模型规模 + finetune 的影响——如果给模型 SFT 一下 sufficiency 判断，效果会怎样？
只对 4 个开源模型评测，闭源 LLM（GPT-4 / Claude）行为可能不同。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统化多轮置信度评测，方法论（InfoECE + Hinter-Guesser + P(SUFFICIENT) + placebo 控制）每一项都有原创贡献。
实验充分度: ⭐⭐⭐⭐⭐ 4 模型 × 5 方法 × 4 数据集 + ground-truth \(\tau\) + placebo 控制 + multi/single-turn 对比 + 模型规模扫描，非常彻底。
写作质量: ⭐⭐⭐⭐⭐ 形式化定义清晰、动机推导有力、所有 prompt 在附录给全、图表组织清晰。
价值: ⭐⭐⭐⭐⭐ 为多轮 LLM 校准奠定基础方法学，"sufficiency vs truth"的语义切换洞察对后续置信度研究有深远启发。