Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence In Large Language Models¶
会议: ACL 2025
arXiv: 2512.11998
代码: 未公开
领域: LLM/NLP
关键词: 置信度校准, DPO, 内部置信度, 表达置信度, LLM 可靠性
一句话总结¶
提出 Direct Confidence Alignment (DCA),利用 DPO 将 LLM 的文字表达置信度(verbalized confidence)与内部 token 概率置信度(internal confidence)对齐,提升模型置信度表达的一致性和透明度。
研究背景与动机¶
核心问题: LLM 的内部置信度(\(C_i\),基于 token 概率的 softmax 值)与表达置信度(\(C_v\),模型在回答中输出的置信百分比)之间存在严重不一致。例如模型内部概率仅 30% 的答案,可能在文字中声称 95% 的置信度。
现有方案局限: - 温度缩放、自一致性等校准方法关注将置信度与准确率对齐,忽略了 \(C_v\) 和 \(C_i\) 的内在差距 - RLHF 可能破坏模型内部 logits 的校准性,使 \(C_i\) 本身变得不可靠 - 黑盒模型无法获取 logits,限制了基于 \(C_i\) 的校准方法
核心动机: 即使 \(C_i\) 不完美校准,保证 \(C_v\) 与 \(C_i\) 的一致性仍有意义——这使模型的不确定性表达更透明、一致。DPO 的偏好对格式天然适合此类对齐任务。
方法详解¶
整体框架¶
DCA 流程包含四步:(1) 使用基础模型对问题生成带 \(C_v\) 的回答 → (2) 从答案 token 的 softmax 概率中提取 \(C_i\) → (3) 构建偏好数据对:原始回答(含原始 \(C_v\))为 rejected,将 \(C_v\) 替换为 \(C_i\) 的回答为 chosen → (4) 用 DPO 训练完成对齐。
关键设计¶
-
表达置信度提取: 通过特定 prompt 模板要求模型在回答末尾输出 "Probability: X%",解析数值获取 \(C_v\),提取错误率 <5%
-
内部置信度提取: 取模型输出答案 token(如 A/B/C/D)时的 softmax 概率作为 \(C_i\),直接反映模型对答案的内部确信程度
-
偏好数据构建: 对每个样本生成一对数据——原始回答为 rejected,将其中 \(C_v\) 数值替换为 \(C_i\) 数值的回答为 chosen,其余文本完全相同
评估指标¶
提出三个基于校准误差 \(\epsilon = C_v - C_i\) 的新指标: - \(\sigma_\epsilon\)(校准误差标准差):衡量 \(\epsilon\) 的变异程度 - \(\overline{|\epsilon|}\)(平均绝对校准误差):衡量 \(C_v\) 和 \(C_i\) 的平均偏差 - \(\sigma_M\)(校准误差标准误):估计平均对齐的采样不确定性
实验¶
主实验:DCA 对齐效果(四个数据集平均)¶
| 模型 | 方法 | ρ↑ | σ_ε↓ | |ε|↓ | σ_M↓ |
|---|---|---|---|---|---|
| Gemma-2-9B-Instruct | Vanilla | 0.34 | 16.97 | 9.91 | 0.57 |
| DCA | 0.42 | 13.79 | 5.03 | 0.46 | |
| Llama-3.2-3B-Instruct | Vanilla | 0.28 | 41.19 | 38.67 | 1.40 |
| DCA | 0.23↓ | 22.88 | 44.03↑ | 0.75 | |
| Mistral-7B-Instruct | Vanilla | 0.19 | 25.63 | 22.96 | 0.85 |
| DCA | 0.13↓ | 22.93 | 48.93↑ | 0.74 |
DCA 对准确率的影响¶
| 模型 | OpenBookQA | TruthfulQA | CosmosQA | MMLU |
|---|---|---|---|---|
| Gemma-2-9B Vanilla→DCA | 86.06→86.21 | 59.68→60.85 | 79.63→80.01 | 72.41→72.05 |
| Llama-3.2-3B Vanilla→DCA | 47.14→64.00 | 29.71→37.75 | 66.43→73.55 | 39.92→49.77 |
| Mistral-7B Vanilla→DCA | 59.00→58.23↓ | 32.84→20.98↓ | 60.48→54.02↓ | 55.91→48.85↓ |
关键发现¶
- DCA 效果高度模型依赖:Gemma-2-9B 在所有指标上一致改善(ρ +0.08,|ε| -4.88),而 Mistral-7B 在多项指标上恶化
- Gemma 的成功可能部分因为其 \(C_v\) 和 \(C_i\) 初始分布已高度偏向 90-100% 区间,DCA 强化了这一集中趋势
- \(\sigma_\epsilon\) 和 \(\sigma_M\) 在所有模型上普遍改善,表明 DCA 至少降低了校准误差的方差
- DCA 对准确率影响不一致:Gemma 稳定,Llama 大幅提升(+16.86% on OpenBookQA),Mistral 显著下降(-11.86% on TruthfulQA)
- 域内和域外数据集表现模式相似,暗示效果更依赖于模型架构而非任务类型
亮点¶
- 新颖的校准视角:不追求与 ground-truth 准确率对齐,而是对齐模型自身的两种置信度表达,关注透明度而非正确性
- 方法简洁:巧妙利用 DPO 的偏好对格式,仅需替换 \(C_v\) 为 \(C_i\) 即可构建训练数据
- 三个新指标:\(\sigma_\epsilon\)、\(\overline{|\epsilon|}\)、\(\sigma_M\) 从不同角度衡量置信度对齐质量,比单一 Spearman 相关更全面
局限性¶
- 需要访问模型 logits,不适用于 GPT-4 等闭源模型
- 方法预设 \(C_i\) 比 \(C_v\) 更可靠作为参考信号,但 \(C_i\) 本身可能经 RLHF 后校准不佳
- 偏好数据中包含错误答案选项,导致 Mistral 准确率大幅下降
- 仅在 3 个模型上验证,且 2 个模型效果不理想,泛化性存疑
- Gemma 的"成功"可能是置信度分布坍缩到高值区间的假象
相关工作¶
- 置信度校准:温度缩放(Guo et al.)、自一致性方法(Wang et al.)、CQO 对齐(Tao et al.)
- 表达置信度:多次采样取均值(Tian et al.)、多温度多 prompt 策略(Xiong et al.)
- 置信度-概率对齐:Kumar et al. 首次定义 Confidence-Probability Alignment
- DPO:Rafailov et al., 直接偏好优化替代 RLHF
评分¶
| 维度 | 分数 |
|---|---|
| 创新性 | 7/10 |
| 有效性 | 5/10 |
| 实验充分度 | 6/10 |
| 写作质量 | 7/10 |
| 总分 | 6/10 |