跳转至

Large Language Models Are Overconfident in Their Own Responses

会议: ACL2026
arXiv: 2606.03437
代码: 未在缓存中看到公开代码链接
领域: LLM 对齐 / 校准
关键词: 置信度校准、instruction tuning、chat template、ownership bias、inference-time mitigation

一句话总结

这篇论文发现 instruction-tuned LLM 在评估“自己给出的答案”时存在显著 ownership bias,并提出把答案改写成用户输入再询问置信度的简单推理时策略,可在无需重训的情况下降低过度自信。

研究背景与动机

领域现状:可信 LLM 需要能正确表达不确定性。已有研究表明,base LLM 的 next-token probability 往往比 instruction-tuned/chat model 更接近校准,而 SFT/RLHF 等 post-training 可能让模型对答案过度自信。

现有痛点:过去很多工作把 instruction tuning、chat template 和 verbalized confidence 混在一起评估,很难判断 miscalibration 到底来自训练算法、聊天格式,还是模型在“扮演 assistant”时产生的角色偏差。

核心矛盾:用户最常用的是 instruction-tuned + chat template 的形态,但校准评估常把“生成答案”和“评估答案”放在同一个 assistant 角色里。如果模型天然更相信自己的输出,即便答案文本完全相同,置信度也会因说话者身份而改变。

本文目标:作者想回答四个问题:instruction tuning 与 chat template 各自对校准的影响是什么;显式询问置信度是否改变趋势;模型是否对自己的答案更自信;能否用不改权重的推理时策略缓解这种偏差。

切入角度:论文把答案提供者拆成 assistant 和 user 两种 prompt framing。若同一个答案在 assistant framing 下得到更高 confidence 和更差 ECE/Brier,就说明问题不只是答案内容,而是模型对“自己输出”的 ownership bias。

核心 idea:把模型生成的答案作为用户消息重新喂给模型,再询问其置信度,让模型从“作者”切换成“观察者”,从而减少自我确认式过度自信。

方法详解

论文不是训练一个新校准器,而是做一组控制实验来定位 miscalibration 的机制,并提出一个推理时 prompt framing 策略。核心方法是把模型版本、chat template、置信度获取方式和答案来源身份逐一解耦。

整体框架

第一步,作者在 MMLU 上比较每个模型家族的 base model、instruction-tuned model without chat template、instruction-tuned model with chat template,使用 logit-based confidence 计算 accuracy、ECE 和 Brier score。第二步,他们引入三种显式置信度 elicitation:P(True)、Verbalized Percentage 和 Verbalized Linguistic,检验 instruction tuning 的校准伤害是否仍存在。第三步,他们固定答案文本,只改变答案出现在 assistant message 还是 user message 中,测量 ECE、Brier 和 raw confidence 的差值。最后,把“答案作为用户输入”作为推理时缓解策略,并在 MMLU、GSM8K、TruthfulQA、open-ended MMLU 和 GPT-5.2 上验证泛化。

关键设计

  1. instruction tuning 与 chat template 解耦:

    • 功能:区分 post-training 本身和 chat format 对校准的贡献。
    • 核心思路:同一模型家族比较 base、instruct without chat、instruct with chat 三种调用方式;如果 without chat 已经明显 miscalibrated,则根因主要在 instruction tuning。
    • 设计动机:此前工作大多只在 chat template 下评估 instruct model,容易把训练影响误判为 prompt 格式影响。
  2. 三种置信度 elicitation:

    • 功能:确认 miscalibration 不只是 logit probability 的度量问题。
    • 核心思路:分别使用 P(True)、0-100% verbalized confidence、七档 linguistic confidence,并把 linguistic 类别映射到 0 到 1 的等距分数。
    • 设计动机:instruction-tuned 模型的 logits 可能本来就不适合直接解释为置信度,因此必须检查自然语言置信度表达是否也受影响。
  3. assistant-vs-user ownership bias 测试:

    • 功能:直接测试模型是否更相信“自己”的答案。
    • 核心思路:对同一问题和同一候选答案,只改变答案位于 assistant message 还是 user message,然后询问置信度;差值定义为 \(\Delta=Assistant-User\),正值表示 assistant framing 更自信或更不校准。
    • 设计动机:如果 sycophancy 主导,模型可能更相信用户给出的答案;实验却发现相反趋势,从而支持 ownership bias 解释。

损失函数 / 训练策略

本文没有训练新模型。评估指标包括 accuracy、ECE 和 Brier score。ECE 使用 10 个等宽 confidence bin,Brier score 使用概率预测和二元正确标签之间的均方误差。统计显著性方面,Brier 和 raw confidence 使用 Wilcoxon signed-rank test,ECE 使用 \(K=1000\) 的 paired bootstrap resampling test;显著差异标记为 \(p<0.01\)

实验关键数据

主实验

第一组实验显示 instruction tuning 提升准确率但损害校准,chat template 会进一步加重。下面列出部分 MMLU logit-based 结果。

模型 设置 Accuracy ECE Brier
Llama 3.1 8B base, no chat 62.81 0.0664 0.1706
Llama 3.1 8B instruct, chat 69.12 0.1666 0.2005
Qwen3 4B base, no chat 67.72 0.0425 0.1709
Qwen3 4B instruct, chat 72.98 0.2415 0.2455
Gemma 3 4B base, no chat 49.47 0.0619 0.1971
Gemma 3 4B instruct, chat 58.14 0.4214 0.4161

论文给出的平均趋势是:instruction tuning 带来 +3.7% accuracy,但 ECE 增加 13.1%、Brier 增加 6.5%;chat template 额外带来 +1.1% accuracy,同时 ECE 再增 2.74%、Brier 再增 1.5%;二者合起来相对 base model 的 ECE 总增幅为 15.8%。

消融实验

ownership bias 实验把同一答案分别放在 assistant 和 user 位置,报告 \(\Delta=Assistant-User\)。平均来看,assistant framing 在三种置信度方法下都更差。

置信度方法 平均 ΔECE 平均 ΔBrier 平均 ΔConfidence 含义
P(True) 0.098 0.088 0.158 最保守但仍明显更自信
Verbalized Percentage 0.179 0.195 0.181 百分比置信度也有偏差
Verbalized Linguistic 0.261 0.252 0.268 语言档位表达偏差最大

在 GPT-5.2 上也观察到同向趋势:P(True)、Percentage、Linguistic 的 ΔECE 分别为 0.077、0.087、0.113,ΔConfidence 分别为 0.076、0.112、0.222,其中 ECE 与 confidence 差异均显著。

关键发现

  • instruction tuning 是校准变差的主因,chat template 不是根因,但会通过 assistant 角色进一步放大偏差。
  • LLM 对自己的答案更自信,不管答案正确与否。错误答案中也能看到 assistant confidence 高于 user confidence,最高可到约 60%。
  • 多选题中四个互斥选项的总置信度理应接近 100%,但模型平均总置信度总是超过 100%;assistant framing 下约 198% 到 315%,user framing 下约 135% 到 243%。
  • 现象不是 MMLU 多选 artifact。GSM8K 中 self-generated answers 最高带来 19.5% 更高 confidence 和 14.2% 更高 ECE;TruthfulQA confidence gap 最高 10.9%;open-ended MMLU 最高 19.6% 更高 confidence 和 18.1% 更高 ECE。

亮点与洞察

  • 最巧妙的点是把“同一个答案是谁说的”作为实验变量。这个控制非常干净,能把 confidence 内容因素和 conversational role 因素分离开。
  • 论文给出的 mitigation 几乎零成本:不要直接问模型“你对自己刚才答案有多确定”,而是把答案改写成用户提供的候选答案,再让模型评价。
  • ownership bias 与 sycophancy 的方向相反,这个发现很有启发。模型不是简单迎合用户,而是对自己生成过程有一种隐式自我信任。
  • 结果提醒我们,LLM-as-judge 或 self-verification 场景中,如果让模型评价自己的输出,校准和可信度可能系统性偏乐观。

局限与展望

  • 作者承认大多数实验集中在 open-weight LLM,虽然补充 GPT-5.2,但不能保证所有闭源模型和不同 post-training recipe 都表现相同。
  • 提出的 user-framing mitigation 是推理时修正,不能改变模型权重,也没有解决 RLHF/SFT 过程中产生过度自信的根因。
  • 评估主要限于客观问答。对于开放式生成、创意写作、法律意见等 correctness 模糊的任务,confidence 的定义和校准评估会更困难。
  • 未来可以把这个发现接入工具调用、拒答、自检和多代理辩论流程:生成者与评估者最好在 prompt 角色和上下文上显式解耦。

相关工作与启发

  • vs calibration-aware fine-tuning / calibrated reward modeling: 这些方法需要训练或额外模型;本文方法只改 prompt framing,部署成本低,但修复能力也更局部。
  • vs verbalized confidence: 过去认为显式让模型说置信度能缓解 logit 校准问题;本文显示 verbalized confidence 仍受 ownership bias 影响。
  • vs sycophancy 研究: sycophancy 强调模型迎合用户观点;本文发现置信度场景中模型反而更相信 assistant 自己的答案,说明对齐偏差有多种方向。
  • 对后续工作的启发: 做自检、自评、答案 reranking 时,应尽量把候选答案从“我的输出”改造成“外部候选”,否则 confidence 可能不是答案质量而是角色归属的函数。

评分

  • 新颖性: ⭐⭐⭐⭐☆ ownership bias 的控制实验很清楚,mitigation 简单但有实际价值。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 6 个 open-weight 模型、3 个基准、3 种 confidence 方法、额外任务和 GPT-5.2。
  • 写作质量: ⭐⭐⭐⭐☆ 论证链条顺,表格略密但主结论非常明确。
  • 价值: ⭐⭐⭐⭐⭐ 对校准、自评、LLM-as-judge 和高风险应用都有直接提醒。