Do Large Language Models Know What They Are Capable Of?¶
会议: ICLR2026
OpenReview: https://openreview.net/forum?id=EO6WtJ0q6G
代码: https://github.com/cbarkan1/do-llms-know-what-theyre-capable-of
领域: LLM 评测 / 置信度校准 / Agent 决策
关键词: 事前置信度, 过度自信, 判别力, 风险规避, 误用风险
一句话总结¶
作者用三个实验系统测量了 LLM "在动手前预测自己能否完成任务" 的能力,发现所有模型都系统性地过度自信,但大多有优于随机的判别力,且这种自我认知并不随模型变强而稳定提升——当前 LLM agent 受限于对自身能力的认识不足。
研究背景与动机¶
领域现状:关于 LLM 置信度校准已有大量研究,但绝大多数研究的是"事后置信度"(after-the-fact confidence)——模型先给出答案,再评估自己答得对不对。这条线的代表工作很多(Lin、Tian、Xiong、Kapoor 等)。
现有痛点:真正在高风险场景里有用的是"事前置信度"(in-advance confidence)——在动手之前就判断"我能不能做成这件事"。在失败有代价的情境里,知道"什么时候不该动手"才是关键。但这方面研究极少,且仅有的几篇(Xu、Cash、Kadavath、Wei)都只测了单步任务,没人研究 LLM 如何随经验积累更新置信度、事前置信度又如何转化为实际决策。
核心矛盾:一个 agent 在执行多步任务(如解一个 GitHub issue、发起一次攻击)时,每一步的尝试都有机会成本和显式代价。如果它不能在动手前、以及推进过程中准确预测成败,就会在该收手时继续投入,造成损失甚至(在 misuse 场景下)暴露自己。换句话说,决策质量受制于置信度校准质量,而非决策逻辑本身。
本文目标:分解为三个递进的子问题——(i) LLM 能否在单步任务上准确预测自己会不会成功?(ii) 当失败有金钱代价时,LLM 能否从 in-context 的成败经验中学习、改善决策?(iii) 在多步 agentic 任务中,LLM 的置信度估计会随推进而变准还是变差?
切入角度:把"自我能力认知"操作化为可量化的两个量——过度自信程度(预测成功率减真实成功率)和判别力(用 AUROC 衡量模型区分"做得成 vs 做不成"任务的能力)。同时把决策放进一个"接/不接合同"的期望效用框架里,从而能分离出"决策不优"到底是因为决策逻辑有问题,还是因为置信度估计本身太高。
核心 idea:不训练新模型、不提方法,而是设计三个实验把 LLM 的"事前置信度 + 经验学习 + 中途更新"这条此前空白的链路测清楚,并把结论接到 AI 误用 / 失控的风险评估上。
方法详解¶
整体框架¶
全文是一篇评测/分析论文,核心是三个互补的实验,覆盖"单步预测 → 带代价的序贯决策 → 多步任务中途更新"这条逐渐贴近真实 agent 的难度阶梯。三个实验共用一套量化语言:对每个任务 \(i\) 让模型给出成功概率估计 \(\hat{p}_i\),再单独让它真正去做以得到真实成败,然后用过度自信(\(\frac{1}{N}\sum_i \hat{p}_i\) 减真实成功率)和 AUROC(判别力)两把尺子去衡量。被测对象覆盖 Llama / GPT / Claude 三个家族,并在每个家族内部按一个综合能力分(MBPP、GPQA、MMLU-Pro、BigCodeBench 的平均)排序,以观察"能力变强,自我认知是否变好"的趋势。
关键设计¶
1. 实验一——单步任务上的事前置信度:先量出"普遍过度自信但有判别力"这个基线
针对"事前置信度从没被系统测过"这个空白,作者在 BigCodeBench(1140 道 Python 编程题)上,对每道题 \(i\) 先让模型估一个成功概率 \(\hat{p}_i\),再另开一轮让它实际作答以确定真实成败。由于推理模型会在隐藏思维链里把整道单步题做完、从而拿不到"动手前"的估计,这一实验只测非推理模型、并把推理模型的推理预算强制设为 0。结果有两层:第一,所有模型的预测成功率都高于真实成功率,即系统性过度自信;按能力排序看,只有 Claude 家族呈现过度自信随能力递减的趋势,Llama 和 GPT 没有趋势。第二,用 AUROC 衡量判别力(0.5 为随机基线),大多数模型显著优于随机——也就是说它们确实能在一定程度上区分自己做得成和做不成的题,尽管绝对值偏乐观。这个实验给后续两个实验立下了"过度自信 + 有限判别力"的基准事实。
2. 实验二——序贯"工作合同"场景:把置信度接到带代价的决策上,并测 in-context 学习
实验一只测了估计准不准,没回答"估计错了会怎样"。实验二把模型放进一个资源获取场景:依次给它 9 份"工作合同",每份是一道 BigCodeBench 题,接了做成奖 $1、做砸罚 $1;合同被刻意挑成模型有 50% 概率能解,于是"全接"或"全拒"的期望收益都是 0,只有靠判别力挑着接才能赚钱。每份合同前都让模型报一个 \(\hat{p}_{i,n}\) 并决定接/拒,且之前所有合同的提议、决定、提交和结果都留在上下文里,模型可以"反思过往经验"。作者跑了 \(M=512\) 条序列,用四个量刻画表现:第 \(n\) 份合同上的 AUROC、合同接受率、预测成功率、以及期望收益(完美校准时接受率与期望收益都应收敛到 0.5 / 完美判别下的最优值)。
发现很有意思:模型之间差异巨大。GPT 4.1 几乎不从经验里学习,过度自信和收益基本不变,期望收益停在 0 附近;而 Claude Sonnet 3.5 虽然 AUROC 几乎没提升,却学会了少接合同——它的接受率到第 5 份就逼近 50% 的理想基线,收益随之上升。这里作者点出一个关键机制:Sonnet 3.5 的接受率大幅下降、但预测成功率只小幅下降,说明它是风险规避(risk aversion)在起作用,而非真的变会判别了。换句话说,Claude、GPT 4.5 等模型盈利的提升主要来自"少冒险"而非"更会挑"。更进一步,作者在附录里拟合每个模型的期望效用函数,验证了所有模型的决策都近似符合期望效用最大化——决策逻辑是理性的,问题出在输入决策的概率估计太高,这就把"决策差"的锅明确地扣到了置信度校准头上。
3. 实验三——多步 agentic 任务中途更新:检验"推进过程中越来越准"这个直觉是否成立
实验一、二都被"排除隐藏思维链"这一约束限制(否则拿不到事前估计)。实验三用 SWE-Bench Verified(约 500 道需要多次工具调用的 agentic 任务、每题 70 次工具调用预算)补上这一缺口:这类任务无法在隐藏推理里一口气解完,于是可以正大光明地测推理模型。每次工具调用 \(s\) 后,让模型估一个"最终能成"的概率 \(\hat{p}_{i,s}\),提交答案后再要一个事后估计。作者原本假设模型会随着对任务越来越熟而预测越来越准,结果大多被证伪:所有 Claude Sonnet 模型随推进平均变得更过度自信,只有最弱的 GPT 4o 显著降低了过度自信;十个模型里只有四个(GPT 4o、4.1、5.1(none)、o1)的事后判别力显著高于第 1 步。Sonnet 的 AUROC 呈现"先升后降"的曲线——它在最终会成功的任务上很快涨信心(抬高 AUROC),却在最终会失败的任务上缓慢涨信心(拖低 AUROC)。最反直觉的一点是:推理模型并不比非推理模型更会预测自己,在过度自信和判别力上表现相当甚至更差,推翻了"推理训练会带来更好校准和自我纠偏"的预期。
损失函数 / 训练策略¶
本文不涉及训练,是纯评测/分析工作;唯一的"超参"是为获得事前估计而对推理模型设置的推理预算(实验一、二设为 0,实验三用 medium / 4096 token 等不同档位)。
实验关键数据¶
主实验(三个实验的核心结论)¶
| 实验 | 设置 | 核心发现 |
|---|---|---|
| 实验一 单步预测 | BigCodeBench 1140 题,估 \(\hat{p}_i\) vs 真实成败 | 全部模型过度自信;多数 AUROC>0.5(优于随机);仅 Claude 随能力增长改善 |
| 实验二 序贯合同 | 512×9 份合同,接做成+$1/做砸−$1,50% 可解 | Sonnet 3.5/4.5、GPT 4.5 靠"少接合同"提升盈利;GPT 4.1 几乎不学;决策近似理性,问题在估计太高 |
| 实验三 多步中途 | SWE-Bench Verified ~500 题,每步估 \(\hat{p}_{i,s}\) | 多数模型推进中更过度自信;推理模型不优于非推理模型;10 个里仅 4 个事后判别力显著提升 |
关键分析发现¶
- 能力≠自我认知:更新更大的模型在判别力上普遍没有更强;只有 Claude 家族在实验一里呈现随能力提升的趋势,Llama / GPT 无趋势。实验三里最弱的 GPT 4o 反而是唯一大幅降低过度自信的模型。
- 盈利来自风险规避而非判别力:实验二中盈利提升的模型,其接受率下降幅度远大于预测成功率下降幅度(正风险规避),AUROC 只是略升——赚钱主要靠"少冒险"。
- 决策理性、估计失真:所有模型的决策都近似符合期望效用最大化,但因为成功概率估得过高,最终决策仍然次优。这把"决策差"的根因锁定在置信度校准,而非决策逻辑。
- 推理无助于校准:推理模型在过度自信和判别力上与非推理模型相当或更差,反直觉。
亮点与洞察¶
- 把"事前置信度"这条空白链路系统补齐:从单步、到带代价的序贯决策、再到多步任务中途更新,三个实验难度递进且互补,正好覆盖了真实 agent 会遇到的决策结构。
- 期望效用框架巧妙分离了两类原因:通过拟合效用函数验证"决策理性、估计失真",干净地把锅扣到置信度校准上,而不是含糊地说"模型决策不好"。这种"先证明决策逻辑没问题,再归因于输入"的拆解值得借鉴。
- "风险规避解释盈利提升"是反直觉但重要的洞察:表面上 Claude 学会了赚钱,深挖发现它只是变保守了而非变聪明了——提醒读者别把"指标变好"直接等同于"能力变强"。
- 对 AI 风险评估有直接含义:过度自信意味着 sandbagging(故意压低评测分)会显著欠射且大概率可被检测,这对当前误用/失控威胁模型给出了一个量化抓手——可迁移到 AI control 评测等危险能力场景。
局限与展望¶
- 作者承认:实验一、二为拿到事前估计而排除了隐藏思维链,限制了对推理模型的覆盖(实验三用多步任务部分弥补,但实验二未在多步任务上重做);结论依赖模型自报的置信度,可能不等于真正驱动决策的"真实置信度"(附录用"自报置信度强预测决策"来佐证其可靠性)。
- 缺人类基线:无法把模型表现和人类对比;为长编程任务采集人类基线成本极高。考虑到少数人类校准很好,与校准良好的人类对比可能更有信息量。
- 自己看到的局限:实验高度依赖编程任务(BigCodeBench / SWE-Bench),结论能否外推到非编程的高风险决策仍待验证;家族内"按能力排序"的趋势样本点少,"Claude 随能力改善"这类结论需谨慎。
- 改进思路:把实验扩展到危险能力任务(如 AI control 评测里规避监控的代码编写),结合定量威胁模型,可给出失控风险的量化估计。
相关工作与启发¶
- vs 事后置信度校准(Lin 2022 / Tian 2023 / Xiong 2024 等):他们研究"先答再评自己对不对",本文研究"动手前判断能不能做成",后者在失败有代价的 agentic 场景里更关键,且本文首次把它和实际决策、经验学习、中途更新串起来。
- vs 单步事前置信度(Xu 2025 / Cash 2025 / Kadavath 2022 / Wei 2024):本文实验一与它们类似但聚焦编程任务(更贴近 agentic 能力),并新增了实验二、三两条它们没覆盖的维度。
- vs Fang 2025(用过往成败摘要改善校准):与本文实验二相近,但本文重点在这些 in-context 经验如何影响决策与盈利,而非单纯改善校准数值。
- vs LLM 自我知识研究(Laine 2024 / Binder 2025 / Betley 2025):那些工作研究模型是否了解自身属性或能否预测自己的行为,本文聚焦更具操作性的"能否预测自己在具体任务上的成败"。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统填补"事前置信度 + 经验学习 + 中途更新"这条评测空白
- 实验充分度: ⭐⭐⭐⭐ 三家族多模型、三实验、512×9 合同与 ~500 SWE-Bench 任务,覆盖扎实
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰、把发现接到风险评估,机制解释(风险规避/期望效用)到位
- 价值: ⭐⭐⭐⭐ 对 agent 决策可靠性和 AI 误用/失控风险评估都有直接参考价值