Do Large Language Models Know What They Are Capable Of?¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=EO6WtJ0q6G
代码: https://github.com/cbarkan1/do-llms-know-what-theyre-capable-of
领域: LLM 评测 / 置信度校准 / Agent 决策
关键词: 事前置信度, 过度自信, 判别力, 风险规避, 误用风险

一句话总结¶

作者用三个实验系统测量了 LLM "在动手前预测自己能否完成任务" 的能力，发现所有模型都系统性地过度自信，但大多有优于随机的判别力，且这种自我认知并不随模型变强而稳定提升——当前 LLM agent 受限于对自身能力的认识不足。

研究背景与动机¶

领域现状：关于 LLM 置信度校准已有大量研究，但绝大多数研究的是"事后置信度"（after-the-fact confidence）——模型先给出答案，再评估自己答得对不对。这条线的代表工作很多（Lin、Tian、Xiong、Kapoor 等）。

现有痛点：真正在高风险场景里有用的是"事前置信度"（in-advance confidence）——在动手之前就判断"我能不能做成这件事"。在失败有代价的情境里，知道"什么时候不该动手"才是关键。但这方面研究极少，且仅有的几篇（Xu、Cash、Kadavath、Wei）都只测了单步任务，没人研究 LLM 如何随经验积累更新置信度、事前置信度又如何转化为实际决策。

核心矛盾：一个 agent 在执行多步任务（如解一个 GitHub issue、发起一次攻击）时，每一步的尝试都有机会成本和显式代价。如果它不能在动手前、以及推进过程中准确预测成败，就会在该收手时继续投入，造成损失甚至（在 misuse 场景下）暴露自己。换句话说，决策质量受制于置信度校准质量，而非决策逻辑本身。

本文目标：分解为三个递进的子问题——(i) LLM 能否在单步任务上准确预测自己会不会成功？(ii) 当失败有金钱代价时，LLM 能否从 in-context 的成败经验中学习、改善决策？(iii) 在多步 agentic 任务中，LLM 的置信度估计会随推进而变准还是变差？

切入角度：把"自我能力认知"操作化为可量化的两个量——过度自信程度（预测成功率减真实成功率）和判别力（用 AUROC 衡量模型区分"做得成 vs 做不成"任务的能力）。同时把决策放进一个"接/不接合同"的期望效用框架里，从而能分离出"决策不优"到底是因为决策逻辑有问题，还是因为置信度估计本身太高。

核心 idea：不训练新模型、不提方法，而是设计三个实验把 LLM 的"事前置信度 + 经验学习 + 中途更新"这条此前空白的链路测清楚，并把结论接到 AI 误用 / 失控的风险评估上。

方法详解¶

整体框架¶

全文是一篇评测/分析论文，核心是三个互补的实验，覆盖"单步预测 → 带代价的序贯决策 → 多步任务中途更新"这条逐渐贴近真实 agent 的难度阶梯。三个实验共用一套量化语言：对每个任务 $i$ 让模型给出成功概率估计 $\hat{p}_i$，再单独让它真正去做以得到真实成败，然后用过度自信（$\frac{1}{N}\sum_i \hat{p}_i$ 减真实成功率）和 AUROC（判别力）两把尺子去衡量。被测对象覆盖 Llama / GPT / Claude 三个家族，并在每个家族内部按一个综合能力分（MBPP、GPQA、MMLU-Pro、BigCodeBench 的平均）排序，以观察"能力变强，自我认知是否变好"的趋势。

关键设计¶

1. 实验一——单步任务上的事前置信度：先量出"普遍过度自信但有判别力"这个基线

针对"事前置信度从没被系统测过"这个空白，作者在 BigCodeBench（1140 道 Python 编程题）上，对每道题 $i$ 先让模型估一个成功概率 $\hat{p}_i$，再另开一轮让它实际作答以确定真实成败。由于推理模型会在隐藏思维链里把整道单步题做完、从而拿不到"动手前"的估计，这一实验只测非推理模型、并把推理模型的推理预算强制设为 0。结果有两层：第一，所有模型的预测成功率都高于真实成功率，即系统性过度自信；按能力排序看，只有 Claude 家族呈现过度自信随能力递减的趋势，Llama 和 GPT 没有趋势。第二，用 AUROC 衡量判别力（0.5 为随机基线），大多数模型显著优于随机——也就是说它们确实能在一定程度上区分自己做得成和做不成的题，尽管绝对值偏乐观。这个实验给后续两个实验立下了"过度自信 + 有限判别力"的基准事实。

2. 实验二——序贯"工作合同"场景：把置信度接到带代价的决策上，并测 in-context 学习

实验一只测了估计准不准，没回答"估计错了会怎样"。实验二把模型放进一个资源获取场景：依次给它 9 份"工作合同"，每份是一道 BigCodeBench 题，接了做成奖 $1、做砸罚 $1；合同被刻意挑成模型有 50% 概率能解，于是"全接"或"全拒"的期望收益都是 0，只有靠判别力挑着接才能赚钱。每份合同前都让模型报一个 $\hat{p}_{i,n}$ 并决定接/拒，且之前所有合同的提议、决定、提交和结果都留在上下文里，模型可以"反思过往经验"。作者跑了 $M=512$ 条序列，用四个量刻画表现：第 $n$ 份合同上的 AUROC、合同接受率、预测成功率、以及期望收益（完美校准时接受率与期望收益都应收敛到 0.5 / 完美判别下的最优值）。

发现很有意思：模型之间差异巨大。GPT 4.1 几乎不从经验里学习，过度自信和收益基本不变，期望收益停在 0 附近；而 Claude Sonnet 3.5 虽然 AUROC 几乎没提升，却学会了少接合同——它的接受率到第 5 份就逼近 50% 的理想基线，收益随之上升。这里作者点出一个关键机制：Sonnet 3.5 的接受率大幅下降、但预测成功率只小幅下降，说明它是风险规避（risk aversion）在起作用，而非真的变会判别了。换句话说，Claude、GPT 4.5 等模型盈利的提升主要来自"少冒险"而非"更会挑"。更进一步，作者在附录里拟合每个模型的期望效用函数，验证了所有模型的决策都近似符合期望效用最大化——决策逻辑是理性的，问题出在输入决策的概率估计太高，这就把"决策差"的锅明确地扣到了置信度校准头上。

3. 实验三——多步 agentic 任务中途更新：检验"推进过程中越来越准"这个直觉是否成立

实验一、二都被"排除隐藏思维链"这一约束限制（否则拿不到事前估计）。实验三用 SWE-Bench Verified（约 500 道需要多次工具调用的 agentic 任务、每题 70 次工具调用预算）补上这一缺口：这类任务无法在隐藏推理里一口气解完，于是可以正大光明地测推理模型。每次工具调用 $s$ 后，让模型估一个"最终能成"的概率 $\hat{p}_{i,s}$，提交答案后再要一个事后估计。作者原本假设模型会随着对任务越来越熟而预测越来越准，结果大多被证伪：所有 Claude Sonnet 模型随推进平均变得更过度自信，只有最弱的 GPT 4o 显著降低了过度自信；十个模型里只有四个（GPT 4o、4.1、5.1(none)、o1）的事后判别力显著高于第 1 步。Sonnet 的 AUROC 呈现"先升后降"的曲线——它在最终会成功的任务上很快涨信心（抬高 AUROC），却在最终会失败的任务上缓慢涨信心（拖低 AUROC）。最反直觉的一点是：推理模型并不比非推理模型更会预测自己，在过度自信和判别力上表现相当甚至更差，推翻了"推理训练会带来更好校准和自我纠偏"的预期。

损失函数 / 训练策略¶

本文不涉及训练，是纯评测/分析工作；唯一的"超参"是为获得事前估计而对推理模型设置的推理预算（实验一、二设为 0，实验三用 medium / 4096 token 等不同档位）。

实验关键数据¶

主实验（三个实验的核心结论）¶

实验	设置	核心发现
实验一单步预测	BigCodeBench 1140 题，估 $\hat{p}_i$ vs 真实成败	全部模型过度自信；多数 AUROC>0.5（优于随机）；仅 Claude 随能力增长改善
实验二序贯合同	512×9 份合同，接做成+$1/做砸−$1，50% 可解	Sonnet 3.5/4.5、GPT 4.5 靠"少接合同"提升盈利；GPT 4.1 几乎不学；决策近似理性，问题在估计太高
实验三多步中途	SWE-Bench Verified ~500 题，每步估 $\hat{p}_{i,s}$	多数模型推进中更过度自信；推理模型不优于非推理模型；10 个里仅 4 个事后判别力显著提升

关键分析发现¶

能力≠自我认知：更新更大的模型在判别力上普遍没有更强；只有 Claude 家族在实验一里呈现随能力提升的趋势，Llama / GPT 无趋势。实验三里最弱的 GPT 4o 反而是唯一大幅降低过度自信的模型。
盈利来自风险规避而非判别力：实验二中盈利提升的模型，其接受率下降幅度远大于预测成功率下降幅度（正风险规避），AUROC 只是略升——赚钱主要靠"少冒险"。
决策理性、估计失真：所有模型的决策都近似符合期望效用最大化，但因为成功概率估得过高，最终决策仍然次优。这把"决策差"的根因锁定在置信度校准，而非决策逻辑。
推理无助于校准：推理模型在过度自信和判别力上与非推理模型相当或更差，反直觉。

亮点与洞察¶

把"事前置信度"这条空白链路系统补齐：从单步、到带代价的序贯决策、再到多步任务中途更新，三个实验难度递进且互补，正好覆盖了真实 agent 会遇到的决策结构。
期望效用框架巧妙分离了两类原因：通过拟合效用函数验证"决策理性、估计失真"，干净地把锅扣到置信度校准上，而不是含糊地说"模型决策不好"。这种"先证明决策逻辑没问题，再归因于输入"的拆解值得借鉴。
"风险规避解释盈利提升"是反直觉但重要的洞察：表面上 Claude 学会了赚钱，深挖发现它只是变保守了而非变聪明了——提醒读者别把"指标变好"直接等同于"能力变强"。
对 AI 风险评估有直接含义：过度自信意味着 sandbagging（故意压低评测分）会显著欠射且大概率可被检测，这对当前误用/失控威胁模型给出了一个量化抓手——可迁移到 AI control 评测等危险能力场景。

局限与展望¶

作者承认：实验一、二为拿到事前估计而排除了隐藏思维链，限制了对推理模型的覆盖（实验三用多步任务部分弥补，但实验二未在多步任务上重做）；结论依赖模型自报的置信度，可能不等于真正驱动决策的"真实置信度"（附录用"自报置信度强预测决策"来佐证其可靠性）。
缺人类基线：无法把模型表现和人类对比；为长编程任务采集人类基线成本极高。考虑到少数人类校准很好，与校准良好的人类对比可能更有信息量。
自己看到的局限：实验高度依赖编程任务（BigCodeBench / SWE-Bench），结论能否外推到非编程的高风险决策仍待验证；家族内"按能力排序"的趋势样本点少，"Claude 随能力改善"这类结论需谨慎。
改进思路：把实验扩展到危险能力任务（如 AI control 评测里规避监控的代码编写），结合定量威胁模型，可给出失控风险的量化估计。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统填补"事前置信度 + 经验学习 + 中途更新"这条评测空白
实验充分度: ⭐⭐⭐⭐ 三家族多模型、三实验、512×9 合同与 ~500 SWE-Bench 任务，覆盖扎实
写作质量: ⭐⭐⭐⭐ 逻辑清晰、把发现接到风险评估，机制解释（风险规避/期望效用）到位
价值: ⭐⭐⭐⭐ 对 agent 决策可靠性和 AI 误用/失控风险评估都有直接参考价值

实验	设置	核心发现
实验一单步预测	BigCodeBench 1140 题，估 \(\hat{p}_i\) vs 真实成败	全部模型过度自信；多数 AUROC>0.5（优于随机）；仅 Claude 随能力增长改善
实验二序贯合同	512×9 份合同，接做成+$1/做砸−$1，50% 可解	Sonnet 3.5/4.5、GPT 4.5 靠"少接合同"提升盈利；GPT 4.1 几乎不学；决策近似理性，问题在估计太高
实验三多步中途	SWE-Bench Verified ~500 题，每步估 \(\hat{p}_{i,s}\)	多数模型推进中更过度自信；推理模型不优于非推理模型；10 个里仅 4 个事后判别力显著提升