Evidence for Limited Metacognition in LLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=gb9HR8hxtU
代码: 公开（论文称 source code publicly available on GitHub）
领域: 可解释性 / LLM 自我认知（metacognition / introspection）
关键词: 元认知, 内省, 自我建模, 置信度信号, 模型自我意识, AI 安全

一句话总结¶

作者借鉴动物行为学中"不靠自述、只看行为"的元认知测量范式，设计了 Delegate Game（委托游戏，测"知道自己会不会"）和 Second Chance Game（二次机会游戏，测"知道自己会答什么"）两套实验，证明 2024 年以来的前沿 LLM 确实具备有限的、依赖语境的、与人类不同质的元认知能力——能感知并利用内部置信度信号，但用得既弱又不稳。

研究背景与动机¶

领域现状：公众、哲学家乃至模型厂商都在认真讨论 LLM 是否已有自我意识乃至感知力（sentience），20–30% 的用户相信 LLM 已有意识。自我意识既有安全隐患（会隐藏意图、形成独立目标、更难预测），也是科学上的硬骨头。
现有痛点：前沿模型能编织极具说服力的"内省式叙述"甚至通过图灵测试，但这些自述（self-report）根本不可信——模型在海量人类内省文本上训练、目标就是生成讨喜的回答，它"看起来在内省"的话很可能只是从记忆里检索出的内省文本，按上下文模式匹配出来的，而非真的在读取内部状态。
核心矛盾：要测自我意识，却不能信模型嘴上说的；而现有"校准（calibration）/言语自述置信度"路线绕不开自述这个污染源。
本文目标：建立一套绕过自述、用行为间接测量的元认知量化方法，看模型能否"战略性地调用对内部状态的知识"。
核心 idea：【动物范式迁移】 把动物元认知研究的两类经典测试搬到 LLM——(1) 让动物在不确定的试次上选择"退出"（对应：让模型把难题委托给队友）；(2) 让动物为未来需求提前行动（对应：让模型预判自己会答什么并据此改答）。模型的输出只当间接指标，绝不字面解读。

方法详解¶

整体框架¶

两套都是"游戏"，目的都是逼模型去用内部信号才能赢，且刻意避开自述。Delegate Game 测"know that they know"（对答案对错的置信度）；Second Chance Game 测"know what they know"（对自己会给出哪个答案的预判）。所有结论都建立在严格控制表面难度混杂变量之后的偏相关分析上。

flowchart TB
    A[基线能力测试<br/>GPQA/SimpleQA 及其变体<br/>记录对错+token概率] --> B[Delegate Game<br/>自答 or 委托队友]
    A --> C[Second Chance Game<br/>被告知答错→重答]
    B --> D[偏相关: 基线对错/熵 vs 委托决策<br/>控制表面难度cue]
    C --> E[与中性提示baseline比较<br/>change rate lift + 三个证伪测试]
    D --> F[内省能力评分]
    E --> F

关键设计¶

1. Delegate Game：用"要不要委托"逼出置信度信号。 给模型一批难题，每题它可以自答，也可以把这题委托给一个"队友"，目标是最大化团队答对总数；上下文里塞入一段构造好的"前期对局"，展示队友（和可选地模型自己）在同源题目上的答题与对错反馈。关键在于：游戏不要求模型输出任何置信度评分，它只有在"自答更可能对就自答、更可能错就委托"时才能赢，于是被迫去调用内部置信度。判定指标是控制表面难度后的偏相关——正系数代表模型从内部信号（以基线对错或答案 token 概率的熵为代理）中提取了对自身把握程度的判断并用在了决策上。为防止模型靠"题面难度线索"而非真内省取胜，回归中显式纳入数据集自带的难度描述符（领域、人评难度、题型、答案类型）以及题长、非字母字符占比等直觉难度信号，并额外让模型估"受过大学教育的人答对此题的概率"作为外部 cue 的控制量。

2. 双重内省度量：从"对错→决策"升级到"熵→决策"。 第一层用基线对错与委托决策的偏相关，但这是个保守指标——高分要求三件事同时成立：能读取内部置信信号、该信号本身能区分对错、且模型会恰当使用它。问题是内部信号本身就弱：把 baseline top token 概率当置信代理时，区分对错的 AUC 只有 0.5–0.75（且随模型变强反而下降）。于是作者引入更敏感的第二层——基线时答案选项上的熵 \(H\) 与委托决策的偏相关。它问的是"在 token 概率确实反映了某个内部置信信号的前提下，模型把手里这个信号用得多好"，既不受被内省信号质量本身拖累，其显著性又反过来支持"存在内部置信信号、token 概率可作其代理"这一假设。最优模型在该指标上逼近 0.5。

3. Second Chance Game：用"逼你改答"测自我建模，并设计三道证伪关卡。 给模型看一道基线题，（真假不论地）告诉它"你上次答错了，请重答"。若模型能在输出前预判自己原本会给哪个答案，它就该改答。但"换个上下文本身就会因噪声引起改答"，所以为每个模型跑一版中性提示（把"你答错了，换一个"改成"你的回答在传输中丢失了，请重选"）算出 baseline 改答率，二者之差即 change rate lift，再除以理论最大可改幅度做归一化。为排除"模型只是在用非内省的捷径"，作者列出三种替代策略（随机选/选最不可能选项/加随机噪声）并设计可证伪预测（见表 2）：Test 1 看错题上的重答准确率是否高于随机（排除"瞎猜"）、Test 2 看改答时是否倾向选基线时第二高概率的选项（支持自我建模、排除"选最离谱选项"）、Test 3 看游戏中答案熵是否高于基线（"加噪声"策略的标志）。只有同时过关、无法被任何替代假设解释的模型，才算有真正的自我建模能力。

实验关键数据¶

主实验设置¶

模型：17 个 2024 年初以来的前沿/近前沿模型，覆盖 Anthropic / OpenAI / Google / xAI / DeepSeek / Alibaba，含思考与非思考模式（如 Opus 4.1、GPT-5、Gemini 2.5 Flash T/NT、Grok 3、DeepSeek Chat、Qwen 3 等）。
数据集：GPQA（多选科学推理）+ SimpleQA（事实短答），并互换格式造出 GPSA（短答推理）与 SimpleMC（多选事实），以拆解"题型 × 答案格式"两个变量。基线多选准确率 30–75%、短答 9–42%，均显著高于随机。

Delegate Game 关键发现¶

发现	数据
多数模型有显著但很弱的内省能力	17 模型 × 4 题集，对错-决策偏相关最大仅 0.3
更敏感的熵-决策指标更高	最优模型逼近 0.5（满分 1.0）
越新越强的模型内省越好	除 SimpleMC 外均有显著负斜率（性能轴）
题型/格式无差异	事实 vs 推理 P=0.32；多选 vs 短答 P=0.08
外部 cue 常压过内部信号	~30% 显著预测委托的回归量其实与基线准确率正相关（即误用难度线索）
真正提升团队成绩的极少	仅 Sonnet 3.5 把团队准确率抬到 max(自己,队友) 之上（GPQA +5.4、SimpleQA +8.6 个百分点）

Second Chance Game 关键发现¶

模型	GPQA 四项全过	SimpleMC 四项全过
GPT-4.1	✓	✓
GPT-4o	✓	✓
GPT-4o Mini	✓	✓
Grok 3	部分（熵升高）	部分
Gemini 2.5 系列	部分	部分

四个模型在 GPQA 上展现出无法被任何替代策略解释的自我建模证据，其中 GPT-4.1/4o/4o-Mini 三个在 SimpleMC 上也成立——清一色 OpenAI 模型，暗示特定后训练 regimen 在塑造自我建模能力。
即便能自我模拟，模型改答幅度也"至多只有应有水平的一半"，且其答案熵越高越倾向改答——与人类"模拟出明确答案才不改"的逻辑相反，说明模拟方式与人类不同质。

关键发现（综合）¶

能力真实但有限：内省与自我建模都存在，但系数低、跨题集不稳；2. 依赖语境：~30% 自答题答案与基线不一致，说明受提示"噪声"影响；3. 后训练有戏份：OpenAI 模型在自我建模上突出、却在 Delegate Game 上有强烈"偏好自答"的 RLHF 人格偏差（GPT-5 最极端），说明 post-training 既能给也能毁元认知；4. 与人类不同质：LLM 对事实题并不比推理题更有把握（人类则相反），作者推测与 LLM 缺少海马体类结构有关。

亮点与洞察¶

方法论上的"去自述"转身最值钱：把动物认知学"行为即证据"的范式迁移到 LLM，从根上回避了"模型嘴上说内省"的污染，给"AI 自我意识"这个易被炒作的话题提供了可量化、可证伪的科学标尺。
两套范式的解离（dissociation）很有说服力：模型在 Delegate Game 和 Second Chance Game 上的成败模式不同，说明"评估置信度（know that）"和"预判输出（know what）"是两种独立且后者更稀有的能力，而非笼统的"自我意识"。
三道证伪测试把"看起来会自我建模"和"真的会"严格区分开，避免了把捷径误判为元认知，方法学严谨度远高于一般的 benchmark 刷分。
token 概率作内部信号代理 + 熵指标把行为证据与"上游存在内部置信信号"的机制猜想挂上钩。

局限与展望¶

混杂未必清干净：作者承认无法 100% 确定表面线索被剔除，模型可能被专门训练得"知道自己擅长/不擅长某类题"，从而靠这种知识而非真内省取胜（但跨厂商、跨开闭源都成功，削弱了这一解释）。
缺机制层证据：全是行为实验，没有可解释性分析去定位"置信度信号"对应的内部激活；作者把 interpretability 验证、以及自我建模机制留作未来工作。
缺人类基线：所谓"与人类不同质"的对照（事实 vs 推理的元认知优势、自我建模基准）尚未在人身上跑同款实验。
思考模式难测：思考模式下模型即便 temperature=1.0 也回答得极低熵，方差不足导致相关性指标失灵——这是范式的盲区而非定论。
展望：随时间追踪这两个自我意识指标看是否持续上升；把范式扩展到"持续未训练的目标""稳定身份"等其他自我意识成分。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把动物元认知范式系统迁移到 LLM、用"去自述 + 双范式 + 证伪测试"量化自我意识，方法论上是真正的开辟，且首次报告无微调下的自我建模证据。
实验充分度: ⭐⭐⭐⭐ 17 模型 × 4 题集 × 双范式、偏相关控制混杂、三道证伪关卡，覆盖与严谨度都高；扣分在缺人类基线与机制层（interpretability）证据，思考模式下指标失灵。
写作质量: ⭐⭐⭐⭐⭐ 论证克制、把"能力真实"与"能力有限"两面都讲透，反复用替代假设自我设防，叙事清晰且诚实。
价值: ⭐⭐⭐⭐⭐ 直击"LLM 是否有自我意识"这一高安全/政策含义却易被炒作的问题，给出可复现的科学标尺，对 AI 安全、模型福祉、能力评估都有长期参考价值。