跳转至

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

会议: ACL 2026
arXiv: 2601.05905
代码: https://github.com/zjunlp/belief (有)
领域: LLM 推理 / 校准 / 可信性
关键词: 信念鲁棒性、邻域一致性、Self-Consistency、Bayesian 信念、Structure-Aware Training

一句话总结

本文指出 LLM 的"高 self-consistency 不等于真实信念"——在 995 道全样一致答对的题上加一点点上下文干扰,准确率从 100% 直接掉到 33.8%。作者提出 Neighbor-Consistency Belief (NCB):把目标事实和它的"概念邻居(前提/蕴含/主题)"做联合一致性估计,作为信念鲁棒性的结构化代理;并基于 Asch 从众实验与 Source Credibility 理论设计了 cognitive stress-test 协议,在 4 个 LLM 上证明高 NCB 数据明显更抗干扰;进一步提出 Structure-Aware Training (SAT):用师生 KL 蒸馏强制学生模型在不同邻域上下文下输出一致,让新学知识的鲁棒性比 Ans/Know 增强基线再提升约 30%。

研究背景与动机

领域现状:评估 LLM 是否"知道"某个事实,主流是 self-consistency(多次采样投票一致)或 token-level confidence。但 LLM 越来越多地部署在 RAG、多 agent 协作、复杂 prompt engineering 等"被外部上下文牵着走"的场景,这些场景里"知道"还不够,必须在干扰下稳得住。

现有痛点:作者用 Qwen3-30B-A3B 在 995 道 self-consistency = 1.0(30 次采样全对)的题上做 pilot:仅插入一次 peer 反对意见后,准确率从 100% 砸到 33.8%。这说明现有 confidence 指标完全无法区分"靠记忆碎片猜对"与"基于结构化信念回答"。

核心矛盾:信念应当是一种结构化的潜在状态(认知科学里人脑就是用语义网络组织知识,相关事实互相约束才抗干扰),而 self-consistency 这种 point-wise 指标只看了"同一个问题的多次输出一致",根本看不到事实之间的网络结构。

本文目标:(a) 给出一个能区分"靠结构信念回答"与"靠孤立记忆回答"的可计算指标;(b) 设计严谨的认知 stress-test 验证该指标确实预测鲁棒性;(c) 把"结构不变性"反向用作训练目标,让 LLM 学到的新知识更抗干扰。

切入角度:把信念建模为二值潜变量 \(\theta \in \{\mathcal{S}_\text{struct}, \mathcal{S}_\text{unstruct}\}\),用 Bayesian 后验估计——如果模型在邻居事实集合上也都答对,那它处于结构化信念状态的后验显著高于非结构化;把这一后验近似为 NCB 分数。

核心 idea:用"邻居一致性"替代"自我一致性"作为信念强度代理,并把这种结构不变性显式写进训练损失。

方法详解

整体框架

论文分三个阶段:

  1. 构造 Neighbor-Enriched Dataset:从 SimpleQA / HotpotQA / SciQ 中各取 500 条,按 STEM / Arts & Culture / Social Sciences / Sports 平衡得 2000 条时间不变事实;对每条目标 \((q^*, \mathcal{E}^*)\),用 DeepSeek-V3.2 生成"概念邻居" Neighbor Facts (NFs),覆盖三类关系——实体前提、逻辑蕴含、主题关联(平均 7.84 条/事实),再经人工筛选与专家校对;并构造 Misleading Entity \(\mathcal{E}^\dagger\) 及其 Misleading Neighbor Facts (MNFs)(平均 4.88 条/事实)用于干扰。
  2. NCB 度量与 Stress-Test 评测:对每条事实采样 30 次目标响应 + 每条邻居 10 次响应(\(T=0.7\)),按 Empirical Correctness Frequency 估 NCB;然后在两类干扰下重测——Peer Quantity(Asch 从众)和 Source Credibility(权威信源);分 Standard / CoT / Reflection 三种推理策略。
  3. Structure-Aware Training:基于初始 Ans. Aug 后的 checkpoint,让 teacher 看裸问题、student 看"问题 + 邻域上下文 \(C_{nq}\) 或一般噪声上下文 \(C_\text{general}\)",用 KL 蒸馏强制输出分布在不同上下文下与 teacher 对齐。

关键设计

  1. Neighbor-Consistency Belief (NCB) 度量

    • 功能:用一个标量近似"该事实属于结构化信念态的后验概率",区分"真懂"与"碰巧记得"。
    • 核心思路:定义信念潜变量 \(\theta \in \{\mathcal{S}_\text{struct}, \mathcal{S}_\text{unstruct}\}\),把"信念是否结构化"的后验写为 \(P(\theta = \mathcal{S}_\text{struct} \mid \hat{\mathcal{E}}^* = \mathcal{E}^*, \forall i, \hat{a}_i = a_i)\);用 Bayes' 公式拆出 odds = Bayes Factor × Prior Odds,并通过假设 \(P((\forall i, \hat a_i = a_i) \mid \hat{\mathcal{E}}^* = \mathcal{E}^*, \mathcal{S}_\text{struct}) \gg P(\cdot \mid \mathcal{S}_\text{unstruct})\) 证明 odds \(\gg 1\)。实际不可观测的后验近似为 Empirical Correctness Frequency \(\hat p(\hat a = a \mid q)\)\(\mathcal{O} = \{(q^*, \mathcal{E}^*)\} \cup NFs\) 上的某种聚合。
    • 设计动机:用神经认知科学(语义网络互锁、Anderson 抑制控制理论)和知识编辑文献中的"anchoring in context"思想作支撑——把"信念=一个个孤立 fact" 改写为"信念=一个结构化邻居网络",这才能解释为什么干扰那么轻易就能击穿 self-consistency 高的答案。
  2. Cognitive Stress-Test 协议(Asch + Source Credibility)

    • 功能:把"模型在外部干扰下信念是否稳"操作化为可量化的实验。
    • 核心思路:(i) Peer Quantity 模拟 Asch 从众实验——让目标模型先看到若干 peer agent 的对话,再答 \(q^*\);分 Conflict(peer 直接给出 \(\mathcal{E}^\dagger\))和 Misleading(peer 讨论 MNFs,间接 prime 错答)两个 scenario,并扫干扰 peer 数量 \(N \in [1, 10]\);(ii) Source Credibility 模拟 HOVLAND 信源权威效应——干扰文本被包装为 Low (媒体/朋友) / Medium (博客) / High (学术/知名新闻) 三档权威度,同样分 Conflict(伪造 NFs 把主语替成 \(\mathcal{E}^\dagger\))与 Misleading(在权威叙事里放 MNFs)。最终把高 NCB 与低 NCB 分桶 5% / 20% / 35% 看 Accuracy drop。
    • 设计动机:直接借用 70 年代认知心理学的两条经典外部干扰范式,既保证生态效度,又给"何时干扰更猛"提供清晰的可控变量轴(peer 数量、权威度);后续 Finding 3 中"单一 dissenter 就能让从众率显著下降"也直接对应 Asch 原始结论。
  3. Structure-Aware Training (SAT)

    • 功能:把"信念结构不变性"作为训练目标,让新学的事实在邻域上下文中保持稳定。
    • 核心思路:teacher \(\theta_T\) 冻结、student \(\theta_S\) 可训,二者都从 Ans. Aug 的 checkpoint 初始化以保证起点单点性能强;对每条事实合成两类上下文——\(C_{nq}\)(邻居语义相关)与 \(C_\text{general}\)(一般噪声背景),让 student 在 \((C, x)\) 条件下的输出分布 \(P_{\theta_S}(y \mid C, x)\) 与 teacher 的无上下文分布 \(P_{\theta_T}(y \mid x)\) 做 KL 对齐:\(\mathcal{L}_\text{KD} = \frac{1}{|C_b|}\sum_{(c, x) \in C_b} D_\text{KL}(P_T \parallel P_S)\)
    • 设计动机:传统 SFT 只让模型记住 \((q, a)\) 对,不强制"出现噪声上下文时仍输出原答案";SAT 把这种鲁棒性约束显式注入,相当于在 loss 层面把信念从 point-wise 改为 context-invariant。

损失函数 / 训练策略

SAT 中 student 只优化上述 KL 损失(无监督 hard label),等价于训练 student 在任何上下文 \(c\) 下都模仿 teacher 的无干扰分布;teacher/student 均基于 Qwen-2.5-32B-Instruct 的 Ans. Aug checkpoint。Stress-Test 评测细节:每事实 30 个目标采样 + 10 个邻居采样,\(T=0.7\),bf16 + vLLM,8×A100。

实验关键数据

主实验

Stress-Test 在 4 个 LLM 上的 Standard 设置(节选 top/bottom 35% NCB 子集),数值为"Stress 后准确率 ↓ 跌幅"(基线均接近 100%):

模型 NCB 组 Quantity-Stress Standard Source-Stress Standard Reflection (Source)
Qwen-2.5-32B Low NCB-35% 74.0 (↓25.7) 79.2 (↓20.5) 78.7 (↓20.9)
Qwen-2.5-32B High NCB-35% 84.0 (↓16.0) 87.2 (↓12.8) 84.5 (↓15.5)
Qwen3-30B-A3B Low NCB-35% 70.8 (↓28.8) 75.2 (↓24.3) 84.1 (↓15.4)
Qwen3-30B-A3B High NCB-35% 82.4 (↓17.6) 85.4 (↓14.6) 90.2 (↓9.8)
Qwen3-30B-Thinking Low NCB-35% 77.3 (↓22.6) 77.8 (↓22.1) 84.7 (↓15.3)
Qwen3-30B-Thinking High NCB-35% 88.1 (↓11.3) 87.1 (↓12.3) 93.7 (↓5.8)
OLMo-2-32B Low NCB-35% 71.4 (↓28.3) 80.3 (↓19.3) 85.1 (↓14.5)
OLMo-2-32B High NCB-35% 81.3 (↓18.7) 88.2 (↓11.8) 89.8 (↓10.2)

跨 4 个模型,高 NCB 组的"准确率跌幅"几乎总是低 NCB 组的 ~50%~70%。

消融实验

SAT vs 两种 SFT 增广 baseline(Qwen-2.5-32B-Instruct,100 条原本答错的事实):

指标 Vanilla (未训) Ans. Aug Know. Aug SAT (本文)
Base ACC 4.8 92.4 85.4 93.0
Quantity Stress 8.2 20.1 31.0 58.1
Source Stress 4.6 41.6 35.7 63.0
Stress 平均 6.4 30.9 33.4 60.6
MMLU 72.84 82.9 81.1 80.1
GSM8k 91.66 91.5 88.8 91.0

SAT 在 Base ACC 不掉的同时把 Stress 平均从 33.4 推到 60.6,比最强 baseline 相对提升约 80%,而 MMLU/GSM8k 通用能力基本不变。

关键发现

  • Finding 1 — NCB 是信念鲁棒性的可靠指标:4 个模型一致显示高 NCB 组的跌幅显著小于低 NCB 组,最猛对比在 Qwen3-Thinking(↓11.3% vs ↓22.6%);Coverage 分析还发现 Qwen3-Thinking 倾向于在低 NCB 上"主动拒答",说明 reasoning 模型对自己"不结构化"的知识有自知之明。
  • Finding 2 — 结构信念在干扰量/强度增大时仍稳:Peer Conflict 把对立票数从 0 加到 6(cfg6 = 全反对),低 NCB 组准确率从 97%→62%(崩塌),高 NCB 仅从 98%→81%(缓降);并复现 Asch 经典结论——只要存在一个 truth-teller (cfg5),从众压力显著下降。
  • Finding 3 — CoT 不稳,Reflection 稳赢:CoT 经常放大干扰跌幅(Qwen-2.5 Low NCB-35% 从 ↓25.7% 恶化到 ↓31.6%),而 Reflection(让模型重新审视自己的答案)在几乎所有 setting 都显著减跌;进一步发现 CoT 还呈非线性——干扰量适中时跌得最猛("Latitude of Rejection"效应),干扰量过大时模型反而忽略上下文回到参数记忆。
  • Finding 4 — 模型规模无法消除信念脆性:把 Qwen-2.5 从 1.5B 扩到 72B,高 NCB 与低 NCB 的鲁棒性差距并未随规模缩小,说明这不是"模型不够大"能解决的问题。
  • SAT 的 30% 减脆性是 free lunch:MMLU/GSM8k 不动,但 stress test 性能显著提升,表明"结构不变性"是可以独立于通用能力被注入的训练目标。

亮点与洞察

  • 把 LLM 信念评估从 point-wise 改为 graph-wise是本文最重要的概念升级:所有"我家模型置信度高"的工程师都应该被这篇打脸——置信度高不等于知道。该思想可以迁移到 hallucination detection、knowledge editing 评估、agent reliability 等大量场景。
  • 借用 Asch 与 Source Credibility 作为 stress-test 协议展示了"认知心理学 × LLM"研究的优雅样板——70 年前的经典实验设计为今天的可控干扰评测提供了现成 schema,且实验结论(单一 dissenter 显著降低从众率、CoT 的 Latitude of Rejection 效应)也一一对应。
  • SAT 这种"师生 KL + 多上下文增广"的训练范式是一个高度可复用的 trick:teacher 是 Ans. Aug 之后的强 single-point 模型,student 学的是"任你怎么 prompt 我都不动摇"。这条思路应用于 RAG fine-tuning、对抗鲁棒微调、persona consistency 训练都很自然。
  • NCB 用 Bayesian Odds 给出形式化推导让"结构信念"这种心理学概念有了能落地的数学定义,比单纯启发式打分更有说服力,也更容易做后续理论分析。

局限与展望

  • 作者承认 Neighbor Facts 只涵盖三类关系(实体前提、逻辑蕴含、主题关联),未触碰因果链、层级 taxonomy 等更复杂结构;且仅限时间不变事实,无法直接推到动态知识/多跳推理。
  • NCB 缺少"与人类对'真懂'的判断一致"这条验证;目前只是鲁棒性代理,不是 human-like comprehension 的直接度量。
  • 构造 belief neighborhood 在训练与推理两端都引入显著算力开销,规模化部署需要进一步优化(如缓存邻居响应、selective sampling)。
  • 个人观察:(a) SAT 的 KL 用 forward \(D_\text{KL}(P_T \| P_S)\) 易导致 student 过度模仿 teacher 错分布,未来可考虑双向或 JS;(b) 实验全在 30~32B 规模,更大模型上 NCB 与 SAT 的边际收益曲线不明;(c) "Misleading Entity 是真事实的另一实体"的设计很巧,但若 distractor 越逼近 target(同领域同年代),NCB 区分能力是否仍稳,可加针对性实验。

相关工作与启发

  • vs Self-Consistency (Wang et al., 2023a):SC 是同问多采样取一致,本文证明它"系统性高估鲁棒性"——SC=1.0 的数据在干扰下崩塌到 33.8% 正是其失效证据。
  • vs Semantic Entropy (Farquhar et al., 2024):Semantic Entropy 也想超越 token-level 概率,但仍是 point-wise 范畴;NCB 是首个把 belief 扩展到 conceptual neighborhood 的尝试。
  • vs 知识编辑 brittleness 研究 (Pezeshkpour 2023, Anthropic SDF 2025):这些工作发现新学知识比预训知识更脆,本文给出为什么脆的结构化解释(缺乏邻居一致性),并直接给出 SAT 作为缓解方案。
  • vs 上下文干扰研究 (Longpre 2021, WikiContradict 2024):这些工作记录了 LLM 在 conflict 下的失败模式,本文进一步通过 NCB 解释哪些 sample 更脆,并给出训练侧解药。
  • vs 多 agent 从众 (Yu et al. 2023, Zhang et al. 2024):本文以 Asch 范式严格量化了从众强度对鲁棒性的影响,并发现 dissenter 效应在 LLM 上仍然成立——很美的跨学科对照。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把信念评估从 point-wise 升到 graph-wise,引入 Bayesian odds 推导,并把心理学经典实验改造为 stress-test 协议,思想原创度高。
  • 实验充分度: ⭐⭐⭐⭐ 4 个 LLM × 多种 stress 配置 × 三种推理策略 + SAT 训练实验 + Qwen-2.5 系列 scaling,覆盖面广;缺更大规模(70B+)的 SAT 验证。
  • 写作质量: ⭐⭐⭐⭐ 概念—公式—实验—训练四段式逻辑清晰,认知心理学引用恰到好处;公式较多,但写得规范。
  • 价值: ⭐⭐⭐⭐⭐ 把"置信度幻觉"这个一直被工程师忽视的问题端上台面,给出可量化指标和落地训练方法,对可信 LLM 部署影响深远。