Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models¶

会议: CVPR 2026
arXiv: 2603.07619
代码: 无
领域: 多模态VLM / 幻觉检测 / 可解释性
关键词: VLM幻觉, 过度思考, 混杂因子传播, LogitLens, 层间动态

一句话总结¶

发现 VLM 幻觉的新机制——"过度思考"（overthinking）：模型在解码器中间层产生过多竞争性物体假设，导致语义关联但不存在的"混杂因子"传播到最终层引发幻觉，提出 Overthinking Score 量化层间假设多样性与不确定性的乘积，在 MSCOCO 上达 87.33% AUC / 78.9% F1，AMBER OOD 上 71.58% F1。

研究背景与动机¶

领域现状：VLM 幻觉（生成图像中不存在的物体）是持久性问题。现有检测方法分两大类：注意力方法（SVAR、DAMRO）假设幻觉 token 视觉注意力低；不确定性方法（MetaToken）用最终层熵衡量预测模糊性。

现有痛点：两类方法都基于错误假设——(1) 注意力方法在强场景先验下失效：厨房场景中幻觉的"dish"因与 sink/soap 语境关联而获得高注意力，SVAR 和 MetaToken 的注意力分布在幻觉和真实 token 间严重重叠（Fig.2 右）；(2) 不确定性方法只看最终层：中间层可能已经收敛到错误假设（如 sink→soap→dish 的传播链），最终层反而表现出高置信度低熵，最终层熵分布同样严重重叠（Fig.3）。

核心矛盾：幻觉的关键不是"模型最终说了什么"，而是"模型在思考过程中做了什么"。现有方法全部忽略了中间层的推理动态——从哪些假设开始、怎样演变、最终如何被某个混杂因子引导到错误答案。

本文目标 揭示 VLM 幻觉的层间传播机制，并据此设计比注意力和最终层熵更有效的白盒幻觉检测指标。

切入角度：用 LogitLens 将每个 Transformer 层的隐藏状态投影到词汇空间，追踪 top-1 token 在层间的演化轨迹。发现当模型在多层间频繁切换不同物体假设且整体不确定性高时（overthinking），更容易产生幻觉。

核心 idea：通过追踪解码器各层的 top-1 token 假设演化来揭示"混杂因子传播"现象，并将假设多样性×层级不确定性量化为 Overthinking Score 实现幻觉检测。

方法详解¶

整体框架¶

给定图像和前缀提示（如"In this image, I can see a ..."），模型预测下一个 token。(1) 用 LogitLens 在每个 Transformer 层 \(\ell\) 提取 top-p token 分布 \(p_\ell(v) = \text{softmax}(W \cdot \text{LayerNorm}(h_\ell))\)；(2) 追踪各层 top-1 token 的变化轨迹（"模型在想什么"）；(3) 提取 Overthinking Score + 层级熵向量 + 图像注意力向量 + 文本注意力向量 → 拼接为特征向量 \(\phi(x_t)\)（维度 3L+1）；(4) 训练轻量二分类器（LR/GB/MLP）→ 幻觉检测。

关键设计¶

混杂因子传播（Confounder Propagation）的发现与验证:
- 功能：揭示幻觉的层间传播机制——中间层的语义关联物体假设如何"污染"最终预测
- 核心思路：三个假设层层递进构建完整因果链——H1：在强场景先验下（如厨房），幻觉 token 的视觉注意力与真实 token 分布重叠严重，注意力方法失效；H2：用 LogitLens 解码中间层激活，发现中间层 top-1 token 与最终层 token 语义对齐度高（LLaVA 40.6%、Gemma3 47.9%、Qwen3 58.6%），证明中间层"想法"会语义影响最终预测。当中间层产生与最终幻觉 token 语境相关但实际不存在的"混杂因子"（如 kitchen 中 sink→soap→halluc "dish"），幻觉就发生了。LLaVA 中 63.69% 的幻觉、Qwen3 中 85.46% 的幻觉可归因于混杂因子传播；H3：中间层唯一 token 数与混杂因子传播率正相关——考虑越多替代方案，越容易包含一个混杂因子
- 设计动机：现有方法忽视中间层动态，只看最终层的"冰山一角"；而幻觉的根因在冰山水下——中间层的假设演化和混杂因子涌现
Overthinking Score:
- 功能：量化模型的"过度思考"程度，作为幻觉检测的核心特征
- 核心思路：\(S_{OT} = \frac{|\{x_\ell | \ell \in [1,L]\}|}{L} \cdot \frac{\sum_{\ell=1}^{L} H_\ell}{L}\)，第一项是层间唯一 top-1 token 数/总层数（假设多样性），第二项是平均层熵（整体不确定性）。二者的乘积同时捕捉"模型考虑了太多替代方案"和"每层都很不确定"的状态
- 设计动机：只看假设多样性不够（有时模型考虑多个假设但快速收敛是正常的），只看不确定性也不够（最终层可能低熵但中间层已被混杂因子带偏）。乘积形式要求两者同时为高才触发高分，避免误报。SHAP 分析显示 \(S_{OT}\) 的特征重要性（0.007）显著高于图像注意力/文本注意力/熵（各 0.002-0.004）
完整特征向量与轻量检测器:
- 功能：将多维层间信号聚合为可训练的特征向量
- 核心思路：\(\phi(x_t) = [S_{OT} \| \mathbf{H} \| \boldsymbol{\alpha}^{img} \| \boldsymbol{\alpha}^{text}]\)，其中 \(\mathbf{H} = (H_1, ..., H_L)\) 是各层熵，\(\alpha_\ell^{img} = \frac{1}{|\mathcal{I}|}\sum_{i \in \mathcal{I}} \max_h A_\ell^{(h)}(t,i)\) 是对图像 token 的注意力，\(\alpha_\ell^{text}\) 是对文本 token 的注意力。用 LR/GB/MLP 三种轻量分类器训练
- 设计动机：虽然注意力单独不可靠，但作为辅助特征仍有一般性价值；层级粒度的特征（而非只用最终层）完整刻画了模型的推理轨迹

损失函数 / 训练策略¶

MSCOCO 4000 图中 90% 训练、10% 测试。标签通过 GPT-4o 标注。MLP 分类器：128 隐藏单元 + ReLU，2000 epochs，lr=0.01。推理时间开销仅增 36%（5.77s vs 4.21s greedy search）。

实验关键数据¶

主实验（MSCOCO 幻觉检测）¶

方法	分类器	LLaVA AUC	Gemma3 AUC	Qwen3 AUC	Avg AUC	Avg F1
SVAR	MLP	85.12	74.11	75.56	78.26	55.80
MetaToken	GB	88.95	77.23	84.21	83.46	72.51
HalLoc	—	80.38	79.27	83.85	81.17	71.85
Ours	GB	89.66	85.59	86.65	87.30	75.97
Ours	MLP	89.73	85.38	86.89	87.33	72.86

OOD 泛化（AMBER 数据集，LLaVA-1.5 训练→AMBER 测试）¶

方法	AUC	AP	F1
SVAR	79.51	12.78	56.87
MetaToken (GB)	82.15	23.48	65.54
HalLoc	50.00	2.27	49.44
Ours (GB)	86.11	36.65	71.58

关键发现¶

Overthinking Score 在 SHAP 分析中特征重要性最高（0.007 vs 其他特征 0.002-0.004），是检测的核心信号
混杂因子传播在三个 VLM 中普遍存在：LLaVA 63.69%、Gemma3 82.73%、Qwen3 85.46% 的幻觉可归因于此
OOD（AMBER）上 Ours (GB) F1=71.58% vs MetaToken 65.54%，泛化能力显著更强
中间层熵与幻觉率正相关——不确定性在层间的累积效应与混杂因子传播交互放大幻觉风险

亮点与洞察¶

"不要看模型最终说了什么，要看它在想什么"——这个视角切换是本文最大贡献。类比人类：一个犹豫不决、在多个答案间反复横跳的人比坚定给出答案的人更可能犯错。Overthinking Score 用极简的公式（唯一 token 数 × 平均熵）捕捉了这个直觉
混杂因子传播的发现揭示了 VLM 幻觉的因果链——不是"模型不确定所以乱猜"，而是"中间层被场景先验带偏→混杂因子涌现→传播到最终层→高置信度幻觉"。这解释了为什么最终层低熵也会幻觉
三大假设（H1→H2→H3）的递进式验证非常有说服力——每个假设都有定量实验支撑，最终汇聚为一个完整的故事

局限与展望¶

当前方法仅处理物体级幻觉（token 级检测），对关系级和属性级幻觉（如"红色的猫"中颜色错误）未涉及
LogitLens 假设每层的隐藏状态可以用最终层的投影矩阵解码，对于深层模型可能不完全准确
需要白盒访问模型内部，无法应用于 API-only 的闭源模型
训练/测试在 MSCOCO 上完成，虽然 OOD 到 AMBER 有效，但更多领域（医学、遥感）的泛化性未验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ "过度思考"概念、混杂因子传播机制和 Overthinking Score 是全新发现
实验充分度: ⭐⭐⭐⭐ 3 个 VLM + 2 个数据集 + SHAP 分析 + 3 个假设验证，但缺少关系/属性级幻觉评估
写作质量: ⭐⭐⭐⭐⭐ 故事线清晰，三假设递进式论证极有说服力，可视化出色
价值: ⭐⭐⭐⭐ 为幻觉检测开辟了层间动态分析的新方向，Overthinking Score 简洁高效