GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity¶

会议: NeurIPS 2025
arXiv: 2508.19972
代码: https://github.com/deeplearning-wisc/glsim
领域: 多模态VLM / 幻觉检测
关键词: object hallucination, hallucination detection, global-local similarity, visual logit lens, training-free

一句话总结¶

提出GLSim，一种无训练的LVLM物体幻觉检测方法，通过融合全局场景相似度（物体token与最后instruction token的余弦相似度）和局部视觉定位相似度（物体token与Visual Logit Lens定位的Top-K图像patch的余弦相似度），在MSCOCO上以83.7% AUROC超越SVAR 9%、Internal Confidence 10.8%。

研究背景与动机¶

领域现状：大型视觉语言模型(LVLM)会产生物体幻觉——生成图像中不存在的物体的描述。这严重影响了模型在医疗影像、自动驾驶等高风险领域的可靠部署。现有痛点：现有幻觉检测方法要么依赖外部标注数据（CHAIR等），要么需要外部LLM判断（FaithScore等），要么只使用单一视角的信号。基于token概率的方法(NLL)因LLM偏好语言流畅性而失效；基于注意力的方法(SVAR)受attention sink影响；Internal Confidence直接用Visual Logit Lens的最大概率可能过度自信。核心矛盾：单一全局或局部信号各有盲区——全局方法会因场景语义关联误判上下文合理但视觉不存在的物体（如生日场景中的"dining table"）；局部方法会因视觉相似物体误判（如摩托车皮座与"handbag"）。切入角度：首次将全局和局部embedding相似度信号统一到一个框架中，利用两者互补的优势。

方法详解¶

整体框架¶

GLSim是一个无训练的物体级幻觉检测框架。对于LVLM生成文本中提及的每个物体o，计算两个分数：(1) 全局相似度——物体embedding与场景embedding的余弦相似度；(2) 局部相似度——物体embedding与通过Visual Logit Lens定位的Top-K图像patch embedding的平均余弦相似度。最终GLSim分数是两者的加权组合。

关键设计¶

基于Visual Logit Lens的无监督物体定位:
- 功能：在不依赖外部标注或检测器的情况下，定位图像中与某物体最相关的区域
- 核心思路：将每个视觉token v_i在decoder层l的隐藏表示h_l(v_i)通过unembedding矩阵W_U映射到词汇空间，得到每个视觉patch预测物体词o的概率softmax(VLL_l(v_i))[o]，选择概率最高的Top-K个patch作为物体o的定位区域I(o)
- 设计动机：Visual Logit Lens比注意力权重更准确地定位物体（相关实验表明AUROC提升12.5%），同时不需要任何外部检测器
局部相似度分数:
- 功能：检验物体是否在图像的特定区域有真实的视觉证据
- 核心思路：计算物体token embedding h_{l'}(o)与Top-K个定位patch的隐藏表示h_l(v_i)之间的平均余弦相似度：s_local = (1/K)·Σ_{v_i∈I(o)} sim(h_l(v_i), h_{l'}(o))。真实物体的对应区域embedding会与其有高相似度，幻觉物体则对应到不相关区域导致低相似度
- 设计动机：直接使用embedding similarity比使用Logit Lens的概率值更稳定可靠——概率可能过度自信（如Internal Confidence的问题），而embedding空间的相似度提供更fine-grained的信号
全局相似度分数:
- 功能：判断物体是否与整体场景语义一致
- 核心思路：计算物体token embedding与instruction prompt最后一个token的隐藏表示之间的余弦相似度：s_global = sim(h_l(v,t), h_{l'}(o))。最后一个instruction token编码了模型对图像和文本上下文的综合理解
- 设计动机：最后instruction token比"最后image token"或"所有image token平均"更能捕获场景语义（消融实验中AUROC高8%），它提供了一个物体在场景中"合不合理"的高层判断

损失函数 / 训练策略¶

完全无训练，直接利用LVLM的内部表示。最终GLSim分数 = w·s_global + (1-w)·s_local，w=0.6在多个场景下一致表现最优。层索引l和l'通过消融实验选择（LLaVA: l=32, l'=31; Shikra: l=30, l'=27）。

实验关键数据¶

主实验¶

数据集/模型	指标	GLSim	SVAR	Internal Conf.	Contextual Lens	NLL
MSCOCO/LLaVA-7B	AUROC	83.7	74.7	72.9	75.4	63.7
MSCOCO/LLaVA-13B	AUROC	84.8	75.2	71.0	78.7	63.1
MSCOCO/MiniGPT-4	AUROC	87.0	83.6	75.7	84.9	59.4
MSCOCO/Shikra	AUROC	83.0	70.7	69.1	69.5	60.4
Objects365/LLaVA-7B	AUROC	72.6	64.9	68.7	63.2	62.9
Objects365/MiniGPT-4	AUROC	74.8	71.0	68.5	70.2	56.7

消融实验¶

配置	LLaVA AUROC	Shikra AUROC	说明
仅全局(s_global)	79.3	78.9	单独使用已超越所有基线
仅局部Top-K(s_local)	78.8	76.8	与全局互补
GLSim(全局+局部Top-K)	83.7	83.0	融合提升+4.9/+6.2
定位方法:Attention	66.3(局部)	65.0	注意力权重不可靠
定位方法:Cosine Sim	76.2(局部)	70.1	次优
定位方法:Logit Lens	78.8(局部)	76.8	最优定位
w=0.4	82.5	-	偏向局部
w=0.6	83.7	-	最优平衡
w=0.8	82.0	-	偏向全局
K=8/16/32/64	82→83→83.7→82	-	K=32最优，约6%图像token

关键发现¶

GLSim在所有LVLM和数据集组合上一致超越所有基线，在Shikra上提升尤为显著(+12.7% AUROC vs SVAR)
全局和局部信号确实互补：两者单独使用均已超越所有现有方法，融合后进一步提升
Internal Confidence可能对幻觉物体过度自信——因为Visual Logit Lens直接给出的概率值可能指向错误区域但概率很高
Visual Logit Lens作为定位方法比注意力权重好12.5%，比余弦相似度好2.6%
最优层选择在后期中间层（而非最后一层），支持"最优任务层不一定是最终层"的观察

亮点与洞察¶

全局-局部互补的思路简洁直觉且极为有效，首次在幻觉检测中证明两者的互补价值
无训练即插即用——不需要额外训练或外部模型，直接利用LVLM内部表示
全面的基准测试——系统性地首次比较了5种物体级幻觉检测方法，填补了该领域的benchmarking空白
定性分析非常直观：Figure 2清晰展示了全局失败/局部成功和局部失败/全局成功的互补案例

局限与展望¶

仅处理物体存在性幻觉，不处理属性(颜色/大小)和关系(空间位置)级幻觉
K和w的选择虽然在实验中鲁棒，但最优值可能随输入分辨率变化
需要选择合适的层索引l和l'，不同模型的最优层不同
检测后如何利用GLSim分数来修正或缓解幻觉是待探索的方向

评分¶

新颖性: ⭐⭐⭐⭐ 首次在幻觉检测中系统性地融合全局和局部信号，Visual Logit Lens的创新应用
实验充分度: ⭐⭐⭐⭐⭐ 5种LVLM × 2个数据集 × 5种基线 × 大量消融（K/w/层/定位方法/全局设计），非常充分
写作质量: ⭐⭐⭐⭐ 动机和方法描述清晰，定性分析直观有效
价值: ⭐⭐⭐⭐ 无训练即插即用的特性使其实用性极强，代码开源