跳转至

GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

会议: NeurIPS 2025
arXiv: 2508.19972
代码: https://github.com/deeplearning-wisc/glsim
领域: 多模态VLM / 幻觉检测
关键词: object hallucination, hallucination detection, global-local similarity, visual logit lens, training-free

一句话总结

提出GLSim,一种无训练的LVLM物体幻觉检测方法,通过融合全局场景相似度(物体token与最后instruction token的余弦相似度)和局部视觉定位相似度(物体token与Visual Logit Lens定位的Top-K图像patch的余弦相似度),在MSCOCO上以83.7% AUROC超越SVAR 9%、Internal Confidence 10.8%。

研究背景与动机

领域现状:大型视觉语言模型(LVLM)会产生物体幻觉——生成图像中不存在的物体的描述。这严重影响了模型在医疗影像、自动驾驶等高风险领域的可靠部署。现有痛点:现有幻觉检测方法要么依赖外部标注数据(CHAIR等),要么需要外部LLM判断(FaithScore等),要么只使用单一视角的信号。基于token概率的方法(NLL)因LLM偏好语言流畅性而失效;基于注意力的方法(SVAR)受attention sink影响;Internal Confidence直接用Visual Logit Lens的最大概率可能过度自信。核心矛盾:单一全局或局部信号各有盲区——全局方法会因场景语义关联误判上下文合理但视觉不存在的物体(如生日场景中的"dining table");局部方法会因视觉相似物体误判(如摩托车皮座与"handbag")。切入角度:首次将全局和局部embedding相似度信号统一到一个框架中,利用两者互补的优势。

方法详解

整体框架

GLSim是一个无训练的物体级幻觉检测框架。对于LVLM生成文本中提及的每个物体o,计算两个分数:(1) 全局相似度——物体embedding与场景embedding的余弦相似度;(2) 局部相似度——物体embedding与通过Visual Logit Lens定位的Top-K图像patch embedding的平均余弦相似度。最终GLSim分数是两者的加权组合。

关键设计

  1. 基于Visual Logit Lens的无监督物体定位:

    • 功能:在不依赖外部标注或检测器的情况下,定位图像中与某物体最相关的区域
    • 核心思路:将每个视觉token v_i在decoder层l的隐藏表示h_l(v_i)通过unembedding矩阵W_U映射到词汇空间,得到每个视觉patch预测物体词o的概率softmax(VLL_l(v_i))[o],选择概率最高的Top-K个patch作为物体o的定位区域I(o)
    • 设计动机:Visual Logit Lens比注意力权重更准确地定位物体(相关实验表明AUROC提升12.5%),同时不需要任何外部检测器
  2. 局部相似度分数:

    • 功能:检验物体是否在图像的特定区域有真实的视觉证据
    • 核心思路:计算物体token embedding h_{l'}(o)与Top-K个定位patch的隐藏表示h_l(v_i)之间的平均余弦相似度:s_local = (1/K)·Σ_{v_i∈I(o)} sim(h_l(v_i), h_{l'}(o))。真实物体的对应区域embedding会与其有高相似度,幻觉物体则对应到不相关区域导致低相似度
    • 设计动机:直接使用embedding similarity比使用Logit Lens的概率值更稳定可靠——概率可能过度自信(如Internal Confidence的问题),而embedding空间的相似度提供更fine-grained的信号
  3. 全局相似度分数:

    • 功能:判断物体是否与整体场景语义一致
    • 核心思路:计算物体token embedding与instruction prompt最后一个token的隐藏表示之间的余弦相似度:s_global = sim(h_l(v,t), h_{l'}(o))。最后一个instruction token编码了模型对图像和文本上下文的综合理解
    • 设计动机:最后instruction token比"最后image token"或"所有image token平均"更能捕获场景语义(消融实验中AUROC高8%),它提供了一个物体在场景中"合不合理"的高层判断

损失函数 / 训练策略

完全无训练,直接利用LVLM的内部表示。最终GLSim分数 = w·s_global + (1-w)·s_local,w=0.6在多个场景下一致表现最优。层索引l和l'通过消融实验选择(LLaVA: l=32, l'=31; Shikra: l=30, l'=27)。

实验关键数据

主实验

数据集/模型 指标 GLSim SVAR Internal Conf. Contextual Lens NLL
MSCOCO/LLaVA-7B AUROC 83.7 74.7 72.9 75.4 63.7
MSCOCO/LLaVA-13B AUROC 84.8 75.2 71.0 78.7 63.1
MSCOCO/MiniGPT-4 AUROC 87.0 83.6 75.7 84.9 59.4
MSCOCO/Shikra AUROC 83.0 70.7 69.1 69.5 60.4
Objects365/LLaVA-7B AUROC 72.6 64.9 68.7 63.2 62.9
Objects365/MiniGPT-4 AUROC 74.8 71.0 68.5 70.2 56.7

消融实验

配置 LLaVA AUROC Shikra AUROC 说明
仅全局(s_global) 79.3 78.9 单独使用已超越所有基线
仅局部Top-K(s_local) 78.8 76.8 与全局互补
GLSim(全局+局部Top-K) 83.7 83.0 融合提升+4.9/+6.2
定位方法:Attention 66.3(局部) 65.0 注意力权重不可靠
定位方法:Cosine Sim 76.2(局部) 70.1 次优
定位方法:Logit Lens 78.8(局部) 76.8 最优定位
w=0.4 82.5 - 偏向局部
w=0.6 83.7 - 最优平衡
w=0.8 82.0 - 偏向全局
K=8/16/32/64 82→83→83.7→82 - K=32最优,约6%图像token

关键发现

  • GLSim在所有LVLM和数据集组合上一致超越所有基线,在Shikra上提升尤为显著(+12.7% AUROC vs SVAR)
  • 全局和局部信号确实互补:两者单独使用均已超越所有现有方法,融合后进一步提升
  • Internal Confidence可能对幻觉物体过度自信——因为Visual Logit Lens直接给出的概率值可能指向错误区域但概率很高
  • Visual Logit Lens作为定位方法比注意力权重好12.5%,比余弦相似度好2.6%
  • 最优层选择在后期中间层(而非最后一层),支持"最优任务层不一定是最终层"的观察

亮点与洞察

  • 全局-局部互补的思路简洁直觉且极为有效,首次在幻觉检测中证明两者的互补价值
  • 无训练即插即用——不需要额外训练或外部模型,直接利用LVLM内部表示
  • 全面的基准测试——系统性地首次比较了5种物体级幻觉检测方法,填补了该领域的benchmarking空白
  • 定性分析非常直观:Figure 2清晰展示了全局失败/局部成功和局部失败/全局成功的互补案例

局限与展望

  • 仅处理物体存在性幻觉,不处理属性(颜色/大小)和关系(空间位置)级幻觉
  • K和w的选择虽然在实验中鲁棒,但最优值可能随输入分辨率变化
  • 需要选择合适的层索引l和l',不同模型的最优层不同
  • 检测后如何利用GLSim分数来修正或缓解幻觉是待探索的方向

相关工作与启发

  • CHAIR:基于ground-truth匹配的幻觉评估指标,而GLSim不需要标注
  • Internal Confidence:使用Visual Logit Lens概率,GLSim改进为用embedding相似度+Top-K聚合
  • SVAR:注意力权重方法,受attention sink和文本token偏移影响
  • 启发:全局-局部互补思路可迁移到其他检测任务;GLSim可与训练端的幻觉缓解方法(如Causal-LLaVA)串联使用

评分

  • 新颖性: ⭐⭐⭐⭐ 首次在幻觉检测中系统性地融合全局和局部信号,Visual Logit Lens的创新应用
  • 实验充分度: ⭐⭐⭐⭐⭐ 5种LVLM × 2个数据集 × 5种基线 × 大量消融(K/w/层/定位方法/全局设计),非常充分
  • 写作质量: ⭐⭐⭐⭐ 动机和方法描述清晰,定性分析直观有效
  • 价值: ⭐⭐⭐⭐ 无训练即插即用的特性使其实用性极强,代码开源