Visual Evidence Prompting Mitigates Hallucinations in Large Vision-Language Models¶

会议: ACL 2025 (Long Paper)
arXiv: 无（仅ACL Anthology）
代码: 未公开
领域: 多模态VLM / AI安全 / 幻觉缓解
关键词: LVLM幻觉, Visual Evidence Prompting, 小模型辅助大模型, 目标检测, 场景图生成

一句话总结¶

提出Visual Evidence Prompting (VEP)，利用小型视觉专家模型（目标检测器、场景图生成器）的输出作为文本化"视觉证据"输入LVLM，无需训练即可在11个LVLM上显著降低幻觉——LLaVA-1.5在POPE上提升7.2%、Claude 3上提升12.1%。

研究背景与动机¶

核心问题: LVLM的幻觉（生成图像中不存在的物体/关系/属性）根源是什么？

归因分析发现: 作者通过深入的注意力归因分析揭示：幻觉主要源于细粒度视觉区分能力不足而非语言偏见。具体证据：(1) 幻觉发生时，模型在语义/外观相似区域的错误激活占比高达58.5%（如把棒球棒误认为球）；(2) 幻觉物体的CLIPScore与图像更高，说明语义相似性是混淆根因；(3) 视觉token内部对幻觉物体的置信度反常地高于正确物体，说明模型"自信地犯错"。

已有方法不足: 现有幻觉缓解方法要么需要重新训练（如LRV指令微调，存在灾难性遗忘风险），要么需要修改模型内部（如VCD对比解码、VHR注意力头增强），适用性受限，难以应用于闭源API模型（GPT-4V、Claude、Gemini）。

设计思路: 既然幻觉源于细粒度视觉感知不足，那么用擅长细粒度识别的小型视觉专家模型来"补充"视觉信息，以纯文本形式注入LVLM的输入端，即可在不改变模型的前提下缓解幻觉。

方法详解¶

整体框架¶

将"小型视觉专家模型"的结构化输出转化为自然语言描述，作为上下文前缀和原始问题一起输入LVLM。类似于人类在回答视觉问题前先仔细辨识图中关键元素。整个流程完全无需训练（training-free）、无需访问模型参数（model-free），适用于任何LVLM包括API服务。

关键设计¶

视觉证据提取
- 目标检测器（如DINO等）：输出图像中检测到的物体类别和数量，格式化为文本"3 dogs, 1 cat, 2 chairs"
- 场景图生成器（如SGG模型）：输出<主体, 关系, 客体>三元组，格式化为"man on surfboard, man has hair, dog near table"
- 两类证据互补：检测器解决"有什么物体"（物体幻觉），SGG解决"物体间什么关系"（关系幻觉）
极简提示构造
- 模板："You can see {evidence} in the image. {question}"
- 将视觉证据作为前缀上下文直接拼接，不需要复杂的prompt工程
- 极简设计保证了跨模型泛化性——同一模板在11个LVLM上均有效
归因验证机制
- 通过图像归因图（attention attribution map）可视化验证：加入VEP后，模型对幻觉区域的错误激活被显著抑制，正确区域的激活增强
- 定量分析：VEP使视觉token对正确物体的注意力权重提升约15-20%

训练策略¶

完全无需训练，即插即用
仅需额外运行小型检测器/SGG模型（推理开销约50ms/image）
适用于开源和闭源API模型

实验¶

主实验：11个LVLM上的幻觉评测¶

模型	POPE Acc	+VEP	AMBER CHAIR↓	+VEP	RPE Acc	+VEP
LLaVA-1.5-7B	80.23	87.43 (+7.2)	8.07	6.78 (-1.3)	61.92	68.00 (+6.1)
LLaVA-1.6-7B	84.93	89.43 (+4.5)	8.59	7.73 (-0.9)	70.20	70.46 (+0.3)
MiniGPT-4-v2	75.33	83.17 (+7.8)	8.67	8.39 (-0.3)	60.75	68.38 (+7.6)
GPT-4V (API)	82.21	86.41 (+4.2)	6.97	6.76 (-0.2)	75.56	76.05 (+0.5)
Claude 3 (API)	75.40	87.50 (+12.1)	5.34	5.00 (-0.3)	69.57	70.57 (+1.0)
Gemini 1.5 Pro	82.43	87.32 (+4.9)	8.70	7.63 (-1.1)	69.06	71.13 (+2.1)

消融实验¶

消融维度	结论
仅目标检测证据	对POPE（物体幻觉）提升最大，贡献约60-70%的总提升
仅场景图证据	对RPE（关系幻觉）贡献最大，约占总提升的50-60%
检测+场景图联合	各benchmark上均为最优，说明两类证据互补有效
真值标注作证据	效果上界更高（POPE +10-15%），说明提升空间取决于小模型质量
对通用VQA影响	MMBench/SEED等通用benchmark上保持或略提升，无负面副作用

关键发现¶

Claude 3提升最大（POPE +12.1%），可能因为Claude本身视觉编码器较弱但语言理解强——VEP精准补充了其视觉短板
推理速度影响可控：token/sec从28.86略降至23.96（约17%），因输入prompt变长
新提出的RPE（Relation Prediction Evaluation）数据集填补了关系幻觉评测的空白
当检测器产生误检时，LVLM有一定纠错能力——不会盲目接受所有视觉证据

亮点¶

分析驱动设计: 先通过归因分析精准定位幻觉根因（58.5%错误激活源于语义相似区域），再对症下药
极简高效: 无需训练、无需模型参数、简单文本拼接即可大幅降低幻觉，工程部署门槛极低
跨模型通用: 在11个LVLM上均有效，包括开源和闭源API模型
符号化桥梁: 小型视觉专家通过符号化输出"教"LVLM看得更准，是优雅的弱强模型协作范式

局限性¶

依赖外部小模型质量——检测器漏检或误检会引入新的错误源
目标检测器的标签空间有限（如COCO 80类），开放世界物体无法提供有效证据
推理延迟增加约17%（prompt变长），对延迟敏感场景需权衡
未探索视觉证据的自动质量评估和过滤机制
与VHR（注意力头增强方法）等内部方法的结合效果未验证

评分¶

新颖性: ⭐⭐⭐⭐ 方法简单但insight深刻，归因分析驱动的设计令人信服
实验充分度: ⭐⭐⭐⭐⭐ 11个模型x5个benchmark，分析极其详尽
写作质量: ⭐⭐⭐⭐⭐ 从分析到方法到验证的逻辑链极其清晰
对我的价值: ⭐⭐⭐⭐ 即插即用的幻觉缓解方法，实践价值高