👻 幻觉检测¶
📷 CVPR2025 · 9 篇论文解读
📌 同领域跨会议浏览: 🧪 ICML2026 (19) · 💬 ACL2026 (27) · 📷 CVPR2026 (18) · 🔬 ICLR2026 (9) · 🤖 AAAI2026 (15) · 🧠 NeurIPS2025 (17)
🔥 高频主题: 多模态 ×2
- 3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination
-
构建了3D-GRAND——首个百万级密集接地的3D场景-语言数据集(40K场景、6.2M指令),并提出3D-POPE幻觉评估基准,证明密集接地的指令微调能显著提升3D-LLM的接地能力并减少幻觉,还展示了合成数据到真实场景的迁移效果。
- Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception
-
提出Antidote——合成数据驱动的统一后训练框架,通过将事实先验注入提示实现模型自校正,将幻觉缓解解耦为偏好优化问题,在LLaVA系列上CP-Bench提升超50%,POPE提升1.8-3.3%,CHAIR/SHR降低30-50%,且无灾难性遗忘。
- HalLoc: Token-Level Localization of Hallucinations for Vision Language Models
-
提出HalLoc,一个15.5万样本、覆盖VQA/指令跟随/图像描述三类任务的token级幻觉标注数据集,并基于此训练了轻量级幻觉检测模型HalLocalizer,可在不影响效率的前提下即插即用地集成到现有VLM中实现实时概率化幻觉检测。
- Octopus: Alleviating Hallucination via Dynamic Contrastive Decoding
-
本文揭示了多模态大模型幻觉的混合特性——不同样本甚至同一回答中的不同 token 面临不同类型的幻觉挑战(语言先验、视觉信息丢失、注意力偏差),据此提出 Octopus 框架,通过可学习的"眼睛"模块自适应识别幻觉类型,动态选择最适合的对比解码策略("触手"),在四个基准上实现了 SOTA。
- ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models
-
本文提出 ODE(Open-set Dynamic Evaluation)协议,通过图结构建模现实世界物体概念及其分布关联,从中动态提取概念组合并生成合成测试图像,实现了开放集、持续更新的多模态幻觉评估,有效避免了现有静态基准可能存在的数据污染问题。
- One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination
-
提出首个统一的训练无关MLLM幻觉缓解框架,围绕vision token的双重角色——增强(SVC)与抑制(CRC)——在隐表示层协同操作,在LLaVA-1.5上POPE准确率提升约2%,仅增加1.06×推理延迟。
- PhD: A ChatGPT-Prompted Visual Hallucination Evaluation Dataset
-
本文提出 PhD,一个 ChatGPT 辅助构建的大规模视觉幻觉评估数据集,包含 14K+ 日常图片、750 张反常识图片和 102K VQA 三元组,通过 4 种评估模式×5 种视觉任务系统化评估多模态大语言模型的幻觉问题,在规模和挑战性上远超现有基准。
- Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding
-
提出 FarSight,一种即插即用的无训练解码策略,通过在因果掩码的上三角矩阵中引入注意力寄存器来吸收异常 token 的过度注意力,并设计递减掩蔽率的位置感知编码增强远距离视觉 token 的信息传播,有效缓解多模态大模型中的初始幻觉和雪球幻觉。
- Stop Learning It All to Mitigate Visual Hallucination, Focus on the Hallucination Target
-
提出TL-DPO(Target-Learning DPO),将传统DPO的全句级偏好学习限制到幻觉发生的目标chunk和对应的图像区域,通过目标生成损失和目标条件损失排除无关信号,在LLaVA-1.5上将CHAIR_s从66.8降至20.1,同时LLaVA-Bench从63.4提升至71.2。