👻 幻觉检测¶

📷 CVPR2026 · 33 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (40) · 💬 ACL2026 (28) · 🧪 ICML2026 (21) · 🤖 AAAI2026 (15) · 🧠 NeurIPS2025 (17) · 📹 ICCV2025 (5)

🔥 高频主题： 多模态 ×14 · LLM ×3 · 推理 ×2

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM: 针对"放大图像注意力虽能压幻觉、却让模型重复啰嗦"的痛点，本文发现真实物体 token 比幻觉 token 对已生成文本 \(T_p\) 的注意力更高，于是改为增大对 \(T_p\) 的注意力（IAT），并进一步用逐层阈值控制"何时干预"、用逐头放大矩阵控制"放大多少"（AdaIAT），在 LLaVA-1.5/Janus-Pro/Qwen2.5-VL 上把幻觉率（CS/CI）显著降低的同时几乎不损失文本多样性。
Beyond the Global Scores: Fine-Grained Token Grounding as a Robust Detector of LVLM Hallucinations: 提出基于 patch 级别的 LVLM 幻觉检测框架，发现幻觉 token 表现出弥散注意力模式和低语义对齐两个特征标志，据此设计注意力弥散分数（ADS）和跨模态接地一致性（CGC）两个轻量指标，检测准确率达 90%。
CausalLens: Sensitivity-Guided Multi-Head Causal Intervention for Hallucination Mitigation in Large Vision-Language Models: CausalLens 通过把解码器每个注意力头拆成"视觉/文本/系统提示"三条通路，用一个视觉敏感度分数挑出真正看图的头，在中层（L10–L20）单次前向里直接放大它们的视觉贡献并做投影对齐修正，从而在不训练、不多次解码的前提下显著降低大视觉语言模型的幻觉。
COPO: Causal-Oriented Policy Optimization for Hallucinations of MLLMs: 作者发现 MLLM 用 GRPO（只看最终答案对错的 outcome reward）后训练时会过度关注图像背景、形成"背景→答案"的虚假相关进而产生幻觉，于是提出 COPO：给每个推理 token 算一个"因果完备性"奖励（充分性 + 必要性），把它注入 GRPO 的优势函数，逼模型只奖励真正决定答案对错的 token，从而在 CHAIR/POPE 等多个幻觉基准上稳定降低幻觉率。
Cross-Modal Attention Calibration for LVLM Hallucination Mitigation: 针对 LVLM 幻觉，本文提出免训练的跨模态注意力校准框架 CMAC：用 IMD 模块在注意力层"外科手术式"地遮蔽跨模态高权重的 value 向量来构造更精准的幻觉分布做对比解码，并用 CMPC 模块缩放图像 token 的位置索引来缓解 RoPE 带来的位置偏置，在 POPE/CHAIR/MME 上全面超过现有对比解码方法。
Envision, Attend, Then Respond: Counterfactual Hallucination Mitigation in Large Vision-Language Models: EnAR 是一个训练无关框架，用扩散模型为输入图像生成一张"它本该长什么样"的视觉印象，再通过比对原图与印象的视觉注意力差异定位出违反常识的反事实元素（如五条腿的羊驼），把这些 token 屏蔽掉做对比解码，从而让 LVLM 把回答锚定在真实像素而非语言先验上——在反事实基准 VLMBias 上提升 10.82%、在通用幻觉 POPE 上平均提升 6.9%。
Evaluating and Easing Hallucinations for GUI Grounding: 本文首次系统研究 GUI grounding 中的幻觉问题，把它拆成"认错相似元素"的混淆幻觉和"凭空捏造坐标"的虚构幻觉，构建了双语、双子集的 GUI-HalluBench 来诊断幻觉与 parsing 能力的关联，并给出一个免训练的"先解析后定位"提示（PGP）和一个基于幻觉数据微调（HFT）的缓解方案，实验证明 parsing 越强幻觉越少、HFT 最高带来约 7% 的绝对提升。
Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression: 提出 CIPHER，一种无需训练的测试时幻觉抑制方法：离线阶段用扩散模型生成反事实图像构建 OHC-25K 数据集，通过 SVD 提取视觉幻觉子空间；推理阶段将隐状态投影到该子空间的正交补空间，在不修改模型参数、不增加推理开销的前提下显著降低 LVLM 的视觉幻觉。
Fine-Grained Multi-Image Object Hallucination Benchmark: MIOH 是首个面向多图场景的细粒度物体幻觉诊断基准，把"4 类物体任务 × 3 种多图推理模式"交叉出 26 种题型，再叠加"图像数量 / 感知难度 / 上下文偏置"三种可控对抗压力，对 29 个模型评测后发现即便 GPT-5、Gemini-2.5-Pro 的整体准确率也分别只有 63.1% / 64.4%，全场平均仅 36.1%，并定位出幻觉主要来自跨图整合阶段而非单纯感知失败。
FINER: MLLMs Hallucinate under Fine-grained Negative Queries: 发现 MLLM 在细粒度负查询（涉及多个对象/属性/关系的查询中仅有一个细微错误）下幻觉率急剧上升，提出 FINER 基准和 FINER-Tuning 方法（基于 DPO），在 InternVL3.5-14B 上最高提升 24.2%。
First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models: 针对大视觉语言模型（LVLM）"越生成越脱离图像、后段越容易编造物体"的长程衰减问题，本文提出 First Logit Boosting（FLB）：把第一个生成 token 的 logit 存下来，按随步数递增的权重加回到后续每一步的 logit 上，零训练、零外部模型、只需一次前向，就把 CHAIR/AMBER 上的物体幻觉显著压低且几乎不增加推理开销。
HalluGen: Synthesizing Realistic and Controllable Hallucinations for Evaluating Image Restoration: HalluGen 用扩散后验采样 + 带掩码的梯度引导，把"类型/位置/严重度都可控"的真实感幻觉主动注入到图像复原结果里，从而第一次拿到带 ground-truth 标注的幻觉数据集（4350 张脑 MRI），并基于它建立幻觉评测基准、提出对幻觉敏感的 SHAFE 指标、训练出能泛化到真实复原失败的无参考检测器。
HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models: 提出HulluEdit，一种单次前向、无参考模型的子空间编辑框架，通过将隐藏状态分解为正交的视觉证据子空间、冲突先验子空间和残差不确定性子空间，选择性抑制幻觉模式而不干扰视觉定位，在POPE和CHAIR基准上达到SOTA幻觉缓解效果。
KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing: 提出KVSmooth，一种免训练的即插即用方法，通过注意力行熵引导的自适应指数移动平均（EMA）对KV-Cache进行平滑，有效抑制多模态大语言模型（MLLM）在解码过程中因sink token引发的语义漂移与幻觉生成，在LLaVA-1.5上将CHAIR_S从41.8降至18.2（降幅56%），同时F1从77.5提升至79.2。
Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation: 提出 LTS-FS（Locate-Then-Sparsify for Feature Steering）框架，通过因果干预归因方法定位幻觉相关层，并根据归因分数逐层稀疏地控制特征引导强度，在有效缓解 LVLM 幻觉的同时保持模型泛化能力。
Lyapunov Probes for Hallucination Detection in Large Foundation Models: 把 (M)LLM 看成在表示空间里演化的高维动力系统、把"幻觉"重新定义为"输入落在稳定平衡点附近还是不稳定的知识边界区域"，用一个带 Lyapunov 单调衰减约束的轻量探针网络（吃多层隐状态 + 扰动信息）来判别，AUPRC 在多个 LLM/MLLM 上稳定超过普通探针 4–8%。
MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models: 针对音视频大模型里"一个模态错误地影响另一个模态生成"的跨模态幻觉，提出训练免调的模态自适应解码 MAD：先让模型自己回答"这个问题需要哪个模态"提取模态权重，再用这些权重去自适应加权四路对比解码分支，从而压住无关模态的干扰，在 CMM/AVHBench 上比 AVCD 等基线整体准确率提升数个百分点。
Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection: 提出 GACD（Gradient-based Influence-Aware Constrained Decoding），利用一阶 Taylor 梯度估计每个 token 对输出的影响力，在推理阶段同时缓解文本-视觉偏差和共现偏差导致的多模态幻觉，无需辅助模型或微调。
MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization: 提出 MoD-DPO（Modality-Decoupled DPO），通过不变性正则化、敏感性正则化和语言先验去偏三个机制解耦多模态 LLM 中各模态的贡献，有效缓解跨模态幻觉（如用听觉信息回答视觉问题），并推导出闭式最优策略。
One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination: 本文把 MLLM 物体幻觉重新定义为"视觉-语言失衡"问题，提出一个 training-free 框架，只在中间表示层操控视觉 token：一边用增广图像的视觉 token 强化视觉信号（SVC），一边用剪枝后的视觉 token 在隐空间造负样本、提纯模型内部偏置（CRC），在 LLaVA-1.5 上 POPE 平均提升约 2% 绝对精度，推理只多 1.06× 延迟。
PAS: Prelim Attention Score for Detecting Object Hallucinations in Large Vision-Language Models: 本文发现 LVLM 产生物体幻觉时往往"无视图像、转而依赖自己已经生成的前文 token（prelim）"，据此提出免训练、无需额外前向的 Prelim Attention Score（PAS）——直接把对 prelim token 的注意力权重求和当作幻觉分数，在多模型多数据集上取得 SOTA 的物体幻觉检测效果。
Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models: PTI 把缓解 LVLM 幻觉的 steering 干预从「逐 token 的解码阶段」前移到「只做一次的 prefill 阶段」，对初始 KV cache 施加模态感知、key/value 解耦的方向向量，从源头修正易致幻表征，在三个 LVLM、五个 benchmark 上超过现有解码期方法，且能与它们即插即用叠加。
Reallocating Attention Across Layers to Reduce Multimodal Hallucination: 提出一种轻量级、无需训练的插件方法，通过识别感知型和推理型注意力头并进行类别条件缩放（Class-Conditioned Rescaling），重新平衡跨层注意力分配，从而缓解多模态大推理模型（MLRM）中的幻觉问题，在5个基准上平均提升4.2%，几乎无额外推理开销。
Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance: 提出 Residual Decoding (ResDec)——一种训练免的即插即用解码策略，通过分析历史 token 的 logit 分布中的 U 型 JSD 模式发现语义锚定阶段，聚合该阶段的历史 logits 作为残差引导融入当前解码，以近乎零的额外推理开销有效抑制 LVLM 中的语言先验幻觉。
Same Attention, Different Truths: Put Logit-Lens over Visual Attention to Detect and Mitigate LVLM Object Hallucination: 本文用 Logit-Lens 重新审视 LVLM 物体幻觉，发现真实物体与幻觉物体在中后层"注意力强度其实一样"，关键不在"看多少"而在"看的地方解码出来是不是同一个东西"，据此把幻觉分成"视觉不确定"与"上下文先验"两类，并提出免训练的"检测—缓解"框架（LLCC 检测 + HARM 掩码 + VEED 解码增强），在多个幻觉基准上取得 SOTA。
SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models: SVHalluc 是首个系统评测「视听大模型能否把语音内容与对应视觉信号对齐」的 benchmark，从语义和时序两个维度各设计 3 个由粗到细的任务（共 6 个、2405 条样本），实验揭示当前开源视听 LLM 在多数任务上接近随机猜测，而 Gemini 2.5 Pro 大幅领先——根因不是单模态感知差，而是跨模态整合能力缺失。
Tell Model Where to Look: Mitigating Hallucinations in MLLMs by Vision-Guided Attention: 提出Vision-Guided Attention (VGA)，一种免训练的方法，通过利用视觉token的语义特征构建精确的视觉定位，引导模型注意力聚焦于相关视觉区域，有效缓解MLLM幻觉，且兼容FlashAttention。
Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding: 本文发现多模态推理模型（MLRM）的幻觉高度集中在 because/however/wait 这类转折词附近、而这些位置恰好是高熵（高不确定）步，于是提出免训练的 LEAD 解码策略：高熵步把采样得到的单个 token 换成「按概率加权的连续嵌入」以保留多条推理假设、并注入视觉锚点强化看图，低熵步回到常规离散解码，从而在多个 MLRM 与多个基准上稳定降低幻觉。
TriDF: Evaluating Perception, Detection, and Hallucination for Interpretable DeepFake Detection: 提出TriDF——首个从感知 (Perception)、检测 (Detection) 和幻觉 (Hallucination) 三个维度综合评估可解释深度伪造检测的基准，包含55K高质量样本覆盖16种DeepFake类型和3种模态，揭示了准确感知是可靠检测的基础但幻觉会严重破坏决策的三方耦合关系。
Understanding and Mitigating Hallucinations in Multimodal Chain-of-Thought Models: 本文系统分析了多模态 CoT 模型中幻觉的成因，发现模型在凭联想自由发挥的推理步骤（论文称之为"发散思维" divergent thinking）中最易产生幻觉，并提出基于视觉熵的免训练检测+解码干预策略，在 Object HalBench 上将 CHAIRS 降低超过 30%，同时保持甚至提升通用推理能力。
Understanding the Role of Hallucination in Reinforcement Post-Training of Multimodal Reasoning Models: 本文提出 Hallucination-as-Cue 分析框架，通过三种模态特定腐蚀策略（空白图像、随机图像、文本移除）系统研究 RL 后训练对多模态推理模型的真实作用机制，发现即使在 100% 腐蚀视觉输入下 GRPO 训练仍能显著提升推理性能，挑战了"RL 训练能有效利用视觉信息"的主流假设。
VES-RFT: Rewarding Visual Evidence Sensitivity to Mitigate Hallucinations in Large Vision-Language Models: VES-RFT 把"给图前后模型决策熵的变化"定义成一个免标注的视觉证据敏感度（VES）奖励，再配上一个自动核对生成物体是否真在图里的可验证奖励，用 critic-free 的 GRPO 联合优化，让 VLM 学会"因为看了图而自信"而不是"靠语言先验瞎自信"，在 POPE / CHAIR / AMBER 上用极少训练数据显著压低物体幻觉、且推理不增开销。
Zina: Multimodal Fine-grained Hallucination Detection and Editing: Zina 提出了多模态细粒度幻觉检测与编辑任务，设计了两阶段系统（detector MLLM + reviewer MLLM）将 token 复制委托给确定性函数以简化模型负担，同时构建了 VisionHall 数据集（6.9K 人工标注 + 20K 图结构合成数据），在检测 F1 上超过 GPT-4o 达 15.8 个点。