跳转至

👻 幻觉检测

💬 ACL2026 · 27 篇论文解读

📌 同领域跨会议浏览: 🧪 ICML2026 (19) · 📷 CVPR2026 (18) · 🔬 ICLR2026 (9) · 🤖 AAAI2026 (15) · 🧠 NeurIPS2025 (17) · 📹 ICCV2025 (5)

🔥 高频主题: LLM ×7 · 多模态 ×4 · 语音 ×3 · RAG ×3

Aligning with Your Own Voice: Self-Corrected Preference Learning for Hallucination Mitigation in LVLMs

提出 AVES-DPO 框架:用一致性多模型验证(YOLO/GroundingDINO/Qwen3-VL)在 object/attribute/relation 三层细粒度检测 LVLM 自己生成回复中的幻觉,再让同一个 LVLM 自我校正并丰富细节,得到的偏好对天然处于目标模型的"自身分布"内;仅 5.2K 样本即可在多个幻觉 benchmark 上超过依赖 GPT-4V 教师的 SOTA(数据效率约 25×)。

Benchmarking Deflection and Hallucination in Large Vision-Language Models

提出 VLM-DeflectionBench,一个包含 2775 个样本的多模态基准,通过四种评估场景(参数化/Oracle/现实/对抗)系统性地评估大型视觉语言模型在证据不足或误导时的拒答(deflection)vs 幻觉(hallucination)行为,实验覆盖 20 个 SOTA LVLM,发现几乎所有模型都无法在噪声证据下可靠拒答。

Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps

提出四种基于音频注意力的指标(AudioRatio、AudioConsistency、AudioEntropy、TextEntropy),训练轻量级逻辑回归分类器在推理时检测语音大模型(SpeechLLM)的幻觉,在域内数据上 PR-AUC 提升最高达 +0.23。

Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate

提出 Dialectic-Med,一个受波普尔证伪主义启发的多智能体医学诊断框架,通过提议者(诊断假设)、反对者(视觉证伪模块主动检索矛盾视觉证据)和调解者(加权共识图决策)的对抗辩证推理,在 MIMIC-CXR-VQA、VQA-RAD 和 PathVQA 上取得 SOTA,解释忠实度提升 12.5%,显著缓解诊断幻觉。

Distorted or Fabricated? A Survey on Hallucination in Video LLMs

本文首次对视频大语言模型(Vid-LLM)中的幻觉现象进行系统分类,提出"动态失真"(时空关系和引用一致性错误)和"内容捏造"(统计先验驱动和音视频冲突)的机制驱动分类体系,综述评估基准、缓解策略和根因分析。

Enhancing Hallucination Detection via Future Context

本文提出利用采样生成的"未来上下文"(后续句子)来增强黑盒场景下的幻觉检测,利用幻觉一旦出现就倾向于持续传播的"滚雪球效应",在 SelfCheckGPT 和 SC 等多种采样方法上一致提升检测性能。

FaithLens: Detecting and Explaining Faithfulness Hallucination

本文提出 FaithLens,一个 8B 参数的忠实性幻觉检测模型,通过高质量数据合成+三维过滤(标签正确性、解释质量、数据多样性)进行冷启动 SFT,再用基于规则的强化学习(预测正确性奖励+解释质量奖励)进一步优化,在 12 个任务上超越 GPT-5.2 和 o3,同时提供高质量的解释性输出。

FinGround: Detecting and Grounding Financial Hallucinations via Atomic Claim Verification

FinGround 是一个面向金融文档问答的三阶段 "verify-then-ground" pipeline:(1) finance-aware 混合检索;(2) 把答案拆成原子 claim 并按"数值/时间/实体属性/比较/监管/计算"六类 taxonomy 用 type-routed 策略验证 (其中 computational claim 用公式重构 + 算术再校验);(3) 对未支持的 claim 进行 grounded 重写并加段/单元格级引用——把 GPT-4o 蒸馏到 8B 检测器实现 91.4% F1、18× 加速,端到端将 hallucination rate 相比 GPT-4o+CoT 降 78%。

Generating Effective CoT Traces for Mitigating Causal Hallucination

本文首先提出了因果幻觉率(CHR)指标来量化小型 LLM 在事件因果识别中过度预测因果关系的倾向,然后通过系统实验确定了有效 CoT 数据的两个关键标准(充分长度的语义解释+与目标模型对齐的分布),设计了一套低成本的 CoT 数据生成管线,将 Qwen2.5-1.5B 的 CHR 从 83.54% 降至 6.26%,同时提升平均准确率至 66.00%。

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

本文提出 HalluAudio,首个大规模跨领域(语音/环境声/音乐)的音频幻觉检测基准,包含 5000+ 人工验证的 QA 对和系统化的对抗性提示设计,通过多维指标(准确率/幻觉率/Yes-No偏差/拒绝率/错误类型)评估主流 LALM,揭示了当前模型在声学锚定、时间推理和音乐属性理解方面的显著缺陷。

Hallucination Detection in LLMs with Topological Divergence on Attention Graphs

TOHA 把 LLM 的 attention 矩阵当成带权图,用拓扑数据分析里的 Manifold Topology Divergence 度量「response 子图相对 prompt 子图的拓扑新颖度」,并发现存在跨数据集稳定的「幻觉感知头」——只用 10 个这样的头做平均,就能在 RAG 场景下做到 training-free + 比 SelfCheckGPT 快 70× 且 ROC-AUC 显著领先。

Logical Consistency as a Bridge: Improving LLM Hallucination Detection via Label Constraint Modeling between Responses and Self-Judgments

把 LLM 的 self-judgment ("它觉得自己刚才答对了没") 也当成一个可能幻觉的 generation,先用 intrinsic feature 训一个 "meta-judgment detector" 估它的可信度,再用"如果 self-judgment 说真→两标签相同/说假→两标签相反"这条天然逻辑规则,把 response detector 和 meta-judgment detector 通过 Huber loss 互相约束、用置信度加权的互学习联合训练;推理时只用 response detector 但已经吸收了 self-judgment 的知识,零额外推理成本就拿到双视角增益。

Lost in Diffusion: Uncovering Hallucination Patterns and Failure Modes in Diffusion Large Language Models

首次系统性地对比扩散大语言模型(dLLM)与自回归(AR)对应模型的幻觉模式,揭示当前 dLLM 幻觉倾向更高,并识别出三种扩散特有的失败模式:过早终止、不完全去噪和上下文入侵。

MeasHalu: Mitigation of Scientific Measurement Hallucinations for LLMs

本文提出MeasHalu框架,通过细粒度测量幻觉分类法和两阶段优化(推理感知SFT+幻觉靶向GRPO奖励)缓解LLM在科学测量抽取中的幻觉,在MeasEval上显著超越基线。

Mechanisms of Prompt-Induced Hallucination in Vision–Language Models

在受控的目标计数任务里把"模型听 prompt 不看图"的幻觉行为定位到 LLaVA-OneVision / Qwen-VL / Janus-Pro 早期层 (主要是 L0-1) 的 3-10 个 attention head,对它们做 mean ablation 不需要任何再训练就让 prompt-following 从 42–64% 掉到 <11%,把真实计数恢复率推到 70–78%,并能 zero-shot 迁移到颜色识别任务 (PIH 抑制 40–95%)。

Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation

本文提出 MPD 框架,通过语义感知正交子空间投影分离幻觉成分,并仅选择性更新与幻觉最相关的少量参数,在减少 23.4% 幻觉的同时保持 97.4% 的通用生成能力,不引入额外推理开销。

MultiHaluDet: Multilingual Hallucination Detection via LLM Hidden State Probing

MultiHaluDet 用冻结 LLM 的全层隐状态轨迹做多尺度序列建模,再通过 out-of-fold 表征和集成元学习器判别幻觉,在 HaluEval / TriviaQA 上达到约 98% AUROC,并能迁移到法语、孟加拉语和阿姆哈拉语。

Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights

本文重新定义了 RAG 场景幻觉检测 benchmark 应具备的 7 条要求,构建了长上下文、人类多轮标注且带真实噪声标签的 Trivia++,并发现现有检测器在有机 RAG 幻觉上仍明显低于理想性能。

Spotlight and Shadow: Attention-Guided Dual-Anchor Introspective Decoding for MLLM Hallucination Mitigation

提出 DaID (Dual-Anchor Introspective Decoding),通过挖掘 MLLM 内部不同层的视觉感知差异——Spotlight 层放大视觉信号、Shadow 层抑制语言惯性——在单次前向传播内实现幻觉缓解。

Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented Generation

揭示 RAG 系统对检索文档排列顺序高度敏感的问题,提出 Stable-RAG:通过对文档排列产生的隐状态做谱聚类识别主导推理模式,再用 DPO 对齐将幻觉输出引导向正确答案,在三个 QA 数据集上实现准确率和推理一致性的双重提升。

The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination

系统性揭示了"推理陷阱"悖论:增强LLM推理能力(无论通过RL、蒸馏还是可切换推理模式)会系统性地放大工具幻觉,且这一效应与推理本身而非RL训练相关联,现有缓解策略(提示工程、DPO)面临不可避免的可靠性-能力权衡。

Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding

本文提出 Perception Magnifier (PM),一种视觉解码方法,在每个自回归解码步基于多层注意力迭代识别关键视觉区域并自适应放大,通过提升关键区域的有效分辨率来缓解 VLM 的视觉幻觉,同时保持空间结构完整性和推理能力。

TPA: Next Token Probability Attribution for Detecting Hallucinations in RAG

本文提出 TPA 框架,通过数学方法将 LLM 每个 token 的生成概率精确分解为七个来源(Query、RAG Context、Past Token、Self Token、FFN、Final LayerNorm、Initial Embedding)的贡献,结合词性标注聚合特征,实现 RAG 场景下的 SOTA 幻觉检测。

Two Pathways to Truthfulness: On the Intrinsic Encoding of LLM Hallucinations

本文发现 LLM 内部编码真实性信号存在两条不同的信息通路:Question-Anchored(依赖问题到回答的信息流)和 Answer-Anchored(从生成答案本身提取自包含证据),两者与知识边界紧密关联,并据此提出 Mixture-of-Probes 和 Pathway Reweighting 两种通路感知的幻觉检测方法,AUC 提升达 10%。

Understanding New-Knowledge-Induced Factual Hallucinations in LLMs: Analysis and Interpretation

本文通过受控合成数据集 Biography-Reasoning 系统分析了 SFT 阶段学习新知识导致的事实幻觉现象,发现幻觉的根本机制是模型对关键实体的注意力被削弱,并提出 KnownPatch——在训练末期注入少量已知知识来恢复注意力模式,有效缓解幻觉。

Vocabulary Hijacking in LVLMs: Unveiling Critical Attention Heads by Excluding Inert Tokens to Mitigate Hallucination

本文发现 LVLM 中部分无效视觉 token 会稳定解码到一组无关词并劫持注意力,进而提出 HABI 定位这些 token、用 NHAR 找到可靠视觉头,再通过 HAVAE 在推理时增强这些头以降低幻觉。

为什么 LLM 在结构化知识上产生幻觉:推理过程的机制分析

论文通过两个机制指标(结构捷径依赖 SSR 和语义对齐分数 SAS)揭示 LLM 在处理线性化结构化知识时产生幻觉的内部失败机制,并基于这些信号构建了一个轻量级的幻觉检测器。