跳转至

👻 幻觉检测

💬 ACL2025 · 28 篇论文解读

📌 同领域跨会议浏览: 🧪 ICML2026 (19) · 💬 ACL2026 (27) · 📷 CVPR2026 (18) · 🔬 ICLR2026 (9) · 🤖 AAAI2026 (15) · 🧠 NeurIPS2025 (17)

🔥 高频主题: LLM ×11 · 多模态 ×6 · RAG ×3 · 对齐/RLHF ×2

Activation Steering Decoding: Mitigating Hallucination in Large Vision-Language Models through Bidirectional Hidden State Intervention

本文提出 ASD(Activation Steering Decoding),一种无需训练的推理时幻觉缓解方法,通过在 LVLM 的中间隐藏状态中识别幻觉方向模式,利用双向引导和对比解码来抑制幻觉输出,同时保持模型在通用视觉理解任务上的性能。

Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering

提出NOVA框架,通过内部一致性探测(ICP)衡量LLM对指令的熟悉度+语义等价识别(SEI)衡量LLM对目标回复的熟悉度,筛选出知识对齐的高质量指令数据,仅用5%数据微调LLaMA-3-8B即可在BioGEN上提升8.6分、FollowRAG上提升7.2分,同时保持指令遵循能力。

Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning

本文针对LLM中因知识错位(模型参数知识与事实不一致)导致的幻觉问题,提出选择性弃权学习(Selective Abstention Learning)方法,让模型在遇到知识边界外的问题时学会主动拒绝回答而非编造内容,从而减少幻觉。

Automated Explanation Generation and Hallucination Detection for Heritage Image Retrieval

本文针对文化遗产图像检索任务,提出了一个结合自动解释生成和幻觉检测的框架,利用视觉语言模型为检索结果生成可解释的文本描述,同时通过领域知识约束的幻觉检测机制确保描述的事实准确性,在多个文化遗产数据集上验证了方法的有效性。

CCHall: A Novel Benchmark for Joint Cross-Lingual and Cross-Modal Hallucinations Detection in Large Language Models

提出首个联合跨语言与跨模态幻觉检测基准 CCHall,覆盖 9 种语言和 4 类多模态数据集,系统评估 6 款主流 MLLM 在联合场景下的幻觉表现,揭示当前模型在该联合场景中 F1 比单独跨模态低 10.9、比单独跨语言低 3.4,且提出多语提示和外部工具辅助两条缓解路径。

Correcting Hallucinations in News Summaries: Exploration of Self-Correcting LLM Methods with External Knowledge

系统性地探究了两种自纠正方法(CoVE 和 RARR)在新闻摘要幻觉纠正中的表现,比较了三种搜索引擎、多种检索设置和提示策略,发现 Bing 搜索片段 + RARR(few-shot)组合效果最佳,且 G-Eval 与人类评估高度一致。

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

提出 VHD 指标量化每个注意力头输出对视觉输入的敏感程度,发现仅少数注意力头对视觉信息高度敏感而模型过度依赖语言先验是导致幻觉的关键因素,进而设计 VHR 免训练方法逐层自适应增强视觉感知头的贡献(\(\alpha=2\)),在 CHAIR 上将 LLaVA-1.5 的 CHAIR\(_S\) 从 49.68 降至 33.32,且几乎无额外推理开销。

DRAG: Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination

DRAG 提出了一种从大模型向小模型蒸馏 RAG 能力的框架:用大模型(如 GPT-4o)为给定问题生成证据和知识图谱三元组,经排序过滤后作为结构化上下文输入给小模型(2B-9B),无需微调即可将小模型在 ARC-C 上提升高达 27.7%,同时显著减少幻觉。

ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries

提出 Entity Tracing Framework (ETF),一种通过静态程序分析提取代码实体、再用 LLM 验证这些实体在生成摘要中是否被正确描述的幻觉检测框架,配合首创的 CodeSumEval 数据集(~10K样本),在代码摘要幻觉检测上达到 73% F1。

FIHA: Autonomous Fine-grained Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs

本文提出 FIHA,一个无需 LLM 和人工标注的自动化细粒度幻觉评估框架,通过从图像和描述中提取实体、属性和关系生成 Q&A 对,并引入 Davidson 场景图(DSG)建模问题间的依赖关系,构建了 FIHA-v1 基准,全面评估了主流大视觉语言模型的幻觉水平。

Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training

提出Sensitivity Dropout (SenD)训练协议,通过识别并确定性丢弃训练过程中波动最大的嵌入索引(Sensitive Embedding Indices),减少LLM训练中幻觉的振荡行为,同时提出高效EigenScore近似方法(EES)实现2倍加速。

HalluLens: LLM Hallucination Benchmark

提出了 HalluLens 幻觉基准,明确区分幻觉与事实性,建立了外在幻觉(与训练数据不一致)和内在幻觉(与输入上下文不一致)的清晰分类体系,引入三个动态可重生成的外在幻觉评估任务,并全面分析了现有基准的局限性。

HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

提出 HALoGEN——覆盖 9 个领域(含编程、科学引用、摘要等)的 10,923 条 prompt 的大规模幻觉评测框架,配套原子级自动验证器,在 14 个 LLM 的约 150,000 条生成上系统性评估幻觉,发现即使最佳模型也可能有高达 86% 的原子事实存在幻觉,并提出 Type A/B/C 三类错误分类法。

HD-NDEs: Neural Differential Equations for Hallucination Detection in LLMs

本文首次将神经微分方程(Neural DEs)应用于LLM幻觉检测,通过对隐空间中token激活的连续轨迹建模来系统评估陈述的真实性,在True-False数据集上AUC-ROC超过SOTA 14%以上。

ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs

提出 ICR Score(Information Contribution to Residual Stream),通过测量 MHSA 和 FFN 模块对隐状态更新的贡献一致性来量化残差流动态,构建仅 16K 参数的 ICR Probe,在 4 个数据集 × 3 个 LLM 上幻觉检测 AUROC 全面超越基线。

Beyond Facts: Evaluating Intent Hallucination in Large Language Models

本文提出"意图幻觉"(Intent Hallucination)概念——LLM 在处理复杂多条件查询时遗漏或误解部分意图约束导致的偏离用户意图的生成,构建 FaithQA 基准(20,068 题)和 Constraint Score 评估指标,实验表明意图幻觉在 SOTA 模型中普遍存在且随查询复杂度增加而加剧。

Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation

系统性地研究了开放域长文本生成中的无参考幻觉检测问题,发现 LLM 内部状态(概率/熵)不足以可靠区分事实与幻觉内容,并提出 RATE-FT(Rationale and Auxiliary Task Enhanced Fine-Tuning),通过引入推理解释和辅助 QA 任务增强微调,在 LongFact 上比普通微调提升 3% 以上。

Fine-grained Hallucination Detection and Mitigation in Long-form Question Answering

本文构建了首个包含 span 级别错误标注的 LFQA 幻觉数据集 HaluQuestQA(698 QA 对,4.7k 错误标注,5 种错误类型),训练了一个自动反馈模型来检测不完整信息的错误 span 并生成解释,最后提出 Error-informed Refinement 方法利用反馈信号精炼答案,将幻觉减少约 3%,且人类评估中 84% 的用户更偏好精炼后的答案。

Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucination in Multimodal LLMs

提出了 Mixture of Decoding (MoD),通过 JS 散度衡量模型对图像 token 注意力的正确性,在注意力正确时采用互补解码放大关键信息,注意力错误时采用对比解码抑制误导信息,从而自适应地缓解多模态大模型的幻觉问题。

Monitoring Decoding: Mitigating Hallucination via Evaluating the Factuality of Partial Response during Generation

提出 Monitoring Decoding (MD) 框架,在生成过程中动态监控部分响应的事实性,通过监控函数识别易产生幻觉的 token 并利用树搜索策略选择性地修正这些关键 token,从而在保持效率的同时显著提升事实准确性。

On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation

提出 RLFH(Reinforcement Learning for Hallucination),一种在策略(on-policy)自对齐方法,让 LLM 自己作为评判者,将回复分解为原子事实并进行真实性和信息量评估,生成 token 级别的密集奖励信号,通过在线 PPO 优化来有效缓解幻觉问题。

ReefKnot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models

提出首个系统性评估多模态大模型关系级幻觉的综合基准 Reefknot(含 2 万+ 样本、三种任务),并基于置信度熵检测提出 Detect-then-Calibrate 缓解策略,平均降低幻觉率 9.75%。

REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models

提出 REFIND 框架,通过计算每个 token 在有无检索文档条件下的生成概率之比(Context Sensitivity Ratio, CSR),实现对 LLM 输出中幻觉片段的高效检测,在 SemEval-2025 Task 3 的 9 种语言上显著超越基线。

Removal of Hallucination on Hallucination: Debate-Augmented RAG

DRAG(Debate-Augmented RAG)提出在RAG系统的检索和生成两个阶段均引入多智能体辩论(MAD)机制,通过正反方辩论+裁判仲裁的结构化流程,消除因错误检索导致的"幻觉传递幻觉"问题,在6个QA基准上显著提升事实准确性。

Retrieval Visual Contrastive Decoding to Mitigate Object Hallucinations in Large Vision-Language Models

提出 RVCD(Retrieval Visual Contrastive Decoding),通过检索 AI 生成的单概念显式图像构建正/负 logit 集合,在解码阶段抑制 LVLM 的物体幻觉(Object Hallucination),无需额外训练即可显著优于现有解码方法。

Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs

通过行为分析和机械可解释性实验揭示 LLM 无关上下文幻觉的内部机制:模型在底层构建抽象类别表示(如"语言"),然后两条竞争电路(query-based vs context-based)争夺特征选择权,相对激活强度决定正确泛化还是产生幻觉。

TreeCut: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation

提出 TreeCut,一种基于树结构的合成数据集生成方法,通过在树路径上移除必要条件边来系统性生成无穷多的不可回答数学应用题,用以评估 LLM 在面对不可解问题时的幻觉行为。

Visual Evidence Prompting Mitigates Hallucinations in Large Vision-Language Models

提出Visual Evidence Prompting (VEP),利用小型视觉专家模型(目标检测器、场景图生成器)的输出作为文本化"视觉证据"输入LVLM,无需训练即可在11个LVLM上显著降低幻觉——LLaVA-1.5在POPE上提升7.2%、Claude 3上提升12.1%。