NeurIPS2025 幻觉检测论文解读论文笔记多模态 LLM 推理对齐/RLHF 对抗鲁棒

👻 幻觉检测¶

🧠 NeurIPS2025 · 17 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (33) · 🔬 ICLR2026 (40) · 💬 ACL2026 (28) · 🧪 ICML2026 (21) · 🤖 AAAI2026 (15) · 📹 ICCV2025 (5)

🔥 高频主题： 多模态 ×6 · LLM ×4 · 推理 ×3 · 对齐/RLHF ×2 · 对抗鲁棒 ×2

Auditing Meta-Cognitive Hallucinations in Reasoning Large Language Models: 系统性审计推理大模型（RLLM）中幻觉的产生与传播机制，发现长 CoT 中的反思（reflection）会通过元认知偏差放大幻觉而非纠正它，即使在幻觉源头进行干预也难以改变最终结果（chain disloyalty），揭示现有幻觉检测方法在多步推理场景下严重不足。
Benford's Curse: Tracing Digit Bias to Numerical Hallucination in LLMs: 本文发现 LLM 的数值幻觉根源于预训练语料中符合 Benford 定律的数字频率分布——数字 1 出现概率 ~30% 而数字 9 仅 ~5%，这种偏差被 FFN 后期层的特定"数字选择性神经元"内化，提出数字选择性分数（DSC）定位偏差神经元并通过剪枝 0.01% 的神经元修正 1.36-3.49% 的错误预测。
Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT: 将LLM的全部隐层激活组织为"激活张量"（层×token×隐维度），类比图像用ViT处理，设计ACT-ViT架构支持跨LLM联合训练，在15个LLM-数据集组合上一致超越传统probing方法，并展现出对未见数据集和未见LLM的强零样本/少样本迁移能力。
Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models: 揭示 MLLM 中物体幻觉的表示层根因——数据集共现偏差导致的语义纠缠，提出双路因果解纠缠框架（Causal-Driven Projector + Causal Intervention Module），通过后门调整在 projector 和最终 Transformer 层分离共现物体表示，使 MME-Perception 提升 22.6%。
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers: 本文论证 LLM 的泛化能力和幻觉产生源于同一机制——脱语境推理（OCR），并在单层注意力模型上理论证明：分解参数化 \((W_O, W_V)\) 因梯度下降的核范数隐式偏差而能执行 OCR，而合并参数化 \(W_{OV}\) 因 Frobenius 范数偏差而不能，且 OCR 是样本高效的（仅需 \(m_{\text{train}}>0\)）。
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling: 提出REVERSE框架，首次将生成调整和事后验证统一到单个VLM中：通过1.3M半合成样本的幻觉感知训练+推理时回溯重采样，使VLM能在生成过程中自动检测并修正幻觉，在CHAIR-MSCOCO上降低12%、HaloQuest上提升34%。
GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity: 提出GLSim，一种无训练的LVLM物体幻觉检测方法，通过融合全局场景相似度（物体token与最后instruction token的余弦相似度）和局部视觉定位相似度（物体token与Visual Logit Lens定位的Top-K图像patch的余弦相似度），在MSCOCO上以83.7% AUROC超越SVAR 9%、Internal Confidence 10.8%。
Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation: 提出将文本到图像（T2I）模型中的幻觉定义为偏差驱动的偏离，建立了包含属性、关系和物体三类幻觉的分类学，并论证幻觉评估作为提示对齐评估的"上界"，可揭示模型隐藏偏差。
Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats: 提出 AllPath，一个基于 Transformer 因果架构的多路径幻觉干预框架，首次发现 LVLM 的幻觉不来自单一因果路径而是 image-to-input-text、image-to-output-text、text-to-text 三条路径的交互，并且模型会根据问答对齐格式自适应选择不同路径；通过为每条路径设计轻量级关键 head 识别方法并自适应干预，在 POPE、MCQ-POPE、CHAIR、MME 四个不同格式 benchmark 上一致降低幻觉。
Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization: 提出 SymMPO（对称多模态偏好优化），通过对比图像的对称配对偏好学习和偏好边际一致性正则化，解决了现有视觉增强型 DPO 方法中目标函数不严格和间接偏好监督两大局限，在五个幻觉评测基准上取得了一致的性能提升。
Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models: 揭示了RL训练的推理模型（如DeepSeek-R1）比非推理模型产生更多幻觉，从理论上分析了三个根因（高方差梯度、熵约束、伪局部最优），并提出FSPO算法通过步级事实性验证调整token级advantage，在减少幻觉的同时保持甚至提升推理能力。
Robust Hallucination Detection in LLMs via Adaptive Token Selection: HaMI 将幻觉检测建模为多示例学习（MIL）问题，将生成序列视为 token 实例的"bag"，通过联合优化 token 选择和幻觉检测来自适应地定位最具指示性的 token，在四个 QA 基准上以 AUROC 大幅超越所有现有方法（最高提升 11.9%）。
SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations: 提出 SECA（Semantically Equivalent and Coherent Attacks），通过保持语义等价和语义连贯性的现实主义提示修改来诱发 LLM 幻觉，在多选 QA 任务上实现更高攻击成功率且几乎无语义错误。
Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models: 针对多模态大模型在退化文档场景下的OCR幻觉问题，提出首个退化文档幻觉评测基准KIE-HVQA，并设计基于GRPO的多目标奖励强化学习框架，在7B参数模型上实现比GPT-4o高约28%的幻觉抑制准确率提升。
Systematic Reward Gap Optimization for Mitigating VLM Hallucinations: 提出 Topic-level Preference Rewriting（TPR），通过 topic 级别的细粒度语义控制系统性优化偏好数据中的 reward gap 配置，结合课程学习策略逐步提高负样本难度，在多个幻觉基准上实现约 93% 的幻觉减少。
Teaming LLMs to Detect and Mitigate Hallucinations: 将单模型一致性方法（Self-Consistency + Semantic Entropy）推广到多个异构 LLM 的"联盟"设置，通过聚合不同训练背景的模型响应来打破单模型一致性幻觉，在 15 个 LLM 组成的模型池中评估大量联盟组合，发现匹配的强模型联盟在 92% 的情况下超越最强单模型基线，同时推理成本更低。
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations: 发现大多模态模型（LMMs）在场景文字识别中存在"语义幻觉"问题（将无语义文本误识为语义合理的词），分析发现注意力集中于文本区域的Transformer层更不易幻觉，据此提出训练无关的ZoomText+Grounded Layer Correction框架，在TextHalu-Bench上提升约4-5%，在ST-VQA上提升约4%。