Distorted or Fabricated? A Survey on Hallucination in Video LLMs¶
会议: ACL 2026
arXiv: 2604.12944
代码: GitHub
领域: 幻觉检测
关键词: 视频LLM幻觉, 动态失真, 内容捏造, 时空推理, 多模态
一句话总结¶
本文首次对视频大语言模型(Vid-LLM)中的幻觉现象进行系统分类,提出"动态失真"(时空关系和引用一致性错误)和"内容捏造"(统计先验驱动和音视频冲突)的机制驱动分类体系,综述评估基准、缓解策略和根因分析。
研究背景与动机¶
领域现状:视频大语言模型在动作识别、时序推理等任务上取得进展,但幻觉问题——生成看似合理但与视频内容矛盾的输出——仍然普遍。图像 VLM 的幻觉已被广泛研究,但视频的时序结构、运动动态和音视频整合使问题更加复杂。
现有痛点:现有多模态幻觉综述(Sahoo et al., Bai et al.)仅简略提及视频幻觉,缺乏结构性或因果分析。图像幻觉的分类(对象、属性、关系)无法直接迁移到视频——视频特有的时序错误(如事件排序错误、动作频率误计)和跨段引用不一致需要专门的分类框架。
核心矛盾:视频幻觉的根因与图像不同——动态失真源于有限的时序表示能力,内容捏造源于不充分的视觉 grounding——但现有缓解策略大多从图像幻觉迁移而来,未针对视频特性设计。
本文目标:建立首个视频幻觉的机制驱动分类体系,综合评述评估基准和缓解方法,分析根因并指出未来方向。
切入角度:基于"可视化证据是否存在"这一判据划分两大类——动态失真(有视觉证据但时空关系被错误建模)vs 内容捏造(无视觉证据,输出由先验驱动)。
核心 idea:视频幻觉的二分法——Distorted(扭曲了存在的内容)vs Fabricated(捏造了不存在的内容)。
方法详解¶
整体框架¶
分类体系分两层四类: - 动态失真:(1)时空动态错误(事件排序、持续时间、频率);(2)引用不一致(角色混淆、场景混淆) - 内容捏造:(3)上下文驱动捏造(对象-动作共现先验、场景-事件先验);(4)音视频冲突(音频主导动作推断、音频主导情感推断)
关键设计¶
1. 机制驱动的分类体系:用"失败模式"而非"输入属性"做分类轴
视频幻觉若按视频长度、领域这类输入属性来分,会把结构相同的失败硬拆开。本文改以"可观察的失败机制"为轴,建立可操作的诊断框架:一级判据是"输出是否有对应的视觉证据",二级判据是"错误机制"。它给出一份决策清单(Figure 3)——输出是否有对应的视觉证据?有的话再查时空关系是否正确、时空正确但引用一致性是否出错;没有视觉证据则进一步判断是先验驱动还是音频驱动。因为同一种失败模式可以跨越不同输入设置出现,按失败机制分类才能把它们归到一起,让诊断真正落到可操作的判据上。
2. 根因分析与未来方向映射:让缓解策略对准根因而非症状
现有缓解策略大多从图像幻觉直接迁移,并未对准视频特有的根因。本文把每类幻觉与其根本原因对应起来:动态失真的根因是有限的时序编码(缺乏细粒度运动线索)外加长视频中的弱长程记忆和差时序定位;内容捏造的根因是不充分的视觉 grounding,使得预训练先验或主导音频信号盖过了视觉证据。由此推出对齐根因的方向——对动态失真应加强时序表示(如运动感知视觉编码器),对内容捏造应加强视觉 grounding(如反事实训练策略),避免"症状不对症下药"。
3. 评估基准的系统化综述:按幻觉类型重组散落的 benchmark,暴露覆盖空白
现有 benchmark 散落各处、口径不一,研究者很难快速找到匹配自己方向的评测。本文把 15+ 个 benchmark 按四种幻觉类型(时空动态、引用不一致、上下文捏造、音视频冲突)重新组织,并为每个 benchmark 标注视频长度、领域、评估格式、是否含专门基线和 SOTA 性能。这样组织之后,覆盖空白一目了然——例如音视频冲突这一类只有 3 个 benchmark,直接指向了一个被严重忽视的研究方向。
损失函数 / 训练策略¶
本文是综述论文,不涉及具体模型训练。
实验关键数据¶
主实验¶
| 幻觉类型 | 代表 Benchmark | SOTA 性能 | 说明 |
|---|---|---|---|
| 时空动态 | VidHalluc (CVPR'25) | GPT-4o: 81.2% | 动作顺序/持续时间 |
| 时空动态 | HAVEN | Valley-Eagle: 61.3% | 频率误计 |
| 引用不一致 | EGOILLUSION (EMNLP'25) | Gemini-Pro: 59.4% | 角色混淆 |
| 引用不一致 | ELV-Halluc | Gemini2.5-Flash: 53.1% | 长视频场景混淆 |
| 上下文捏造 | FactVC (EMNLP'23) | - | 对象-动作共现先验 |
| 音视频冲突 | - | - | benchmark 最少的类型 |
消融实验¶
本文为综述,无消融实验。
关键发现¶
- 时空动态错误在短视频中已很普遍,长视频中问题更严重(引用不一致和长程记忆失败)
- 内容捏造的根因是预训练阶段的统计先验过强——即使视觉输入不支持,模型仍会基于共现统计生成输出
- 音视频冲突是最被忽视的类型,benchmark 和缓解策略都极少
- SOTA 模型(如 GPT-4o)在最好的 benchmark 上也仅 ~80%,说明视频幻觉远未解决
亮点与洞察¶
- Distorted vs Fabricated 的二分法简洁有力——直接对应到"有证据但推理错误"和"无证据但先验补脑"两种根本不同的失败模式
- 综述结构清晰,从分类→评估→缓解→根因→未来方向的逻辑链条完整
- 指出音视频冲突是未来重要方向——随着多模态模型整合更多模态,跨模态冲突解决将越来越关键
局限与展望¶
- 综述聚焦于幻觉的"检测和分类",对"为什么 Transformer 在时序编码上弱"的机制分析不够深入
- 缺乏对不同缓解策略的定量对比
- 分类体系的可操作性有待实际标注实验验证
- 音视频冲突部分文献较少,讨论深度有限
相关工作与启发¶
- vs 图像 VLM 幻觉综述: 图像幻觉关注对象/属性/关系错误,本文关注视频特有的时序和跨模态错误
- vs MLLM 幻觉综述 (Sahoo et al.): 他们仅简略提及视频,本文做了深入的分类和根因分析
- vs 特定 benchmark 论文: 本文将散落的 benchmark 统一到一个分类框架中
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个视频幻觉专题综述,分类体系清晰
- 实验充分度: ⭐⭐⭐ 综述论文无实验,但 benchmark 覆盖全面
- 写作质量: ⭐⭐⭐⭐⭐ 结构层次分明,决策清单设计实用