Verb Mirage: Unveiling and Assessing Verb Concept Hallucinations in Multimodal Large Language Models¶
会议: AAAI 2026
arXiv: 2412.04939
代码: github
领域: 多模态VLM
关键词: 动词幻觉, MLLM, 幻觉评测, 动作理解, 细粒度评估
一句话总结¶
首次系统研究多模态大语言模型(MLLM)中的动词概念幻觉问题,构建了多维度基准测试,发现现有幻觉缓解方法对动词幻觉无效,并提出基于丰富动词知识微调的基线方法,显著缓解动词幻觉。
研究背景与动机¶
多模态大语言模型(MLLMs)在OCR、VQA、图像描述等任务上取得了显著进展,但幻觉问题一直是制约其可靠性的核心瓶颈。现有的幻觉研究和缓解方法几乎全部集中在物体/名词概念的幻觉上,例如POPE基准测试物体是否存在、CHAIR评估描述中的物体幻觉等。
然而,动词概念对于理解人类行为至关重要——我们不仅需要知道图中有什么物体,更需要理解这些物体之间发生了什么动作。但动词幻觉长期被忽视,主要原因包括:
数据集偏差:常用MLLM预训练数据中,名词数量是动词的4-10倍(如图4(a)所示),导致模型对名词理解远好于动词
评测空白:没有专门针对动词幻觉的评测基准
直觉误区:人们认为解决了物体幻觉,动词幻觉也就迎刃而解——但本文证明这是错误的
本文的核心切入点:动词幻觉与物体幻觉是本质不同的问题。物体幻觉的缓解方法对动词幻觉无效,甚至会加重幻觉。这一发现揭示了MLLM在语义理解上的深层缺陷。
方法详解¶
整体框架¶
本文的工作主要分为三个部分:(1) 构建动词幻觉评测基准;(2) 从多维度探测和分析动词幻觉现象;(3) 提出基于动词知识微调的基线缓解方法。
关键设计¶
1. 多维度动词幻觉基准构建¶
基于HICO和CharadesEgo数据集,构建了首个动词幻觉评测基准,无需额外人工标注。基准涵盖两种问题格式:
- 是/否(YN)问题:如"图中是否有人在拿着杯子?"
- 多选(MC)问题:给定一个正确动词和三个干扰动词,采用circular evaluation
核心设计思路是:改变动词而保持物体不变,从而隔离动词幻觉与物体幻觉。例如,如果图中有人拿着杯子,可以问"有人在拿杯子吗?有人在洗杯子吗?"
2. 多角度探测设计¶
从三个维度系统探测动词幻觉:
(a) 查询条件探测: - 问题格式:MQ vs YN,发现模型在MC上表现更好但仍有大量幻觉 - 物体关联:对比"有人在拿杯子吗"vs"有人在拿东西吗",发现MLLMs严重依赖物体参考来理解动词
(b) 图像条件探测: - 图像质量:添加椒盐噪声(75%像素受影响),发现视觉失真对动词理解的影响远大于对物体理解的影响(Cohen's Kappa一致性差异显著) - 视角差异:使用CharadesEgo对比第一人称(ego)与第三人称(exo)视角,发现MLLM在第一人称视角下动词理解能力显著下降
(c) 语义条件探测: - 稀有vs常见动词:模型倾向于拒绝存在的稀有动词、接受不存在的常见动词 - 内容模糊性:在拥挤、遮挡、人物-物体尺寸不平衡的场景中,动词幻觉更严重
3. 模型行为深度分析¶
以LLaVA V1.5为例,从视觉-语言交互和token不确定性两个角度分析动词幻觉的根源:
- 关键图像区域注意力:幻觉时模型对关键区域注意力较低,但差距不大——即使注意力正确,也无法保证理解动词语义
- 视觉token注意力:与物体幻觉不同,更多关注视觉token并不能排除动词幻觉(这解释了OPERA方法失效的原因)
- token不确定性:幻觉答案通常以低概率给出,且模型倾向于高置信度回答"Yes"
- mAP vs Acc分析:LLaVA V1.5虽然准确率低(52.16),但mAP(68.41)超过HICO微调的CLIP(60.45),说明动词幻觉的一个来源是token校准错误而非完全不理解动词
损失函数 / 训练策略¶
基线缓解方法采用LoRA微调LLaVA V1.5,使用Pangea数据集中的60K样本构建指令微调数据集。Pangea组织了异构动作数据集,建立了从动作标签到VerbNet中290个抽象动词节点的映射,覆盖280/290个动词节点,涵盖广泛的动词语义。
实验关键数据¶
主实验¶
各模型在YN和MC任务上的动词幻觉表现:
| 模型 | YN+obj acc | YN+obj prec | YN+obj recall | MC+obj acc | MC verb-only acc |
|---|---|---|---|---|---|
| Qwen2-VL-7B | 75.51 | 58.37 | 93.75 | 71.47 | 65.31 |
| MiniCPM-Llama3-V2.5 | 80.91 | 66.83 | 85.41 | 66.39 | 60.77 |
| LLaVA V1.5 | 52.16 | 40.99 | 97.35 | 57.37 | 51.00 |
| Molmo-7B-D | 59.16 | 44.91 | 96.63 | 60.64 | 56.78 |
关键发现:所有模型recall极高(85-97%)但precision极低(40-67%),说明模型倾向于无论动词是否存在都回答"Yes"。
缓解方法对比(以LLaVA V1.5为基准):
| 方法 | YN+obj acc | YN+obj F1 | MC+obj acc | MC verb-only acc |
|---|---|---|---|---|
| LLaVA V1.5 | 52.16 | 57.69 | 57.37 | 51.00 |
| OPERA | 42.46 | 53.69 | 57.28 | 51.13 |
| VCD | 52.38 | 58.04 | 54.26 | 48.94 |
| Haloquest | 70.57 | 64.89 | 55.20 | 47.45 |
| Ours (Pangea FT) | 78.48 | 68.13 | 61.73 | 60.79 |
消融实验¶
| 配置 | YN+obj acc | MC verb-only acc | 说明 |
|---|---|---|---|
| OPERA | 42.46 | 51.13 | 惩罚summary token注意力,反而恶化 |
| VCD | 52.38 | 48.94 | 语言先验无法被轻易移除(18.6K/20K样本KL=0) |
| Nullu | 51.99 | 53.17 | 模型层未形成可靠的动词真值/幻觉区分 |
| REVERIE | 40.67 | 41.32 | 训练集缺乏动词知识 |
| Ours | 78.48 | 60.79 | 丰富动词知识微调有效 |
图像质量影响消融:
| 模型 | YN无噪声 acc | YN有噪声 acc | 错误一致性(Cohen's κ) |
|---|---|---|---|
| MiniCPM | 79.14 | 67.40 | 26.12(差) |
| Qwen-VL-Chat | 79.24 | 66.64 | 38.47(中) |
| LLaVA V1.5 | 59.16 | 51.29 | 73.85(好但基础差) |
关键发现¶
- 动词幻觉普遍且严重:所有SOTA MLLM在动词理解上都表现不佳,即使它们在物体幻觉基准(POPE)上得分很高
- 动词理解严重依赖物体参考:去掉物体后MC准确率大幅下降
- 现有物体幻觉缓解方法对动词幻觉无效:OPERA、VCD、Nullu等方法全部失败
- 模型共享相似偏差:集成三个模型也无法显著改善
- 动词幻觉源于token校准错误而非完全不理解:mAP高但accuracy低
- 视觉失真对动词理解的影响远大于物体理解
亮点与洞察¶
- 问题定义有开创性:首次将动词幻觉从物体幻觉中独立出来研究,填补了重要空白
- 评测维度全面:从查询条件、图像条件、语义条件、模型行为四个维度系统分析,实验设计严谨
- 深层洞察有价值:发现"更多视觉注意力≠更少动词幻觉"颠覆了OPERA等方法的核心假设
- mAP与accuracy的对比分析揭示了幻觉的真正来源是校准问题,为未来研究指明了方向
- Pangea微调实验证明丰富动词知识可以缓解幻觉,且不严重影响其他能力
局限与展望¶
- 提出的缓解方法是baseline水平,性能远未令人满意(MC verb-only acc仅60.79%)
- 是否存在有效的training-free动词幻觉方法仍是开放问题
- 评测仅限于静态图像场景,未涉及视频中的动词理解
- 仅测试了开源7B级别模型,未充分测试更大规模模型
- 微调数据仅60K样本,可能通过更大规模、更多样化的动词数据获得更好效果
相关工作与启发¶
- POPE (Li et al., 2023):物体幻觉评测先驱,本文将其扩展到动词概念
- OPERA (Huang et al., 2024):通过惩罚summary token注意力缓解幻觉,本文证明其对动词无效
- VCD (Leng et al., 2024):对比解码方法,发现语言先验在动词理解中根深蒂固
- Pangea (Li et al., 2024):统一异构动作数据集,提供丰富动词知识
- 启发:未来可以将动词幻觉评测纳入MLLM的标准评估体系;动词理解需要专门的数据和训练策略
评分¶
- 新颖性: ⭐⭐⭐⭐⭐(首次定义并系统研究动词幻觉问题)
- 实验充分度: ⭐⭐⭐⭐⭐(多维度、多模型、多条件的全面评测)
- 写作质量: ⭐⭐⭐⭐(逻辑清晰,但篇幅较长)
- 价值: ⭐⭐⭐⭐⭐(揭示了MLLM的重要盲区,对社区有重要警示作用)