Vocabulary Hijacking in LVLMs: Unveiling Critical Attention Heads by Excluding Inert Tokens to Mitigate Hallucination¶
会议: ACL2026
arXiv: 2605.10622
代码: https://github.com/lab-klc/HAVAE
领域: interpretability
关键词: LVLM幻觉, 注意力头解释, Logit Lens, Vocabulary Hijacking, 训练无关干预
一句话总结¶
本文发现 LVLM 中部分无效视觉 token 会稳定解码到一组无关词并劫持注意力,进而提出 HABI 定位这些 token、用 NHAR 找到可靠视觉头,再通过 HAVAE 在推理时增强这些头以降低幻觉。
研究背景与动机¶
领域现状:多模态大模型的幻觉缓解方法常围绕“让模型多看图”展开,例如对视觉注意力做干预、使用对比解码、做 activation steering,或在生成时增强图像 token 的影响。近期很多分析已经指出,幻觉和视觉 token 注意力不足或注意力异常有关。
现有痛点:问题不在于“是否应该干预注意力”,而在于“应该干预哪些注意力头、哪些视觉 token”。如果只增强总视觉注意力,很容易把注意力推向背景、冗余 patch 或 attention sink;如果用启发式挑头,又难以解释为什么这些头和事实 grounding 有关。
核心矛盾:LVLM 的视觉注意力并不天然等价于有效视觉证据。一些 token 得到大量注意力,却几乎不携带目标物体信息,反而把生成引向固定的、无意义的词汇锚点。现有方法缺少机制级诊断,因此可能同时放大有用注意力和噪声注意力。
本文目标:作者试图回答三个问题:视觉注意力异常的内部表征模式是什么;这些异常 token 如何与幻觉相关;能否不用训练、只在推理阶段选择并增强真正可靠的视觉注意力头。
切入角度:论文用 Logit Lens 观察视觉 token 在不同层的 hidden state 被投影到词表空间后“像什么词”。作者发现某些高注意力视觉 token 的跨层 trace 会反复落在固定无关词上,这不是普通背景 token,而是一种语义坍缩式的注意力劫持。
核心 idea:先识别会被固定词汇锚点劫持的 Inert Tokens,再排除这些 token 来寻找真正面向有效视觉内容的关键注意力头。
方法详解¶
整体框架¶
论文的方法链条分为“诊断”和“干预”两部分。诊断阶段先在 COCO 2014 validation 的 500 张图上,让 LLaVA-1.5、Shikra、MiniGPT-4、Qwen2-VL 等模型生成描述,并用 COCO 标注区分真实物体和幻觉物体。随后作者通过 Logit Lens 追踪视觉 token 在层间被解读成哪些词,定义 Vocabulary Hijacking、Hijacking Anchors 和 Inert Tokens。
在此基础上,论文构造两个注意力指标。HAR 衡量关键视觉头有多少注意力落在 Inert Tokens 上,用来证明 hijacking 与 hallucination 正相关;NHAR 则反过来只统计落在非 Inert 视觉 token 上的注意力,用来选出更可靠的 factual grounding heads。
干预阶段提出 HAVAE。它不更新模型参数,也不引入额外模型,只在推理时对 NHAR 排名前 \(K\) 的注意力头增强其面向视觉 token 的注意力。这样做的目标不是盲目提高所有视觉注意力,而是增强那些已经被诊断为“关注非劫持视觉内容”的头。
关键设计¶
-
HABI:用词汇锚点定位 Inert Tokens:
- 功能:从大量视觉 token 中找出那些高注意力但语义无效、容易劫持生成的 Inert Tokens。
- 核心思路:对每个视觉 token \(v_i\),用 Logit Lens 把它在各层的 hidden state 投影到词表,得到跨层词序列 Trace。若某个 token 的 Trace 被一个固定 Anchor 反复支配,并且这个 Anchor 在全局上频繁出现在高注意力 token 中,就给它高 hijacking score。作者把 Dominance、Frequency 和 Attention 三个维度相乘形成 \(S_{hijack}(v_i)\),再在词表级用 IQR outlier 阈值找 Hijacking Anchors。
- 设计动机:普通 attention sink 只说“某些 token 吸注意力”,但没解释它们内部表征在做什么。HABI 把注意力异常和词表空间中的语义坍缩联系起来,因此比简单按 attention magnitude 找背景 token 更具体。
-
HAR 与 NHAR:把异常注意力和关键头筛选分开:
- 功能:HAR 用于证明 hijacking 会导致幻觉,NHAR 用于选择真正有用的视觉注意力头。
- 核心思路:HAR 计算某个头落在 Inert Tokens 上的注意力占全部视觉注意力的比例;实验证明幻觉 token 往往对应更高 HAR。NHAR 则只累加落在非 Inert 视觉 token 上的注意力,公式上相当于把视觉注意力预算中被劫持的部分剔除,只保留面向有效视觉内容的密度。
- 设计动机:高视觉注意力可能是坏信号,也可能是好信号,关键在于它落到哪里。NHAR 的价值在于把“看图很多”改成“看有效图像区域很多”,为后续推理时增强头提供可解释选择标准。
-
HAVAE:训练无关的注意力增强:
- 功能:在不微调模型的情况下,降低 LVLM 幻觉并尽量保留通用能力。
- 核心思路:先按真实物体 token 上的平均 NHAR 选择 top-\(K\) 目标头 \(H_{target}\)。推理时,对这些目标头面向视觉 token 的注意力加上一个层内平均注意力幅度项,增强强度由 \(\alpha\) 控制。论文中 Qwen2-VL 用 \(K=300\),其他模型多用 \(K=450\);长文本场景会把 \(\alpha\) 从默认 0.1 提高到 0.6 或 0.7。
- 设计动机:直接惩罚 Inert Tokens 反而会破坏生成,因为这些 token 可能承担某种残余路由或占位功能。HAVAE 选择正向增强可靠头,而不是负向压制异常 token,实验上更稳。
损失函数 / 训练策略¶
本文没有训练损失,因为 HAVAE 是 training-free 推理干预。需要的离线步骤是用少量图像统计 Hijacking Anchors、Inert Tokens 和 NHAR 排名;推理阶段只修改选中注意力头的注意力权重。这个设计让它能用于闭源权重不可训练的场景,但仍要求能够访问模型内部注意力。
实验关键数据¶
主实验¶
主实验在 CHAIR、POPE、POPE-Chat、AMBER、MME 等基准上评估 hallucination 与通用能力,并覆盖 LLaVA-1.5 7B/13B、MiniGPT-4 7B、Shikra 7B、Qwen2-VL 7B。
| 模型 | 方法 | CHAIRs ↓ | CHAIRi ↓ | POPE Acc ↑ | POPE F1 ↑ | POPE-Chat Acc ↑ | POPE-Chat F1 ↑ | 关键结论 |
|---|---|---|---|---|---|---|---|---|
| LLaVA-1.5-7B | Greedy | 48.2 | 14.2 | 84.8 | 85.5 | 85.5 | 83.4 | 原始模型幻觉明显 |
| LLaVA-1.5-7B | PAI | 23.8 | 6.2 | 85.9 | 86.0 | 85.5 | 83.4 | 注意力干预有效但不最优 |
| LLaVA-1.5-7B | HAVAE | 18.2 | 3.8 | 86.2 | 86.3 | 88.0 | 87.0 | CHAIRi 比可靠最强基线降 38.7% |
| MiniGPT-4-7B | HAVAE | 21.8 | 6.9 | 76.9 | 77.6 | 80.2 | 80.2 | 小模型上仍有提升 |
| Shikra-7B | HAVAE | 15.8 | 5.0 | 81.6 | 82.1 | 76.7 | 78.6 | CHAIRi 比可靠最强基线降 46.2% |
| LLaVA-1.5-13B | HAVAE | 21.8 | 5.0 | 82.5 | 84.7 | 87.9 | 86.6 | 13B 规模仍可扩展 |
消融实验¶
论文的消融重点是证明:不能只按总视觉注意力选头,必须排除 Inert Tokens;也不能直接惩罚 Inert Tokens,正向增强更可靠。
| 配置 | CHAIRs ↓ | CHAIRi ↓ | POPE Acc ↑ | POPE F1 ↑ | MME Per ↑ | MME Cog ↑ | 说明 |
|---|---|---|---|---|---|---|---|
| Max Attention 选头 | 7.8 | 4.4 | 85.9 | 85.6 | 1399.0 | 277.0 | 幻觉指标低但 F1 和 MME 明显受损,说明高注意力头不一定可靠 |
| HAVAE / NHAR 选头 | 18.2 | 3.8 | 86.2 | 86.3 | 1483.9 | 327.9 | 更好平衡幻觉抑制和通用能力 |
| 样本数 10 | 18.8 | 3.7 | 86.1 | 86.2 | 未列 | 未列 | 很少样本已有可用估计 |
| 样本数 500 | 18.2 | 3.7 | 86.1 | 86.2 | 未列 | 未列 | 指标稳定,论文采用 500 |
| 惩罚系数 \(\beta=0.0\) | 18.2 | 3.7 | 86.1 | 86.2 | 未列 | 未列 | 标准 HAVAE |
| 惩罚系数 \(\beta=0.6\) | 19.8 | 4.7 | 86.1 | 86.2 | 未列 | 未列 | 直接惩罚 Inert Tokens 反而恶化 CHAIR |
关键发现¶
- Vocabulary Hijacking 不是孤立于某个模型的异常。作者在 LLaVA-1.5、MiniGPT-4、Shikra、Qwen2-VL 中都观察到 hijacking score 长尾分布和 salient token 的 hijacking ratio 双峰分布。
- 幻觉 token 的 HAR 明显更高,而真实物体 token 更集中在高 NHAR 区域,说明“被劫持的视觉注意力”与“可靠视觉 grounding”在统计上可区分。
- MME 上 HAVAE 没有破坏通用能力:例如 LLaVA-1.5-7B perception 从 1472.5 提升到 1483.9,cognition 从 322.5 提升到 327.9;Shikra cognition 从 250.4 提升到 272.5。
- Qwen2-VL 上也有同向收益:CHAIRs 从 27.6 降到 22.8,CHAIRi 从 8.8 降到 6.2,MME All 从 2268.4 提升到 2290.2。
- 阈值敏感性较低。\(\tau_r\) 和 \(\tau_s\) 在 0.8 到 1.2 倍范围内扰动,CHAIR 和 POPE 指标变化都较小,说明 HABI 不是靠极窄超参窗口工作的。
亮点与洞察¶
- 论文最有意思的地方是把 hallucination 从输出错误追到词表空间中的固定锚点。它不是泛泛地说“注意力错了”,而是给出一条内部机制链:视觉 token trace 坍缩到 Hijacking Anchors,吸走头的注意力,关键头 grounding 下降,最后生成幻觉物体。
- HABI 的设计很有解释性。Dominance 看单个 token 是否跨层僵化,Frequency 看某个词是否系统性出现,Attention 看它是否真的影响生成;三者相乘能过滤掉很多偶然噪声。
- NHAR 比“视觉注意力总量”更适合做头选择标准。这给多模态解释性一个启发:解释 attention 时不能只看图像 token 权重,还要先判断图像 token 本身是否有语义贡献。
- HAVAE 的正向增强策略很稳。作者的惩罚消融说明,异常 token 未必能简单清零;增强可靠通路往往比暴力压制异常通路更符合深层模型的路由结构。
- 这项工作对后续 mechanistic interpretability 有启发:可以把 Logit Lens、attention flow 和行为错误绑定起来,而不是只做静态可视化。
局限与展望¶
- 方法需要访问模型内部 hidden state、unembedding 和注意力权重,因此不适合只能调用黑盒 API 的闭源 LVLM。
- 机制起源还没有完全解释。作者推测 Vocabulary Hijacking 可能来自早期视觉语言对齐中的 shortcut,但没有通过训练过程追踪或可控预训练实验验证。
- 验证模型最大到 13B,Qwen2-VL 为 7B;更大规模模型、更新架构或视频 LVLM 是否有同样的 hijacking anchors 仍需系统检查。
- HABI 依赖 COCO 图像和物体标注构建真实/幻觉物体集合。虽然 AMBER 显示一定域外泛化,但对于医学影像、遥感、文档图像等领域,Inert Tokens 的分布可能不同。
- HAVAE 是推理时注意力修改,和 KV cache、高效推理框架、量化模型的兼容性还需要工程侧验证。
相关工作与启发¶
- vs Visual Attention Sink: VAS 关注空洞或背景 token 垄断注意力,本文进一步指出这些 token 的 hidden states 会稳定解码到固定无关词,即 Vocabulary Hijacking 给出了更细的词表空间机制。
- vs PAI / Devils: 这些方法也是训练无关注意力干预,但通常依赖更粗的视觉注意力启发式。HAVAE 的区别是先排除 Inert Tokens,再按 NHAR 选择关键头,减少增强噪声通路的风险。
- vs VISTA / activation steering: VISTA 通过激活方向影响生成,可以减少幻觉但可能影响通用能力。HAVAE 只增强选中特定头的视觉注意力,干预位置更局部、机制解释更清楚。
- vs Logit Lens 分析工作: 以往 Logit Lens 常用于观察表征如何从视觉到语义演化,本文把它用于定位异常 trace,并进一步把分析结果转化成可工作的推理干预。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Vocabulary Hijacking 与 Hijacking Anchors 的机制刻画很新,且能转化为有效干预。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖多模型、多基准和多种消融,但更大模型与非 COCO 域仍有扩展空间。
- 写作质量: ⭐⭐⭐⭐☆ 诊断到干预的链条清楚,表格较多但支撑充分。
- 价值: ⭐⭐⭐⭐⭐ 对 LVLM 幻觉解释和训练无关修复都很有启发,尤其适合后续可解释性研究复用。