跳转至

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense

会议: ICLR 2026
arXiv: 2510.16596
代码: GitHub
领域: AI安全
关键词: LVLM幻觉, 视觉编码器, 统计偏差, 固有偏差, 对抗鲁棒性, 对比解码, 免训练

一句话总结

首次将LVLM对象幻觉系统性追溯到视觉编码器,识别出统计偏差(高频模式token过度强调)、固有偏差(预训练主导对象的残余表示)、脆弱性(微小扰动即导致特征失真)三大问题,并提出SHIELD——一个完全免训练的框架,通过token重加权、token减法和对比解码三策略协同防御,在LLaVA-1.5/InstructBLIP/Qwen-VL上全面超越VCD和OPERA等方法。

研究背景与动机

领域现状:大型视觉语言模型(LVLM)在跨模态任务中表现出色,但对象幻觉问题——模型生成看似合理但与图像不符的对象描述——严重制约了其在医疗、自动驾驶、机器人等安全敏感领域的部署。

现有方法的局限:现有缓解幻觉的方法分为两类:训练类方法(CLIP-DPO、LURE、LLaVA-RLHF)资源消耗大;免训练方法(VCD用模糊图像对比、OPERA用过度信任惩罚、HALC用自适应焦点对比解码)更高效,但几乎全部聚焦于LLM组件,视觉编码器的角色被严重忽视。

关键发现——统计偏差:CLIP视觉编码器因预训练数据分布不均,会过度强调与高频视觉模式对应的token(L2范数异常高),导致下游LLM的注意力被这些过度激活的token"绑架",扭曲细粒度感知。实验表明peak-to-average L2比值越高,幻觉样本比例越高。

关键发现——固有偏差:编码器对预训练数据中的主导对象产生了"鬼影表示"——即使输入纯随机噪声,LLaVA-1.5仍将"car"、"chair"、"table"等高频对象判定为存在,说明编码器本身就携带了与输入无关的错误先验。

关键发现——脆弱性:视觉编码器在预训练中未获得足够的噪声/扰动鲁棒性。实验显示在POPE COCO子集上,仅几步PGD对抗攻击就使F1值从约87骤降至70以下,小扰动即导致特征严重失真。

核心思路:三个问题对应三个解法——token重加权矫正统计偏差,token减法消除固有偏差,对抗+对比解码应对脆弱性——构成完整的"编码器侧幻觉防线"。

方法详解

整体框架

SHIELD是一个完全免训练的框架,作用于LVLM推理阶段的视觉token层面。给定输入图像和查询文本,视觉编码器产生的token受到三类问题影响:统计偏差导致部分token被过度强调、固有偏差导致错误表示混入、脆弱性导致特征不稳定。SHIELD通过三个模块依次处理这三类问题。

关键设计1:Token重加权——缓解统计偏差

  • 功能:重新分配视觉token的权重,使模型关注更多与真实对象相关的token,而非仅被少数高L2范数的token主导。
  • 核心思路:(1) 先用原始LVLM为图像生成一个朴素描述 \(\mathbf{c}^{\text{naive}}\);(2) 用CLIP文本编码器将描述编码为 \(P\) 个文本token \(\mathbf{c}\);(3) 计算视觉token \(\mathbf{x}^v\) 与文本token \(\mathbf{c}\) 之间的余弦相似度矩阵 \(\mathbf{M} \in \mathbb{R}^{N \times P}\);(4) 取每个视觉token对所有文本token的最大相似度并归一化为权重 \(\mathbf{W}^v\);(5) 通过残差加法将权重作用于原始token:
\[\mathbf{x}^{v\prime} = \mathbf{x}^v + \mathbf{x}^v \odot \mathbf{W}^v\]
  • 设计动机:朴素描述虽然可能含幻觉,但幻觉对象在相似度矩阵中无法匹配到任何高相似度的视觉token,因此不会被错误增强。这一自清洁特性保证了重加权仅作用于真实对象。

关键设计2:Token减法——消除固有偏差

  • 功能:估计并移除编码器因预训练数据分布而固有携带的"鬼影"表示,使视觉token更纯净地反映当前输入。
  • 核心思路:将 \(K\) 个随机噪声图像输入视觉编码器,对产生的token取平均作为固有偏差的估计,然后从重加权后的token中减去:
\[\mathbf{x}^{v\prime\prime} = \mathbf{x}^{v\prime} - \frac{1}{K}\sum_{i=1}^{K}E(\mathbf{n}_i)\]
  • 设计动机:固有偏差仅依赖编码器参数(与输入无关),因此噪声输入的平均输出可以可靠地估计这些错误表示。该估计可以预计算并缓存,不增加推理时的额外开销。

关键设计3:对抗攻击+对比解码——应对脆弱性

  • 功能:用对抗扰动暴露编码器的脆弱性引发的幻觉,再通过对比解码在推理时抑制这些幻觉。
  • 核心思路:(1) 构造对抗扰动 \(\delta^*\),最小化扰动图像的全局表示与朴素描述之间的余弦相似度:
\[\ell_{\text{adv}} = \cos(E(\mathbf{v}+\delta), E_t(\mathbf{c}^{\text{naive}}))\]

(2) 将攻击tensor加到原图上产生"被攻击的"视觉token \(\bar{\mathbf{x}}^v = E(\mathbf{v}+\delta^*)\);(3) 在解码时对比两路logit:

\[p_{\text{shield}}(y_i) = \text{softmax}\left[(1+\alpha)\cdot\text{logit}(y_i|\mathbf{x}^{v\prime\prime}) - \alpha\cdot\text{logit}(y_i|\bar{\mathbf{x}}^v)\right]\]
  • 设计动机:对抗攻击能精准暴露编码器在哪些对象上"最容易被骗",即脆弱性最高的语义区域。对比解码则利用被攻击版本和正常版本之间的差异,精确抑制脆弱性诱发的幻觉输出,同时保留正确的内容。自适应可信度约束(\(\beta\) 截断)进一步避免了不合理token的产生。

关键设计4:自适应可信度约束

  • 功能:在对比解码后,仅保留概率不低于最大概率 \(\beta\) 倍的token,其余概率置零:
\[\nu_{\text{token}}(y_i) = \{y_i \in \nu : p(y_i) \geq \beta \max_\omega p(\omega)\}\]
  • 设计动机:防止对比解码引入不合理的低概率token,保证输出质量。

实验结果

表1:CHAIR幻觉评估(500张COCO图片,长描述)

LVLM 方法 \(C_S\) \(C_I\)
LLaVA-1.5 Vanilla 48.8 14.2
LLaVA-1.5 VCD 46.8 13.2
LLaVA-1.5 OPERA 44.6 12.8
LLaVA-1.5 SHIELD 36.6 10.3
InstructBLIP Vanilla 54.6 24.8
InstructBLIP VCD 44.0 13.6
InstructBLIP OPERA 46.4 14.2
InstructBLIP SHIELD 40.4 10.9
Qwen-VL Vanilla 49.2 13.1
Qwen-VL VCD 46.4 11.9
Qwen-VL OPERA 34.6 9.5
Qwen-VL SHIELD 28.9 9.2

SHIELD在LLaVA-1.5上相比次优的OPERA降低了\(C_S\)约18%(44.6→36.6),\(C_I\)降低约20%。

表2:POPE幻觉评估(COCO子集,Accuracy/F1)

LVLM 方法 Random Acc↑ Popular Acc↑ Adversarial Acc↑ Avg Acc↑
LLaVA-1.5 Vanilla 83.2 81.8 78.9 81.3
LLaVA-1.5 VCD 87.7 85.3 80.8 84.6
LLaVA-1.5 OPERA 89.1 86.0 79.1 84.7
LLaVA-1.5 SHIELD 91.3 87.4 82.5 87.0
Qwen-VL Vanilla 84.7 84.1 82.2 83.6
Qwen-VL VCD 88.6 87.1 84.2 86.6
Qwen-VL SHIELD 89.2 87.6 84.3 87.0

SHIELD在最具挑战性的Adversarial分割上优势尤为明显,说明编码器偏差和脆弱性恰恰是对抗场景下幻觉的主要来源。

表3:MME幻觉子集评估

LVLM 方法 Existence↑ Count↑ Position↑ Color↑ Total↑
LLaVA-1.5 Vanilla 175.6 124.6 114.0 151.0 565.3
LLaVA-1.5 VCD 184.6 138.3 128.6 153.0 604.6
LLaVA-1.5 OPERA 180.6 133.3 123.3 155.0 592.3
LLaVA-1.5 SHIELD 195.0 141.6 148.3 183.3 668.3
Qwen-VL Vanilla 155.0 127.6 131.6 173.0 587.3
Qwen-VL SHIELD 180.0 170.0 128.3 190.0 668.3

Position和Color的提升尤其显著(LLaVA-1.5: Position 114→148, Color 151→183),证明缓解统计偏差后,模型对细粒度属性的感知能力大幅增强。

表4:消融实验(CHAIR, LLaVA-1.5)

模块配置 \(C_S\) \(C_I\)
Vanilla 48.8 14.2
+ 自适应可信度约束 50.2 13.8
+ 对抗脆弱性防御 46.4 12.8
+ 统计偏差缓解 40.4 11.0
+ 固有偏差消除(完整SHIELD) 36.6 10.3

每个模块贡献独立且显著。统计偏差缓解模块单独贡献最大(\(C_S\)从46.4降至40.4,约13%降幅),固有偏差消除进一步降低约10%。

关键发现

  1. 编码器是幻觉的重要源头:此前所有免训练方法仅关注LLM端,SHIELD首次证明视觉编码器中的偏差和脆弱性是幻觉的独立且关键来源,在所有基准上超越现有方法。

  2. 统计偏差是最大的幻觉推手:消融实验表明,缓解统计偏差的贡献最大——高L2 token的过度强调对长描述场景的幻觉影响尤为显著。

  3. SHIELD不牺牲通用能力:完整MME评估显示Perception从1279→1473(+194),Total从1632→1811(+179),说明缓解编码器偏差不仅减少幻觉,还提升了OCR、海报识别等通用感知能力。

  4. 属性级幻觉改善最大:Position提升30%+、Color提升21%+,说明编码器偏差对细粒度属性感知的伤害最大,矫正后收益最多。

  5. InstructBLIP上效果受限:因其Q-Former模块限制了修改后视觉特征的传播,SHIELD的增益较小——这也间接说明了SHIELD确实在视觉token层面起作用。

亮点与洞察

  • "编码器侧幻觉"新范式:此前所有工作都将幻觉归因于LLM的过度自信或数据偏差,SHIELD首次系统地将问题定位到视觉编码器——开辟了一个全新的研究方向。
  • 噪声输入实验的说服力:给编码器纯噪声→它仍然"看到"汽车和椅子→这不是模型的"理解"而是预训练数据分布的烙印。这一实验设计简洁但极具洞察力。
  • 朴素描述的自清洁特性:token重加权依赖朴素描述,但幻觉对象在相似度矩阵中天然无法匹配高相似度的视觉token→不会被放大→巧妙的自校正机制。
  • 三重防御的正交性:三个模块分别处理三个独立的问题维度(分布→残余→鲁棒性),消融实验证明它们互补且叠加有效。
  • 噪声估计可预计算:固有偏差的估计仅依赖编码器参数,可离线计算并缓存→推理时几乎零额外开销。

局限性

  1. 推理成本增加:需要额外生成朴素描述(一次前向推理)、计算CLIP相似度矩阵、采样噪声输入、运行对抗攻击→推理延迟预计增加2-3倍。
  2. 依赖CLIP编码器架构:token重加权和对抗攻击策略都依赖于CLIP的视觉-文本对齐→对不使用CLIP编码器的LVLM(如EVA-CLIP变种或原生ViT)适用性未验证。
  3. InstructBLIP效果有限:Q-Former的中间瓶颈限制了修改后视觉特征的传播→对有中间适配器的架构效果可能打折。
  4. 超参数敏感性\(\alpha=2, \beta=0.35, K=32, l=0.02\) 跨模型固定使用→不同模型/任务的最优超参可能不同。
  5. 评估局限:主要在COCO系数据上评估→对分布外场景(医疗/遥感/工业)的泛化性未验证。

相关工作对比

vs VCD (Visual Contrastive Decoding)

VCD通过对比自然图像和模糊图像的输出来抑制幻觉——本质是在LLM解码端操作。SHIELD则在编码器端直接修正视觉token,再结合对抗扰动(而非简单模糊)做对比解码。SHIELD在CHAIR上比VCD降低了\(C_S\)约22%(46.8→36.6),POPE Adversarial上高出约1.7个点(80.8→82.5)。VCD的模糊是语义无关的均匀降质,而SHIELD的对抗攻击是语义定向的→更精准地暴露脆弱性。

vs OPERA

OPERA通过在beam search中添加过度信任惩罚来避免模型过度依赖特定token——同样作用于LLM解码端。SHIELD在LLaVA-1.5 CHAIR上比OPERA降低\(C_S\)约18%(44.6→36.6),MME幻觉总分高出76点(592→668)。OPERA对统计偏差有间接缓解效果但不治本,SHIELD直接在视觉token层面重加权→更根本性的修正。

vs MARINE / VTI

MARINE引入外部视觉模型的图像-文本对齐引导,VTI在测试时调整latent表示以稳定视觉特征。两者关注的是特征层面的校正但未分析偏差和脆弱性的根因。SHIELD提供了更系统的根因分析和对应的三策略防御方案。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次系统归因编码器侧幻觉(统计偏差+固有偏差+脆弱性),三策略防御框架有原创性
  • 实验充分度: ⭐⭐⭐⭐ — 5个幻觉基准(CHAIR/POPE/MME/AMBER/GPT-4o)×3个LVLM家族+完整消融+可视化
  • 写作质量: ⭐⭐⭐⭐ — 问题分析→根因识别→解决方案的逻辑链非常清晰,图表设计直观
  • 价值: ⭐⭐⭐⭐ — 为LVLM幻觉研究开辟了编码器侧的新方向,免训练特性有实用价值