SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense¶
会议: ICLR 2026
arXiv: 2510.16596
代码: GitHub
领域: AI安全
关键词: LVLM幻觉, 视觉编码器, 统计偏差, 固有偏差, 对抗鲁棒性, 对比解码, 免训练
一句话总结¶
首次将LVLM对象幻觉系统性追溯到视觉编码器,识别出统计偏差(高频模式token过度强调)、固有偏差(预训练主导对象的残余表示)、脆弱性(微小扰动即导致特征失真)三大问题,并提出SHIELD——一个完全免训练的框架,通过token重加权、token减法和对比解码三策略协同防御,在LLaVA-1.5/InstructBLIP/Qwen-VL上全面超越VCD和OPERA等方法。
研究背景与动机¶
领域现状:大型视觉语言模型(LVLM)在跨模态任务中表现出色,但对象幻觉问题——模型生成看似合理但与图像不符的对象描述——严重制约了其在医疗、自动驾驶、机器人等安全敏感领域的部署。
现有方法的局限:现有缓解幻觉的方法分为两类:训练类方法(CLIP-DPO、LURE、LLaVA-RLHF)资源消耗大;免训练方法(VCD用模糊图像对比、OPERA用过度信任惩罚、HALC用自适应焦点对比解码)更高效,但几乎全部聚焦于LLM组件,视觉编码器的角色被严重忽视。
关键发现——统计偏差:CLIP视觉编码器因预训练数据分布不均,会过度强调与高频视觉模式对应的token(L2范数异常高),导致下游LLM的注意力被这些过度激活的token"绑架",扭曲细粒度感知。实验表明peak-to-average L2比值越高,幻觉样本比例越高。
关键发现——固有偏差:编码器对预训练数据中的主导对象产生了"鬼影表示"——即使输入纯随机噪声,LLaVA-1.5仍将"car"、"chair"、"table"等高频对象判定为存在,说明编码器本身就携带了与输入无关的错误先验。
关键发现——脆弱性:视觉编码器在预训练中未获得足够的噪声/扰动鲁棒性。实验显示在POPE COCO子集上,仅几步PGD对抗攻击就使F1值从约87骤降至70以下,小扰动即导致特征严重失真。
核心思路:三个问题对应三个解法——token重加权矫正统计偏差,token减法消除固有偏差,对抗+对比解码应对脆弱性——构成完整的"编码器侧幻觉防线"。
方法详解¶
整体框架¶
SHIELD是一个完全免训练的框架,作用于LVLM推理阶段的视觉token层面。给定输入图像和查询文本,视觉编码器产生的token受到三类问题影响:统计偏差导致部分token被过度强调、固有偏差导致错误表示混入、脆弱性导致特征不稳定。SHIELD通过三个模块依次处理这三类问题。
关键设计1:Token重加权——缓解统计偏差¶
- 功能:重新分配视觉token的权重,使模型关注更多与真实对象相关的token,而非仅被少数高L2范数的token主导。
- 核心思路:(1) 先用原始LVLM为图像生成一个朴素描述 \(\mathbf{c}^{\text{naive}}\);(2) 用CLIP文本编码器将描述编码为 \(P\) 个文本token \(\mathbf{c}\);(3) 计算视觉token \(\mathbf{x}^v\) 与文本token \(\mathbf{c}\) 之间的余弦相似度矩阵 \(\mathbf{M} \in \mathbb{R}^{N \times P}\);(4) 取每个视觉token对所有文本token的最大相似度并归一化为权重 \(\mathbf{W}^v\);(5) 通过残差加法将权重作用于原始token:
- 设计动机:朴素描述虽然可能含幻觉,但幻觉对象在相似度矩阵中无法匹配到任何高相似度的视觉token,因此不会被错误增强。这一自清洁特性保证了重加权仅作用于真实对象。
关键设计2:Token减法——消除固有偏差¶
- 功能:估计并移除编码器因预训练数据分布而固有携带的"鬼影"表示,使视觉token更纯净地反映当前输入。
- 核心思路:将 \(K\) 个随机噪声图像输入视觉编码器,对产生的token取平均作为固有偏差的估计,然后从重加权后的token中减去:
- 设计动机:固有偏差仅依赖编码器参数(与输入无关),因此噪声输入的平均输出可以可靠地估计这些错误表示。该估计可以预计算并缓存,不增加推理时的额外开销。
关键设计3:对抗攻击+对比解码——应对脆弱性¶
- 功能:用对抗扰动暴露编码器的脆弱性引发的幻觉,再通过对比解码在推理时抑制这些幻觉。
- 核心思路:(1) 构造对抗扰动 \(\delta^*\),最小化扰动图像的全局表示与朴素描述之间的余弦相似度:
(2) 将攻击tensor加到原图上产生"被攻击的"视觉token \(\bar{\mathbf{x}}^v = E(\mathbf{v}+\delta^*)\);(3) 在解码时对比两路logit:
- 设计动机:对抗攻击能精准暴露编码器在哪些对象上"最容易被骗",即脆弱性最高的语义区域。对比解码则利用被攻击版本和正常版本之间的差异,精确抑制脆弱性诱发的幻觉输出,同时保留正确的内容。自适应可信度约束(\(\beta\) 截断)进一步避免了不合理token的产生。
关键设计4:自适应可信度约束¶
- 功能:在对比解码后,仅保留概率不低于最大概率 \(\beta\) 倍的token,其余概率置零:
- 设计动机:防止对比解码引入不合理的低概率token,保证输出质量。
实验结果¶
表1:CHAIR幻觉评估(500张COCO图片,长描述)¶
| LVLM | 方法 | \(C_S\)↓ | \(C_I\)↓ |
|---|---|---|---|
| LLaVA-1.5 | Vanilla | 48.8 | 14.2 |
| LLaVA-1.5 | VCD | 46.8 | 13.2 |
| LLaVA-1.5 | OPERA | 44.6 | 12.8 |
| LLaVA-1.5 | SHIELD | 36.6 | 10.3 |
| InstructBLIP | Vanilla | 54.6 | 24.8 |
| InstructBLIP | VCD | 44.0 | 13.6 |
| InstructBLIP | OPERA | 46.4 | 14.2 |
| InstructBLIP | SHIELD | 40.4 | 10.9 |
| Qwen-VL | Vanilla | 49.2 | 13.1 |
| Qwen-VL | VCD | 46.4 | 11.9 |
| Qwen-VL | OPERA | 34.6 | 9.5 |
| Qwen-VL | SHIELD | 28.9 | 9.2 |
SHIELD在LLaVA-1.5上相比次优的OPERA降低了\(C_S\)约18%(44.6→36.6),\(C_I\)降低约20%。
表2:POPE幻觉评估(COCO子集,Accuracy/F1)¶
| LVLM | 方法 | Random Acc↑ | Popular Acc↑ | Adversarial Acc↑ | Avg Acc↑ |
|---|---|---|---|---|---|
| LLaVA-1.5 | Vanilla | 83.2 | 81.8 | 78.9 | 81.3 |
| LLaVA-1.5 | VCD | 87.7 | 85.3 | 80.8 | 84.6 |
| LLaVA-1.5 | OPERA | 89.1 | 86.0 | 79.1 | 84.7 |
| LLaVA-1.5 | SHIELD | 91.3 | 87.4 | 82.5 | 87.0 |
| Qwen-VL | Vanilla | 84.7 | 84.1 | 82.2 | 83.6 |
| Qwen-VL | VCD | 88.6 | 87.1 | 84.2 | 86.6 |
| Qwen-VL | SHIELD | 89.2 | 87.6 | 84.3 | 87.0 |
SHIELD在最具挑战性的Adversarial分割上优势尤为明显,说明编码器偏差和脆弱性恰恰是对抗场景下幻觉的主要来源。
表3:MME幻觉子集评估¶
| LVLM | 方法 | Existence↑ | Count↑ | Position↑ | Color↑ | Total↑ |
|---|---|---|---|---|---|---|
| LLaVA-1.5 | Vanilla | 175.6 | 124.6 | 114.0 | 151.0 | 565.3 |
| LLaVA-1.5 | VCD | 184.6 | 138.3 | 128.6 | 153.0 | 604.6 |
| LLaVA-1.5 | OPERA | 180.6 | 133.3 | 123.3 | 155.0 | 592.3 |
| LLaVA-1.5 | SHIELD | 195.0 | 141.6 | 148.3 | 183.3 | 668.3 |
| Qwen-VL | Vanilla | 155.0 | 127.6 | 131.6 | 173.0 | 587.3 |
| Qwen-VL | SHIELD | 180.0 | 170.0 | 128.3 | 190.0 | 668.3 |
Position和Color的提升尤其显著(LLaVA-1.5: Position 114→148, Color 151→183),证明缓解统计偏差后,模型对细粒度属性的感知能力大幅增强。
表4:消融实验(CHAIR, LLaVA-1.5)¶
| 模块配置 | \(C_S\)↓ | \(C_I\)↓ |
|---|---|---|
| Vanilla | 48.8 | 14.2 |
| + 自适应可信度约束 | 50.2 | 13.8 |
| + 对抗脆弱性防御 | 46.4 | 12.8 |
| + 统计偏差缓解 | 40.4 | 11.0 |
| + 固有偏差消除(完整SHIELD) | 36.6 | 10.3 |
每个模块贡献独立且显著。统计偏差缓解模块单独贡献最大(\(C_S\)从46.4降至40.4,约13%降幅),固有偏差消除进一步降低约10%。
关键发现¶
-
编码器是幻觉的重要源头:此前所有免训练方法仅关注LLM端,SHIELD首次证明视觉编码器中的偏差和脆弱性是幻觉的独立且关键来源,在所有基准上超越现有方法。
-
统计偏差是最大的幻觉推手:消融实验表明,缓解统计偏差的贡献最大——高L2 token的过度强调对长描述场景的幻觉影响尤为显著。
-
SHIELD不牺牲通用能力:完整MME评估显示Perception从1279→1473(+194),Total从1632→1811(+179),说明缓解编码器偏差不仅减少幻觉,还提升了OCR、海报识别等通用感知能力。
-
属性级幻觉改善最大:Position提升30%+、Color提升21%+,说明编码器偏差对细粒度属性感知的伤害最大,矫正后收益最多。
-
InstructBLIP上效果受限:因其Q-Former模块限制了修改后视觉特征的传播,SHIELD的增益较小——这也间接说明了SHIELD确实在视觉token层面起作用。
亮点与洞察¶
- "编码器侧幻觉"新范式:此前所有工作都将幻觉归因于LLM的过度自信或数据偏差,SHIELD首次系统地将问题定位到视觉编码器——开辟了一个全新的研究方向。
- 噪声输入实验的说服力:给编码器纯噪声→它仍然"看到"汽车和椅子→这不是模型的"理解"而是预训练数据分布的烙印。这一实验设计简洁但极具洞察力。
- 朴素描述的自清洁特性:token重加权依赖朴素描述,但幻觉对象在相似度矩阵中天然无法匹配高相似度的视觉token→不会被放大→巧妙的自校正机制。
- 三重防御的正交性:三个模块分别处理三个独立的问题维度(分布→残余→鲁棒性),消融实验证明它们互补且叠加有效。
- 噪声估计可预计算:固有偏差的估计仅依赖编码器参数,可离线计算并缓存→推理时几乎零额外开销。
局限性¶
- 推理成本增加:需要额外生成朴素描述(一次前向推理)、计算CLIP相似度矩阵、采样噪声输入、运行对抗攻击→推理延迟预计增加2-3倍。
- 依赖CLIP编码器架构:token重加权和对抗攻击策略都依赖于CLIP的视觉-文本对齐→对不使用CLIP编码器的LVLM(如EVA-CLIP变种或原生ViT)适用性未验证。
- InstructBLIP效果有限:Q-Former的中间瓶颈限制了修改后视觉特征的传播→对有中间适配器的架构效果可能打折。
- 超参数敏感性:\(\alpha=2, \beta=0.35, K=32, l=0.02\) 跨模型固定使用→不同模型/任务的最优超参可能不同。
- 评估局限:主要在COCO系数据上评估→对分布外场景(医疗/遥感/工业)的泛化性未验证。
相关工作对比¶
vs VCD (Visual Contrastive Decoding)¶
VCD通过对比自然图像和模糊图像的输出来抑制幻觉——本质是在LLM解码端操作。SHIELD则在编码器端直接修正视觉token,再结合对抗扰动(而非简单模糊)做对比解码。SHIELD在CHAIR上比VCD降低了\(C_S\)约22%(46.8→36.6),POPE Adversarial上高出约1.7个点(80.8→82.5)。VCD的模糊是语义无关的均匀降质,而SHIELD的对抗攻击是语义定向的→更精准地暴露脆弱性。
vs OPERA¶
OPERA通过在beam search中添加过度信任惩罚来避免模型过度依赖特定token——同样作用于LLM解码端。SHIELD在LLaVA-1.5 CHAIR上比OPERA降低\(C_S\)约18%(44.6→36.6),MME幻觉总分高出76点(592→668)。OPERA对统计偏差有间接缓解效果但不治本,SHIELD直接在视觉token层面重加权→更根本性的修正。
vs MARINE / VTI¶
MARINE引入外部视觉模型的图像-文本对齐引导,VTI在测试时调整latent表示以稳定视觉特征。两者关注的是特征层面的校正但未分析偏差和脆弱性的根因。SHIELD提供了更系统的根因分析和对应的三策略防御方案。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次系统归因编码器侧幻觉(统计偏差+固有偏差+脆弱性),三策略防御框架有原创性
- 实验充分度: ⭐⭐⭐⭐ — 5个幻觉基准(CHAIR/POPE/MME/AMBER/GPT-4o)×3个LVLM家族+完整消融+可视化
- 写作质量: ⭐⭐⭐⭐ — 问题分析→根因识别→解决方案的逻辑链非常清晰,图表设计直观
- 价值: ⭐⭐⭐⭐ — 为LVLM幻觉研究开辟了编码器侧的新方向,免训练特性有实用价值