ICLR 2026 幻觉检测 LVLM幻觉视觉编码器统计偏差固有偏差对抗鲁棒性对比解码免训练

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense¶

会议: ICLR 2026
arXiv: 2510.16596
代码: GitHub
领域: 幻觉检测
关键词: LVLM幻觉, 视觉编码器, 统计偏差, 固有偏差, 对抗鲁棒性, 对比解码, 免训练

一句话总结¶

首次将LVLM对象幻觉系统性追溯到视觉编码器，识别出统计偏差（高频模式token过度强调）、固有偏差（预训练主导对象的残余表示）、脆弱性（微小扰动即导致特征失真）三大问题，并提出SHIELD——一个完全免训练的框架，通过token重加权、token减法和对比解码三策略协同防御，在LLaVA-1.5/InstructBLIP/Qwen-VL上全面超越VCD和OPERA等方法。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）在跨模态任务中表现出色，但对象幻觉问题——模型生成看似合理但与图像不符的对象描述——严重制约了其在医疗、自动驾驶、机器人等安全敏感领域的部署。

现有方法的局限：现有缓解幻觉的方法分为两类：训练类方法（CLIP-DPO、LURE、LLaVA-RLHF）资源消耗大；免训练方法（VCD用模糊图像对比、OPERA用过度信任惩罚、HALC用自适应焦点对比解码）更高效，但几乎全部聚焦于LLM组件，视觉编码器的角色被严重忽视。

关键发现——统计偏差：CLIP视觉编码器因预训练数据分布不均，会过度强调与高频视觉模式对应的token（L2范数异常高），导致下游LLM的注意力被这些过度激活的token"绑架"，扭曲细粒度感知。实验表明peak-to-average L2比值越高，幻觉样本比例越高。

关键发现——固有偏差：编码器对预训练数据中的主导对象产生了"鬼影表示"——即使输入纯随机噪声，LLaVA-1.5仍将"car"、"chair"、"table"等高频对象判定为存在，说明编码器本身就携带了与输入无关的错误先验。

关键发现——脆弱性：视觉编码器在预训练中未获得足够的噪声/扰动鲁棒性。实验显示在POPE COCO子集上，仅几步PGD对抗攻击就使F1值从约87骤降至70以下，小扰动即导致特征严重失真。

核心思路：三个问题对应三个解法——token重加权矫正统计偏差，token减法消除固有偏差，对抗+对比解码应对脆弱性——构成完整的"编码器侧幻觉防线"。

方法详解¶

整体框架¶

SHIELD要解决的是LVLM的对象幻觉，而它的判断和以往工作不同：幻觉不只发生在LLM解码端，视觉编码器本身就埋了三颗雷——统计偏差让少数L2范数畸高的token绑架下游注意力、固有偏差让编码器把与输入无关的"鬼影"对象混进表示、脆弱性让微小扰动就能扭曲特征。SHIELD是个完全免训练的框架，把防线整体前移到编码器产生的视觉token上，针对三颗雷依次设了四道处理。

整条流水线这样转：输入图像先过CLIP视觉编码器得到一组视觉token，同时让原始LVLM对图自吐一句朴素描述、转成CLIP文本token；接着 Token重加权 用文本-视觉语义相似度抬升真实对象的token、压住高范数噪声token，矫正统计偏差；Token减法 再减掉用随机噪声估计出的鬼影表示，清除固有偏差；解码阶段，对抗攻击 + 对比解码 主动构造扰动暴露编码器最易被骗的语义、用干净路减去被攻击路把脆弱性诱发的幻觉抵消掉；最后 自适应可信度约束 截断被对比放大的低概率token，给输出兜底。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}, 'wrappingWidth': 400}}}%%
flowchart TD
    V["输入图像"] --> ENC["CLIP视觉编码器<br/>得视觉token"]
    ENC --> CAP["LVLM自吐朴素描述<br/>转CLIP文本token"]
    ENC --> RW["Token重加权<br/>按语义相似度<br/>增强真实对象token"]
    CAP --> RW
    RW --> SUB["Token减法<br/>减去K张噪声图<br/>的鬼影表示"]
    SUB --> CLEAN["干净视觉token"]
    subgraph CD3["对抗攻击 + 对比解码"]
        direction TB
        ADV["对抗攻击<br/>构造扰动暴露<br/>脆弱语义"] --> CONT["对比解码<br/>干净路 − 被攻击路"]
    end
    ENC --> ADV
    CLEAN --> CONT
    CONT --> TRUNC["自适应可信度约束<br/>截断低概率token"]
    TRUNC --> OUT["去幻觉输出"]

关键设计¶

1. Token重加权：让真实对象的token不再被高范数token压制

统计偏差的表现是少数token因L2范数畸高而绑架了下游LLM的注意力，模型于是对图里大部分真实对象视而不见。SHIELD先让原始LVLM自己为图像吐一句朴素描述 \(\mathbf{c}^{\text{naive}}\)，再用CLIP文本编码器把它转成 \(P\) 个文本token \(\mathbf{c}\)，与 \(N\) 个视觉token \(\mathbf{x}^v\) 算出余弦相似度矩阵 \(\mathbf{M}\in\mathbb{R}^{N\times P}\)；对每个视觉token取它对所有文本token的最大相似度、归一化成权重 \(\mathbf{W}^v\)，再以残差形式加回原token：\(\mathbf{x}^{v\prime} = \mathbf{x}^v + \mathbf{x}^v \odot \mathbf{W}^v\)。这样真正出现在描述里的对象token被相应增强，权重的重心从"范数高"转向"语义相关"。值得注意的是，朴素描述本身可能带幻觉，但幻觉对象在图里没有对应视觉内容、在相似度矩阵里匹配不到任何高相似度的视觉token，因此不会被放大——这条自清洁特性保证了重加权只惠及真实对象。

2. Token减法：扣掉编码器与输入无关的鬼影表示

固有偏差源于编码器对预训练主导对象的残余记忆，哪怕喂进纯噪声，它仍"看见"car、chair、table。因为这种偏差只取决于编码器参数、与当前输入无关，SHIELD就用 \(K\) 张随机噪声图过一遍编码器、把输出token平均，作为鬼影表示的估计，再从重加权后的token中减掉：\(\mathbf{x}^{v\prime\prime} = \mathbf{x}^{v\prime} - \frac{1}{K}\sum_{i=1}^{K}E(\mathbf{n}_i)\)（实现中 \(K=32\)）。由于该估计与输入无关，可以离线预计算并缓存，推理时几乎不增加开销，却让token更纯粹地反映眼前这张图。

3. 对抗攻击 + 对比解码：把脆弱性诱发的幻觉在解码端反向抵消

编码器在预训练中没练出足够的扰动鲁棒性，几步PGD攻击就能让F1从约87跌到70以下。SHIELD反过来利用这一点：先构造扰动 \(\delta^*\)，让被扰图像的全局表示与朴素描述的对齐度最低，即最小化 \(\ell_{\text{adv}} = \cos(E(\mathbf{v}+\delta), E_t(\mathbf{c}^{\text{naive}}))\)，得到一组"被攻击"的视觉token \(\bar{\mathbf{x}}^v = E(\mathbf{v}+\delta^*)\)——这组token专门暴露了编码器最容易被骗的语义区域。解码时把干净token与被攻击token两路logit做对比：\(p_{\text{shield}}(y_i) = \text{softmax}\big[(1+\alpha)\cdot\text{logit}(y_i\mid\mathbf{x}^{v\prime\prime}) - \alpha\cdot\text{logit}(y_i\mid\bar{\mathbf{x}}^v)\big]\)（\(\alpha=2\)）。脆弱性诱发的幻觉token在两路里都会冒头、被差分抵消，而靠真实视觉支撑的正确内容只在干净路出现、得以保留。

4. 自适应可信度约束：给对比解码兜底，挡住被放大的低概率token

对比解码靠减法放大差异，副作用是可能把一些本不合理的低概率token顶上来。SHIELD因此只保留概率不低于峰值 \(\beta\) 倍的候选，其余直接置零：\(\nu_{\text{token}}(y_i) = \{y_i \in \nu : p(y_i) \geq \beta \max_\omega p(\omega)\}\)（\(\beta=0.35\)）。这道截断把输出锁在模型仍有把握的范围内，避免对比机制以引入新噪声为代价换取去幻觉。

实验结果¶

表1：CHAIR幻觉评估（500张COCO图片，长描述）¶

LVLM	方法	\(C_S\)↓	\(C_I\)↓
LLaVA-1.5	Vanilla	48.8	14.2
LLaVA-1.5	VCD	46.8	13.2
LLaVA-1.5	OPERA	44.6	12.8
LLaVA-1.5	SHIELD	36.6	10.3
InstructBLIP	Vanilla	54.6	24.8
InstructBLIP	VCD	44.0	13.6
InstructBLIP	OPERA	46.4	14.2
InstructBLIP	SHIELD	40.4	10.9
Qwen-VL	Vanilla	49.2	13.1
Qwen-VL	VCD	46.4	11.9
Qwen-VL	OPERA	34.6	9.5
Qwen-VL	SHIELD	28.9	9.2

SHIELD在LLaVA-1.5上相比次优的OPERA降低了\(C_S\)约18%（44.6→36.6），\(C_I\)降低约20%。

表2：POPE幻觉评估（COCO子集，Accuracy/F1）¶

LVLM	方法	Random Acc↑	Popular Acc↑	Adversarial Acc↑	Avg Acc↑
LLaVA-1.5	Vanilla	83.2	81.8	78.9	81.3
LLaVA-1.5	VCD	87.7	85.3	80.8	84.6
LLaVA-1.5	OPERA	89.1	86.0	79.1	84.7
LLaVA-1.5	SHIELD	91.3	87.4	82.5	87.0
Qwen-VL	Vanilla	84.7	84.1	82.2	83.6
Qwen-VL	VCD	88.6	87.1	84.2	86.6
Qwen-VL	SHIELD	89.2	87.6	84.3	87.0

SHIELD在最具挑战性的Adversarial分割上优势尤为明显，说明编码器偏差和脆弱性恰恰是对抗场景下幻觉的主要来源。

表3：MME幻觉子集评估¶

LVLM	方法	Existence↑	Count↑	Position↑	Color↑	Total↑
LLaVA-1.5	Vanilla	175.6	124.6	114.0	151.0	565.3
LLaVA-1.5	VCD	184.6	138.3	128.6	153.0	604.6
LLaVA-1.5	OPERA	180.6	133.3	123.3	155.0	592.3
LLaVA-1.5	SHIELD	195.0	141.6	148.3	183.3	668.3
Qwen-VL	Vanilla	155.0	127.6	131.6	173.0	587.3
Qwen-VL	SHIELD	180.0	170.0	128.3	190.0	668.3

Position和Color的提升尤其显著（LLaVA-1.5: Position 114→148, Color 151→183），证明缓解统计偏差后，模型对细粒度属性的感知能力大幅增强。

表4：消融实验（CHAIR, LLaVA-1.5）¶

模块配置	\(C_S\)↓	\(C_I\)↓
Vanilla	48.8	14.2
+ 自适应可信度约束	50.2	13.8
+ 对抗脆弱性防御	46.4	12.8
+ 统计偏差缓解	40.4	11.0
+ 固有偏差消除（完整SHIELD）	36.6	10.3

每个模块贡献独立且显著。统计偏差缓解模块单独贡献最大（\(C_S\)从46.4降至40.4，约13%降幅），固有偏差消除进一步降低约10%。

关键发现¶

编码器是幻觉的重要源头：此前所有免训练方法仅关注LLM端，SHIELD首次证明视觉编码器中的偏差和脆弱性是幻觉的独立且关键来源，在所有基准上超越现有方法。
统计偏差是最大的幻觉推手：消融实验表明，缓解统计偏差的贡献最大——高L2 token的过度强调对长描述场景的幻觉影响尤为显著。
SHIELD不牺牲通用能力：完整MME评估显示Perception从1279→1473（+194），Total从1632→1811（+179），说明缓解编码器偏差不仅减少幻觉，还提升了OCR、海报识别等通用感知能力。
属性级幻觉改善最大：Position提升30%+、Color提升21%+，说明编码器偏差对细粒度属性感知的伤害最大，矫正后收益最多。
InstructBLIP上效果受限：因其Q-Former模块限制了修改后视觉特征的传播，SHIELD的增益较小——这也间接说明了SHIELD确实在视觉token层面起作用。

亮点与洞察¶

"编码器侧幻觉"新范式：此前所有工作都将幻觉归因于LLM的过度自信或数据偏差，SHIELD首次系统地将问题定位到视觉编码器——开辟了一个全新的研究方向。
噪声输入实验的说服力：给编码器纯噪声→它仍然"看到"汽车和椅子→这不是模型的"理解"而是预训练数据分布的烙印。这一实验设计简洁但极具洞察力。
朴素描述的自清洁特性：token重加权依赖朴素描述，但幻觉对象在相似度矩阵中天然无法匹配高相似度的视觉token→不会被放大→巧妙的自校正机制。
三重防御的正交性：三个模块分别处理三个独立的问题维度（分布→残余→鲁棒性），消融实验证明它们互补且叠加有效。
噪声估计可预计算：固有偏差的估计仅依赖编码器参数，可离线计算并缓存→推理时几乎零额外开销。

局限性¶

推理成本增加：需要额外生成朴素描述（一次前向推理）、计算CLIP相似度矩阵、采样噪声输入、运行对抗攻击→推理延迟预计增加2-3倍。
依赖CLIP编码器架构：token重加权和对抗攻击策略都依赖于CLIP的视觉-文本对齐→对不使用CLIP编码器的LVLM（如EVA-CLIP变种或原生ViT）适用性未验证。
InstructBLIP效果有限：Q-Former的中间瓶颈限制了修改后视觉特征的传播→对有中间适配器的架构效果可能打折。
超参数敏感性：\(\alpha=2, \beta=0.35, K=32, l=0.02\) 跨模型固定使用→不同模型/任务的最优超参可能不同。
评估局限：主要在COCO系数据上评估→对分布外场景（医疗/遥感/工业）的泛化性未验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次系统归因编码器侧幻觉（统计偏差+固有偏差+脆弱性），三策略防御框架有原创性
实验充分度: ⭐⭐⭐⭐ — 5个幻觉基准(CHAIR/POPE/MME/AMBER/GPT-4o)×3个LVLM家族+完整消融+可视化
写作质量: ⭐⭐⭐⭐ — 问题分析→根因识别→解决方案的逻辑链非常清晰，图表设计直观
价值: ⭐⭐⭐⭐ — 为LVLM幻觉研究开辟了编码器侧的新方向，免训练特性有实用价值

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验结果¶

表1：CHAIR幻觉评估（500张COCO图片，长描述）¶

表2：POPE幻觉评估（COCO子集，Accuracy/F1）¶

表3：MME幻觉子集评估¶

表4：消融实验（CHAIR, LLaVA-1.5）¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作对比¶

vs VCD (Visual Contrastive Decoding)¶

vs OPERA¶

vs MARINE / VTI¶

评分¶

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验结果¶

表1：CHAIR幻觉评估（500张COCO图片，长描述）¶

表2：POPE幻觉评估（COCO子集，Accuracy/F1）¶

表3：MME幻觉子集评估¶

表4：消融实验（CHAIR, LLaVA-1.5）¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作对比¶

vs VCD (Visual Contrastive Decoding)¶

vs OPERA¶

vs MARINE / VTI¶

评分¶

相关论文¶