ICLR 2026 AI安全 LVLM幻觉视觉编码器统计偏差固有偏差对抗鲁棒性对比解码免训练

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense¶

会议: ICLR 2026
arXiv: 2510.16596
代码: GitHub
领域: AI安全
关键词: LVLM幻觉, 视觉编码器, 统计偏差, 固有偏差, 对抗鲁棒性, 对比解码, 免训练

一句话总结¶

首次将LVLM对象幻觉系统性追溯到视觉编码器，识别出统计偏差（高频模式token过度强调）、固有偏差（预训练主导对象的残余表示）、脆弱性（微小扰动即导致特征失真）三大问题，并提出SHIELD——一个完全免训练的框架，通过token重加权、token减法和对比解码三策略协同防御，在LLaVA-1.5/InstructBLIP/Qwen-VL上全面超越VCD和OPERA等方法。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）在跨模态任务中表现出色，但对象幻觉问题——模型生成看似合理但与图像不符的对象描述——严重制约了其在医疗、自动驾驶、机器人等安全敏感领域的部署。

现有方法的局限：现有缓解幻觉的方法分为两类：训练类方法（CLIP-DPO、LURE、LLaVA-RLHF）资源消耗大；免训练方法（VCD用模糊图像对比、OPERA用过度信任惩罚、HALC用自适应焦点对比解码）更高效，但几乎全部聚焦于LLM组件，视觉编码器的角色被严重忽视。

关键发现——统计偏差：CLIP视觉编码器因预训练数据分布不均，会过度强调与高频视觉模式对应的token（L2范数异常高），导致下游LLM的注意力被这些过度激活的token"绑架"，扭曲细粒度感知。实验表明peak-to-average L2比值越高，幻觉样本比例越高。

关键发现——固有偏差：编码器对预训练数据中的主导对象产生了"鬼影表示"——即使输入纯随机噪声，LLaVA-1.5仍将"car"、"chair"、"table"等高频对象判定为存在，说明编码器本身就携带了与输入无关的错误先验。

关键发现——脆弱性：视觉编码器在预训练中未获得足够的噪声/扰动鲁棒性。实验显示在POPE COCO子集上，仅几步PGD对抗攻击就使F1值从约87骤降至70以下，小扰动即导致特征严重失真。

核心思路：三个问题对应三个解法——token重加权矫正统计偏差，token减法消除固有偏差，对抗+对比解码应对脆弱性——构成完整的"编码器侧幻觉防线"。

方法详解¶

整体框架¶

SHIELD是一个完全免训练的框架，作用于LVLM推理阶段的视觉token层面。给定输入图像和查询文本，视觉编码器产生的token受到三类问题影响：统计偏差导致部分token被过度强调、固有偏差导致错误表示混入、脆弱性导致特征不稳定。SHIELD通过三个模块依次处理这三类问题。

关键设计1：Token重加权——缓解统计偏差¶

功能：重新分配视觉token的权重，使模型关注更多与真实对象相关的token，而非仅被少数高L2范数的token主导。
核心思路：(1) 先用原始LVLM为图像生成一个朴素描述 \(\mathbf{c}^{\text{naive}}\)；(2) 用CLIP文本编码器将描述编码为 \(P\) 个文本token \(\mathbf{c}\)；(3) 计算视觉token \(\mathbf{x}^v\) 与文本token \(\mathbf{c}\) 之间的余弦相似度矩阵 \(\mathbf{M} \in \mathbb{R}^{N \times P}\)；(4) 取每个视觉token对所有文本token的最大相似度并归一化为权重 \(\mathbf{W}^v\)；(5) 通过残差加法将权重作用于原始token：

\[\mathbf{x}^{v\prime} = \mathbf{x}^v + \mathbf{x}^v \odot \mathbf{W}^v\]

设计动机：朴素描述虽然可能含幻觉，但幻觉对象在相似度矩阵中无法匹配到任何高相似度的视觉token，因此不会被错误增强。这一自清洁特性保证了重加权仅作用于真实对象。

关键设计2：Token减法——消除固有偏差¶

功能：估计并移除编码器因预训练数据分布而固有携带的"鬼影"表示，使视觉token更纯净地反映当前输入。
核心思路：将 \(K\) 个随机噪声图像输入视觉编码器，对产生的token取平均作为固有偏差的估计，然后从重加权后的token中减去：

\[\mathbf{x}^{v\prime\prime} = \mathbf{x}^{v\prime} - \frac{1}{K}\sum_{i=1}^{K}E(\mathbf{n}_i)\]

设计动机：固有偏差仅依赖编码器参数（与输入无关），因此噪声输入的平均输出可以可靠地估计这些错误表示。该估计可以预计算并缓存，不增加推理时的额外开销。

关键设计3：对抗攻击+对比解码——应对脆弱性¶

功能：用对抗扰动暴露编码器的脆弱性引发的幻觉，再通过对比解码在推理时抑制这些幻觉。
核心思路：(1) 构造对抗扰动 \(\delta^*\)，最小化扰动图像的全局表示与朴素描述之间的余弦相似度：

\[\ell_{\text{adv}} = \cos(E(\mathbf{v}+\delta), E_t(\mathbf{c}^{\text{naive}}))\]

(2) 将攻击tensor加到原图上产生"被攻击的"视觉token \(\bar{\mathbf{x}}^v = E(\mathbf{v}+\delta^*)\)；(3) 在解码时对比两路logit：

\[p_{\text{shield}}(y_i) = \text{softmax}\left[(1+\alpha)\cdot\text{logit}(y_i|\mathbf{x}^{v\prime\prime}) - \alpha\cdot\text{logit}(y_i|\bar{\mathbf{x}}^v)\right]\]

设计动机：对抗攻击能精准暴露编码器在哪些对象上"最容易被骗"，即脆弱性最高的语义区域。对比解码则利用被攻击版本和正常版本之间的差异，精确抑制脆弱性诱发的幻觉输出，同时保留正确的内容。自适应可信度约束（\(\beta\) 截断）进一步避免了不合理token的产生。

关键设计4：自适应可信度约束¶

功能：在对比解码后，仅保留概率不低于最大概率 \(\beta\) 倍的token，其余概率置零：

\[\nu_{\text{token}}(y_i) = \{y_i \in \nu : p(y_i) \geq \beta \max_\omega p(\omega)\}\]

设计动机：防止对比解码引入不合理的低概率token，保证输出质量。

实验结果¶

表1：CHAIR幻觉评估（500张COCO图片，长描述）¶

LVLM	方法	\(C_S\)↓	\(C_I\)↓
LLaVA-1.5	Vanilla	48.8	14.2
LLaVA-1.5	VCD	46.8	13.2
LLaVA-1.5	OPERA	44.6	12.8
LLaVA-1.5	SHIELD	36.6	10.3
InstructBLIP	Vanilla	54.6	24.8
InstructBLIP	VCD	44.0	13.6
InstructBLIP	OPERA	46.4	14.2
InstructBLIP	SHIELD	40.4	10.9
Qwen-VL	Vanilla	49.2	13.1
Qwen-VL	VCD	46.4	11.9
Qwen-VL	OPERA	34.6	9.5
Qwen-VL	SHIELD	28.9	9.2

SHIELD在LLaVA-1.5上相比次优的OPERA降低了\(C_S\)约18%（44.6→36.6），\(C_I\)降低约20%。

表2：POPE幻觉评估（COCO子集，Accuracy/F1）¶

LVLM	方法	Random Acc↑	Popular Acc↑	Adversarial Acc↑	Avg Acc↑
LLaVA-1.5	Vanilla	83.2	81.8	78.9	81.3
LLaVA-1.5	VCD	87.7	85.3	80.8	84.6
LLaVA-1.5	OPERA	89.1	86.0	79.1	84.7
LLaVA-1.5	SHIELD	91.3	87.4	82.5	87.0
Qwen-VL	Vanilla	84.7	84.1	82.2	83.6
Qwen-VL	VCD	88.6	87.1	84.2	86.6
Qwen-VL	SHIELD	89.2	87.6	84.3	87.0

SHIELD在最具挑战性的Adversarial分割上优势尤为明显，说明编码器偏差和脆弱性恰恰是对抗场景下幻觉的主要来源。

表3：MME幻觉子集评估¶

LVLM	方法	Existence↑	Count↑	Position↑	Color↑	Total↑
LLaVA-1.5	Vanilla	175.6	124.6	114.0	151.0	565.3
LLaVA-1.5	VCD	184.6	138.3	128.6	153.0	604.6
LLaVA-1.5	OPERA	180.6	133.3	123.3	155.0	592.3
LLaVA-1.5	SHIELD	195.0	141.6	148.3	183.3	668.3
Qwen-VL	Vanilla	155.0	127.6	131.6	173.0	587.3
Qwen-VL	SHIELD	180.0	170.0	128.3	190.0	668.3

Position和Color的提升尤其显著（LLaVA-1.5: Position 114→148, Color 151→183），证明缓解统计偏差后，模型对细粒度属性的感知能力大幅增强。

表4：消融实验（CHAIR, LLaVA-1.5）¶

模块配置	\(C_S\)↓	\(C_I\)↓
Vanilla	48.8	14.2
+ 自适应可信度约束	50.2	13.8
+ 对抗脆弱性防御	46.4	12.8
+ 统计偏差缓解	40.4	11.0
+ 固有偏差消除（完整SHIELD）	36.6	10.3

每个模块贡献独立且显著。统计偏差缓解模块单独贡献最大（\(C_S\)从46.4降至40.4，约13%降幅），固有偏差消除进一步降低约10%。

关键发现¶

编码器是幻觉的重要源头：此前所有免训练方法仅关注LLM端，SHIELD首次证明视觉编码器中的偏差和脆弱性是幻觉的独立且关键来源，在所有基准上超越现有方法。
统计偏差是最大的幻觉推手：消融实验表明，缓解统计偏差的贡献最大——高L2 token的过度强调对长描述场景的幻觉影响尤为显著。
SHIELD不牺牲通用能力：完整MME评估显示Perception从1279→1473（+194），Total从1632→1811（+179），说明缓解编码器偏差不仅减少幻觉，还提升了OCR、海报识别等通用感知能力。
属性级幻觉改善最大：Position提升30%+、Color提升21%+，说明编码器偏差对细粒度属性感知的伤害最大，矫正后收益最多。
InstructBLIP上效果受限：因其Q-Former模块限制了修改后视觉特征的传播，SHIELD的增益较小——这也间接说明了SHIELD确实在视觉token层面起作用。

亮点与洞察¶

"编码器侧幻觉"新范式：此前所有工作都将幻觉归因于LLM的过度自信或数据偏差，SHIELD首次系统地将问题定位到视觉编码器——开辟了一个全新的研究方向。
噪声输入实验的说服力：给编码器纯噪声→它仍然"看到"汽车和椅子→这不是模型的"理解"而是预训练数据分布的烙印。这一实验设计简洁但极具洞察力。
朴素描述的自清洁特性：token重加权依赖朴素描述，但幻觉对象在相似度矩阵中天然无法匹配高相似度的视觉token→不会被放大→巧妙的自校正机制。
三重防御的正交性：三个模块分别处理三个独立的问题维度（分布→残余→鲁棒性），消融实验证明它们互补且叠加有效。
噪声估计可预计算：固有偏差的估计仅依赖编码器参数，可离线计算并缓存→推理时几乎零额外开销。

局限性¶

推理成本增加：需要额外生成朴素描述（一次前向推理）、计算CLIP相似度矩阵、采样噪声输入、运行对抗攻击→推理延迟预计增加2-3倍。
依赖CLIP编码器架构：token重加权和对抗攻击策略都依赖于CLIP的视觉-文本对齐→对不使用CLIP编码器的LVLM（如EVA-CLIP变种或原生ViT）适用性未验证。
InstructBLIP效果有限：Q-Former的中间瓶颈限制了修改后视觉特征的传播→对有中间适配器的架构效果可能打折。
超参数敏感性：\(\alpha=2, \beta=0.35, K=32, l=0.02\) 跨模型固定使用→不同模型/任务的最优超参可能不同。
评估局限：主要在COCO系数据上评估→对分布外场景（医疗/遥感/工业）的泛化性未验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次系统归因编码器侧幻觉（统计偏差+固有偏差+脆弱性），三策略防御框架有原创性
实验充分度: ⭐⭐⭐⭐ — 5个幻觉基准(CHAIR/POPE/MME/AMBER/GPT-4o)×3个LVLM家族+完整消融+可视化
写作质量: ⭐⭐⭐⭐ — 问题分析→根因识别→解决方案的逻辑链非常清晰，图表设计直观
价值: ⭐⭐⭐⭐ — 为LVLM幻觉研究开辟了编码器侧的新方向，免训练特性有实用价值

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计1：Token重加权——缓解统计偏差¶

关键设计2：Token减法——消除固有偏差¶

关键设计3：对抗攻击+对比解码——应对脆弱性¶

关键设计4：自适应可信度约束¶

实验结果¶

表1：CHAIR幻觉评估（500张COCO图片，长描述）¶

表2：POPE幻觉评估（COCO子集，Accuracy/F1）¶

表3：MME幻觉子集评估¶

表4：消融实验（CHAIR, LLaVA-1.5）¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作对比¶

vs VCD (Visual Contrastive Decoding)¶

vs OPERA¶

vs MARINE / VTI¶

评分¶

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计1：Token重加权——缓解统计偏差¶

关键设计2：Token减法——消除固有偏差¶

关键设计3：对抗攻击+对比解码——应对脆弱性¶

关键设计4：自适应可信度约束¶

实验结果¶

表1：CHAIR幻觉评估（500张COCO图片，长描述）¶

表2：POPE幻觉评估（COCO子集，Accuracy/F1）¶

表3：MME幻觉子集评估¶

表4：消融实验（CHAIR, LLaVA-1.5）¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作对比¶

vs VCD (Visual Contrastive Decoding)¶

vs OPERA¶

vs MARINE / VTI¶

评分¶

相关论文¶