Enhancing Vision-Language Model Reliability with Uncertainty-Guided Dropout Decoding¶

会议: NeurIPS 2025
arXiv: 2412.06474
代码: https://github.com/kigb/DropoutDecoding
领域: 多模态VLM
关键词: VLM幻觉, 不确定性量化, 视觉token dropout, 认知不确定性, 集成解码

一句话总结¶

提出Dropout Decoding——将视觉token投影到文本空间后量化其认知不确定性，选择性遮掩高不确定性视觉token并通过多组遮掩结果的集成投票增强输出可靠性，无需额外训练即可显著减少LVLM的对象幻觉。

研究背景与动机¶

LVLM幻觉的严重性：大型视觉语言模型（LVLM）在图像描述、视觉问答等任务上展现了强大能力，但频繁产生幻觉——模型生成与图像内容不一致的错误描述，特别是对象幻觉（Object Hallucination）问题在实际部署中构成严重的可信度障碍。这些幻觉往往源于模型对某些视觉token的误解读——错误地将特定视觉patch的信息映射为不存在的对象或错误的属性。

现有解决方案的不足：训练阶段的方法（如针对特定任务的微调、RLHF）需要大量计算资源且难以泛化到新任务；推理阶段的方法（如OPERA修改beam search、VCD使用对比解码）多基于启发式设计，缺乏对"哪些视觉token不可靠"的原理性度量。更根本的问题是，这些方法没有直接回答一个核心问题：在数百到数千个视觉token中，哪些token携带的信息是可靠的，哪些是模型不确定、容易产生误解的？

Dropout思想的迁移：传统Dropout在训练时对模型参数施加随机遮掩以防止过拟合，但在预训练的LVLM中直接对参数做Dropout不可行。作者提出将Dropout的核心思想从参数空间迁移到输入token空间——在推理阶段对视觉输入token进行选择性遮掩，通过引入解码上下文的随机性来减少对噪声视觉token的过度依赖。

核心切入点：利用LVLM文本解码器的隐含能力——视觉token在解码器顶层的隐表示本身就编码了文本语义信息。通过将视觉token投影到文本词表空间，可以获得每个视觉token的"文本化"解读，进而量化其不确定性。认知不确定性（epistemic uncertainty，反映模型知识不足的部分）特别适合识别那些信息丰富但容易被误解的关键视觉token。

方法详解¶

整体框架¶

Dropout Decoding包含两个阶段：(1) 解码前——对所有视觉token的不确定性进行量化和分解；(2) 解码时——基于认知不确定性指导的token dropout + 多组集成 + 多数投票。整个过程在推理时完成，无需修改模型参数或额外训练。

关键设计¶

视觉token的文本空间投影（Textual Interpretation）:
- 功能：将每个视觉token映射到文本词表空间，获得其"文本化"概率分布，揭示模型对该视觉patch的语义解读
- 核心思路：利用LVLM解码器的logit lens方法，对第\(i\)个视觉token \(x_i^v\)获取其顶层隐表示\(h_i^v = f_\theta(x_{\leq i}^v)\)，然后通过文本词表投影矩阵得到文本化分布\(q_i^{\text{proj}} = \text{softmax}(W_\mathcal{V} h_i^v)\)。信息丰富的patch会投影出具体的词（如"Berlin"、"computer"），而无信息的背景patch投影出高频词（如"a"、"the"）
- 设计动机：LVLM的解码器顶层隐表示天然接近文本词表投影，即使在视觉token位置上（模型并非被训练在此生成文本），这种投影仍能有效捕获语义信息。这提供了一种免监督的、基于模型自身能力的视觉token信息量评估手段
不确定性分解与认知不确定性度量:
- 功能：将每个视觉token的总不确定性分解为偶然不确定性（数据固有）和认知不确定性（模型知识不足），发现认知不确定性是识别关键但易被误解视觉token的最佳指标
- 核心思路：首先定义所有视觉token的平均文本化分布\(q^{\text{proj}} = \frac{1}{N}\sum_{i}^{N} q_i^{\text{proj}}\)作为基线。偶然不确定性\(U_{\text{ale}}(i) = \mathbb{H}[q_i^{\text{proj}}]\)为单个token分布的熵；认知不确定性\(U_{\text{epi}}(i) = D_{\text{KL}}(q_i^{\text{proj}} \| q^{\text{proj}})\)为单个token分布与全局平均分布的KL散度。总不确定性分解为\(U_{\text{total}} = \mathbb{E}_i[U_{\text{ale}}(i) + U_{\text{epi}}(i)]\)
- 设计动机：直觉上，高认知不确定性意味着某个视觉token的文本化解读与整体图像的平均解读差异很大——它携带独特的、"令人惊讶的"信息。这恰恰是容易被模型误解但又至关重要的区域。实验证实，认知不确定性与视觉token的信息量正相关，而偶然不确定性和总不确定性则缺乏这种关联
不确定性引导的Token Dropout + 集成投票:
- 功能：基于认知不确定性生成多组dropout掩码，对视觉token施加选择性遮掩，通过集成多组遮掩后的解码结果做多数投票，得到最终输出
- 核心思路：根据归一化的认知不确定性构建dropout概率分布\(P_{\text{dropout}}^{(k)}(x_i^v) = \gamma^{(k)} \frac{U_{\text{epi}}(i) - U_{\text{epi}}^{\min}}{U_{\text{epi}}^{\max} - U_{\text{epi}}^{\min}} + \delta^{(k)}\)，其中\(\gamma^{(k)}\)和\(\delta^{(k)}\)控制dropout强度。独立采样\(K\)个二值掩码\(M^{(k)}\)，用每个掩码遮掩后的视觉上下文分别解码得到候选token \(y_j^{(k)}\)，最终通过多数投票选出最终输出token。可选地，在每步解码前先做一次初步前向传播产生初始预测\(y_j^{\text{init}}\)，保留与初始预测相关的视觉token不被dropout
- 设计动机：单次解码可能因对某些误解读的视觉token过度依赖而产生幻觉；通过多组不同遮掩方案的集成，多样化了模型对视觉内容的视角，减少了单一误解的影响，类似于模型集成（ensemble）的降方差效果

损失函数 / 训练策略¶

无需训练，这是Dropout Decoding最大的实用优势之一。所有操作完全在推理时完成，不修改模型任何参数。主要超参数包括：dropout掩码数量\(K\)（推荐5-10组，平衡精度与效率）、dropout概率范围控制参数\(\gamma^{(k)}\)和\(\delta^{(k)}\)（用于调制不同dropout强度的ensemble成员，使得不同mask具有不同的遮掩比例，增加集成多样性）、以及可选的relevant token保留步骤中的top-\(k\)阈值。在实际实现中，\(K\)个mask的前向传播可以通过batch化处理并行执行，不需要顺序推理，从而部分缓解延迟开销。

实验关键数据¶

主实验¶

模型	方法	CHAIR_S↓	CHAIR_I↓	THRONE \(F^1_{\text{all}}\)↑	THRONE \(P_{\text{all}}\)↑
LLaVA-1.5	Greedy	42.20	12.83	0.795	0.772
LLaVA-1.5	Beam Search	46.33	13.90	0.790	0.759
LLaVA-1.5	OPERA	41.47	12.37	0.802	0.782
LLaVA-1.5	VCD	49.20	14.87	0.786	0.759
LLaVA-1.5	Dropout Decoding	39.80	11.73	0.804	0.784
InstructBLIP	Greedy	27.87	7.90	0.809	-
InstructBLIP	Dropout Decoding	24.53	6.63	0.814	-
LLaVA-NEXT	Greedy	28.80	8.10	0.815	-
LLaVA-NEXT	Dropout Decoding	26.26	7.39	0.821	-

消融实验¶

配置	CHAIR_S↓	CHAIR_I↓	说明
偶然不确定性引导	43.10	13.20	效果差，不能有效识别关键token
总不确定性引导	41.80	12.50	略有改善但不稳定
认知不确定性引导	39.80	11.73	最优，精准定位关键且易误解的token
K=1（单次dropout）	41.30	12.40	集成不充分
K=5	40.10	11.90	接近最优
K=10	39.80	11.73	最优集成数量
有relevant token保留	39.80	11.73	CHAIR最优
无relevant token保留	40.20	11.85	CHAIR略差但THRONE可能更好

关键发现¶

VCD在InstructBLIP上反而大幅恶化（CHAIR_S从27.87→39.33），而Dropout Decoding在所有模型上一致有效
认知不确定性远优于偶然不确定性和总不确定性作为dropout引导信号
InstructBLIP仅使用32个视觉token（信息密度高），LLaVA系列使用数百到上千个，方法对不同token数量规模均有效
多数投票的集成策略在平局时选择保留token最多的前向传播结果（信息更完整），这一细节对稳定性有贡献

亮点与洞察¶

Dropout概念的巧妙迁移：将Dropout从训练时的参数正则化迁移到推理时的输入token空间——概念极其自然，但在LVLM场景下此前无人尝试。关键的创新在于用不确定性引导而非随机遮掩，使得dropout有了信息论基础
认知不确定性的直觉解释：高认知不确定性的视觉token = 信息丰富但可能被误解的关键patch——这一发现为理解LVLM的视觉感知提供了新视角，也解释了为什么随机dropout效果差而定向dropout效果好
免训练的即插即用设计：整个方法仅依赖LVLM自身的forward pass能力（logit lens + 文本投影），不引入外部模型，兼容任意LVLM架构

局限与展望¶

多次前向传播（K次dropout + 可选的初步预测）增加了推理延迟，约5-10倍计算开销，对实时交互场景不友好
依赖logit lens投影的质量——如果模型的视觉-文本对齐本身做得不好，投影出的文本化分布可能不准确，导致不确定性度量失效
对开放式生成任务（如创意写作、复杂推理）的适用性未验证，目前主要在描述性任务（图像描述、VQA）上测试
多数投票策略在生成多样性要求高的场景下可能不合适——集成倾向于输出"共识"答案，可能抑制创造性回复
当视觉token数量较少时（如InstructBLIP的32个），dropout可能移除关键信息导致信息损失；当token极多时（如LLaVA-NEXT的2880+个），不确定性计算的开销也相应增大

评分¶

新颖性: ⭐⭐⭐⭐ 将Dropout从参数空间迁移到输入token空间是巧妙的概念创新，不确定性引导使其有理论基础
实验充分度: ⭐⭐⭐⭐ 3个模型、CHAIR+THRONE双benchmark、详细消融，但缺乏效率分析和更多任务类型
写作质量: ⭐⭐⭐⭐⭐ Figure 1的投影可视化和不确定性分解极其直观，数学推导与直觉解释并重
价值: ⭐⭐⭐⭐ 推理时VLM可靠性增强的实用方法，但推理开销是实际部署的瓶颈