Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification¶
会议: ICLR2026
arXiv: 2602.05535
代码: HT86159/EUQ
领域: 多模态VLM
关键词: LVLM uncertainty, evidential reasoning, Dempster-Shafer, misbehavior detection, hallucination
一句话总结¶
提出 EUQ(Evidential Uncertainty Quantification),基于 Dempster-Shafer 证据理论将 LVLM 的认识不确定性分解为冲突 CF(内部矛盾)和无知 IG(信息缺失),无需训练、单次前向传播即可检测幻觉/越狱/对抗/OOD 四类错误行为,平均 AUROC 相对最佳基线提升 10.4%/7.5%。
研究背景与动机¶
LVLM 在面对困难、分布偏移或对抗性输入时,会产生四类典型错误行为(misbehavior):
- 幻觉:输出与视觉内容不一致(物体/关系/属性幻觉)
- 越狱:被恶意视觉提示诱导生成有害内容
- 对抗脆弱:像素级不可察觉扰动导致错误预测
- OOD 失败:面对训练分布外的风格/质量偏移无法正确识别
现有不确定性量化(UQ)方法的三个核心不足:
- 贝叶斯方法计算量过大——对 LVLM 规模不可行
- 采样方法需多次推理——如语义熵(SE)需生成 10 次才能估计一致性,延迟 10 倍
- 只捕获总体不确定性——无法区分"模型内部有矛盾证据"和"模型根本缺乏相关知识"
本文的核心洞察:不同错误行为对应不同的认识不确定性来源。幻觉时模型同时有支持和反对的证据(高冲突),OOD 失败时模型缺乏相关知识(高无知)。这一区分为有针对性的错误检测提供了理论基础。
方法详解¶
整体框架¶
EUQ 把 LVLM 单次前向得到的 output head pre-logits 特征当作"证据",套用 Dempster-Shafer 证据理论拆出两种认识不确定性:支持与反对相互打架的冲突 CF,以及证据普遍稀薄的无知 IG。整个过程都是闭式计算,不需要训练、采样或多次推理,每个 token 都能近乎零成本地拿到一对不确定性读数,再聚合成句子级度量去判定错误行为。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["LVLM 单次前向<br/>output head pre-logits 特征 Z"] --> B["证据权重的闭式估计<br/>LCP 把权重矩阵逐列去均值<br/>→ 证据矩阵 E"]
B --> C["正负证据分解与两阶段融合<br/>E⁺/E⁻ 同号相加 → Dempster 规则融合"]
C -->|正负证据相互打架| D["冲突 CF<br/>逐 token"]
C -->|证据普遍稀薄| E["无知 IG<br/>逐 token"]
D --> F["句子级不确定性聚合<br/>整句 token 取均值"]
E --> F
F --> G["判定错误行为<br/>幻觉 / 越狱 / 对抗 / OOD"]
关键设计¶
1. 证据权重的闭式估计:把线性投影层的每个特征解读为一份证据
output head 的投影层 \(\mathbf{H} = \mathbf{Z}\mathbf{W} + \mathbf{b}\) 把 pre-logits 特征 \(\mathbf{Z} \in \mathbb{R}^I\) 映射到各输出维度,方法要回答的核心问题是:第 \(i\) 个特征 \(z_i\) 究竟为第 \(j\) 个假设 \(h_j\) 提供了多少支持或反对,记作证据权重 \(e_{ij}\)。直接反解会有无穷多组解,作者引入最小承诺原则(LCP)来定锚——在能解释投影结果的前提下让证据尽量"不过度承诺",即求解 \(\min_{\mathbf{A},\mathbf{B}} \|\mathbf{A} \odot \mathbf{Z}^\top + \mathbf{B}\|_2^2\),得到闭式解 \(\mathbf{A}^* = W - \mu_0(W)\),本质上只是对权重矩阵逐列去均值。正因为这一步无需任何训练或迭代优化,整套不确定性量化才能做到近乎零开销。
2. 正负证据分解与两阶段融合:让"有矛盾"和"缺知识"各走各的账
拿到证据矩阵 \(\mathbf{E} \in \mathbb{R}^{I \times J}\) 后,按符号拆成支持假设的正证据 \(\mathbf{E}^+ = \max(0, \mathbf{E})\) 和反对假设的负证据 \(\mathbf{E}^- = \max(0, -\mathbf{E})\),融合分两阶段进行。第一阶段利用证据权重的可加性(Lemma 2),把同号证据直接相加,绕开了 Dempster-Shafer 框架里指数级的功率集枚举;第二阶段才用 Dempster 规则融合正负两侧,并从中读出两个互补的量。冲突 \(\mathbf{CF} = \sum_j \eta_j^+ \cdot \eta_j^-\) 在某个假设 \(h_j\) 同时被强支持又被强反对时两项乘积变大,对应模型内部自相矛盾;无知 \(\mathbf{IG} = \sum_j \exp(-e_j^-)\) 则在负证据越弱(\(e_j^-\) 越小)时指数项越接近 1,对应模型压根缺乏相关信息。正是这种正负分账,让"内部冲突"和"信息缺失"两类错误来源第一次能被分别量化,而不是混成一个笼统的总不确定性。
3. 句子级不确定性聚合:从逐 token 读数汇成整句判断
LVLM 是逐 token 生成的,上述每一步都会产出一对 CF/IG。EUQ 取一句话内所有 token 的均值作为句子级冲突和无知度量,用它去判定整段输出属于幻觉、越狱、对抗还是 OOD。均值聚合虽简单,却能避免被个别 token 的极端读数带偏,让句子级判断更稳。
实验结果¶
Misbehavior-Bench 评测体系¶
为统一衡量四类错误,作者构建了涵盖 4 类错误行为、9 个数据集的评测基准:
| 错误类型 | 数据集 | 样本数 | 问题类型 |
|---|---|---|---|
| 幻觉 | POPE + R-Bench | 2000 | 多选 |
| 越狱 | FigStep + Hades + VisualAdv + Typographic | 2800 | 开放式/多选 |
| 对抗 | ANDA + PGN | 400 | 是/否 |
| OOD | OOD-Bench | 1300 | 是/否 |
评估模型:DeepSeek-VL2-Tiny、Qwen2.5-VL-7B、InternVL2.5-8B、MoF-7B(覆盖 SwiGLU 和 MoE 架构)。
总体对比(4 模型 × 4 场景平均)¶
| 方法 | 类型 | AUROC | AUPR | 额外开销 |
|---|---|---|---|---|
| SC (self-consistency) | 采样 ×10 | 0.626 | 0.730 | 8.9×10⁻¹s |
| SE (semantic entropy) | 采样 ×10 | 0.624 | 0.661 | 9.0×10⁻¹s |
| PE (predictive entropy) | 概率 | 0.701 | 0.656 | 3.1×10⁻⁶s |
| LN-PE | 概率 | 0.704 | 0.660 | 6.1×10⁻⁶s |
| HiddenDetect | 隐层特征 | 0.707 | 0.658 | 2.0×10⁻²s |
| CF (ours) | 证据融合 | 0.812 | 0.783 | 9.1×10⁻⁴s |
| IG (ours) | 证据融合 | 0.783 | 0.785 | 4.5×10⁻³s |
CF 相对最佳基线 HiddenDetect 的 AUROC 提升 10.5%,同时计算开销仅为采样方法的 ~1/1000。
分场景最优检测指标(AUROC,4 模型平均)¶
| 错误类型 | CF | IG | 最佳基线 | CF/IG 相对提升 |
|---|---|---|---|---|
| 幻觉 | 0.761 | 0.657 | PE 0.742 | CF +2.6% |
| 越狱 | 0.757 | 0.665 | HiddenDetect 0.752 | CF +0.7% |
| 对抗 | 0.836 | 0.861 | LN-PE 0.717 | IG +20.1% |
| OOD | 0.894 | 0.948 | HiddenDetect 0.694 | IG +36.6% |
核心发现:幻觉 ↔ 高冲突(CF 最佳),OOD ↔ 高无知(IG 最佳);对抗场景两者均有效但 IG 更优,符合对抗扰动导致信息缺失的直觉。
层级动态分析¶
- IG 随层深递减:深层积累更多支持性线索,无知逐步消除
- CF 随层深递增:深层特征更具任务相关性,不同通道竞争加剧导致冲突上升
- 这一规律符合信息瓶颈理论——深层压缩冗余输入、增强判别信息
消融实验¶
- 温度鲁棒性:温度从 0.1 到 1.4,CF 和 IG 的检测性能保持稳定
- 模型规模效应:4B 和 38B 检测性能较好(小模型错误明显易捕获,大模型错误稀少但模式清晰),8B 中等模型的细微错误最难检测
- 外部提示无效:添加 "None of the above" 选项后,Qwen 仅 0.27% 选择、Intern 0.00%——模型过度自信导致提示策略失效
亮点与局限¶
亮点¶
- 首次在 LVLM 中将认识不确定性分解为冲突和无知——提供可解释的错误诊断:不同错误行为对应不同不确定性来源,指导有针对性的修复策略
- 零训练 + 单次前向传播——闭式解无需优化,UQ 开销 <1ms,实际部署几乎无感
- 理论扎实——从 Dempster-Shafer 证据理论出发,Lemma 1(闭式估计)、Lemma 2(可加性)、Theorem 1(CF/IG 表达式)层层递进
- 通用性——方法适用于任何含线性投影层的模型(BERT、ResNet、LLM),不限于 VLM
局限¶
- 需要访问模型内部表示,无法用于 GPT-4 等闭源 API
- 对抗/越狱场景 CF 和 IG 性能接近,难以单独归因
- 目前层级分析仅在特定层能区分全部 4 类错误,尚无自动最优层选择机制
局限与展望¶
- 仅使用 output head 特征,未利用中间层的丰富信息
- 证据权重的闭式解依赖线性投影假设
- 目前是检测而非修复——检测到不确定性后如何改善输出是下一步
相关工作与启发¶
- vs Semantic Entropy:需多次采样+外部模型评估等价语义。EUQ 单次前向即可
- vs Verbalized Confidence:依赖模型元认知能力(不可靠)。EUQ 从特征直接提取
- vs Evidential Deep Learning:需要训练。EUQ 完全无需训练
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将证据理论的 CF/IG 分解应用于 LVLM 错误检测
- 实验充分度: ⭐⭐⭐⭐⭐ 4 模型 × 4 类错误 × 多基线,层级分析有深度
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨,可视化有帮助
- 价值: ⭐⭐⭐⭐⭐ 对 LVLM 可信度和安全部署有直接实用价值