Post-hoc Probabilistic Vision-Language Models¶

会议: ICLR 2026
arXiv: 2412.06014
代码: 有（Project page）
领域: Multimodal VLM / Uncertainty Quantification
关键词: 视觉语言模型, 不确定性量化, 贝叶斯推断, Laplace近似, 主动学习

一句话总结¶

提出一种免训练的后验（post-hoc）不确定性估计方法，对 CLIP/SigLIP 等 VLM 最后几层使用 Laplace 近似，解析推导余弦相似度的不确定性，在不确定性量化和主动学习中取得显著优于基线的效果。

研究背景与动机¶

领域现状：视觉语言模型（vision-language model, VLM），如 CLIP 和 SigLIP，已在零样本分类、检索、生成等任务中取得巨大成功。它们的核心操作是把图像和文本分别映射到共享潜在空间，再用余弦相似度（cosine similarity）评估匹配程度。

现有痛点：这种确定性映射只输出一个点估计，无法表达对概念的不确定性（uncertainty over concepts）。当模型部署到下游任务时，训练域与目标域的差异（domain shift）会让预测变得不可靠，但模型对自己的"不确信"毫无察觉——分布外（OOD）样本和模棱两可的样本，得到的依然是一个看似笃定的嵌入，分不清"确信正确"和"瞎猜"。在医疗诊断、自动驾驶这类安全关键场景里，缺少可靠的不确定性信号是致命的。

核心矛盾：已有的不确定性方法在大规模 VLM 上都不划算——温度校准（calibration）只能修正置信度、抓不住认知不确定性（epistemic uncertainty）；Monte Carlo Dropout、集成需要多次前向；从零训练概率化 VLM 或微调适配器则要改架构、重训练。而 CLIP 这类模型是在数十亿图文对上训练的，任何重训练成本都极高。

核心 idea：能不能不动原模型一个参数，事后（post-hoc）给现成的 VLM "贴"一层贝叶斯近似，就能解析地量出余弦相似度的不确定性？这正是本文 BayesVLM 的切入点。

方法详解¶

整体框架¶

BayesVLM 把一个训练好的 CLIP/SigLIP 当成黑盒，只在它两个线性投影层——图像投影 \(P\) 和文本投影 \(Q\)（紧跟在图文 encoder 之后、把特征送进共享空间的最后一层）——上"贴"一层贝叶斯近似。具体来说：保持 feature extractor 完全确定不变，用 Laplace 近似把 \(P\)、\(Q\) 看成围绕预训练值的高斯分布；这样图文嵌入就成了随机变量，再解析地（ProbCosine）推出余弦相似度的均值和方差，最后把这个分布传到输出端得到带不确定性的预测。整个过程不动原模型一个参数，只需一次基于 Hessian 估计的轻量校准，前向时就能额外吐出一路不确定性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["图像 + 文本"] --> ENC["预训练 encoder<br/>(确定性，不动)"]
    subgraph LAP["投影层 Laplace 后验（设计 1）"]
        direction TB
        ENC --> P["图像投影 P / 文本投影 Q"]
        P --> GGN["GGN + KFAC<br/>估计 Hessian → 高斯后验"]
    end
    GGN --> EMB["随机化图文嵌入"]
    EMB --> PC["ProbCosine：解析算<br/>余弦相似度均值 + 方差"]
    PC --> OUT["probit 传播到输出<br/>带不确定性的预测"]
    OUT --> APP["不确定性量化 / 主动学习选样"]

关键设计¶

1. 只对两个投影层做 Laplace 后验：把贝叶斯成本压到投影矩阵 P、Q 上

要让模型表达不确定性，得给权重一个分布而非定值，但对整个 VLM 做 Laplace 近似会让 Hessian 规模爆炸。BayesVLM 的取舍是：让庞大的 feature extractor 保持确定，只把图像投影 \(P\) 和文本投影 \(Q\) 这两个线性层视为随机，用 Laplace 在预训练值附近做二阶展开，得到高斯后验 \(p(\theta \mid D) \approx \mathcal{N}(\theta^*, \Sigma)\)。这里 \(\theta^*\) 直接取预训练权重（相当于 MAP），协方差来自 Hessian 的逆。为了让这个 Hessian 算得动，论文用广义高斯-牛顿（Generalised Gauss-Newton, GGN）近似——线性投影层的 Jacobian 有闭式解——再叠上 Kronecker 分解（KFAC），把 Hessian 写成两个小矩阵的 Kronecker 积，比对角近似保留更丰富的后验结构、又比满矩阵省得多。之所以只盯投影层：一是下游适配主要发生在这里，二是计算上才负担得起，把不确定性集中在最关键的一环。

2. ProbCosine：解析推导余弦相似度的均值与方差，不靠采样

VLM 的打分是图文嵌入的余弦相似度 \(s = \frac{f_I \cdot f_T}{\lVert f_I \rVert \lVert f_T \rVert}\)。一旦 \(P\)、\(Q\) 成了高斯随机变量，嵌入 \(f_I\)、\(f_T\) 乃至 \(s\) 也都成了随机变量。最直接的做法是 Monte Carlo——反复采样投影权重跑前向，但在大模型上太贵、还带采样噪声。本文提出 ProbCosine：给定嵌入各维的高斯近似（对角协方差），解析地推出余弦相似度分布的期望与方差，一次前向就能得到不确定性。这既省掉多次采样，又避免有限采样的估计噪声，算出的方差可直接作为下游决策信号。

3. 后验式 + probit 输出传播：即插即用，还能直接给分类不确定性

整套方法是事后（post-hoc）的——不微调、不改架构，只需一次校准在少量数据上估计 Hessian 的 KFAC 因子，校准后模型参数与原权重完全一致，分类/检索性能不受影响。最后一步是把余弦相似度的高斯分布传到模型输出：对 softmax/分类概率用 probit 近似，得到对预测类别的校准化不确定性。正是"不碰原参数 + 输出端解析传播"这两点，让它能直接套到现成的 CLIP、SigLIP 上，而不必为每个新模型重新付出训练代价。

损失函数 / 训练策略¶

方法不引入任何训练损失：校准阶段只在少量数据上用 GGN + KFAC 估计投影层 Hessian 的 Kronecker 因子；推理阶段一次前向得到嵌入后，借 ProbCosine 解析算出余弦相似度的均值与方差，再经 probit 近似传到输出，同时给出点预测和不确定性估计。

实验关键数据¶

主实验¶

论文在两个主要应用场景中验证方法的有效性：

不确定性量化（Uncertainty Quantification）

设置	指标	BayesVLM	确定性基线	优势
ID 数据	校准误差 (ECE)	显著改善	过度自信	校准更好
OOD 检测	AUROC	提升明显	无不确定性	能识别 OOD
领域偏移	预测可靠性	更稳健	性能下降	提供可靠的不确定性信号

主动学习（Active Learning）

数据集	指标	BayesVLM	随机采样	其他基线
多个下游任务	样本效率	最高	基准线	中等
标注预算受限	准确率	最优	较差	次优

消融实验¶

配置	关键指标	说明
处理层数	不确定性质量	仅最后 1-2 层即可获得良好效果
Fisher 矩阵近似方式	校准质量	对角近似已足够，Kronecker 分解效果更好
不同 VLM 骨架	通用性	CLIP 和 SigLIP 上均有效

关键发现¶

校准良好：BayesVLM 提供的不确定性估计具有良好的校准性——模型预测"不确信"时确实更可能出错
可解释性：不确定性估计具有直觉上的可解释性——模棱两可或分布外的样本获得更高不确定性
主动学习高效：基于不确定性的样本选择显著优于随机采样，在标注预算有限时价值尤其突出
不影响原始性能：作为后验方法，不修改模型参数，不降低原有的分类/检索性能
计算高效：解析推导避免了 Monte Carlo 采样，推理开销极小

亮点与洞察¶

问题选择精准：VLM 的不确定性估计是一个被忽视但极其重要的问题，特别是在安全关键应用中
方法设计简洁：不需要重新训练、不需要修改架构、不需要大量额外计算，真正的"即插即用"
理论-实用平衡：Laplace 近似有坚实的理论基础，同时解析推导保证了计算效率
余弦相似度的概率化处理：将确定性的余弦相似度转化为具有不确定性的随机变量，是一个优雅的理论贡献
下游应用多样：同时展示了在不确定性量化和主动学习两个实际场景中的价值

局限与展望¶

近似质量：Laplace 近似假设后验为高斯分布，在高维空间中可能不够准确
仅处理最后几层：忽略了 VLM 更深层的不确定性传播，可能低估总体不确定性
Fisher 矩阵计算：对于非常大的模型，即使是对角近似也可能有一定计算开销
评估基准有限：不确定性估计的评估缺乏统一标准，不同数据集上的表现可能差异较大
面向分类/检索场景：未验证在生成式 VLM（如 LLaVA、GPT-4V）上的适用性
自回归生成：方法适用于 CLIP 类的双编码器架构，对于自回归 VLM 架构需要进一步扩展

评分¶

新颖性: ⭐⭐⭐⭐ — 后验 Laplace 近似不新，但在 VLM 余弦相似度上的解析推导是新的贡献
实验充分度: ⭐⭐⭐⭐ — 不确定性量化和主动学习双场景验证，多 VLM 骨架测试
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，方法描述简洁易懂
价值: ⭐⭐⭐⭐ — 解决了 VLM 部署中的实际需求，安全关键应用前景广阔