Revisiting Confidence Calibration for Misclassification Detection in VLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=d8WMoi571f
代码: Code Link（论文补充材料匿名链接）
领域: 多模态VLM / 置信度校准 / 误分类检测
关键词: VLM置信度校准、误分类检测、CLIP、后验校准、温度缩放

一句话总结¶

本文指出标准置信度校准即便达到完美校准也会限制 VLM 的误分类检测能力，并用 MisD 导向的可靠性曲线、可微 surrogate loss 和轻量后验 meta network 学习样本级温度系数，从而更好地区分正确预测与错误预测。

研究背景与动机¶

领域现状：CLIP 这类视觉语言模型已经成为零样本分类、细粒度识别、遥感场景识别等任务里的常用基座。部署这些模型时，用户不仅关心预测类别是否正确，也关心模型给出的置信度是否可信。因此，temperature scaling、instance-wise calibration、面向 VLM 的文本距离校准等方法，都试图让“模型说自己有 0.8 置信度”对应到“大约 80% 的样本确实正确”。

现有痛点：高风险应用里，一个更直接的问题往往不是置信度数值是否等于经验准确率，而是模型能不能把错误预测排到更低置信度，把正确预测排到更高置信度。这个任务就是误分类检测（misclassification detection, MisD）：给定一个阈值，高置信样本被当作可靠预测，低置信样本被当作可能错误。传统校准优化的是可靠性曲线贴近对角线，却不保证正确样本和错误样本在置信度轴上分离得足够开。

核心矛盾：标准校准的目标和 MisD 的目标并不等价。完美校准要求 \(P(\hat{y}=y\mid s=p)=p\)，也就是置信度为 \(p\) 的样本中正确比例等于 \(p\)。但 MisD 想要的是排序分离：正确样本尽量出现在高置信区，错误样本尽量出现在低置信区。若置信度分布广泛落在 \([0,1]\) 中间，即使可靠性曲线已经是对角线，高置信区里仍会混入错误样本，低置信区里也会混入正确样本。

本文目标：论文把问题拆成三个层次：先从理论上解释为什么“完美校准”对 MisD 有上界；再设计一个更符合 MisD 的目标可靠性曲线；最后给出能在 CLIP/VLM 上实际训练的后验方法，在不改变原模型预测类别和表征能力的前提下重新调整置信度排序。

切入角度：作者从 reliability diagram 出发，观察到可靠性曲线下方/上方的面积可以解释为某个置信区间内正确/错误预测的 precision。这个视角把传统校准图从“看曲线离对角线多远”变成“看哪些区域有利于检测正确样本或错误样本”，于是可以直接为 MisD 设计目标曲线。

核心 idea：用一条 MisD 导向的归一化 sigmoid 可靠性曲线替代标准对角线校准目标，并训练一个轻量后验网络为每个样本预测温度系数，让正确预测更尖锐、错误预测更平坦，从置信度排序上拉开二者。

方法详解¶

整体框架¶

这篇论文的方法不是重新训练 VLM 主干，而是在已有 CLIP 或 prompt-tuned CLIP 的输出之后加一个后验重校准模块。整体流程是：先用理论分析确定 MisD 需要怎样的可靠性曲线，再把这条曲线转成可微 surrogate loss，最后让 Lightweight Meta Network（LMN）根据 logits、图像 embedding 和预测文本 embedding 生成每个样本自己的温度系数 \(\tau_v\)，只调整置信度分布，不改原始 VLM 参数。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 + 类别文本"] --> B["CLIP/VLM 输出<br/>logits 与 embedding"]
    B --> C["MisD 导向目标曲线<br/>归一化 sigmoid"]
    C --> D["Surrogate loss<br/>曲线约束 + 全概率约束"]
    B --> E["轻量后验 meta network<br/>样本级温度系数"]
    D --> E
    E --> F["重缩放 logits<br/>更新置信度排序"]
    F --> G["误分类检测<br/>正确/错误预测分离"]

这里的关键区别在于，论文不再把 diagonal reliability curve 当作唯一理想目标。对传统校准来说，对角线代表 \(f(s)=s\)；对 MisD 来说，更理想的是低置信区尽量对应错误样本，高置信区尽量对应正确样本。因此作者构造的目标曲线在 \(s<0.5\) 时压低正确率期望，在 \(s>0.5\) 时抬高正确率期望，中间用参数 \(\lambda\) 控制平滑过渡，避免变成过度激进的硬阶跃。

关键设计¶

1. 可靠性曲线重解释：把校准图变成 MisD precision 的分析工具

传统 reliability diagram 的纵轴是 accuracy，横轴是 confidence，因此曲线值 \(f(s)\) 可以理解为 \(P(\text{correct}\mid \text{confidence}=s)\)。作者指出，在置信区间 \([a,b]\) 内，如果样本密度为 \(w(s)\)，那么正确预测检测的 precision 可以由曲线下方面积归一化得到：\(Prec^+=\frac{\int_a^b w(s)f(s)ds}{\int_a^b w(s)ds}\)；错误预测检测则对应曲线上方面积：\(Prec^-=\frac{\int_a^b w(s)(1-f(s))ds}{\int_a^b w(s)ds}\)。

这个重解释很关键，因为它说明 MisD 不是单纯要求曲线贴近对角线。若阈值为 \(r\)，把 \(s\ge r\) 的样本判为正确预测时，真正有用的是高置信区曲线下方面积要尽量大；把 \(s<r\) 的样本判为错误预测时，真正有用的是低置信区曲线上方面积要尽量大。于是，标准校准在 MisD 上的局限就能被写成明确的 precision 上界，而不是停留在“经验上提升有限”。

2. MisD 导向目标曲线：用归一化 sigmoid 在校准和分离之间调节

在完美校准下，可靠性曲线是 \(f(s)=s\)。论文证明，此时高置信区正确检测 precision 等于 \(E_{s\sim w(s\mid s\in[r,1])}[s]\)，低置信区错误检测 precision 等于 \(E_{s\sim w(s\mid s\in[0,r])}[1-s]\)。只要样本置信度不是全部集中在 1 或 0，这两个期望就不可能达到 1，这解释了为什么完美校准仍可能无法把错误预测筛出来。

为了解决这个目标错位，作者提出归一化 sigmoid 曲线：\(\Psi(s)=\frac{\sigma((s-0.5)/\lambda)-\sigma(-0.5/\lambda)}{\sigma(0.5/\lambda)-\sigma(-0.5/\lambda)}\)。当 \(\lambda\to\infty\) 时，\(\Psi(s)\) 退化为对角线，等价于传统完美校准；当 \(\lambda\to0\) 时，它接近阶跃函数，把正确样本推到高置信、错误样本推到低置信。更重要的是，论文证明在 \(r>0.5\) 的高置信区，\(\Psi(s)\) 相比对角线有更高的正确检测 precision；在 \(r<0.5\) 的低置信区，\(1-\Psi(s)\) 也带来更高的错误检测 precision。同时，\(\Psi(s)\) 对每个置信水平的正确/错误混合熵更低，意味着它更不容忍两类样本混在同一个置信度附近。

3. Surrogate loss：把不可微的目标曲线转成可训练的样本级约束

可靠性曲线本身是统计量，直接用 binning 估计再优化会遇到两个问题：一是不可微，二是校准集通常很小，bin 内估计方差会很大。作者因此没有直接优化 ECE 式分箱目标，而是设计了一个 surrogate loss，让每个样本都根据自身是否预测正确产生约束。对正确样本，如果置信度太低，就用 \(1-\Psi(s)\) 和标准交叉熵鼓励它的概率分布更尖锐；对错误样本，如果置信度太高，就用 \(\Psi(s)\) 和均匀分布约束鼓励它的概率分布更平坦。

完整目标可概括为两组约束的加权融合：正确样本项占权重 \(\beta\)，错误样本项占权重 \(1-\beta\)；融合函数 \(\phi\{\cdot,\cdot\}\) 可以取求和或乘积。第一部分让 confidence 贴近 MisD 导向曲线，第二部分约束完整概率分布，避免只盯最大概率而让其余类别概率出现不稳定形状。这个设计的直觉很清楚：如果模型预测对了，就应该把概率质量更多集中到真类/预测类附近；如果模型预测错了，就不该继续自信地压低其它类别，而应让分布更接近高熵状态。

4. 轻量后验 meta network：只学样本级温度，不破坏 VLM 原能力

为了保留 CLIP 的零样本能力和 prompt tuning 后的类别预测，LMN 不更新图像编码器、文本编码器或 prompt 参数，而是只学习几层全连接层来预测样本级温度 \(\tau_v\)。对输入图像 \(v\)，原 logits 为 \(z_v\)，LMN 用三类信号生成温度：logits \(z_v\) 描述分类 margin 和置信度几何；图像 embedding \(\xi(x_v)\) 描述样本视觉难度；预测类别的文本 embedding \(\psi(t_p)\) 描述类别语义和系统性混淆模式。三路特征分别投影到同一隐空间后拼接，再经过 FC 和 softplus 输出正的 \(\tau_v\)。

得到 \(\tau_v\) 后，方法用 \(z'_v=[\tau_v z_{v,1},\tau_v z_{v,2},\ldots,\tau_v z_{v,c}]\) 重缩放 logits。因为 \(\tau_v\) 是乘在所有类别 logits 上，排序最高的类别通常不会被改变，但 softmax 后的置信度会变：较大的 \(\tau_v\) 让分布更尖锐，较小的 \(\tau_v\) 让分布更平坦。附录里的温度分析显示，LMN 学到的正确预测平均 \(\tau\) 通常高于错误预测，MNIST 上二者差距尤其明显，这与 MisD 的目标一致。

损失函数 / 训练策略¶

训练时使用少量校准集。主实验采用 CLIP ViT-B/32，16-shot calibration set；若基座是 textual prompt 或 visual prompt CLIP，则把原 16-shot calibration set 分成两部分，一部分学习 prompt，另一部分训练后验 LMN。优化器为 SGD，epoch 从 \(\{100,150,200\}\) 中选择，学习率从 \(\{0.001,0.002,0.005\}\) 中选择。

超参数上，\(\beta\) 控制正确样本项和错误样本项的平衡，\(\lambda\) 控制目标曲线从平滑到接近阶跃的程度。论文的参数分析显示，\(\beta\) 太大或太小都会破坏两类样本的平衡，峰值大致在 \(\beta=0.6\) 附近；\(\lambda\) 太小会让概率更新过激并导致不稳定，太大则接近标准校准、分离能力不足。多数数据集上 \(\lambda=0.05\) 接近最优，作者也把它作为推荐默认值。

实验关键数据¶

主实验¶

论文在 DTD、Flowers102、EuroSAT、RESICS45、MNIST、CUB 六个数据集上评估 MisD。指标包括 AUROC、AUPR-Success、AUPR-Error、FPR90-Success 和 FPR90-Error；其中 Success 把正确预测当正类，Error 把错误预测当正类。下面选取 AUROC 和 FPR90-Error 展示主结果，数值越高/越低分别越好。

数据集	指标	Zero-shot CLIP	ViLU	LMN (Ours)	主要变化
DTD	AUROC↑ / FPR90-E↓	0.762 / 0.572	0.769 / 0.521	0.802 / 0.457	同时提升排序并减少错误漏检
Flowers102	AUROC↑ / FPR90-E↓	0.864 / 0.354	0.875 / 0.329	0.886 / 0.305	在强基线下仍有稳定收益
EuroSAT	AUROC↑ / FPR90-E↓	0.650 / 0.742	0.723 / 0.538	0.788 / 0.468	遥感场景上提升最明显之一
RESICS45	AUROC↑ / FPR90-E↓	0.779 / 0.508	0.787 / 0.493	0.808 / 0.445	细粒度遥感类别混淆被缓解
MNIST	AUROC↑ / FPR90-E↓	0.813 / 0.482	0.877 / 0.263	0.915 / 0.205	错误检测 FPR 大幅降低
CUB	AUROC↑ / FPR90-E↓	0.807 / 0.554	0.801 / 0.563	0.812 / 0.532	细粒度鸟类上收益较小但为正

作者汇总指出，相比 zero-shot CLIP，LMN 平均提升 AUROC 6.1%、AUPR-Success 10.5%、AUPR-Error 4.7%，并分别降低 FPR90-Success 13.4%、FPR90-Error 22.9%。相比最强 MisD baseline ViLU，LMN 仍在五类指标上分别取得 2.8%、5.1%、2.1%、5.4%、18.7% 的平均收益。

消融实验¶

Surrogate loss 的消融主要比较原始 CLIP、只加 full-probability constraint（FPC）和完整方法（+ALL）。论文没有单独报告“只有 confidence regularization”的结果，因为作者认为它需要和 FPC 配套使用，单独优化最大概率会不稳定。

数据集	CLIP AUROC / FPR90-E	+FPC AUROC / FPR90-E	+ALL AUROC / FPR90-E	说明
DTD	0.762 / 0.572	0.795 / 0.471	0.802 / 0.457	FPC 已明显缓解过度自信，完整曲线约束继续提升
EuroSAT	0.650 / 0.742	0.778 / 0.471	0.788 / 0.468	主要收益来自分布约束，目标曲线进一步稳定
RESICS45	0.779 / 0.508	0.794 / 0.482	0.808 / 0.445	完整目标在错误检测上更强
MNIST	0.813 / 0.482	0.908 / 0.235	0.915 / 0.205	两个组件叠加后 FPR90-E 最低
CUB	0.807 / 0.758	0.808 / 0.440	0.812 / 0.438	AUROC 增幅小，但错误检测明显改善

开放词表实验也验证了后验设计的意义。LMN 在校准时只见部分类别，在 unseen classes 上测试，仍能在多数数据集和指标上超过 zero-shot CLIP 与 DOR。例如 DTD 上 FPR90-S 从 CLIP 的 0.642 降到 0.596，MNIST 上 FPR90-E 从 0.322 降到 0.301。这说明它没有像一些 fine-tuning 方法那样明显牺牲 CLIP 的开放词表泛化。

关键发现¶

标准校准方法对 MisD 的帮助有限。FeatureClipping 相比 CLIP 的平均 AUROC 只提升约 0.7%，且不同指标不稳定，这与论文的理论结论一致：贴近对角线并不等价于正确/错误预测分离。
完整 surrogate loss 比只用 FPC 更好。FPC 能通过提高错误样本熵、降低过度自信带来大部分收益，但目标 sigmoid 曲线进一步把 reliability curve 往 MisD 需要的形状推。
LMN 对不同基座可迁移。对 textual prompt 和 visual prompt CLIP，LMN 平均分别提升 AUROC 1.2%/1.1%，降低 FPR90-Error 6.2%/4.4%；在 CLIP-L/14 和 SigLIP-B/16 上也持续优于 SCT。
校准样本越多整体越稳，但低 shot 下也有效。4-shot、8-shot、16-shot、32-shot、64-shot 实验显示 AUROC 与 FPR90-E 大体随校准样本增加而改善，说明方法不是只依赖某个固定 16-shot 设置。
计算开销很小。LMN 只有约 17K-20K 参数，少于 CLIP ViT-B/32 的 0.02%；训练在各数据集上均不超过一分钟，多数只需几秒到几十秒。

亮点与洞察¶

这篇论文最有价值的地方是把 reliability diagram 重新解释为 MisD precision 的几何工具。这个视角把“校准为什么不够”讲成了可证明的面积关系，而不是只给经验观察。
归一化 sigmoid 目标曲线很巧妙：\(\lambda\to\infty\) 时回到标准校准，\(\lambda\to0\) 时接近理想分离，中间值提供可控折中。它让校准和排序分离不再是两个割裂目标，而是同一曲线族上的不同工作点。
后验温度网络的工程选择很稳。只缩放 logits 不改变预测类别，既能用于 zero-shot CLIP，也能接在 prompt-tuned CLIP 后面，适合高风险场景里“先不动原模型，只改善置信排序”的部署需求。
用错误样本对齐均匀分布这一点很实用。MisD 里错误预测最危险的不是“错”，而是“错得很自信”；把错误样本概率分布推向高熵，等价于主动降低这种危险自信。
这个思路可以迁移到其它多模态任务，例如 VQA、开放词表检测或医学 VLM。只要任务能得到预测正确/错误标签和 confidence，就可以考虑把 calibration objective 从“贴对角线”改为“服务下游拒识/报警排序”。

局限与展望¶

论文主要围绕分类式 VLM，尤其是 CLIP family 和 prompt-tuned CLIP。对于生成式 VLM、开放式问答、多标签输出或检测分割任务，confidence 的定义更复杂，不能直接套用最大 softmax probability。
LMN 需要带标签校准集来判断哪些样本预测正确，虽然 4-shot/8-shot 已有效，但在真正无标签或强分布漂移场景下，还需要额外机制估计 correctness 信号。
目标曲线默认以 0.5 为中心阈值，作者解释这是自然的中性分界，但不同应用的风险偏好可能并不对称。例如医疗误诊检测可能更重视低漏报，此时曲线中点和形状或许应由成本函数驱动。
实验强调 MisD 排序指标，但与传统校准指标之间的 trade-off 还可以展开更多。方法有时会刻意偏离对角线来换取分离能力，因此如果用户真正需要概率语义上的 calibrated probability，就要谨慎解释输出置信度。
论文的代码链接在正文中仍是匿名 Code Link，复现细节虽写在附录，但实际可用性还取决于最终公开代码质量。

评分¶

新颖性: ⭐⭐⭐⭐☆ 从 reliability diagram 推导 MisD 上界并设计目标曲线，视角清晰且有理论支撑，但核心实现仍是后验温度缩放。
实验充分度: ⭐⭐⭐⭐☆ 覆盖六个数据集、多种指标、prompt CLIP、open-vocabulary、SigLIP/CLIP-L、shot sensitivity 和效率分析，生成式 VLM 场景仍欠缺。
写作质量: ⭐⭐⭐⭐☆ 理论链条和实验组织比较完整，部分符号如 \(\Phi/\Psi\) 在正文与附录表述略不统一，代码链接也仍是匿名占位。
价值: ⭐⭐⭐⭐☆ 对 VLM 风险控制和 failure prediction 很实用，尤其适合后验部署；若扩展到生成式多模态模型，影响会更大。