跳转至

Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=RsfaFXBFzM
代码: https://github.com/clear-nus/sc-likelihood-ratios
领域: 选择性分类 / 不确定性估计 / 学习理论
关键词: Selective Classification, Neyman–Pearson Lemma, Likelihood Ratio, Covariate Shift, OOD Detection, VLM

一句话总结

本文用统计学经典的 Neyman–Pearson 引理把"模型该不该弃权"重新表述成一个似然比检验,证明 MSP/RLog 等现有打分器其实都是这条似然比的近似,并据此设计出两个对"正确/错误预测"分别建模的距离打分器 ∆-MDS 与 ∆-KNN,在协变量偏移下显著降低选择性风险。

研究背景与动机

领域现状:选择性分类(selective classification)让模型在不确定的输入上"弃权"(abstain),把模糊样本交给人类专家,从而提升整体可靠性。主流是 post-hoc 方法——固定一个强分类器 \(f\),再设计一个打分函数 \(s(x)\),通过阈值化 \(g(x)=\mathbb{1}[s(x)>\gamma]\) 决定接受还是弃权。常见打分器有最大 softmax 概率(MSP)、logit margin(RLog)、Mahalanobis 距离(MDS)、KNN 距离等,很多直接借自 OOD 检测。

现有痛点:尽管打分器五花八门,却缺一个统一的理论框架告诉你"什么才算最优的打分器",更多是启发式拼凑;同时绝大多数评测都假设测试数据与训练同分布(i.i.d.),少数研究分布偏移的工作又只盯着引入新类别的语义偏移(semantic shift),而忽略了协变量偏移(covariate shift,输入外观变了但标签空间不变,如照片→油画的猫)。

核心矛盾:协变量偏移恰恰在现代 VLM 部署里最普遍——CLIP 这类模型标签集庞大可变,实际偏移几乎都是协变量型;但既有 SCOD(Selective Classification + OOD)方法把 ID 分类分布和 OOD 分布拆开建模再拼,本就是为语义偏移设计的,迁到协变量偏移既别扭又缺保证。

本文目标:给选择性分类提供一个"最优性"的统一定义,并据此推导对协变量偏移鲁棒的新打分器。核心 idea:把"分类器正确 vs 错误"看成两个相互竞争的假设 \(H_0:C\)(预测正确)与 \(H_1:\neg C\)(预测错误),那么最优弃权规则就是 Neyman–Pearson 引理给出的似然比检验——最优打分就是"正确密度"与"错误密度"之比 \(s(x)=p_c(x)/p_w(x)\)

方法详解

整体框架

全文围绕一个支点展开:在给定弃权率(type I error)下,要让"错误接受率"(type II error)最小,NP 引理告诉你唯一最优的判别量是似然比 \(p_c(x)/p_w(x)\),其中 \(p_c,p_w\) 分别是分类器预测正确/错误样本的输入密度。由此文章做三件事——(1) 证明 MSP、RLog 这些 logit 打分器在特定假设下就是这条似然比的单调变换,因而本就"NP 最优";(2) 因为 logit 法依赖分类器标定(calibration),转而在特征空间显式估计 \(p_c\)\(p_w\),提出 ∆-MDS 和 ∆-KNN 两个距离打分器;(3) 把 logit 法和距离法线性组合,证明组合后仍是 NP 最优,取两者之长。关键巧思在于:\(p_c/p_w\) 天然涵盖了分布偏移——无论样本是 ID 还是偏移的,只要分类器分对就计入 \(p_c\)、分错就计入 \(p_w\),因此无需像 SCOD 那样区分 ID/OOD。

flowchart TD
    A[输入 x] --> B[NP 引理: 最优打分 = 似然比 p_c/p_w]
    B --> C[logit 视角: MSP / RLog 是其单调近似]
    B --> D[距离视角: 对正确集/错误集分别建模]
    D --> E[Δ-MDS: 两套高斯均值与协方差之差]
    D --> F[Δ-KNN: 到正确/错误近邻的对数距离之差]
    C --> G[线性组合 Δ-MDS-RLog / Δ-KNN-RLog]
    E --> G
    F --> G
    G --> H[阈值化输出: 接受 or 弃权]

关键设计

1. NP 引理把选择性分类锚定为似然比检验,并统一了现有打分器:文章先把弃权决策写成假设检验——接受 \(H_0\)(预测正确)还是拒绝转向 \(H_1\)(预测错误)。NP 引理(Lemma 1)指出,在固定 type I error \(\alpha_0\) 时,最小化 type II error 的最优接受域是 \(A^*=\{z: p_0(z)/p_1(z)\geq\gamma(\alpha_0)\}\),于是最优打分就是 \(s(x)=p_c(x)/p_w(x)\)。配合 Corollary 1——似然比的任意单调变换(取对数、仿射)都保持排序、不改接受域,因而同样最优——文章给出可操作的"NP 最优"定义。基于此,Theorem 1 证明:若分类器对 top-1 正确性已标定(\(P(C\mid x)=d_{(1)}(x)\)),MSP 就是 \(p_c/p_w\) 的单调变换;若再假设 softmax 质量集中在前两类(\(\sum_{i\geq3}d_{(i)}\ll d_{(2)}\)),logit margin RLog \(=l_{(1)}-l_{(2)}\) 也是 NP 最优。这解释了为何 RLog 经验上常优于 MSP——它对温度缩放不变,天然抗误标定。

2. ∆-MDS:对正确与错误预测各拟一套高斯,取 Mahalanobis 距离之差:logit 法的命门是依赖标定,而现代网络普遍标定差。∆-MDS 改在特征空间下手——对每个类别维护两套统计量 \(\{\mu_i^c,\Sigma^c\}\)\(\{\mu_i^w,\Sigma^w\}\),分别由"分类器预测对/错的训练样本"估计(真标签已知,估计很简单)。打分定义为两个 Mahalanobis 距离之差 \(s_{\Delta\text{-MDS}}(x)=D_{\text{MDS}}(x;\mu^c,\Sigma^c)-D_{\text{MDS}}(x;\mu^w,\Sigma^w)\),含义直观:输入越靠近"正确区"、越远离"错误区",分越高。Theorem 2 在 \(Z\mid C\sim\mathcal{N}(\mu_i^c,\Sigma^c)\)\(Z\mid\neg C\sim\mathcal{N}(\mu_i^w,\Sigma^w)\) 的高斯假设下证明它是 \(p_c/p_w\) 的单调变换,故 NP 最优;高斯假设由高斯判别分析与 softmax 分类器的联系背书,适配标准监督模型。

3. ∆-KNN:非参数版本,用到正确/错误近邻的对数距离之差:当不想要高斯参数假设时,∆-KNN 把训练特征拆成"分对集 \(A_c\)"和"分错集 \(A_w\)",对测试点 \(z\) 取到两集第 \(k\) 近邻的欧氏距离 \(u_k,v_k\),打分为对数距离之差 \(s_{\Delta\text{-KNN}}(x)=-\log u_k+\log v_k\)。Theorem 3 证明在 \(k\to\infty\)\(k/N_c\to0\)\(k/N_w\to0\) 的渐近条件下它是 NP 最优,且不需要对 \(p_c,p_w\) 的形式做参数假设——代价是有限样本下渐近条件难满足。实践中用 top-\(k\) 近邻的平均对数距离替代单一第 \(k\) 近邻,更平滑、经验更好(附录论证平均版在标准假设下仍保 NP 最优)。

4. 线性组合:logit 与距离打分相加,仍是 NP 最优:logit 法吃分类器学到的决策边界,距离法吃特征空间的几何结构,二者互补。Lemma 2 表明若 \(s_1,s_2\) 各自 NP 最优,则 \(t(x)=s_1(x)+\lambda s_2(x)\) 对任意 \(\lambda\) 仍是某个"倾斜乘积"似然比 \(p_c^{(1)}(p_c^{(2)})^\lambda/[p_w^{(1)}(p_w^{(2)})^\lambda]\) 的单调变换,因而保持最优。实操里把距离打分(如 ∆-MDS)与 logit 打分(如 RLog)拼成 ∆-MDS-RLog;\(\lambda\) 的简单配方是让 \(s_1,s_2\) 量级平衡、谁也不压谁,\(k\)\([25,50]\) 为甜区,均可在验证集上选。

实验关键数据

主实验表格(DFN CLIP,ImageNet 及协变量偏移变体,AURC/NAURC,越低越好,AURC 为 \(10^{-2}\) 尺度)

Method Avg(1K) AURC Avg(1K) NAURC Avg(all) AURC Avg(all) NAURC
MSP 11.5 0.479 8.43 0.387
Energy 24.8 1.09 21.5 1.15
MDS 13.9 0.619 11.3 0.569
KNN 13.1 0.567 9.83 0.474
RLog 7.39 0.239 5.67 0.200
∆-MDS 7.81 0.263 6.50 0.276
∆-KNN 7.32 0.235 5.89 0.225
∆-MDS-RLog 6.51 0.193 5.12 0.177
∆-KNN-RLog 6.43 0.187 5.01 0.163

监督模型表格(EVA,全 1K 覆盖)

Method Avg(1K) AURC Avg(1K) NAURC
MSP 5.43 0.264
MDS 5.60 0.284
KNN 5.56 0.282
RLog 4.11 0.172
∆-MDS 4.18 0.180
∆-MDS-RLog 3.86 0.157
∆-KNN-RLog 4.00 0.166

关键发现

  • NP 假设在实践中成立:从 MDS/KNN 升级到 NP 版 ∆-MDS/∆-KNN,CLIP 上平均 AURC 与 NAURC 约降低 50%,验证理论与实践吻合。
  • 线性组合最强:∆-KNN-RLog 在 CLIP 上 AURC/NAURC 综合最优;EVA 上 ∆-MDS-RLog 最优。RLog 作为单打分器排第三,依旧很强。
  • 语言任务(Amazon Reviews + DistilBERT/LISA):∆-MDS-MSP / ∆-KNN-MSP 在 In-D 与协变量偏移上均优于各基线(如 In-D NAURC 0.354 vs MSP 0.368),说明框架跨模态有效。
  • 距离法在文本任务上单独表现弱(MDS/KNN NAURC 0.7+),但与 logit 打分组合后立刻反超,印证两类信号互补。

亮点与洞察

  • 理论统一性强:用一条 NP 引理把 MSP、RLog、MDS、KNN 串成"似然比近似"的谱系,并给出可证明最优的扩展,把选择性分类从"打分器动物园"提升到有最优性定义的框架。
  • \((p_c,p_w)\) 抽象优雅:不再区分 ID/OOD、语义/协变量偏移,所有偏移统一进"正确密度 vs 错误密度",比 SCOD 拆分式建模简洁,对协变量偏移天然友好。
  • 纯 post-hoc、模型无关:不改架构、不重训,只用已知训练标签把训练集切成"分对/分错"两堆估计统计量,落地成本极低,且直接适配 CLIP 这类零样本 VLM。

局限与展望

  • 理论假设较强:∆-MDS 依赖特征高斯、∆-KNN 依赖 KNN 密度估计的渐近条件,有限样本下未必满足;作者也坦言这些假设是"为厘清与 NP 最优的联系"而非实践必须成立。
  • 平均对数距离版偏离定理:实践用的 top-\(k\) 平均版与 Theorem 3 的单一第 \(k\) 近邻形式不完全一致,最优性只在附录里"补充论证"。
  • 标定问题被搁置:logit 法的标定影响(温度缩放等)明确划在范围之外,组合打分里 logit 分支仍可能受其牵连。
  • 聚焦协变量偏移:语义偏移虽有附带评测,但框架主战场是协变量偏移;超参 \(\lambda,k\) 仍需验证集调,未给免调方案。

相关工作与启发

  • reject option 的长历史:从 Chow(1970) 的代价式拒识,到 SVM/最近邻的拒识扩展,再到 El-Yaniv & Geifman 形式化的 risk–coverage 框架,本文站在这条脉络上补齐"最优性"定义。
  • OOD 检测打分器:MSP、MaxLogit、Energy、MDS、KNN 多源自 OOD 检测,本文揭示它们作为选择性打分器的最优性条件。
  • 训练内置拒识:SelectiveNet、Deep Gamblers、Self-Adaptive Training 把拒识塞进训练,需改架构联合训练;本文走 post-hoc 路线,正交且更易部署。
  • 最接近的 RLog(Liang et al. 2024):同样研究偏移下的选择性分类并提出 RLog,本文以 NP 框架"反向解释"了 RLog 的有效性,并扩展到 VLM 与新打分器。
  • 启发:把"对/错"当两类显式建模、再用似然比统一打分,这个思路可迁移到 LLM 的弃答/置信度估计、检索增强里的"该不该检索"等更广的 abstain 场景。

评分

  • 新颖性: ⭐⭐⭐⭐ —— 用 NP 引理统一既有打分器并推导有最优性保证的新打分器,视角清晰,\((p_c,p_w)\) 抽象漂亮;扣分在单个组件(MDS/KNN 差分)技术上不算颠覆。
  • 实验充分度: ⭐⭐⭐⭐ —— 覆盖 CLIP/EVA/DistilBERT 三类模型、ImageNet 六种协变量偏移 + 文本任务,主/消融实验齐全;语言任务规模偏小、未涉更大 LLM。
  • 写作质量: ⭐⭐⭐⭐ —— 理论与方法衔接顺畅,定理-推论-打分器逐层推进,图示直观;公式密集,对统计背景较弱的读者有门槛。
  • 价值: ⭐⭐⭐⭐ —— 给选择性分类提供可证明最优的统一框架与即插即用打分器,对 VLM 部署下的可靠性很实用,代码开源。