跳转至

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

会议: CVPR 2026
arXiv: 2505.21147
代码: 有(TorchCP 库集成)
领域: 优化
关键词: 共形预测, 半监督学习, 不确定性量化, 预测集, 最近邻匹配

一句话总结

提出 SemiCP 框架,通过最近邻匹配(NNM)分数将无标签数据引入 conformal prediction 的校准流程,在标注数据极少时将平均覆盖率偏差降低最多 77%,同时缩小预测集。

研究背景与动机

Conformal Prediction (CP) 的核心价值:CP 是一种模型无关、分布自由的不确定性量化框架,能生成包含真实标签的预测集并提供有限样本覆盖保证,在医疗诊断、金融决策等高风险场景中至关重要。

Split CP 对标注数据的依赖:标准 Split CP 需要一个标注好的 hold-out 校准集来估计阈值,但现实中标注数据往往稀缺,导致覆盖率在不同运行中高度不稳定。

小校准集的理论缺陷:校准集大小 \(n\) 较小时,覆盖率服从 Beta 分布,方差约为 \(\alpha(1-\alpha)/(n+2)\);例如 \(n=10, \alpha=0.1\) 时有 10.7% 的概率覆盖率低于 80%。

现有方法的局限:插值法和修改 p-value 的方法是启发式的,缺乏有限样本保证;Few-shot CP 依赖可交换任务集合,实用性受限。

无标签数据的丰富性:在很多场景中无标签数据量远大于标注数据,是天然可利用的资源,但此前没有工作将其用于 CP 校准。

条件覆盖的挑战更大:在类条件或组条件覆盖场景中,每个子组需要独立校准数据,例如 ImageNet 1000 类、每类 100 个样本就需要 \(10^5\) 个标注点,远超实际可获取量。

方法详解

整体框架

SemiCP 将校准集扩展为 \(\mathcal{D} = \mathcal{D}_{\text{labeled}} \cup \mathcal{D}_{\text{unlabeled}}\),其中标注数据 \(n\) 个、无标签数据 \(N\) 个。对标注数据使用标准不一致性分数 \(s_i = S(\mathbf{x}_i, y_i)\)(如 THR/APS/RAPS),对无标签数据使用专门设计的无标签分数 \(\tilde{s}_i = \tilde{S}(\tilde{\mathbf{x}}_i)\)。两组分数合并后计算分位数阈值:

\[\hat{\tau}_{\text{SemiCP}} = \text{Quantile}\left(\{\tilde{s}_i\}_{i=1}^N \cup \{s_i\}_{i=1}^n, \frac{\lceil(n+N+1)(1-\alpha)\rceil}{n+N}\right)\]

测试时对测试样本 \(\mathbf{x}_{\text{test}}\) 构建预测集 \(\mathcal{C}(\mathbf{x}_{\text{test}}) = \{y : S(\mathbf{x}_{\text{test}}, y) \le \hat{\tau}_{\text{SemiCP}}\}\)

关键设计:Nearest Neighbor Matching (NNM) 分数

  1. 朴素方法的问题:直接用伪标签 \(\hat{y}_i = \arg\max_j f_j(\tilde{\mathbf{x}}_i)\) 代入分数函数会产生系统性偏低(pseudo bias),因为伪标签总是模型最自信的类别,导致分数偏小、阈值被低估、覆盖率不足。
  2. 伪偏差定义\(\Delta(\tilde{\mathbf{x}}_i) = S(\tilde{\mathbf{x}}_i, \tilde{y}_i) - S(\tilde{\mathbf{x}}_i, \hat{y}_i)\),即真实分数与伪标签分数之差。
  3. 最近邻匹配策略:对每个无标签样本 \(\tilde{\mathbf{x}}_i\),在伪分数空间中找到伪分数最接近的标注样本 \(\mathbf{x}_j\)\(j = \arg\min_{j \in \{1,...,n\}} |S(\tilde{\mathbf{x}}_i, \hat{y}_i) - S(\mathbf{x}_j, \hat{y}_j)|\)
  4. NNM 分数计算:用匹配到的标注样本的真实偏差来纠正无标签的伪分数:\(\tilde{S}_{\text{nnm}}(\tilde{\mathbf{x}}_i) = S(\tilde{\mathbf{x}}_i, \hat{y}_i) + S(\mathbf{x}_j, y_j) - S(\mathbf{x}_j, \hat{y}_j)\)
  5. 核心假设:伪分数相近的样本具有相似的伪偏差分布。实验验证了 NNM 分数的经验分布与真实分数分布高度吻合。

损失函数/训练策略

本方法是 training-free 的,不需要额外训练或优化。具体策略:

  • 直接利用预训练分类器的 softmax 输出,无需访问训练数据
  • 兼容任何标注分数函数(THR、APS、RAPS、SAPS 等)
  • 可无缝集成到条件覆盖(类条件、组条件)设置中
  • 可与 Interpolation、ClusterCP 等现有方法组合使用

理论保证

  • Theorem 1:覆盖率下界为 \(1-\alpha + \epsilon_{n,N}\),其中偏差项 \(\epsilon_{n,N} = \frac{N}{N+n}(F_S(\hat{\tau}) - F_{\tilde{S}}(\hat{\tau}))\) 由真实与估计分数 CDF 差异控制。
  • Theorem 2:平均覆盖率偏差以 \(\mathcal{O}(1/\sqrt{N})\) 速率收敛,增加无标签数据可持续减小覆盖率偏差。
  • Theorem 3:NNM 分数的 CDF 渐近收敛到真实分数的 CDF,收敛速率由标注样本数 \(n\) 控制。

实验关键数据

主实验

数据集 标注数 \(n\) 无标签数 \(N\) 方法 CovGap ↓ AvgSize ↓
CIFAR-10 20 4000 Standard 4.8 1.45
CIFAR-10 20 4000 SemiCP 1.1 1.37
CIFAR-10 10 4000 Standard 6.4 1.60
CIFAR-10 10 4000 SemiCP 1.1 1.27
ImageNet 50 20000 Standard ~3.3 ~75
ImageNet 50 20000 SemiCP ~2.1 ~70.3
设置 数据集 \(n_{\text{avg}}\) 方法 CovGap ↓ AvgSize ↓
类条件 CIFAR-100 10 Standard 7.75 18.9
类条件 CIFAR-100 10 SemiCP 6.29 17.0
组条件 CIFAR-100 10 Standard 较高 较大
组条件 CIFAR-100 10 SemiCP 显著降低 显著缩小

消融实验

  • 无标签数据量的影响(ImageNet, \(n=50\)):随着 \(N\) 从 10 增长到 20000,CovGap 持续下降、AvgSize 持续缩小。即使只有 \(N=10\) 个无标签样本,CovGap 也能降低约 0.1、AvgSize 降低约 0.2。
  • 与 Interpolation 组合(CIFAR-100):Interpolation 单独使用时 CovGap 比 Standard 更大(不稳定),但 SemiCP+Interpolation 在 \(n=10\) 时将 CovGap 从 9 降到 3.9,\(n>40\) 时 AvgSize 接近 Oracle。
  • 与 ClusterCP 组合:SemiCP+ClusterCP 在所有 \(n_{\text{avg}}\) 下进一步降低 CovGap 和 AvgSize。
  • NNM vs. Naive:朴素伪标签分数的 PDF 系统性偏低,NNM 分数与真实分数分布高度吻合(Fig. 3)。

关键发现

  1. 覆盖率偏差最高降低 77%:CIFAR-10 上 20 个标注 + 4000 无标签,CovGap 从 4.8 降到 1.1,AvgSize 同时减小 5.7%。
  2. 跨架构鲁棒性:在 10 种不同架构(ResNet/MobileNet/ConvNet/EfficientNet/ViT 等)上均一致有效,平均 CovGap 从 3.3 降到 2.1。
  3. 条件覆盖提升更大:在类条件和组条件设置中,SemiCP 的改进幅度超过边际覆盖设置。
  4. 数据效率高:极少量无标签数据(\(N=10\))即可产生可观改进。

亮点与洞察

  • Training-free 设计:无需额外训练或优化,直接利用预训练模型输出,实现即插即用。与并行工作 [34] 需要优化 \(N \times K\) 权重矩阵形成鲜明对比。
  • NNM 的巧妙直觉:通过在伪分数空间中做最近邻匹配来估计偏差,利用了"伪分数相近的样本有相似偏差"这一经验观察,简洁有效。
  • 理论与实验闭环:Theorem 1-3 完整刻画了覆盖保证、收敛速率和分数一致性,实验验证与理论预测高度一致。
  • 极强的兼容性:可作为插件与 THR/APS/RAPS、Interpolation、ClusterCP、条件 CP 等任意方法组合。

局限性

  • 理论分析依赖 i.i.d. 假设,比 CP 的可交换性假设更强
  • 目前仅验证了分类任务,未扩展到回归场景
  • NNM 在标注数据极少(如 \(n < 5\))时匹配精度可能不足
  • 伪分数空间中的最近邻匹配假设(相似伪分数 → 相似偏差)在分布偏移较大时可能不成立

相关工作

  • Split CP 及变体:THR [Sadinle+ 2019]、APS [Romano+ 2020]、RAPS [Angelopoulos+ 2020]、SAPS [Huang+ 2023] 设计标注分数以提高预测集效率,但均依赖充足标注校准数据。
  • 小校准集处理:Interpolation [Johansson+ 2015] 插值阈值、ClusterCP [Ding+ 2023] 类聚类共享校准、Few-shot CP [Fisch+ 2021] 元学习,但均未利用无标签数据。
  • Prediction-Powered Inference (PPI):[Angelopoulos+ 2023] 利用模型预测缩紧置信区间,思路相关但面向自监督推断而非 CP 校准。
  • 无监督校准:[Mazuelas 2025] 通过 IPM 最小化估计标签权重,但需优化 \(N \times K\) 矩阵,计算代价高且不可扩展。
  • SemiCP 的定位:首个将无标签数据用于估计不一致性分数并改善 CP 校准稳定性的工作,与上述方法互补。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将半监督引入 CP 校准,NNM 分数设计简洁且有理论保证
  • 实验充分度: ⭐⭐⭐⭐⭐ — 3 数据集 × 3 分数函数 × 10 架构 × 1000 次重复 × 多种 CP 变体,极为全面
  • 写作质量: ⭐⭐⭐⭐ — 问题动机清晰,理论推导完整,实验呈现系统化
  • 价值: ⭐⭐⭐⭐ — 实用性强,training-free 且兼容现有方法,但局限于分类场景