Noisy-Pair Robust Representation Alignment for Positive-Unlabeled Learning¶

会议: ICLR 2026
arXiv: 2510.01278
代码: https://github.com/Hengwei-Zhao96/NcPU
领域: 其他 / 弱监督学习
关键词: PU学习, 非对比表示学习, 噪声对鲁棒, 伪标签消歧, EM框架

一句话总结¶

提出 NcPU 非对比 PU 学习框架，通过对标准非对比损失做 sqrt 变换（NoiSNCL）让 clean pair 梯度主导训练、用 PhantomGate 提供保守负监督并支持 regret 回退，两个模块在 EM 框架下迭代互利；在不依赖辅助负样本或预估类先验的前提下，CIFAR-100 上与监督学习差距从 14.26% 缩至 <1.4%，xBD 灾损评估上同样达到 SOTA。

研究背景与动机¶

领域现状：PU 学习（Positive-Unlabeled Learning）只有少量已标注正样本和大量无标签数据，需要训练一个正/负二分类器。典型应用场景包括：灾后遥感建筑损伤识别中只有部分受损建筑被标注、产品推荐中只有点击记录而无明确的"不感兴趣"标签、医学诊断中仅有确诊病例而缺乏明确的阴性标本等。主流方法分为风险估计（nnPU、uPU）、标签消歧（DistPU）和辅助负样本选择（LaGAM）几大类。

现有痛点：即便是当前最好的 PU 方法，在复杂数据集上仍与全监督差距巨大——CIFAR-100 上最好的无辅助方法只有 76.49% OA，而监督学习可达 89.65%，差距超过 13 个点。作者通过 t-SNE 可视化直观展示了问题根源：LaGAM、HolisticPU 等方法学到的特征空间中正/负类分布严重重叠，而监督学习的特征可以清晰分离。这说明现有 PU 方法的根本瓶颈不在分类器设计、而在于无法从不可靠的伪标签中学到判别性表示。

核心矛盾：表示学习依赖准确的标签来构建同类/异类样本对，但 PU 场景下标签本身就不可靠——用伪标签构建的同类对中混杂大量"噪声对"（实际属于不同类但被错误认为同类的样本对），这些噪声对在标准对比/非对比损失下的梯度反而更大，主导了整个训练过程。形成恶性循环：差的表示→差的伪标签→更多噪声对→更差的表示。

切入角度：作者从两个关键观察出发。第一，非对比学习（只拉近同类、不推远异类）天然比对比学习更能容忍噪声标签，因为它不会错误地推远本应属于同类的样本。第二，标准非对比损失 \(\mathcal{L}_r = 2(1 - \langle \tilde{q}_i, \tilde{k}_j \rangle)\) 的梯度与 \((1 - \cos^2\theta)\) 成正比——距离远（cos 小）的噪声对梯度大、距离近（cos 大）的 clean pair 梯度小，这恰好是反直觉的。而取 sqrt 后，梯度与 \((1 + \cos\theta)\) 成正比，距离近的 clean pair 梯度反而更大。

核心 idea：对标准非对比损失取 sqrt 翻转梯度-距离关系，让 clean pair 主导训练；结合 PhantomGate 提供保守负监督，形成 EM 式迭代互利框架。

方法详解¶

整体框架¶

NcPU 在 BYOL 非对比学习框架基础上构建。输入为正样本集 \(\mathcal{P}\) 和无标签集 \(\mathcal{U}\)，每个样本经过随机增强产生两个视图，分别经 online network（含 encoder + projection head + prediction head）和 target network（momentum 更新，不含 prediction head）得到归一化嵌入 \(\tilde{q}\) 和 \(\tilde{k}\)。分类器 \(f(\cdot)\) 对每个样本输出二类 softmax 概率。整个训练流程有两个核心交替运行的模块：NoiSNCL 利用当前伪标签做噪声对鲁棒的类内表示对齐，PLD（含 PhantomGate）利用对齐后的表示空间更新更准确的伪标签。两者在理论上对应 EM 算法的 M-step 和 E-step。

关键设计¶

NoiSNCL——噪声对鲁棒的监督非对比损失:
- 功能：在伪标签噪声严重的情况下仍能有效地对齐同类样本的表示
- 核心思路：标准非对比损失为 \(\mathcal{L}_r = 2(1 - \langle \tilde{q}_i, \tilde{k}_j \rangle)\)，NoiSNCL 改为 \(\tilde{\mathcal{L}}_r = 2\sqrt{1 - \langle \tilde{q}_i, \tilde{k}_j \rangle}\)，仅多了一个 sqrt。通过梯度分析可以证明：对于标准损失，噪声对（余弦相似度低、距离远）的梯度 \(\propto (1 - \cos^2\theta)\) 大于 clean pair（余弦相似度高）的梯度，噪声对主导训练；而 NoiSNCL 的梯度 \(\propto (1 + \cos\theta)\)，clean pair 反而梯度更大，训练被 clean pair 主导。这个性质的关键在于 \(\sqrt{x}\) 函数在 \(x\to 0\) 附近梯度趋于无穷、在 \(x\to 1\) 附近梯度趋于 0，恰好抑制了距离大的噪声对的影响
- 设计动机：直接解决"噪声对梯度主导"的核心问题。在监督学习场景下 NoiSNCL 与标准损失性能相当（98.75% vs 98.53% on CIFAR-10），不会引入副作用；数值稳定性方面，由于 BYOL 的非对称架构和随机增强保证 \(\tilde{q}_i \neq \tilde{k}_j\)，不会除零
PhantomGate——带 regret 机制的伪标签消歧:
- 功能：为无标签数据生成可靠的伪标签（尤其是负标签），避免所有样本都被分为正类的 trivial solution
- 核心思路：分三步。(i) 类条件 prototype 每个 batch 做动量更新 \(\mu_c = \text{Normalize}(\alpha \mu_c + (1-\alpha)\tilde{q})\)。(ii) 基于 prototype 相似度生成 soft 伪标签 \(s'\)，通过动量累积获得稳定估计。(iii) PhantomGate 是核心创新——用自适应阈值 \(\tau\) 判断：若分类器对某样本的正类概率 \(f_1(x) \geq \tau\) 则直接设标签为 \([0,1]^T\)（负类），否则用 prototype-based 的 \(s'\)。关键的 regret 机制：如果模型后来发现某个被标为负类的样本可能错了，它可以从累积的 \(s'\) 而非从 \([0,1]^T\) 重新开始更新，避免了"一旦误判就无法回头"的问题
- 设计动机：PU 学习缺乏负类监督，直接用 prototype 消歧容易导致所有样本被拉向正类（trivial solution）。简单加阈值选负样本（+SAT）又会引入不准确的负监督（高精确率但极低召回率 0.51%）。PhantomGate 在两者间取得平衡——注入负监督防止 trivial solution，同时通过 regret 机制允许纠错
自适应阈值 SAT 机制:
- 功能：自动控制负样本选择的松紧程度，无需手动调参
- 核心思路：维护全局阈值 \(\tilde{\tau}\) 和类别感知调制因子 \(\tilde{\rho}(c)\)，均通过动量更新。最终阈值 \(\tau = \frac{\tilde{\rho}(1)}{\max\{\tilde{\rho}(0), \tilde{\rho}(1)\}} \cdot \tilde{\tau}\)。训练早期模型不自信（\(\tilde{\tau}\) 低），更多样本被选为负类提供监督信号；训练后期模型更自信（\(\tilde{\tau}\) 升高），阈值提高以过滤掉可能不准确的负类选择
- 设计动机：避免手动设定阈值。从松到紧的动态策略符合课程学习的思想——先给简单的负监督，再逐步提高标准

损失函数 / 训练策略¶

总损失为三项之和：\(\mathcal{L} = \frac{1}{|\mathcal{P}|}\sum_{x_i \in \mathcal{P}} \mathcal{L}_c + \frac{1}{|\mathcal{U}|}\sum_{x_i \in \mathcal{U}} \mathcal{L}_c + w_r \frac{1}{|\mathcal{D}|}\sum_{x_i \in \mathcal{D}} \frac{1}{|\mathcal{Q}|}\sum_{x_j \in \mathcal{Q}} \tilde{\mathcal{L}}_r\)。其中 \(\mathcal{L}_c\) 是标签消歧交叉熵（LDCE），\(\tilde{\mathcal{L}}_r\) 是 NoiSNCL，\(w_r = 50\) 控制表示学习的权重。所有动量超参 \(\alpha = \beta = \gamma = 0.99\)，五个数据集使用完全相同的超参数设置。Target network 采用 BYOL 式动量更新。训练过程中还使用了熵正则化稳定训练。Backbone 统一使用 ResNet-18。

EM 理论框架¶

将分类器预测注入 EM 框架：E-step 对应伪标签分配（将每个无标签样本分配到正/负类簇），M-step 对应最小化 NoiSNCL（使簇内表示更紧凑）。Theorem 1 在 vMF 分布假设下证明：最小化 \(\tilde{\mathcal{R}}_r\) 等价于最大化似然函数的一个下界 \(L_1 = \sum_{\mathcal{S}_c} \frac{|\mathcal{S}_c|}{n_u} \|\nu_c\|^2 \leq L_2\)。当 \(\|\nu_c\| \to 1\)（同类数据在表示空间高度聚集）时下界变紧。这为 NoiSNCL 和 PLD 的协同提供了原理性保证，而非仅仅是经验性组合。

实验关键数据¶

主实验¶

在 5 个数据集（3 个通用 + 2 个遥感灾损）上的对比，NcPU 在所有数据集上均取得最佳性能，且不依赖辅助信息：

方法	辅助信息	CIFAR-10 OA	CIFAR-100 OA	STL-10 OA	ABCD OA	xBD OA
CE（无标签当负样本）	无	60.45	50.36	50.30	55.70	84.08
uPU	\(\pi_p\)	65.52	61.44	57.08	83.76	86.82
nnPU	\(\pi_p\)	87.29	72.00	80.62	87.73	82.60
DistPU	\(\pi_p\)	85.29	67.63	85.62	86.25	82.94
HolisticPU	负样本	84.20	64.01	72.81	65.49	81.98
LaGAM	负样本	95.78	84.82	88.64	75.90	79.14
WSC	预估参数	90.55	75.39	79.06	80.10	84.89
NcPU	无	97.36	88.28	91.40	91.10	87.60
Supervised	全标签	96.96	89.65	—	92.00	88.47

注意 NcPU 在 CIFAR-10 上甚至超过了监督学习（97.36 vs 96.96），CIFAR-100 上差距仅 1.37%，ABCD 上差距不到 1%。

消融实验（CIFAR-100）¶

非对比损失	标签消歧	OA	F1	说明
无	\(s\)（PhantomGate）	61.54	40.58	无表示学习，仅靠标签消歧效果很差
\(\tilde{\mathcal{L}}_r\)（NoiSNCL）	无	50.27	1.09	无标签消歧，NoiSNCL 无法单独工作
\(\mathcal{L}_{self-r}\)（自监督）	\(s\)	73.22	72.75	自监督非对比+PhantomGate
\(\mathcal{L}_r\)（标准监督）	\(s\)	84.58	85.90	标准损失已有效但被噪声对限制
\(\tilde{\mathcal{L}}_r\)（NoiSNCL）	\(s'\)（仅 prototype）	75.14	79.91	无 PhantomGate，precision 仅 67%
\(\tilde{\mathcal{L}}_r\)（NoiSNCL）	\(s'\)+SAT	50.25	1.01	SAT 引入的负监督太不准确
\(\tilde{\mathcal{L}}_r\)（NoiSNCL）	\(s\)（PhantomGate）	88.28	88.14	完整 NcPU

NoiSNCL 增强基础 PU 方法¶

方法	CIFAR-10 OA	CIFAR-100 OA
uPU	69.43	61.68
uPU + \(\tilde{\mathcal{L}}_r\)	97.35 (+27.9)	83.71 (+22.0)
nnPU	83.25	71.22
nnPU + \(\tilde{\mathcal{L}}_r\)	97.03 (+13.8)	87.81 (+16.6)
Supervised + \(\mathcal{L}_r\)	98.53	94.45
Supervised + \(\tilde{\mathcal{L}}_r\)	98.75	94.56

关键发现¶

NoiSNCL 是关键增益来源：仅将 NoiSNCL 挂载到最简单的 uPU 上，CIFAR-10 就从 69.43%→97.35%（+27.9 个点），说明判别性表示才是 PU 学习的核心瓶颈，而非分类器设计
NoiSNCL vs 标准损失的差距：在 CIFAR-100 上，\(\tilde{\mathcal{L}}_r + s\)（88.28%）比 \(\mathcal{L}_r + s\)（84.58%）高 3.7 个点，验证了噪声对鲁棒性的有效性；同时在监督学习下两者相当（98.75% vs 98.53%），说明 sqrt 变换没有引入额外代价
PhantomGate 的不可替代性：单用 prototype 消歧（\(s'\)）导致 recall 高达 98.7% 但 precision 仅 67%（几乎全部标为正类）；加 SAT 后 precision 升到 98% 但 recall 跌至 0.5%（矫枉过正）；PhantomGate 的 regret 机制在两者间找到平衡（precision 89%, recall 87%）
超参不敏感：所有 5 个数据集使用完全相同的超参（\(\alpha=\beta=\gamma=0.99\), \(w_r=50\)），对 \(\alpha\) 和 \(\gamma\) 几乎不敏感，\(\beta\) 越小伪标签更新越快，\(w_r\) 越大表示学习越强
训练稳定：CIFAR-10 上 400 epoch 后继续训练到 1200 epoch，OA 波动在 0.5% 以内，无过拟合或不稳定

亮点与洞察¶

sqrt 变换的巧妙性：仅一个 sqrt 就翻转了梯度-距离的单调关系，从"噪声对主导"变为"clean pair 主导"。这个设计极其简洁却有深刻的数学直觉——\(\sqrt{x}\) 在 \(x\to 0\) 处导数趋无穷（放大小 loss 对应的 clean pair 的梯度），在 \(x\) 较大时导数趋缓（抑制大 loss 对应的噪声对）。这种"改变损失形状以操纵梯度主导权"的思路可以迁移到任何噪声标签场景
理论和经验的闭环：EM 理论不只是事后解释，它解释了为什么 NoiSNCL 和 PLD 必须联合使用——单独的 NoiSNCL（OA 50.27%）或单独的 PLD（OA 61.54%）都不行，但组合后达到 88.28%。E-step 提供更好的簇分配，M-step 让簇更紧凑，这个迭代互利在消融中被清晰验证
"简单方法+好表示" 的范式：uPU + NoiSNCL（97.35%）超过了所有精心设计的 PU 方法，暗示当表示空间足够好时，最朴素的风险估计就够用了。这个洞察对整个弱监督学习社区都有启发

局限与展望¶

vMF 分布假设的局限：EM 理论分析假设表示空间中每个类服从 vMF 分布（球面上的高斯），这对高度非球形分布的数据可能不成立。虽然实验表明即使假设不完全满足方法仍然有效，但理论保证可能不够紧
仅验证图像分类：5 个数据集均为图像分类任务，NLP（如文本分类中的 PU learning）、图结构数据、表格数据上的效果未知。非对比学习在非视觉领域的增强效果可能不同
正样本数量固定：实验中正样本数固定（CIFAR-10/100 用 1000 个），未分析正样本极度稀缺（如 <100 个）或相对充裕时的表现曲线
多分类扩展：当前框架本质上是二分类（正 vs 负），如何扩展到多类 PU 学习（multiple positive classes + unlabeled）是一个开放问题
Backbone 的影响：所有实验仅用 ResNet-18，更强的 backbone（如 ViT）或预训练特征是否会改变结论尚未探讨

评分¶

新颖性: ⭐⭐⭐⭐ sqrt 变换翻转梯度主导权的想法简洁而深刻，PhantomGate 的 regret 机制也有新意
实验充分度: ⭐⭐⭐⭐⭐ 5 个数据集（含 2 个实际应用）+ 11 个 baseline + 详尽消融 + 超参分析 + 训练稳定性验证
写作质量: ⭐⭐⭐⭐ 理论推导严谨清晰，梯度分析的可视化直观
价值: ⭐⭐⭐⭐⭐ 将 PU 学习性能提升到接近监督学习水平是该领域的里程碑式进展，NoiSNCL 的通用性超出 PU 学习本身