跳转至

PU-Bench:面向严谨可复现 PU 学习的统一基准

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=tb8DabMbMq
代码: https://github.com/XiXiphus/PU-Bench
领域: 表示学习 / 半监督学习 / 基准评测
关键词: PU 学习, 正例-无标注, 基准, 可复现性, 选择偏差

一句话总结

PU-Bench 是首个统一的开源 PU(Positive-Unlabeled,正例-无标注)学习基准,用一套可配置的数据生成器 + 统一训练流水线 + 标准化评估套件,把 18 个代表性方法在 8 个数据集、2880 次受控实验下重新跑了一遍,揭示了"没有万能赢家、简单基线 nnPU 仍然能打、效果与效率存在明显 trade-off"等一系列被以往不一致实验设置掩盖的结论。

研究背景与动机

领域现状:PU 学习要解决的是一个特殊的二分类问题——训练数据里只有一部分正例被标注,剩下的"无标注"集合里混着未被识别的正例和真正的负例。它在推荐系统(只知道用户喜欢什么、不知道讨厌什么)、疾病基因识别、药物相互作用预测、文档检索、医学影像分类等"负例难以或代价高昂去标注"的场景里非常常见。过去几年算法层出不穷,从风险最小化(nnPU、Dist-PU)到伪标注/自训练(Self-PU、P3Mix),再到生成式分布匹配(VAE-PU、PAN)。

现有痛点:算法越来越多,却没有一个标准化、统一、全面的基准来做公平比较。这带来两个致命问题。其一,实验设置严重不一致:不同论文用不同数据集、不同的数据采样方案(单训练集 ss vs. 案例-对照 cc)、不同的标注假设(SCAR vs. SAR),导致结果互不可比。其二,PU 方法对经验性因素(标注比例、标注机制)极其敏感,作者的实证发现这些因素的变化足以颠覆 SOTA 方法之间的相对排名——而既然这些因素在以往工作里没被统一控制,很多已发表的对比可能根本没反映方法的真实能力。

核心矛盾:PU 方法的"性能"高度依赖于数据生成与标注的隐含设置,但这些设置恰恰是各家论文自行其是、最不透明的部分。于是"谁更强"成了一个被实验配置左右的伪命题。

本文目标:把"数据怎么生成、模型怎么训练、指标怎么算"这条完整链路全部标准化,让 PU 方法的比较第一次建立在受控、可复现的同一地基上。

核心 idea:不发明新算法,而是造一套统一基准——用一个可配置的 PU 数据生成器固定输入分布、用一条配置驱动的训练流水线消除混杂变量、用一套统一评估套件同时量化效果与效率,然后做一次史上最大规模的实证扫描,把被噪声掩盖的真实性能图景画出来。

方法详解

整体框架

PU-Bench 不是一个模型,而是一套模块化、配置驱动的评测框架,目标是把 PU 学习实验从输入到输出全程标准化。它由三个可互操作的核心组件串成一条流水线:阶段一 PU 数据生成器把标准分类数据集系统地转换成可复现的 PU 场景(二值化 → 划分 → 选采样方案 → 选标注机制);阶段二统一训练流水线用外部 YAML 描述符实例化全部 18 个方法,在同一套 backbone、优化器、调度策略下训练,消除混杂变量;阶段三性能评估套件在留出的、带真值的测试集上统一计算 5 个效果指标和 2 个效率指标,并归档配置、随机种子、指标轨迹与硬件信息以保证完全可复现。整套实验覆盖 8 个数据集 × 18 个方法 × 每对 20 种配置,合计 2880 次受控评估。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["标准分类数据集<br/>MNIST / IMDb / ADNI ..."] --> B["PU 数据生成器<br/>二值化→划分→采样方案<br/>→标注机制(SCAR/SAR)"]
    B --> C["统一训练流水线<br/>YAML 实例化 18 个方法<br/>共享 backbone / 优化器"]
    C --> D["性能评估套件<br/>留出真值测试集<br/>效果5指标 + 效率2指标"]
    D --> E["2880 次受控评估<br/>+ 数据驱动的方法选型指南"]

关键设计

1. PU 数据生成器:用一条可配置流水线消灭"数据生成的不一致"

以往各家论文构造 PU 数据的方式五花八门——正例集大小、无标注集分布假设、采样设计各不相同,这正是结果不可比的源头。生成器把这一步彻底标准化成一条结构化的多阶段流水线:先用二值化模块把多分类数据集按"塌缩规则"折成正-负(PN)二分类,再划分为训练/验证/测试集,并固定训练集总量 \(N\) 与类先验 \(\pi = p(Y=1)\);然后选定一个采样方案决定标注正例 \(L_P\) 从哪来——单训练集(ss)从总体分布 i.i.d. 抽样、只有其中的正例有机会被标注,案例-对照(cc)则让 \(L_P\)\(p(x\mid Y=1)\) 抽、无标注集从总体 \(p(x)\) 抽,两者的关键区别在于无标注集的成分构成;最后由标注比例 \(c\) 控制采样多少 \(L_P\)、由标注机制定义选择策略。机制支持四种:(S1) 标准 SCAR,每个正例被标注概率恒定 \(e(x)=c\);(S2)(S3) 两种 SAR 实例相关采样,倾向高后验或边界模糊的正例;(S4) 后验锐化策略,在锐化后验下确定性地挑选最高分正例。一句话,它把"采样方案 × 标注比例 × 标注机制"做成可组合的旋钮,让所有方法吃到完全一致的输入。

2. 统一训练流水线:用 YAML 描述符把"训练协议的混杂变量"清零

不同论文的训练协议、超参搜索、指标选择都不一样,让结论无法聚合。这一层用一个完全模块化、配置驱动的框架来解决:全部 18 个算法都从外部 YAML 描述符实例化,描述符指定 backbone、PU 损失函数和共享超参(优化器类型、学习率调度、权重初始化)。框架通过针对文本/图像/表格的专用编码器兼容多模态。训练时先加载配置和 PU 格式数据,实例化对应的 PU 学习准则与学习器,再由统一 trainer 自动完成前向/反向、损失计算、指标记录与 checkpoint。关键在于"改个 YAML 就能换方法/换超参",从而让所有方法在同一套训练骨架下被公平地跑出来,而不是各自带着私有 trick。

3. 性能评估套件:用统一协议同时量化"效果与效率"两个被割裂的维度

文献里的报告口径不一致,既掩盖了跨方法比较的公平性,也遮蔽了不同方案的实际 trade-off。评估套件强制所有指标都在留出的、带真值的测试集上计算。效果维度记录 5 个广泛使用的指标:准确率(Acc)、精确率、召回率、macro-F1、ROC 曲线下面积(AUC);效率维度记录每个 epoch 的 wall-clock 时间与峰值 GPU 显存。每当验证集 macro-F1 刷新最佳就写一个 checkpoint,并把完整配置、种子、指标轨迹和硬件统计全部归档。这种"效果 + 效率"双焦点正是以往普遍缺失的,它让"某方法显存吃到 7-8 GB 却只换来略高 F1"这类实际权衡第一次被摆到台面上。

损失函数 / 训练策略

作为基准,PU-Bench 本身不提出新损失,而是把 18 个方法按算法策略分成三类来组织评测:风险最小化估计器(直接在 PU 约束下最小化经验风险或其变体,如 nnPU、PUSB、VPU、Dist-PU 等 8 个);消歧引导的监督 ERM(先用伪标注/选代理负例消解无标注池的歧义,常借助 mixup、一致性正则或师生自训练,再在 \(L_P \cup U\) 上做标准监督训练,如 Self-PU、P3Mix、Robust-PU 等 6 个);生成式分布匹配(用生成或对抗建模对齐正例与无标注分布,如 PAN、VAE-PU、CGenPU 共 3 个)。主实验在最常用的"约定俗成"配置下进行:案例-对照采样、SCAR 标注、固定 \(c=0.1\);并对每个方法相对 nnPU 做带 Holm–Bonferroni 校正的双边配对 t 检验,确认准确率差异是否稳健。

实验关键数据

主实验

主表(约定俗成配置:cc 采样 + SCAR + \(c=0.1\))给出全部 18 个方法在 8 个数据集上的准确率,并附 PN(全监督 oracle)作为性能上限。下表摘取若干代表性数字(准确率 %):

方法 类别 MNIST F-MNIST CIFAR-10 ADNI
nnPU 风险最小化 94.85 96.67 85.30 65.75
LBE-PU 风险最小化 97.23 98.42 83.98 65.75
Dist-PU 风险最小化 95.70 95.31 88.09 75.02
P3Mix-C 消歧 ERM 95.23 96.53 87.65 67.69
LaGAM-PU 消歧 ERM 95.03 97.69 86.22 63.64
VAE-PU 生成匹配 76.56 61.29 49.24 50.38
PN (oracle) 全监督 96.54 98.94 94.88 82.01

可以看到 LBE-PU 在简单图像(MNIST/F-MNIST)上甚至逼近或超过全监督 PN,但在复杂的 ADNI 上明显退化;生成式方法整体垫底,VAE-PU 在 CIFAR-10 上只有 49.24%(接近随机)。

消融实验

本文不是模型论文,没有传统模块消融,而是沿"配置维度"做鲁棒性扫描,等价于揭示各方法对设置的敏感度:

扰动维度 配置 关键发现
标注比例 \(c\) \(0.01 \to 0.9\) 风险最小化与消歧 ERM 标注效率高(\(c<0.1\) 即快速饱和,如 VPU/P3Mix-C 在 CIFAR-10 上 \(c=0.03\sim0.05\) 就接近峰值);生成式方法曲线紊乱、扩展性差
标注机制 SCAR → S2/S3/S4 (SAR) 切到 SAR 出现普遍退化;专为偏差设计的 PUSB、LBE-PU 在低标注(\(c=0.05\))下抗性更强、惩罚更小
效率 时间 / 显存 nnPU、PUSB 秒级完成 epoch、显存 <1 GB;VAE-PU 显存高达 7-8 GB;PUL-CPBF、Holistic-PU 多阶段架构最耗时

关键发现

  • 没有万能赢家:最优方法高度依赖数据模态——LBE-PU 在简单图像登顶却在 ADNI 退化,VPU/P3Mix 跨模态更稳但很少夺冠。方法选型必须对齐问题特性。
  • 简单基线 nnPU 仍然能打:尽管结构最简单,nnPU 在各模态保持均衡且常胜过更新的方法,说明该领域进展并非线性、一些早期原理依旧鲁棒。这也直接催生作者的呼吁:新方法必须对标 nnPU/VPU 这类强而高效的基线才能证明novelty。
  • 效果-效率 trade-off 清晰:VPU、Self-PU、Dist-PU 取得"高 F1 + 短训练 + 低显存"的好平衡;而 Holistic-PU、VAE-PU、PUL-CPBF 最耗算力却 F1 更低或更不稳,实用性受限。
  • 偏差感知建模的收益主要出现在低标注区:标签充足(\(c=0.5\))时鲁棒的 SCAR 学习器(如 VPU)甚至能反超专门的 SAR 方法,说明标注比例与选择偏差之间存在关键交互。

亮点与洞察

  • 把"基准"本身当成研究贡献:作者没有卷新算法,而是认识到 PU 学习真正的瓶颈是"实验地基不统一",用 2880 次受控评估把被噪声掩盖的真实排名翻出来——这种"打地基"的工作对一个碎片化领域的价值往往高于又一个 +0.5% 的方法。
  • 数据生成器的旋钮化设计可复用:把"采样方案 × 标注比例 × 标注机制(含 4 种 SCAR/SAR)"做成可组合配置,这套思路可迁移到任何"输入分布假设隐含且各家不一致"的弱监督子领域(如带噪学习、半监督)做公平基准。
  • 效果与效率联合评估戳中盲点:很多 PU 论文只报 F1/AUC,PU-Bench 把每 epoch 时间与峰值显存一起摆出来,立刻让"显存 7-8 GB 换来略高 F1"的方法现形——这是可直接复用的评测准则。

局限与展望

  • 作者承认主实验主要锁定在"约定俗成"配置(cc + SCAR + \(c=0.1\))建立可比基线,虽然进一步分析扫了标注比例与机制,但更极端的真实世界胁迫(极端稀疏 + 强选择偏差叠加)仍暴露出多数方法的脆弱,现有算法能力与实际需求间存在显著 gap。
  • 收录的 18 个方法以"领域无关 + 有公开实现"为筛选标准,排除了代码不可得或不可复现的方法,因此并非覆盖全部 PU 文献;同时方法集停在 2024 年左右,新方法需后续并入。
  • 自己观察:基准目前限于 8 个相对标准的学术数据集与二分类设定,类先验 \(\pi\) 被当作已知/固定量,而真实场景里 \(\pi\) 估计本身就是 PU 学习的难点之一,这一维度的鲁棒性尚未被系统扫描。
  • 未来方向(作者):一是推动更严谨的标准化评测,让新方法必须对标 nnPU/VPU 这类强基线;二是面向极端有限且有偏监督设计天生鲁棒的方法。

相关工作与启发

  • vs 单篇 PU 方法论文(nnPU、Dist-PU、P3Mix 等):它们各自提出算法并在自选设置下声称 SOTA,本文把它们放进同一套数据生成 + 训练 + 评估管线统一复现,区别在于"控制变量"——结果表明不少 SOTA 主张在受控比较下站不住,简单基线反而稳健。
  • vs 其他领域的统一基准(如分类/检测的标准 benchmark):思路一脉相承(标准化输入与协议以求公平),但 PU 学习的特殊难点在于"输入本身"就由采样方案和标注机制定义,因此本文的核心创新落在可配置的 PU 数据生成器上,而非单纯统一指标。
  • 启发:对任何"评测设置隐含且不一致"的弱监督领域,先造一个把隐含假设旋钮化的数据生成器,往往比再发明一个方法更能推动领域——因为它让后续所有比较第一次变得可信。

评分

  • 新颖性: ⭐⭐⭐⭐ 不在算法上创新,但"首个统一 PU 基准 + 可配置数据生成器"对碎片化领域是稀缺且高价值的基础设施贡献。
  • 实验充分度: ⭐⭐⭐⭐⭐ 18 方法 × 8 数据集 × 20 配置 = 2880 次受控评估,外加 t 检验、效率分析、标注比例与选择偏差双重鲁棒性扫描,规模与严谨度俱佳。
  • 写作质量: ⭐⭐⭐⭐ 结构清晰、发现提炼到位(三类方法各自画像 + 实用选型指南),图表信息密度高。
  • 价值: ⭐⭐⭐⭐⭐ 开源可复现工具包 + 数据驱动的选型建议,能直接成为 PU 学习社区的公共地基,长期价值显著。