跳转至

Neyman-Pearson Classification under Both Null and Alternative Distributions Shift

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=pHckxhmBlI
代码: 未公开
领域: 学习理论 / 迁移学习 / Neyman-Pearson 分类
关键词: Neyman-Pearson 分类, 迁移学习, 分布漂移, Type-I/Type-II 误差, 自适应, 避免负迁移, 凸规划

一句话总结

本文首次给出在源域与目标域的两个类条件分布 \(\mu_0,\mu_1\) 同时漂移情形下的 Neyman-Pearson(NP)迁移学习过程,既保证源域有用时同时改善 Type-I/Type-II 误差、源域无用时退化到只用目标数据(避免负迁移),又通过约化为一串凸规划给出多项式时间的计算保证。

研究背景与动机

领域现状:NP 分类是处理类别不平衡的经典框架——目标是在「Type-I 误差(对 \(\mu_0\) 的错误率)不超过预设阈值 \(\alpha\)(如 5%)」的硬约束下,最小化 Type-II 误差(对 \(\mu_1\) 的错误率)。它广泛用于疾病诊断、恶意软件检测、暴雨预警等「漏报代价极高」的场景。当目标任务样本稀缺时,自然想借助额外的源数据做迁移学习。

现有痛点:迁移学习在普通分类里被研究得很透,但在 NP 这种不平衡约束分类里几乎是空白。已有的少数理论工作(Kalan et al. 2025;Kalan & Kpotufe 2024b)只处理了一种受限情形——假设源域和目标域共享同一个 \(\mu_0\),漂移只发生在 \(\mu_1\),而且只给统计保证、不管能不能算得动。

核心矛盾:一旦 \(\mu_0\) 也漂移(\(\mu_{0,S}\neq\mu_{0,T}\)),「满足源域 \(\alpha\) 约束」就不再蕴含「满足目标域 \(\alpha\) 约束」——源域可行集 \(H_S(\alpha)\) 和目标域可行集 \(H_T(\alpha)\) 错位了。更糟的是目标域 class-0 样本 \(n_{0,T}\) 往往很少,经验约束集 \(\hat H_T(\alpha)\) 的真实 Type-I 误差会远超 \(\alpha\);而又不知道该用源域哪个阈值 \(\alpha'\) 去筛选才能既压住目标 Type-I 又不牺牲 Type-II。选太小的 \(\alpha'\) 虽能压 Type-I,却会让 Type-II 暴涨——这个权衡本身就需要从数据里自适应地确定,而非人工调参。

本文目标:在不知道源/目标相关性的前提下,设计一个自适应过程,同时给出统计保证 + 计算保证,覆盖 \(\mu_0\)\(\mu_1\) 都可能漂移的一般情形。核心 idea用源域 class-0 样本自动校准出一个「有效阈值」\(\hat\alpha_S\) 把源约束对齐到目标约束,再用源域 class-1 样本进一步压低 Type-II 误差——两阶段筛选 + 凸规划求解。

方法详解

整体框架

方法是一个两阶段的「先对齐约束、再降误差」自适应筛选过程,最终落地为一串可用随机梯度求解的凸规划。第一阶段只盯 Type-I:用目标 class-0 样本先框出经验可行假设集,再用源 class-0 样本求出一个最小的有效阈值 \(\hat\alpha_S\),把那些真实 Type-I 会超标的假设剔掉。第二阶段盯 Type-II:在剩下的假设里用源/目标 class-1 样本各自挑出 Type-II 接近最优的子集,取交集得到最终分类器;若交集为空则安全退回「只用目标数据」的解,从而避免负迁移。整个统计过程最终被翻译成一串可用随机梯度上升下降(SGDA)求解的凸规划,给出多项式时间的计算保证。

flowchart TD
    A[目标 class-0 样本] --> B["构造经验可行集 ĤT(α)<br/>+ Type-II 不超过经验最优的子集 Ĥ*α,T"]
    C[源 class-0 样本] --> D["求有效阈值 α̂S(式6)<br/>使 ĤS(α̂S)∩Ĥ*α,T 非空"]
    B --> D
    D --> E["第一阶段输出受限集 Ĥ' = ĤS(α̂S)∩Ĥ*α,T<br/>(Type-I 已对齐到目标)"]
    E --> F["源/目标 class-1 样本各挑<br/>Type-II 近优子集 Ĥ'1,S, Ĥ'1,T"]
    F --> G{"Ĥ'1,S ∩ Ĥ'1,T 非空?"}
    G -->|是| H["取交集中任一 ĥ<br/>(源有用→双误差都改善)"]
    G -->|否| I["退回 argmin Type-II on Ĥ'<br/>(避免负迁移)"]

关键设计

1. 有效阈值 \(\hat\alpha_S\):把源约束对齐到目标约束。 这是全文最核心的创新点,专门为「\(\mu_0\) 也漂移」而设。先定义理想阈值 \(\alpha_S:=\inf\{\alpha':H_S(\alpha')\cap T^*(\alpha)\neq\emptyset\}\),即让源可行集恰好罩住目标最优解所需的最小源阈值。经验版本是 \(\hat\alpha_S:=\inf\{\alpha'\in[\alpha,1]:\hat H_S(\alpha')\cap\hat H^*_{\alpha,T}\neq\emptyset\}\)(式 6),其中 \(\hat H^*_{\alpha,T}\) 是「目标经验 Type-I 满足约束、且目标经验 Type-II 不超过经验风险最小化器」的假设集。直觉是:单看 \(\hat H^*_{\alpha,T}\),由于 \(n_{0,T}\) 小、误差棒 \(\epsilon_{0,T}=\tilde C/\sqrt{n_{0,T}}\) 大,里面混进了很多真实 Type-I 远超 \(\alpha\) 的「坏假设」;用源域以阈值 \(\hat\alpha_S\) 收紧成 \(\hat H'=\hat H_S(\hat\alpha_S)\cap\hat H^*_{\alpha,T}\),正好把这些坏假设挡在外面,同时保留能拿到低 Type-II 的好假设。论文证明当 \(\alpha<\alpha_S\) 时有 \(\hat\alpha_S\le\alpha_S\),且 Figure 1 用一维 Gaussian 例子直观展示:源-1 的 \(\alpha_{S_1}=\alpha\) 罩不住、帮不上忙;源-2 的 \(\alpha_{S_2}>\alpha\) 才真正收缩了可行集、降低目标 Type-I。

2. 第二阶段 Type-II 双子集取交 + 安全回退:自适应避免负迁移。 拿到第一阶段的 \(\hat H'\) 后,对 \(D\in\{S,T\}\) 各自构造近优子集 \(\hat H'_{1,D}:=\{h\in\hat H':\hat R_{\phi,\mu_{1,D}}(h)\le\hat R^*_{\phi,\mu_{1,D}}(\hat H')+2\epsilon_{1,D}\}\),即在源/目标上 Type-II 都接近最优的假设。决策规则(式 8)很简洁:若 \(\hat H'_{1,S}\cap\hat H'_{1,T}\neq\emptyset\),说明存在「源、目标都认为好」的假设,源信息有用,取交集里任一个 \(\hat h\),此时 Type-I/Type-II 同时改善;否则交集为空意味着源与目标在 class-1 上不一致(源不 informative),直接退回 \(\hat h=\arg\min_{h\in\hat H'}\hat R_{\phi,\mu_{1,T}}(h)\),只信目标数据。这个「交集非空就用、为空就退」的机制,无需任何关于源/目标相关性的先验知识就实现了自适应,这正是 Theorem 1 保证「never worse than target-only」的来源。

3. 转移模数(transfer modulus)刻画源的价值。 为了把「源域上好 ↔ 目标域上好」量化进泛化界,论文不用单一的 transfer exponent,而是引入更一般的两个模数:\(\phi_1^{S\to T}(\varepsilon):=\sup\{\mathcal E_{1,T}(h\mid h^*_{S,T,\alpha}):\mathcal E_{1,S}(h\mid h^*_{S,T,\alpha})\le\varepsilon\}\) 翻译 Type-II 的源→目标传递,\(\phi_0^{S\to T}(\varepsilon):=\sup\{R_{\phi,\mu_{0,T}}(h):R_{\phi,\mu_{0,S}}(h)\le\varepsilon\}\) 翻译 Type-I 的传递。Theorem 1 给出高概率界 \(\mathcal E_{1,T}(\hat h)\le c\cdot\min\{\epsilon_{1,T},\,R_{\phi,\mu_{1,T}}(h^*_{S,T,\alpha})-R_{\phi,\mu_{1,T}}(h^*_{T,\alpha})+\phi_1^{S\to T}(4\epsilon_{1,S})\}\),Type-I 界为 \(\min\{\alpha+2\epsilon_{0,T},\phi_0^{S\to T}(\hat\alpha_S+2\epsilon_{0,S})\}\)。当 \(\mu_{0,S}=\mu_{0,T}\)\(\phi_0^{S\to T}\) 退化为恒等、\(\alpha_S\le\alpha\),整个界精确还原已有工作(Remark 1),说明本文是它们的严格推广。

4. 约化为一串凸规划 + SGDA 求解:计算保证。 统计过程光定义不够,论文把它整体翻译成可解的优化。在参数化假设类 \(h_\theta(\|\theta\|\le B)\)、凸且梯度有界 Lipschitz(Assumption 3,logistic/线性模型成立)下,求 \(\hat\alpha_S\) 写成带约束 \(\min_{\alpha'\ge\alpha,\theta}\alpha'\) s.t. \(g'(\theta,\alpha')\le 0\)(式 10),再转成极小极大 \(\min_{\alpha'\ge\alpha,\theta}\max_{\lambda\ge0}\alpha'+\lambda g'(\theta,\alpha')\)(式 11)。核心算子 CP-Solver(Algorithm 1)用带投影步的随机梯度上升下降(SGDA,参照 Mahdavi et al. 2012),把目标和(带噪的)约束都当随机采样处理,最后投影到 \(\{\theta:g(\theta)\le-\xi\}\) 留松弛量。整个流程(Algorithm 2 NP-Transfer-Learning)多次调用 CP-Solver 解不同精度的凸子程序——先 warm-start 求 \(\hat\theta_{T,\alpha-\epsilon_{0,T}}\)、再求 \(\hat\alpha\)、再解源/目标子问题、最后联合求解 \(\hat h\)。Theorem 2 证明输出满足 Theorem 1 的统计保证,总随机梯度调用数为多项式,量级由 \(\min\{1/\epsilon_{1,S},1/\epsilon_{1,T}\}\) 主导。

实验关键数据

主实验

在两个真实气候数据集上做暴雨检测,源/目标对应不同地点;用两隐层 ReLU MLP,固定 \(n_{0,T}=n_{1,T}=40\),源样本 \(n_{0,S}=n_{1,S}\) 从 50 扫到 950,\(\alpha=0.1\),每组 10 次试验,目标测试集 1700。对比 TLA(本文)、Only Target、Only Source。

数据集 场景 Type-I 误差 (TLA) Type-II 误差 (TLA) 关键对比
Yu et al. 2023(124 维) 源 informative 贴近阈值 0.1 \(n_S\) 增大降到 ~0.02–0.05 Only Target 超阈值且 Type-II 更差
NASA POWER 2024(6 维) 源 uninformative 控制在阈值附近 ~0.2–0.3,与 Only Target 相当 Only Source 的 Type-II 高达 0.5–0.9

消融 / 补充

设置 现象 结论
源 informative(Fig 2) TLA 同时压低 Type-I 与 Type-II,优于 Only Target 有用时主动利用源
源 uninformative(Fig 3) TLA 匹配 Only Target,远好于 Only Source 避免负迁移,印证 Theorem 1
合成 Gaussian 数据(Appendix D) 趋势一致 验证理论在受控分布下成立
阈值设置 \(\alpha=0.1\) TLA 的 Type-I 稳定贴合 0.1 附近 经验 Type-I 控制与理论界 \(\alpha+2\epsilon_{0,T}\) 吻合

关键发现

  • 自适应性是实证亮点:同一套算法无需告知源是否相关,informative 时蹭到收益、uninformative 时不掉队,恰好对应理论里「\(\min\{\text{target-only},\text{source-aided}\}\)」的双保证。
  • Only Target 在 \(n_{0,T}=40\) 这种小样本下连阈值都压不住,凸显了借源校准 Type-I 的必要性。
  • 源样本越多增益越明显:在 informative 场景里,随 \(n_{0,S}=n_{1,S}\) 从 50 增到 950,TLA 的 Type-II 误差单调下降,说明 \(\hat\alpha_S\) 估计与 class-1 子集筛选都受益于更大的源样本量。
  • 两个数据集形成对照:124 维 Yu 数据上源 informative、6 维 NASA 数据上源 uninformative,同一算法在两种相反情形下都给出正确行为,是对 Theorem 1「双保证」最直接的实证。
  • MLP 上仍生效:尽管理论需要凸性假设,实验用两隐层 ReLU MLP(非凸)也观察到预期行为,提示「凸包」论证在实践中有一定鲁棒性。
  • 小目标样本是真痛点\(n_{0,T}=n_{1,T}=40\) 对 1700 的测试集,Only Target 的不稳定恰说明目标数据稀缺时迁移的现实价值。

亮点与洞察

  • 打开了 NP 迁移的一般情形:第一个处理 \(\mu_0,\mu_1\) 同时漂移的工作,把已有「只漂移 \(\mu_1\)」结果作为特例严格还原(Remark 1)。
  • \(\hat\alpha_S\) 的设计很巧:把「源阈值如何对齐目标约束」这个看似无从下手的问题,变成一个可计算的下确界,且能证明 \(\hat\alpha_S\le\alpha_S\)
  • 统计 + 计算双保证:不只停在 minimax 界,而是给出多项式时间的 SGDA 实现,弥补了前作只谈统计的缺口。
  • transfer modulus 比 transfer exponent 更一般,且能反推回 exponent 表述(Appendix A)。
  • 「无先验」自适应:整个过程不需要任何关于源/目标相关度的超参数或先验,相关性被算法从数据里隐式地估计出来,工程上很友好。
  • 理论与实现一一对应:每个统计集合(\(\hat H^*_{\alpha,T}\)\(\hat H'\)\(\hat H'_{1,D}\))都精确对应一个凸约束 \(\{\theta:g(\theta)\le0\}\),让抽象的「假设集筛选」真正可执行。

局限与展望

  • 缺匹配下界:作者自己点名,一般情形(双分布漂移)的 minimax 下界尚未建立,无法确认本文上界是否最优——这是最重要的 open problem。
  • 凸性假设较强:计算保证依赖 Assumption 2/3(假设类凸、损失凸且梯度 Lipschitz),固定架构神经网络需走「凸包」绕道,落地到深度模型有 gap。
  • 实验规模小:仅两个气候数据集 + 合成数据,\(n_{0,T}=40\) 的极小样本场景,未在大规模/高维现代任务上验证。
  • 多次嵌套调用 CP-Solver:Algorithm 2 串行解多个不同精度的凸子程序,常数与对数因子较多,实际运行开销与误差棒标定还需更多经验验证。
  • 代码未公开,复现门槛偏高。

相关工作与启发

  • NP 分类基础:Cannon et al. (2002)、Scott & Nowak (2005) 首次形式化;Rigollet & Tong (2011) 用凸替代损失;Tong (2013) 非参数 plug-in;Kalan & Kpotufe (2024a) 给出 distribution-free minimax 率与快/慢率二分。
  • NP 迁移直接前作:Kalan & Kpotufe (2024b)、Kalan et al. (2025) 处理 \(\mu_0\) 共享、仅 \(\mu_1\) 漂移,本文是其严格推广。
  • 自适应迁移:Hanneke & Kpotufe (2019) 的 transfer distance / transfer exponent 思路被借用,但其只针对平衡分类。
  • 普通迁移方法对照\(\alpha\)-ERM(Bu et al. 2022)与 fine-tuning(Vrbančič & Podgorelec 2020)是无约束方法,无法直接处理 NP 的 Type-I 硬约束,凸显本文约束式迁移的必要性。
  • 随机优化求解器:CP-Solver 的 SGDA + 投影框架来自 Mahdavi et al. (2012),本文将其作为算法组件嵌入两阶段凸规划。
  • 启发:「用源数据校准约束阈值」这一思路或可迁移到更广的约束学习(公平性约束、安全约束)场景;而「交集非空才用源、否则回退」的自适应机制是一种通用的负迁移防护范式。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次攻克 NP 分类下双分布同时漂移的迁移问题,\(\hat\alpha_S\) 阈值对齐和 transfer modulus 都是实打实的理论贡献。
  • 实验充分度: ⭐⭐⭐ — 实验仅做到 proof-of-concept,数据集和规模都偏小,主要价值在理论。
  • 写作质量: ⭐⭐⭐⭐ — 问题动机、挑战刻画、特例还原(Remark 1)讲得清楚;但符号密集、对非理论读者门槛较高。
  • 价值: ⭐⭐⭐⭐ — 在不平衡 + 漂移这一现实常见但理论稀缺的方向上补齐了一块,统计+计算双保证使其有落地潜力;缺下界略减分。