ICLR 2026 学习理论迁移学习 Neyman-Pearson 分类分布漂移 Type-I/Type-II 误差自适应避免负迁移凸规划

Neyman-Pearson Classification under Both Null and Alternative Distributions Shift¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=pHckxhmBlI
代码: 未公开
领域: 学习理论 / 迁移学习 / Neyman-Pearson 分类
关键词: Neyman-Pearson 分类, 迁移学习, 分布漂移, Type-I/Type-II 误差, 自适应, 避免负迁移, 凸规划

一句话总结¶

本文首次给出在源域与目标域的两个类条件分布 \(\mu_0,\mu_1\) 同时漂移情形下的 Neyman-Pearson（NP）迁移学习过程，既保证源域有用时同时改善 Type-I/Type-II 误差、源域无用时退化到只用目标数据（避免负迁移），又通过约化为一串凸规划给出多项式时间的计算保证。

研究背景与动机¶

领域现状：NP 分类是处理类别不平衡的经典框架——目标是在「Type-I 误差（对 \(\mu_0\) 的错误率）不超过预设阈值 \(\alpha\)（如 5%）」的硬约束下，最小化 Type-II 误差（对 \(\mu_1\) 的错误率）。它广泛用于疾病诊断、恶意软件检测、暴雨预警等「漏报代价极高」的场景。当目标任务样本稀缺时，自然想借助额外的源数据做迁移学习。

现有痛点：迁移学习在普通分类里被研究得很透，但在 NP 这种不平衡约束分类里几乎是空白。已有的少数理论工作（Kalan et al. 2025；Kalan & Kpotufe 2024b）只处理了一种受限情形——假设源域和目标域共享同一个 \(\mu_0\)，漂移只发生在 \(\mu_1\) 上，而且只给统计保证、不管能不能算得动。

核心矛盾：一旦 \(\mu_0\) 也漂移（\(\mu_{0,S}\neq\mu_{0,T}\)），「满足源域 \(\alpha\) 约束」就不再蕴含「满足目标域 \(\alpha\) 约束」——源域可行集 \(H_S(\alpha)\) 和目标域可行集 \(H_T(\alpha)\) 错位了。更糟的是目标域 class-0 样本 \(n_{0,T}\) 往往很少，经验约束集 \(\hat H_T(\alpha)\) 的真实 Type-I 误差会远超 \(\alpha\)；而又不知道该用源域哪个阈值 \(\alpha'\) 去筛选才能既压住目标 Type-I 又不牺牲 Type-II。选太小的 \(\alpha'\) 虽能压 Type-I，却会让 Type-II 暴涨——这个权衡本身就需要从数据里自适应地确定，而非人工调参。

本文目标：在不知道源/目标相关性的前提下，设计一个自适应过程，同时给出统计保证 + 计算保证，覆盖 \(\mu_0\) 和 \(\mu_1\) 都可能漂移的一般情形。核心 idea：用源域 class-0 样本自动校准出一个「有效阈值」\(\hat\alpha_S\) 把源约束对齐到目标约束，再用源域 class-1 样本进一步压低 Type-II 误差——两阶段筛选 + 凸规划求解。

方法详解¶

整体框架¶

方法是一个两阶段的「先对齐约束、再降误差」自适应筛选过程，最终落地为一串可用随机梯度求解的凸规划。第一阶段只盯 Type-I：用目标 class-0 样本先框出经验可行假设集，再用源 class-0 样本求出一个最小的有效阈值 \(\hat\alpha_S\)，把那些真实 Type-I 会超标的假设剔掉。第二阶段盯 Type-II：在剩下的假设里用源/目标 class-1 样本各自挑出 Type-II 接近最优的子集，取交集得到最终分类器；若交集为空则安全退回「只用目标数据」的解，从而避免负迁移。整个统计过程最终被翻译成一串可用随机梯度上升下降（SGDA）求解的凸规划，给出多项式时间的计算保证。

flowchart TD
    A[目标 class-0 样本] --> B["构造经验可行集 ĤT(α)<br/>+ Type-II 不超过经验最优的子集 Ĥ*α,T"]
    C[源 class-0 样本] --> D["求有效阈值 α̂S（式6）<br/>使 ĤS(α̂S)∩Ĥ*α,T 非空"]
    B --> D
    D --> E["第一阶段输出受限集 Ĥ' = ĤS(α̂S)∩Ĥ*α,T<br/>(Type-I 已对齐到目标)"]
    E --> F["源/目标 class-1 样本各挑<br/>Type-II 近优子集 Ĥ'1,S, Ĥ'1,T"]
    F --> G{"Ĥ'1,S ∩ Ĥ'1,T 非空?"}
    G -->|是| H["取交集中任一 ĥ<br/>(源有用→双误差都改善)"]
    G -->|否| I["退回 argmin Type-II on Ĥ'<br/>(避免负迁移)"]

关键设计¶

1. 有效阈值 \(\hat\alpha_S\)：把源约束对齐到目标约束。 这是全文最核心的创新点，专门为「\(\mu_0\) 也漂移」而设。先定义理想阈值 \(\alpha_S:=\inf\{\alpha':H_S(\alpha')\cap T^*(\alpha)\neq\emptyset\}\)，即让源可行集恰好罩住目标最优解所需的最小源阈值。经验版本是 \(\hat\alpha_S:=\inf\{\alpha'\in[\alpha,1]:\hat H_S(\alpha')\cap\hat H^*_{\alpha,T}\neq\emptyset\}\)（式 6），其中 \(\hat H^*_{\alpha,T}\) 是「目标经验 Type-I 满足约束、且目标经验 Type-II 不超过经验风险最小化器」的假设集。直觉是：单看 \(\hat H^*_{\alpha,T}\)，由于 \(n_{0,T}\) 小、误差棒 \(\epsilon_{0,T}=\tilde C/\sqrt{n_{0,T}}\) 大，里面混进了很多真实 Type-I 远超 \(\alpha\) 的「坏假设」；用源域以阈值 \(\hat\alpha_S\) 收紧成 \(\hat H'=\hat H_S(\hat\alpha_S)\cap\hat H^*_{\alpha,T}\)，正好把这些坏假设挡在外面，同时保留能拿到低 Type-II 的好假设。论文证明当 \(\alpha<\alpha_S\) 时有 \(\hat\alpha_S\le\alpha_S\)，且 Figure 1 用一维 Gaussian 例子直观展示：源-1 的 \(\alpha_{S_1}=\alpha\) 罩不住、帮不上忙；源-2 的 \(\alpha_{S_2}>\alpha\) 才真正收缩了可行集、降低目标 Type-I。

2. 第二阶段 Type-II 双子集取交 + 安全回退：自适应避免负迁移。 拿到第一阶段的 \(\hat H'\) 后，对 \(D\in\{S,T\}\) 各自构造近优子集 \(\hat H'_{1,D}:=\{h\in\hat H':\hat R_{\phi,\mu_{1,D}}(h)\le\hat R^*_{\phi,\mu_{1,D}}(\hat H')+2\epsilon_{1,D}\}\)，即在源/目标上 Type-II 都接近最优的假设。决策规则（式 8）很简洁：若 \(\hat H'_{1,S}\cap\hat H'_{1,T}\neq\emptyset\)，说明存在「源、目标都认为好」的假设，源信息有用，取交集里任一个 \(\hat h\)，此时 Type-I/Type-II 同时改善；否则交集为空意味着源与目标在 class-1 上不一致（源不 informative），直接退回 \(\hat h=\arg\min_{h\in\hat H'}\hat R_{\phi,\mu_{1,T}}(h)\)，只信目标数据。这个「交集非空就用、为空就退」的机制，无需任何关于源/目标相关性的先验知识就实现了自适应，这正是 Theorem 1 保证「never worse than target-only」的来源。

3. 转移模数（transfer modulus）刻画源的价值。 为了把「源域上好 ↔ 目标域上好」量化进泛化界，论文不用单一的 transfer exponent，而是引入更一般的两个模数：\(\phi_1^{S\to T}(\varepsilon):=\sup\{\mathcal E_{1,T}(h\mid h^*_{S,T,\alpha}):\mathcal E_{1,S}(h\mid h^*_{S,T,\alpha})\le\varepsilon\}\) 翻译 Type-II 的源→目标传递，\(\phi_0^{S\to T}(\varepsilon):=\sup\{R_{\phi,\mu_{0,T}}(h):R_{\phi,\mu_{0,S}}(h)\le\varepsilon\}\) 翻译 Type-I 的传递。Theorem 1 给出高概率界 \(\mathcal E_{1,T}(\hat h)\le c\cdot\min\{\epsilon_{1,T},\,R_{\phi,\mu_{1,T}}(h^*_{S,T,\alpha})-R_{\phi,\mu_{1,T}}(h^*_{T,\alpha})+\phi_1^{S\to T}(4\epsilon_{1,S})\}\)，Type-I 界为 \(\min\{\alpha+2\epsilon_{0,T},\phi_0^{S\to T}(\hat\alpha_S+2\epsilon_{0,S})\}\)。当 \(\mu_{0,S}=\mu_{0,T}\) 时 \(\phi_0^{S\to T}\) 退化为恒等、\(\alpha_S\le\alpha\)，整个界精确还原已有工作（Remark 1），说明本文是它们的严格推广。

4. 约化为一串凸规划 + SGDA 求解：计算保证。 统计过程光定义不够，论文把它整体翻译成可解的优化。在参数化假设类 \(h_\theta(\|\theta\|\le B)\)、凸且梯度有界 Lipschitz（Assumption 3，logistic/线性模型成立）下，求 \(\hat\alpha_S\) 写成带约束 \(\min_{\alpha'\ge\alpha,\theta}\alpha'\) s.t. \(g'(\theta,\alpha')\le 0\)（式 10），再转成极小极大 \(\min_{\alpha'\ge\alpha,\theta}\max_{\lambda\ge0}\alpha'+\lambda g'(\theta,\alpha')\)（式 11）。核心算子 CP-Solver（Algorithm 1）用带投影步的随机梯度上升下降（SGDA，参照 Mahdavi et al. 2012），把目标和（带噪的）约束都当随机采样处理，最后投影到 \(\{\theta:g(\theta)\le-\xi\}\) 留松弛量。整个流程（Algorithm 2 NP-Transfer-Learning）多次调用 CP-Solver 解不同精度的凸子程序——先 warm-start 求 \(\hat\theta_{T,\alpha-\epsilon_{0,T}}\)、再求 \(\hat\alpha\)、再解源/目标子问题、最后联合求解 \(\hat h\)。Theorem 2 证明输出满足 Theorem 1 的统计保证，总随机梯度调用数为多项式，量级由 \(\min\{1/\epsilon_{1,S},1/\epsilon_{1,T}\}\) 主导。

实验关键数据¶

主实验¶

在两个真实气候数据集上做暴雨检测，源/目标对应不同地点；用两隐层 ReLU MLP，固定 \(n_{0,T}=n_{1,T}=40\)，源样本 \(n_{0,S}=n_{1,S}\) 从 50 扫到 950，\(\alpha=0.1\)，每组 10 次试验，目标测试集 1700。对比 TLA（本文）、Only Target、Only Source。

数据集	场景	Type-I 误差 (TLA)	Type-II 误差 (TLA)	关键对比
Yu et al. 2023（124 维）	源 informative	贴近阈值 0.1	随 \(n_S\) 增大降到 ~0.02–0.05	Only Target 超阈值且 Type-II 更差
NASA POWER 2024（6 维）	源 uninformative	控制在阈值附近	~0.2–0.3，与 Only Target 相当	Only Source 的 Type-II 高达 0.5–0.9

消融 / 补充¶

设置	现象	结论
源 informative（Fig 2）	TLA 同时压低 Type-I 与 Type-II，优于 Only Target	有用时主动利用源
源 uninformative（Fig 3）	TLA 匹配 Only Target，远好于 Only Source	避免负迁移，印证 Theorem 1
合成 Gaussian 数据（Appendix D）	趋势一致	验证理论在受控分布下成立
阈值设置 \(\alpha=0.1\)	TLA 的 Type-I 稳定贴合 0.1 附近	经验 Type-I 控制与理论界 \(\alpha+2\epsilon_{0,T}\) 吻合

关键发现¶

自适应性是实证亮点：同一套算法无需告知源是否相关，informative 时蹭到收益、uninformative 时不掉队，恰好对应理论里「\(\min\{\text{target-only},\text{source-aided}\}\)」的双保证。
Only Target 在 \(n_{0,T}=40\) 这种小样本下连阈值都压不住，凸显了借源校准 Type-I 的必要性。
源样本越多增益越明显：在 informative 场景里，随 \(n_{0,S}=n_{1,S}\) 从 50 增到 950，TLA 的 Type-II 误差单调下降，说明 \(\hat\alpha_S\) 估计与 class-1 子集筛选都受益于更大的源样本量。
两个数据集形成对照：124 维 Yu 数据上源 informative、6 维 NASA 数据上源 uninformative，同一算法在两种相反情形下都给出正确行为，是对 Theorem 1「双保证」最直接的实证。
MLP 上仍生效：尽管理论需要凸性假设，实验用两隐层 ReLU MLP（非凸）也观察到预期行为，提示「凸包」论证在实践中有一定鲁棒性。
小目标样本是真痛点：\(n_{0,T}=n_{1,T}=40\) 对 1700 的测试集，Only Target 的不稳定恰说明目标数据稀缺时迁移的现实价值。

亮点与洞察¶

打开了 NP 迁移的一般情形：第一个处理 \(\mu_0,\mu_1\) 同时漂移的工作，把已有「只漂移 \(\mu_1\)」结果作为特例严格还原（Remark 1）。
\(\hat\alpha_S\) 的设计很巧：把「源阈值如何对齐目标约束」这个看似无从下手的问题，变成一个可计算的下确界，且能证明 \(\hat\alpha_S\le\alpha_S\)。
统计 + 计算双保证：不只停在 minimax 界，而是给出多项式时间的 SGDA 实现，弥补了前作只谈统计的缺口。
transfer modulus 比 transfer exponent 更一般，且能反推回 exponent 表述（Appendix A）。
「无先验」自适应：整个过程不需要任何关于源/目标相关度的超参数或先验，相关性被算法从数据里隐式地估计出来，工程上很友好。
理论与实现一一对应：每个统计集合（\(\hat H^*_{\alpha,T}\)、\(\hat H'\)、\(\hat H'_{1,D}\)）都精确对应一个凸约束 \(\{\theta:g(\theta)\le0\}\)，让抽象的「假设集筛选」真正可执行。

局限与展望¶

缺匹配下界：作者自己点名，一般情形（双分布漂移）的 minimax 下界尚未建立，无法确认本文上界是否最优——这是最重要的 open problem。
凸性假设较强：计算保证依赖 Assumption 2/3（假设类凸、损失凸且梯度 Lipschitz），固定架构神经网络需走「凸包」绕道，落地到深度模型有 gap。
实验规模小：仅两个气候数据集 + 合成数据，\(n_{0,T}=40\) 的极小样本场景，未在大规模/高维现代任务上验证。
多次嵌套调用 CP-Solver：Algorithm 2 串行解多个不同精度的凸子程序，常数与对数因子较多，实际运行开销与误差棒标定还需更多经验验证。
代码未公开，复现门槛偏高。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次攻克 NP 分类下双分布同时漂移的迁移问题，\(\hat\alpha_S\) 阈值对齐和 transfer modulus 都是实打实的理论贡献。
实验充分度: ⭐⭐⭐ — 实验仅做到 proof-of-concept，数据集和规模都偏小，主要价值在理论。
写作质量: ⭐⭐⭐⭐ — 问题动机、挑战刻画、特例还原（Remark 1）讲得清楚；但符号密集、对非理论读者门槛较高。
价值: ⭐⭐⭐⭐ — 在不平衡 + 漂移这一现实常见但理论稀缺的方向上补齐了一块，统计+计算双保证使其有落地潜力；缺下界略减分。