Distributionally Robust Classification for Multi-Source Unsupervised Domain Adaptation¶
会议: ICLR 2026
arXiv: 2601.21315
代码: 无
领域: 其他
关键词: 分布鲁棒优化, 无监督域适应, 多源域适应, Wasserstein距离, 伪标签
一句话总结¶
提出一种分布鲁棒学习框架,通过联合建模目标域协变量分布和条件标签分布的不确定性,在目标数据极度稀缺或源域存在虚假相关性的UDA场景中显著提升泛化性能。
研究背景与动机¶
无监督域适应(UDA)假设训练(源域)和测试(目标域)数据分布不同,仅有源域标签和目标域无标签数据。现有方法主要分两类:
分布对齐方法(DANN、CDAN、MK-MMD):通过对齐源/目标域分布来减小域差异,但在虚假相关性存在时容易对齐无关特征(如背景、颜色)
伪标签方法(STAR、ATDOC):利用源域训练模型生成目标域伪标签,但标签质量依赖初始模型
这两类方法在以下两个实际场景中表现不佳: - 目标数据稀缺:对齐估计不可靠,伪标签噪声大 - 虚假相关性:模型依赖非因果特征(如背景、性别、颜色),这些特征不迁移到目标域
现有DRO方法(如GroupDRO)通常需要组标签,且不利用无标签目标数据。本文希望设计一种同时处理协变量移位和条件分布移位的鲁棒框架。
方法详解¶
整体框架¶
这篇论文要解决的是无监督域适应(UDA)里两个最棘手的场景:目标域几乎没有数据、源域里藏着虚假相关性。它不去强行对齐源/目标分布,而是承认"我对目标域分布的估计本来就不准",转而构造一个把这种不确定性显式包进去的不确定性集合(ambiguity set),再训练一个对集合里最坏情况都成立的分类器。
整条流水线这样转:先把(可能只有一个的)源域子采样成 \(K\) 个伪源子集;在每个子集上估出一个条件分布 \(\hat{P}_{Y|X}^{(k)}\);把这些条件估计的混合(管标签漂移)和目标输入分布的一个 Wasserstein 球(管协变量漂移)拼成一个双层不确定性集合 \(\mathcal{Q}\);由于直接对 \(\mathcal{Q}\) 做 min-max 不可解,再推出一个可计算的代理目标,把它落成"软伪标签 + 特征扰动"上的对抗损失;最后交替更新对抗特征、混合权重和模型参数,得到鲁棒分类器。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
SRC["源域数据集 D^sc<br/>(常常只有单源)"] -->|"有放回随机子采样"| SUB["1. 子采样<br/>K=10 个伪源子集 D^(k)"]
SUB --> EST["2. 条件分布估计<br/>共享特征 z(·) + 各子集独立 logistic<br/>→ K 个条件估计 P̂(k)_(Y|X)"]
TGT["目标域无标签输入<br/>估计 P̂_X^tg"] --> AMB
EST --> AMB["3. 双层不确定性集合 Q<br/>协变量 Wasserstein 球 (ε1)<br/>+ 混合权重球 (ε2)"]
AMB --> PROXY["4. 可计算代理目标<br/>软伪标签 y°(β) + 特征扰动 z'"]
PROXY --> OPT["交替优化<br/>更新 z' / β / θ"]
OPT --> OUT["分布鲁棒分类器"]
关键设计¶
1. 子采样:把单源问题伪装成多源
整个框架建立在"多源"假设上,但现实里很多 UDA 任务只有一个源域。作者的处理是对单源数据集 \(\mathbf{D}^{\text{sc}}\) 做有放回随机子采样,生成 \(K=10\) 个子集 \(\mathbf{D}^{(k)}\),每个子集大小为 \(N^{\text{sc}}/5\)。这样做并非凑数:当源分布本身是若干异质子群体的混合时,重复子采样会让某些子样本恰好近似落在单一子群体上,于是后续对混合权重的对抗优化就能覆盖"不同子群体占比"的各种情形,对混合比例的漂移天然鲁棒。这一思路直接借自回归里的 maximin effect(Meinshausen & Bühlmann, 2015),本文把它搬到了分类。
2. 条件分布估计:共享特征 + 各子集独立 logistic 回归
要算出后面不确定性集合里要用的 \(\hat{P}_{Y|X}^{(k)}\),作者先在全部源数据上训练一个分类模型,去掉最后分类层得到特征映射 \(z:\mathcal{X}\to\mathcal{Z}\);然后在每个子集上独立训练一个线性 logistic 回归,把 softmax 输出当作该子集的条件概率估计。共享特征保证不同子集的估计可比,独立回归头则让每个 \(\hat{P}_{Y|X}^{(k)}\) 反映各自子群体的偏置。这个特征提取器并不限定自家训练——可以直接换成 CDAN、STAR 等现成 UDA 方法的 backbone,于是整套框架就成了挂在已有方法之后的鲁棒化模块。
3. 双层不确定性集合:协变量与条件分布各给一个球
方法的核心是用上一步估出的 \(K\) 个条件分布,构造一个同时容纳两类漂移的不确定性集合 \(\mathcal{Q}\)。给定容许参数 \(\epsilon_1, \epsilon_2 \geq 0\) 和参考向量 \(\bar{\beta} \in \Delta_{K-1}\):
第一层管输入分布:用 Wasserstein 距离 \(D_1\) 把候选协变量分布 \(Q_X\) 约束在目标域估计 \(\hat{P}_X^{\text{tg}}\) 的 \(\epsilon_1\)-球内,半径 \(\epsilon_1\) 在目标数据稀缺、协变量估计不可靠时尤其关键。第二层管条件分布:把目标条件 \(Q_{Y|X}\) 写成各源条件估计 \(\hat{P}_{Y|X}^{(k)}\) 的混合 \(\sum_k \beta_k \hat{P}_{Y|X}^{(k)}\),再用欧氏距离 \(D_2\) 把混合权重 \(\beta\) 约束在参考 \(\bar{\beta}\) 的 \(\epsilon_2\)-球内。两个半径分别对应两类漂移,这正是它比单一 DRO(只扰动协变量或只扰动标签)更通用的地方。
4. 可计算代理目标:把 minimax 写成软伪标签上的对抗损失
原始的 \(\min_\theta \max_{Q\in\mathcal{Q}}\) 直接优化不可行。作者通过 Proposition 3.1 给出一个可计算上界,把对 \(Q_X\) 的 Wasserstein 上确界转化为对特征的局部扰动,对 \(Q_{Y|X}\) 的上确界转化为对混合权重 \(\beta\) 的优化:
这里 \(y^\circ(\beta, x) = \sum_{k=1}^K \beta_k \hat{p}_{Y|X}^{(k)}(\cdot|x)\) 是一个软伪标签向量——它不是 0/1 硬标签,而是各源条件估计按 \(\beta\) 加权的概率分布。于是整个鲁棒目标变成:在特征 \(\epsilon_1\)-球内找最坏扰动 \(z'\)、在权重 \(\epsilon_2\)-球内找最坏软标签 \(y^\circ\),再让分类器对这对最坏组合也分得对。
损失函数 / 训练策略¶
交替优化三个变量(Algorithm 1):
- 更新对抗特征 \(z'\):固定 \(\theta, \beta\),对特征做投影梯度上升,在 \(\epsilon_1\)-球内寻找最大化损失的扰动(类似对抗训练)
- 更新混合权重 \(\beta\):固定 \(\theta, z'\),使用指数化梯度上升 + 投影到 \(\epsilon_2\)-球内,给损失较大的条件估计更高权重
- 更新模型参数 \(\theta\):固定 \(z', \beta\),标准梯度下降最小化损失
核心直觉:\(\beta\) 的更新创建条件分布的对抗性混合,\(\theta\) 的更新迫使分类器对这种对抗性混合具有鲁棒性。
实验关键数据¶
主实验¶
实验1:数字识别任务(MNIST/SVHN/USPS)
| 方法 | SVHN→MNIST (100) | SVHN→MNIST (10) | MNIST→USPS (100) | USPS→MNIST (100) |
|---|---|---|---|---|
| ERM | 59.6 | - | 63.4 | 60.4 |
| DANN | 66.0 | 61.2 | 82.0 | 74.8 |
| CDAN | 63.4 | 56.9 | 80.8 | 58.3 |
| MCD | 79.1 | 61.3 | 89.3 | 96.1 |
| Ours (STAR) | 94.4 | 91.3 | 95.6 | 97.3 |
目标数据仅10样本/类时,Ours(STAR) 仍达91.3%(SVHN→MNIST),远超所有基线。
实验2:虚假相关性基准(Waterbirds/CelebA/CMNIST)
| 方法 | Waterbirds | CelebA | CMNIST |
|---|---|---|---|
| ERM | 48.4 | 35.5 | 0.9 |
| CORAL | 50.9 | 31.7 | 1.7 |
| MCD | 59.0 | 30.7 | 1.9 |
| GroupDRO (需组标签) | 61.4 | 63.0 | 3.4 |
| Ours (ERM) | 87.3 | 85.0 | 7.5 |
相比ERM,Waterbirds +38.9%,CelebA +49.5%。无需组标签即大幅超越GroupDRO。
消融实验¶
- 超参数敏感性:\(\epsilon_1\) 和 \(\epsilon_2\) 的热力图显示,中等不确定性(\(\epsilon_1 \in \{0.2,0.4\}\), \(\epsilon_2 \geq 0.2\))时性能稳定,存在宽广的最优平台
- 目标数据极度稀缺时:\(\epsilon_1\) 的影响更显著,因为协变量分布估计更不可靠;\(\epsilon_2\) 可设为较大值而不影响稳定性
- LODO-CV验证:不依赖标签目标验证数据的*Ours版本虽略低,但仍超越所有基线
关键发现¶
- 与CDAN结合可在SVHN→MNIST上提升+29.1%
- 方法在目标数据从100降到10样本时性能下降远小于基线方法
- 协变量鲁棒半径 \(\epsilon_1\) 在数据稀缺时至关重要,条件混合半径 \(\epsilon_2\) 较为稳定
亮点与洞察¶
- 双层不确定性建模:同时考虑协变量和条件分布的不确定性,是对单一DRO方法的重要推广
- 无需组标签:与GroupDRO不同,本方法不需要知道数据的组/子群体信息
- 即插即用:可与CDAN、STAR等现有UDA方法无缝结合,作为后处理鲁棒化模块
- 单源到多源的统一:通过子采样巧妙将单源问题转化为多源框架
局限与展望¶
- 实验仅覆盖视觉基准(数字识别、spurious correlation),未验证NLP或时序数据
- 需要小量标签目标验证数据进行超参数选择(虽然LODO-CV可替代)
- 条件分布估计依赖预训练特征提取器的质量
- 子采样数 \(K=10\) 是固定选择,自适应选择策略可能进一步提升
- 计算开销来自 \(K\) 个独立logistic回归 + minimax优化的交替迭代
相关工作与启发¶
- Maximin Effect(Meinshausen & Bühlmann, 2015):本文的直接灵感来源,将回归设定的DRO推广到分类
- GroupDRO(Sagawa et al., 2019):处理子群体偏移但需组标签
- Wasserstein DRO(Gao et al., 2024):提供协变量扰动的理论基础
- 可启发联邦学习中异质客户端的鲁棒聚合策略
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ★★★★☆ |
| 技术深度 | ★★★★☆ |
| 实验充分性 | ★★★★☆ |
| 写作质量 | ★★★★☆ |
| 实用价值 | ★★★★☆ |