跳转至

When Shift Happens - Confounding is to Blame

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=sFjxg8cyJS
代码: https://github.com/gautam0707/Confounding_is_to_Blame
领域: 学习理论 / OOD 泛化
关键词: 分布偏移, 隐藏混杂, 因果不变性, 预测信息分解, 协变量选择

一句话总结

这篇论文从因果与信息论的视角给出理论解释:在「隐藏混杂偏移」下,单纯学习不变表征不够,反而需要学习环境特定的关系,这正是为什么朴素的 ERM/XGBoost 常能打平甚至超过专门的 OOD 泛化方法、以及为什么把非因果但有信息量的协变量也加进来能提升泛化——并用 8 个真实表格数据集与合成数据加以验证。

研究背景与动机

领域现状:OOD(out-of-distribution)泛化的主流共识是「学因果不变表征」——IRM、VREX、Group DRO 等方法都假设存在跨环境不变的统计关系(典型是 \(P(X\mid Y)\) 不变的 label shift 假设,或 \(P(Y\mid X)\) 不变的 covariate shift 假设),只要把这些不变关系抓住,模型就能跨环境泛化。

现有痛点:近年一系列实证研究给出反直觉结论:(i) 在认真做模型选择的前提下,标准 ERM 常能与 SOTA 的 OOD 方法打平甚至胜出;(ii) Nastl & Hardt(2024)在 16 个真实表格数据集上发现,把所有可用协变量(哪怕是非因果的)都喂进去预测,反而比只用因果子集泛化更好。这与「学因果不变就够了」的信条直接冲突,但缺乏理论解释。

核心矛盾:现有方法依赖的不变性(label shift / covariate shift 假设)建立在「未观测变量 \(U\) 只导致 \(X\) 或只导致 \(Y\)」的因果结构上。但现实里 \(U\) 往往同时导致 \(X\)\(Y\)(即隐藏混杂 confounder),且 \(P(U)\) 在不同环境间发生偏移。此时 label shift、covariate shift、conditional covariate shift、concept shift 会同时出现,所有单一不变性假设全部破裂。

本文目标:在隐藏混杂偏移下,理论刻画「究竟该学什么才能泛化」,并解释两个实证谜团——为什么 ERM 能赢、为什么加非因果协变量有帮助。

切入角度:作者不去提出新方法,而是把「预测信息」\(I(Y;\hat Y)\)(预测 \(\hat Y\) 对真实标签 \(Y\) 的信息量)作为统一目标,用因果图上的 d-separation 推理把它分解成若干可解释的偏移项,看在混杂结构下哪些项会失效、哪些项才是关键。

核心 idea:用一个 predictive information 分解 把各类 OOD 方法统一进同一框架;并证明在隐藏混杂下分解会坍缩成「条件信息量 − 残差」,从而说明泛化的关键不是抹掉环境信息、而是显式学习环境特定关系。

方法详解

整体框架

这是一篇理论解释型论文,没有可训练的 pipeline,方法即一套围绕「预测信息」\(I(Y;\hat Y)\) 的因果-信息论分析框架。整篇推导可看成三步递进:先用通用因果结构把预测信息拆成 6 个带物理含义的偏移项(Theorem 4.1),把现有各派 OOD 方法都映射成「最大化/最小化其中某一项」;再代入隐藏混杂这一具体结构(\(U\to X\)\(U\to Y\),且 \(X\to Y\)\(Y\to X\)),用 d-separation 证明大部分偏移项相互抵消,分解坍缩成只剩「条件信息量 − 残差」(Theorem 4.2),由此得出「需要学环境特定关系」的结论;最后分析往输入里加入非因果但有信息量的协变量 \(X_I\)(作为隐藏混杂 \(U\) 的代理)会如何系统性地改善这些项(Proposition 4.1)。

\(\hat Y=(f\circ\phi)(X)\)\(f\) 是分类器、\(\phi\) 是特征提取/变换。整个框架用互信息度量各类偏移:\(I(X;E)\) 量化 \(P(X)\) 偏移、\(I(Y;E)\) 量化 label shift、\(I(X;E\mid Y)\) 量化 conditional covariate shift、\(I(Y;E\mid X)\) 量化 concept shift,其中 \(E\) 是刻画 \(P(U)\) 跨环境变化的环境变量。这套度量是连接「因果图结构」和「可观测数据偏移」的桥梁。

关键设计

1. 预测信息的通用分解:把所有 OOD 方法装进同一个公式

针对「各派 OOD 方法各执一词、缺乏统一视角」的痛点,作者在通用因果结构 \(X\leftrightarrow Y\)(即一部分协变量导致 \(Y\)、一部分被 \(Y\) 导致)下,证明预测信息可分解为六项(Theorem 4.1):

\[I(Y;\hat Y)=\underbrace{I(\phi(X);Y\mid E)}_{\text{条件信息量}}-\frac{\overbrace{I(\phi(X);E\mid Y)}^{\text{variation}}}{2}+\frac{\overbrace{I(Y;E)}^{\text{label shift}}}{2}+\frac{\overbrace{I(\phi(X);E)}^{\text{feature shift}}}{2}-\frac{\overbrace{I(Y;E\mid \phi(X))}^{\text{concept shift}}}{2}-\underbrace{I(\phi(X);Y\mid \hat Y)}_{\text{residual}}\]

这个分解的价值在于它把现有方法都翻译成「操纵某一项」:IRM 强制分类器跨环境不变,等价于最大化 \(-I(\phi(X);E\mid Y)\)(即抑制 variation);DANN 与公平分类的独立性准则最小化 \(I(\phi(X);E)\)(feature shift);CDAN 对齐联合分布 \(P_e(\phi(X),Y)\),等价于把 concept shift \(I(Y;E\mid\phi(X))\) 驱到 0。关键洞察是:从公式可见,盲目最小化 \(I(\phi(X);E)\)(抹掉环境信息)会直接减小 \(I(Y;\hat Y)\)——这解释了为什么「学得越不变、有时反而预测越差」。

2. 隐藏混杂下分解坍缩:泛化需要环境特定关系,而非纯不变性

这是全文理论核心,针对「为什么 ERM 能赢、不变性方法反而吃亏」。作者代入隐藏混杂的具体因果结构:\(U\to X\)\(U\to Y\),并分别讨论 \(X\to Y\)\(Y\to X\) 两种情形。借助 d-separation 推理(如对 \(Y\) 取条件会在 collider 节点打开 \(\phi(X)\leftarrow X\to Y\leftarrow U\leftarrow E\) 这条路径,反之对 \(\phi(X)\) 取条件会部分阻断),可得若干不等式(如 \(X\to Y\)\(I(\phi(X);E\mid Y)\ge I(\phi(X);E)\)\(I(Y;E)\ge I(Y;E\mid\phi(X))\))。把它们代回 Theorem 4.1,variation、label shift、feature shift、concept shift 四项两两抵消,预测信息坍缩为(Theorem 4.2):

\[I(Y;\hat Y)=\underbrace{I(\phi(X);Y\mid E)}_{\text{条件信息量}}-\underbrace{I(\phi(X);Y\mid \hat Y)}_{\text{residual}}\]

这意味着:在隐藏混杂偏移下,能最大化泛化的唯一杠杆是条件信息量 \(I(\phi(X);Y\mid E)\)——即在每个环境内部抓住 \(\phi(X)\)\(Y\) 的信息,也就是学习环境特定关系。这恰好解释了 Simpson 悖论(图 2):只用 \(X\) 的线性回归会学到与真实趋势相反的关系,而引入环境特定的统计量(均值/标准差/分位数)作为混杂的代理(类似因果效应估计里的 backdoor 调整)就能恢复正确的 \(X\)\(Y\) 关系。它还为 Prashant 等(2025)的 MoE 模型(每个专家对应一个隐藏混杂取值)提供了理论依据——MoE 本质就是在最大化 \(I(\phi(X);Y\mid E)\)。这也说明为什么强调不变性的 IRM/VREX/GDRO 在这类场景里集体失手。

3. 加入非因果信息协变量:用代理变量同时抬高有用项、压低有害项

针对「为什么把非因果协变量都加进来反而更好」。作者定义信息协变量 \(X_I\):与 \(Y\) 无因果关系(既非祖先也非后代),但给定其他因果协变量 \(X\) 和环境 \(E\) 后仍与 \(Y\) 不独立,即 \(Y\not\perp X_I\mid X,E\)。由于 \(U\to Y\),任何对 \(U\) 有信息的变量也对 \(Y\) 有信息,于是 \(X_I\) 可充当隐藏混杂 \(U\) 的代理。Proposition 4.1 证明:把 \(X_I\) 并入输入后,条件信息量 \(I(\phi_2(\{X\cup X_I\});Y\mid E)\) 上升、feature shift 上升、concept shift \(I(Y;E\mid\phi_2)\) 下降,但 variation 也会被放大。换言之加代理变量是一把双刃剑——好处是提升条件信息量并降低 concept shift,代价是抬高 variation。实验观察到的净效应是前者主导:concept shift 的下降带来的收益显著大于 variation 上升的损失,所以「加更多信息协变量」总体有利于泛化。这给出了「有原则的协变量选择」的理论落点:该收集的是对 \(U\)\(Y\) 有信息量的代理变量。

实验关键数据

实验目的有三:(i) 验证真实数据里隐藏混杂偏移确实普遍存在;(ii) 验证分解中「条件信息量 − 残差」与精度正相关;(iii) 验证加入信息协变量能提升泛化。数据取自 TableShift 基准的 8 个真实表格数据集(Food stamps、Readmission、Income、Public coverage、Unemployment、Diabetes、Hypertension、ASSISTments),互信息用 NPEET 工具箱的 KSG 估计器估算。对比方法含两个 ERM 派(XGBoost、MLP)、两个域泛化派(IRM、VREX)和一个鲁棒学习派(Group DRO)。

主实验

各类偏移在真实数据中均显著非零(对零均值做单样本 t 检验,\(p\approx 0\)),佐证隐藏混杂偏移普遍存在:

数据集 条件协变量偏移 \(I(X;E\mid Y)\) label shift \(I(Y;E)\) covariate shift \(I(X;E)\) concept shift \(I(Y;E\mid X)\)
Readmission 0.107 0.068 0.097 2.032
Food stamps 0.126 0.030 0.108 2.118
Public coverage 0.231 0.412 0.222 1.945
ASSISTments 0.293 0.260 0.306 0.367

「条件信息量 − 残差」与精度的 Spearman 秩相关:对 ID 测试精度 \(\rho=0.93\)、对 OOD 测试精度 \(\rho=0.80\)(5 方法 × 8 数据集),强支持 Theorem 4.2 的预测目标。

消融实验

按 Nastl & Hardt(2024)把协变量分成三个嵌套子集:causal (C) ⊆ arguably causal (AC) ⊆ all (A),用 sign consistency 度量(某项随精度提升而朝其「有益方向」变化的频率)和分子集精度评估「加协变量」的效果:

方法 CI 一致性 CS 一致性 OOD-Test (C) OOD-Test (AC) OOD-Test (A)
XGB 0.92 0.79 64.35 72.80 72.90
MLP 0.65 0.85 62.03 67.92 66.93
GDRO 0.69 0.90 61.95 66.64 65.87
IRM 0.71 0.88 61.14 61.18 62.75
VREX 0.52 0.85 60.40 65.57 65.21

注:sign consistency 越高说明该项越可靠地随精度同向变化(CI = 条件信息量,正向项;CS = concept shift,负向项)。

关键发现

  • 条件信息量是分水岭:concept shift 的 sign consistency 对所有方法都高(说明「加协变量降 concept shift」是普遍现象),但真正决定胜负的是条件信息量——只有 XGB 把 CI 一致性做到 0.92,对应它在 OOD 上明显领先(A 子集 72.90% vs IRM 62.75%)。这与 Theorem 4.2「关键是最大化条件信息量」完全吻合。
  • 加协变量普遍有益、但收益递减/偶有回退:从 C→AC→A,多数方法 OOD 精度上升(如 XGB 64.35→72.80→72.90),印证 Proposition 4.1;但 MLP/GDRO 在 A 上略回退,说明 variation 被放大的副作用在某些方法上会显现。
  • 不变性方法整体吃亏:IRM 的 ID/OOD 精度全面偏低(OOD 在 C 子集仅 61.14%),符合「在隐藏混杂下纯不变性次优」的理论判断。
  • 合成数据验证:在已知因果结构 \(U\to X,\;U\to Y,\;X\to Y,\;U\to X_I\) 下,随代理变量数 \(|X_I|\) 增多,MSE 下降、条件信息量与 feature shift 上升、concept shift 下降(图 4),与理论一致。

亮点与洞察

  • 一个分解统一一片江湖:把 IRM / DANN / CDAN / GDRO 等方法都还原成「操纵预测信息分解里的某一项」,这种「用一个公式解释一类方法在干嘛」的视角非常可复用——遇到新 OOD 方法可以直接问它在最大化/最小化哪一项。
  • 「坍缩」是最漂亮的一步:通过 d-separation 让六项分解在隐藏混杂下精确坍缩成两项,把「该学什么」从模糊的工程直觉变成可证明的结论(学环境特定关系,而非抹环境信息),同时一举解释了 ERM 能赢、MoE 合理、不变性方法吃亏三件事。
  • 为「反直觉实证」正名:把「加非因果协变量更好」从看似违反因果直觉的现象,解释为「代理变量降低 concept shift、抬高条件信息量」的必然结果,给协变量选择提供了可操作的判据(找对 \(U\)/\(Y\) 有信息量的代理)。
  • 可迁移的思维:把「环境特定统计量当作隐藏混杂的代理、做 backdoor 调整」这一招,可迁移到任何存在未观测混杂的预测任务——不必去显式建模 \(U\),只要喂入足够的环境/代理信息即可恢复正确关系。

局限与展望

  • 只解释、不解决:作者明确说本文目标是解释现象,不提供应对隐藏混杂偏移的具体算法;如何据此设计新方法仍是开放问题。
  • 理论依赖结构假设:Theorem 4.2 的干净坍缩依赖 \(X\to Y\)\(Y\to X\) 的明确单向结构。真实数据里 \(X\leftrightarrow Y\) 混合(虽然作者指出 16 个基准中 11 个是 \(X\to Y\) 主导),更一般的纠缠结构下结论强度会打折。
  • 互信息估计的脆弱性:所有结论建立在 KSG 互信息估计之上,高维/小样本下估计偏差可能影响 sign consistency 等度量的可靠性,论文未深入讨论估计误差对结论的影响。
  • 代理变量假设的现实性:Proposition 4.1 需要 \(X_I\)\(U\)/\(Y\) 的有效代理且满足条件独立性,现实中很难验证「是否已收集到足够有信息量的协变量」。作者也把「不依赖不可检验代理假设地处理纠缠偏移」列为未来工作。
  • 改进思路:可沿作者列的方向——量化「获取非因果协变量的成本 vs 精度收益」、把 variation 放大的副作用纳入显式正则、以及把对未观测混杂的不确定性建模进 OOD-鲁棒的新范式。

相关工作与启发

  • vs Nastl & Hardt (2024):他们实证发现「用全部协变量在 ID/OOD 上 Pareto 占优」,但只给现象、无理论;本文用预测信息分解 + Proposition 4.1 给出了为什么——加协变量降 concept shift、提条件信息量。
  • vs IRM / VREX / Group DRO:这些方法各自最大化/最小化分解中的某一项(如 IRM 抑 variation、GDRO 抗 label shift),本文证明在隐藏混杂下这些项相互抵消、不再是正确目标,从而解释了它们为何常被 ERM 超越。
  • vs Prashant et al. (2025):他们提出 MoE(每个专家对应一个混杂取值)应对混杂偏移;本文证明 MoE 等价于最大化条件信息量 \(I(\phi(X);Y\mid E)\),为其提供理论依据,同时指出其「混杂支撑重叠 + 离散代理」假设偏强,呼唤更一般的方法。
  • vs anchor regression (Rothenhäusler et al., 2021) / Eastwood et al. (2023):前者在「全协变量」与「纯因果协变量」间做线性权衡;后者论证不稳定协变量在条件独立时能帮提升。本文把这些视角统一到「隐藏混杂下加代理变量如何改变各偏移项」的框架里。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用一个预测信息分解统一解释「ERM 为何能赢」「加非因果协变量为何有用」两大反直觉实证谜团,视角新颖。
  • 实验充分度: ⭐⭐⭐⭐ 8 个真实数据集 + 合成数据 + 5 类方法系统验证,但互信息估计误差与更一般因果结构验证略欠。
  • 写作质量: ⭐⭐⭐⭐ 因果-信息论推理严谨、动机清晰;但 d-separation 与多项分解对非专业读者门槛偏高。
  • 价值: ⭐⭐⭐⭐⭐ 为 OOD 泛化与协变量选择提供可操作的理论指南(学环境特定关系、收集有信息量的代理变量),影响面广。