Toward Scalable and Valid Conditional Independence Testing with Spectral Representations¶

会议: ICML2026
arXiv: 2512.19510
代码: github.com/alekfrohlich/SCIT
领域: 因果推断 / 条件独立检验 / 表示学习
关键词: 条件独立检验, 偏协方差算子, 谱表示学习, 对比学习, 卡方零分布

一句话总结¶

SpectralCIT 把核方法里刻画条件独立的「偏协方差算子」用神经网络学到的低维谱特征来近似，再用一个形如 HSIC 的简单统计量做条件独立检验——它用一个双层对比算法学出算子的领先奇异特征，证明零假设下统计量渐近服从卡方分布、备择假设下有功效保证，从而把核方法的理论扎实性和现代表示学习的可扩展性接上。

研究背景与动机¶

领域现状：条件独立（CI）检验——给定 \(X,Y,Z\) 判断 \(X\perp\!\!\!\perp Y\mid Z\) 是否成立——是因果推断、图模型、变量选择的基石。但在非参数设定下它出了名地难：Shah 和 Peters（2020）的 no-free-lunch 定理证明，任何能在所有条件独立分布上一致控制第一类错误的检验，对任何备择假设都没有功效。直觉是 CI 分布太「富」了，任何强相关的样本都能被一个条件独立的模型任意逼近，除非对 \(P_{X,Y,Z}\) 施加结构假设（如 \(P_{X,Y\mid Z=z}\) 随 \(z\) 连续变化）。

现有痛点：这个困境逼着大家放弃「普适有效」、转向「针对特定设定」的检验，但每条路线都有短板。核方法（KCIT、RCIT）靠 \(Z\to X,Y\) 的回归，要求回归学得足够好；Model-X 方法（GCIT、DGCIT）要求拿得到 \(P(X\mid Z)\) 或可靠近似；局部置换检验（NNLSCIT）按分箱/聚类的 \(Z\) 置换样本，但计算代价大且依赖平滑性假设。其中经典核方法通过偏协方差算子来刻画条件依赖，这个算子隐式编码了平滑、稀疏、低秩、隐变量等一大类结构假设、最具普适性；可惜核方法缺乏自适应性和可扩展性（核选择难、维度一高就掉功效、计算贵），实际影响有限。

核心矛盾：偏协方差算子框架理论上很美（统一刻画 CI 且不依赖单一结构假设），但它绑死在核方法上，而核方法在高维和大样本下既不 scalable 也不 adaptive——理论的普适性和实现的可扩展性凑不到一起。

本文目标：在保留偏协方差算子这套普适刻画的前提下，把核方法换成可学习、可扩展的表示，造一个既有效（控第一类错误）又有功效、还能 scale 到高维的 CI 检验。

切入角度：近年「学习统计算子的领先谱特征」在因果效应估计、强化学习、动力系统等非参数任务上都见效，且因为和对比学习相通而保持简单可扩展。作者顺着这条线问：能不能用谱表示学习去学偏协方差算子的领先特征，从而治好核方法的毛病？

核心 idea：用神经网络学出偏协方差算子 \(\Sigma_{X\ddot{Y}\cdot Z}\) 的截断 SVD 谱特征（左/右奇异函数 + 残差化用的 \(w\) 特征），再用这些特征构造一个形如 HSIC 的简单统计量；难点在于偏协方差里的残差化项 \(\Sigma_{XZ}\Sigma_{ZY}\) 无法直接从数据估，作者用一个双层（bi-level）对比公式把它绕过去。

方法详解¶

整体框架¶

SpectralCIT 把样本 \(\{(X_i,Y_i,Z_i)\}_{i=1}^N\) 切成训练集和测试集。训练阶段用一个双层对比算法（Algorithm 1）在训练集上学三组神经网络特征：\(u_\theta(X)\)、\(v_\theta(\ddot{Y})\)（其中 \(\ddot{Y}=(Y,Z)\)）、\(w_\theta(Z)\)，再对它们做白化（whitening）让特征在整个训练集上经验正交归一。检验阶段用学到的特征在测试集上算统计量 \(\widehat{T}_n\)（Eq. 10），它本质是「白化后的经验偏协方差矩阵」的 Frobenius 范数平方乘以 \(n\)。决策阶段把 \(\widehat{T}_n\) 和自由度为 \(d^2\) 的卡方分布的 \(1-\alpha\) 分位数比较，超过就拒绝零假设（\(d\) 是网络输出维度）。整条管线把「学表示」和「做检验」用 train/test split 解耦，既给了渐近理论一个干净的零分布，又避免数据复用带来的偏差。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["i.i.d. 样本切 train/test"] --> B["偏协方差的双层变分公式<br/>把不可估的残差化项转成低秩内层问题"]
    B --> C["双层对比表示学习<br/>学谱特征 u(X),v(Y,Z),w(Z)"]
    C --> D["白化后处理<br/>训练集上强制经验正交归一"]
    D --> E["谱统计量 T_n<br/>白化偏协方差矩阵 Frobenius 范数²×n"]
    E -->|T_n ≥ χ²(d²) 的 1-α 分位| F["拒绝 H0：条件依赖"]
    E -->|否则| G["不拒绝：条件独立"]

关键设计¶

1. 用偏协方差算子的截断 SVD 把「条件依赖」压成一个低维矩阵

条件独立 \(X\perp\!\!\!\perp Y\mid Z\) 等价于偏协方差算子的 Hilbert–Schmidt 范数为零：\(\|\Sigma_{X\ddot{Y}\cdot Z}\|_{\mathrm{HS}}=0\)，其中 \(\Sigma_{AB\cdot C}=\Sigma_{AB}-\Sigma_{AC}\Sigma_{CB}\)。作者把检验重述为 \(\mathcal{H}_0:\|\Sigma_{X\ddot{Y}\cdot Z}\|_{\mathrm{HS}}^2=0\) vs. \(\mathcal{H}_{1,n,d}:\|\Sigma_{X\ddot{Y}\cdot Z}\|_{\mathrm{HS}}^2\geq\epsilon_n\)。这个算子框架的妙处在于它隐式编码了平滑、稀疏、低秩、隐变量等一大类结构假设，不需要像回归型或局部置换型检验那样显式假定 \(P_{X\mid Z=z}\) 的 Lipschitz 性。为了让它可计算又可扩展，作者只学算子的最佳 rank-\(d\) 截断 SVD \([\![\Sigma_{X\ddot{Y}\cdot Z}]\!]_d=\sum_{i=1}^d \sigma_i u_i\otimes v_i\)——把无穷维算子压成 \(d\) 维子空间。这一步把「估计整个条件分布」降级成「捕获算子的一个低维谱子空间」，按经典的「检验比估计容易」（Ingster 1993）的道理，要求比回归型检验弱得多。

2. 双层变分公式：绕开无法直接估计的残差化项

把截断 SVD 写成变分（最小化）问题时，目标里会冒出一项 \(\mathrm{tr}[\mathsf{M}^\top\mathsf{U}^*\Sigma_{XZ}\Sigma_{Z\ddot{Y}}\mathsf{V}]\)——它是两个协方差算子的复合 \(\Sigma_{XZ}\Sigma_{Z\ddot{Y}}\)，不能从数据直接估计，这正是学偏协方差（相比无条件协方差）的核心技术障碍。作者的招数是利用迹的循环性：注意到算子 \(\Sigma_{Z\ddot{Y}}\mathsf{V}\mathsf{M}^\top\mathsf{U}^*\Sigma_{XZ}:L^2(Z)\to L^2(Z)\) 至多是 rank-\(d\) 的，其对称化至多 rank-\(2d\)，于是有 SVD 形式 \(\mathsf{W}\mathsf{N}\mathsf{W}^*\)（\(\mathsf{W}=[w_1|\cdots|w_{2d}]\) 是 \(L^2(Z)\) 上一组正交系）。把这个低秩辅助分解套进同一套变分原理，那个讨厌的复合项就被一个内层优化问题（关于 \((\mathsf{W},\mathsf{N})\)）替代了。最终偏协方差的截断 SVD 可写成 \([\![\Sigma_{X\ddot{Y}\cdot Z}]\!]_d=\mathsf{U}[C_{UV}-C_{UW}C_{WV}]\mathsf{V}^*\)——条件依赖结构全装进矩阵 \(C_{UV}-C_{UW}C_{WV}\) 里，只要有合适的表示 \((U,V,W)=(u(X),v(\ddot{Y}),w(Z))\) 就能算。把外层（学 \(u,v\)）和内层（学 \(w\)）合起来就是一个双层优化问题，这是整个方法相对已有谱学习文献的实质差别所在。

3. 双层对比算法 + 白化后处理：把变分公式落成可训练的神经网络损失

作者把 \(u,v,w\) 用神经网络 \(u_\theta:\mathcal{X}\to\mathbb{R}^d\)、\(v_\theta:\mathcal{Y}\times\mathcal{Z}\to\mathbb{R}^d\)、\(w_\theta:\mathcal{Z}\to\mathbb{R}^{2d}\) 参数化，并用 U-统计量把外层、内层目标写成可对 mini-batch 估计的经验损失 \(\widehat{\mathcal{L}}_{\mathrm{out}}\)、\(\widehat{\mathcal{L}}_{\mathrm{in}}\)（形式上是对比学习里常见的正对吸引、负对平方项）。Algorithm 1 交替优化：每轮先跑 \(n_{\texttt{steps\_inner}}\) 步更新内层网络 \(w_\theta\)，再用一个新 batch 更新外层网络 \(u_\theta,v_\theta\)。训练时还加正交归一（白化）正则 \(\widehat{\Omega}(\theta)=\|\widehat{C}_{UU}-I_d\|_F^2+\|\widehat{C}_{VV}-I_d\|_F^2\)（内层是 \(\|\widehat{C}_{WW}-I_{2d}\|_F^2\)），强度 \(\gamma>0\)，目的是让经验协方差矩阵良态、白化时可安全求逆。由于 batch 级正交只是软约束且和别的目标竞争，训练后还做一步白化后处理：用全训练集估的协方差做 \(\widehat{u}_\theta(X)=\widehat{C}^{-1/2}_{\widetilde{U}\widetilde{U}}\widetilde{u}_\theta(X)\)（\(v,w\) 同理），它保持学到的子空间不变（range 不变）、只改善基函数的几何，使表示在经验上严格正交归一——这一步对零分布精确收敛到卡方至关重要。

4. 谱统计量与卡方零分布 / 功效保证：把表示质量直接挂到检验性能上

检验阶段用测试集算 \(\widehat{T}_n=n\,\|\widehat{C}_{\widehat{U}\widehat{V}}-\widehat{C}_{\widehat{U}\widehat{W}}\widehat{C}_{\widehat{W}\widehat{V}}\|_F^2\)（Eq. 10），它就是 \([\![\Sigma_{X\ddot{Y}\cdot Z}]\!]_d\) 那个矩阵 \(C_{UV}-C_{UW}C_{WV}\) 的经验版范数，形式上与 HSIC 同源。理论把检验性能直接绑到两个表示误差上：validity 误差 \(\mathcal{E}_m^{\mathrm{val}}\)（白化后特征离正交归一有多远）和 power 误差 \(\mathcal{E}_m^{\mathrm{pow}}\)（学到的 rank-\(d\) 表示离真算子截断 SVD 有多远）。有效性（Theorem 4.1）：只要 \(\mathcal{E}_m^{\mathrm{val}}\to0\)，零假设下 \(\widehat{T}_n\stackrel{d}{\to}\chi^2(d^2)\)——直觉是白化后特征近似正交归一，于是该矩阵在零假设下近似单位协方差，\(\widehat{T}_n\) 近似 \(d^2\) 个独立标准高斯的平方和；这比回归型检验「以指定速率估条件期望」的要求更弱，因为只需抓住一个低维谱子空间。功效（Theorem 4.2）：当信号强度 \(\epsilon_n^2\gtrsim d(\mathcal{E}_m^{\mathrm{pow}})^2+\frac{d^2+d\log(\delta^{-1})}{n}\) 时，备择假设下以至少 \(1-\delta\) 的概率拒绝零假设。两个定理合起来说明：\(\mathcal{E}_m^{\mathrm{val}}\) 控零假设下的校准、\(\mathcal{E}_m^{\mathrm{pow}}\) 控备择假设下的信号保留，检验好不好就看表示学得好不好。

损失函数 / 训练策略¶

外层损失 \(\widehat{\mathcal{L}}_{\mathrm{out}}\) 含三项：负对的平方项 \(\frac{1}{m(m-1)}\sum_{i\neq j}\langle\bar{u}_i,M\bar{v}_j\rangle^2\)、正对的吸引项 \(-\frac{2}{m}\sum_i\langle\bar{u}_i,M\bar{v}_i\rangle\)，以及携带 \(w\) 残差化的耦合项 \(\frac{2}{m(m-1)}\sum_{i\neq j}\langle\bar{u}_i,M\bar{v}_j\rangle\langle\bar{w}_i,\bar{w}_j\rangle\)；内层损失 \(\widehat{\mathcal{L}}_{\mathrm{in}}\) 则围绕 \(w\) 的二次项与耦合项最小化（\(\bar{\cdot}\) 表示中心化，\(M=M_\theta\)、\(N=(N_\theta+N_\theta^\top)/2\)）。激活函数取有界的（如 Tanh）以满足理论里的 sub-Gaussian 假设；超参（含 \(d\)）按附录 C 选取。

实验关键数据¶

主实验（合成数据：post-nonlinear 模型 + 高维核对比）¶

在固定样本量、变化条件维度 \(d_Z\) 的多组合成设定下，对比 KCIT/RCIT/GCIT/DGCIT/NNLSCIT 及核方法 LPCIT/GCM 的第一类错误与功效（\(\alpha=0.05\)，每设定重复 100 次）。

设定 / 方法	第一类错误控制	功效	说明
post-nonlinear · KCIT/RCIT/GCIT	失控	高	功效高但 type I error 控不住
post-nonlinear · DGCIT	严重失控	—	完全失去 type I error 控制
post-nonlinear · NNLSCIT	稳健	高	与 Li et al. 2023 一致
post-nonlinear · SpectralCIT	稳健	高	各维度都同时控错且高功效
非平滑高维（\(h_k\) 振荡）· NNLSCIT	崩溃	—	振荡破坏平滑性假设，type I error 完全失控
非平滑高维 · SpectralCIT	稳健	—	算子框架不靠平滑性，仍稳
高维核对比（\(d_Z\) 50→300）· KCIT	失控	高	\(d_Z\in\{250,300\}\) 功效更高但 type I error 失控
高维核对比 · GCM	有效	极低	控错但几乎没功效
高维核对比 · SpectralCIT	稳健	高	同时兼顾有效性与功效

关键对照：在 \(X=f(Z/2+\varepsilon_X),Y=g(Z/2+\varepsilon_Y)\) 且 \(f,g\) 在原点附近高度振荡（\(\cos(2\pi/w)\)）的非平滑设定下，NNLSCIT 的核心平滑假设被违反、第一类错误彻底崩溃，而 SpectralCIT 的算子框架不依赖这类平滑性，仍保持稳健——这正体现了「偏协方差算子隐式涵盖更广结构」的优势。

真实数据（乳腺癌：分子谱 vs 组织学影像）¶

在 TCGA-BRCA 上构造 \(N=1341\) 个三元组：\(X\in\mathbb{R}^3\) 是 Her2/Luminal/Basal 三个 metagene 分数，\(Y\in\{0,1\}\) 是生存结局，\(Z\in\mathbb{R}^{384}\) 是 Path Foundation 模型提取的组织学影像特征。问的是「在影像特征已知的前提下，分子谱还能否提供增量预测信息」。

检验	P 值	结论
SpectralCIT	\(<10^{-3}\)	强烈拒绝条件独立
KCIT	\(6.8\times10^{-2}\)	未能在 \(\alpha=0.05\) 拒绝
NNLSCIT	\(3.8\times10^{-1}\)	未能拒绝

线性偏相关几乎为零（\(-0.006,-0.088,0.07\)），逻辑回归加 \(X\) 反而略降准确率（0.86 vs 0.87），但 XGBoost 把 \(X\) 加进去后准确率从 0.91 升到 0.95——证实存在非线性的残余预测信息。只有 SpectralCIT 检出了这种被影像特征漏掉的复杂依赖，凸显其在高维生物数据上捕获非线性条件依赖的能力。

关键发现¶

几乎所有核方法（KCIT、RCIT、GCIT）在高维下要么失控第一类错误、要么掉功效；DGCIT 直接崩；GCM 控错但几乎无功效——SpectralCIT 是少数能同时兼顾两者的。
非平滑设定是 NNLSCIT 的死穴而非 SpectralCIT 的：算子框架不显式假定条件分布平滑，更稳。
真实乳腺癌数据上，线性方法和两个强基线都判「条件独立」，唯独 SpectralCIT 检出非线性残余信号，并被 XGBoost 的预测增益佐证，体现可落地价值。

亮点与洞察¶

把核方法的偏协方差算子换成可学习谱特征是核心洞察：保留了算子框架「不靠单一结构假设」的普适性，同时借对比学习拿到可扩展性，治好了核方法高维掉功效、计算贵的老毛病。
双层变分把不可估的残差化项绕过去很巧：用低秩辅助 SVD（\(\mathsf{W}\mathsf{N}\mathsf{W}^*\)）把 \(\Sigma_{XZ}\Sigma_{Z\ddot{Y}}\) 这个复合算子替换成一个内层优化，是「学偏协方差 vs 学无条件协方差」差别的关键，可迁移到其他需要残差化的算子学习任务。
把检验有效性/功效直接挂到表示误差 \(\mathcal{E}_m^{\mathrm{val}},\mathcal{E}_m^{\mathrm{pow}}\) 上，给「表示学习质量 → 统计检验性能」建了一座桥，比「以指定速率估回归」的要求更弱、更贴近实践。
白化后处理这个工程细节对「零分布精确收敛到 \(\chi^2(d^2)\)」至关重要——它把 batch 级软正交补成全集级硬正交，是理论能落地的隐形功臣。

局限与展望¶

检验依赖表示学得足够好（\(\mathcal{E}_m^{\mathrm{val}}\to0\) 才有效），若网络欠训练或容量不足，零分布近似卡方会偏、校准会坏；理论是渐近的，有限样本行为仍受表示质量牵制。
需要选维度 \(d\) 等超参，作者也承认 CI 检验文献「缺标准化基准与成熟调参协议」，\(d\) 的选取在实践中可能敏感。
训练/检验 split 牺牲了一部分样本效率；双层 + 内外层交替优化相比核方法实现更复杂、训练成本更高。
真实数据实验规模有限（135 张 WSI 扩成 1341 个 patch 级三元组），单一癌种、单一结局划分，结论的临床普适性仍需更多验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把谱表示学习引入偏协方差算子的 CI 检验，双层公式绕开残差化项，思路新且接上了两条本不相通的线。
实验充分度: ⭐⭐⭐⭐ 三组合成设定（含针对性的非平滑反例）+ 真实乳腺癌数据，对照面广；但真实实验规模偏小。
写作质量: ⭐⭐⭐⭐ 算子/变分推导严谨、定理陈述清楚，但理论密度高、对读者数学背景要求不低。
价值: ⭐⭐⭐⭐ 给高维非参 CI 检验提供了可扩展又有理论保证的新工具，对因果发现、特征选择有实际意义。