Causal Discovery via Quantile Partial Effect¶
会议: ICLR2026
OpenReview: https://openreview.net/forum?id=80vdaC5DsD
代码: 无
领域: 因果发现 / 因果推断
关键词: 分位数偏效应, 双变量因果发现, Fisher 信息, 因果排序, 观测分布
一句话总结¶
这篇论文把条件分位数回归里的 Quantile Partial Effect(QPE)作为观测分布的形状统计量,用有限基函数张成假设给出双变量因果方向可识别性,并进一步把 QPE 与 score function / Fisher 信息联系起来,得到一个用于多变量因果排序的高效非参数算法 FICO。
研究背景与动机¶
领域现状:连续变量因果发现里,经典约束法和打分法往往只能恢复 Markov 等价类,很多边的方向需要额外假设才能确定。为了区分原因和结果,后续工作通常引入 Functional Causal Model(FCM),例如 LiNGAM、Additive Noise Model(ANM)、Heteroscedastic Noise Model(HNM)和 Post-Nonlinear(PNL)模型,通过限制机制函数或噪声结构来制造方向不对称性。
现有痛点:这些 FCM 假设在理论上很干净,但使用时要相信一整套潜在生成过程:变量之间满足某种结构方程、噪声与父节点独立、机制对噪声单调,甚至还要满足 Markov 性。现实数据里,这些机制层面的假设经常既难验证又容易被潜在混杂、非单调机制或复杂异方差破坏。更微妙的是,许多方法虽然最终只拿观测样本做检验,却把识别性建在不可直接观测的 counterfactual / noise mechanism 上。
核心矛盾:因果方向的可识别性需要某种不对称性,但这个不对称性未必一定要写成“真实机制长什么样”。如果观测联合分布本身的形状已经在 \(X \to Y\) 与 \(Y \to X\) 两个方向上不对称,那么更自然的问题是:能不能直接在观测层定义一个统计对象,让它既包含 ANM/HNM 等旧模型的可识别结构,又不必先假设具体噪声机制?
本文目标:论文分成两个目标。第一,在双变量或低维设定中,定义 QPE 并证明当真实方向上的 QPE 落在给定有限基函数张成空间时,因果方向通常可以只由观测分布识别。第二,在多变量设定中,直接估计高维 QPE 很困难,因此作者希望借助 QPE 与 score function 的关系,构造一个更容易计算的因果排序准则。
切入角度:作者从条件分位数函数出发。给定 \(Y|X=x\),不同分位点随 \(x\) 变化的速度会描述条件分布形状如何被协变量推动:位置整体平移、尺度拉伸、尾部弯曲都会反映在这个速度上。这种“分位数曲线对协变量的偏导”就是 QPE。它只依赖 \(p_{X,Y}\) 或 \(p_{Y|X}\),但又能复现 causal velocity 和很多 FCM 的结构。
核心 idea:用观测分布层面的 QPE 取代机制层面的函数/噪声假设,把“真实方向上的条件分布形状变化足够简单”形式化为有限基函数张成假设,再用基函数检验或 Fisher 信息来推断因果方向与因果顺序。
方法详解¶
整体框架¶
这篇论文的整体框架可以理解为两条互相连接的路线:先在双变量场景中把 QPE 定义清楚、证明有限基函数张成假设带来方向可识别性,然后把这个理论落成两个双变量算法 QPE-k 和 QPE-f;再在多变量场景中利用 QPE 与 score function 的偏微分关系,绕开高维 QPE 估计,转而用 Fisher 信息递归找叶节点,得到 FICO 因果排序算法。
双变量部分的输入是成对观测样本 \((x_i,y_i)\),输出是 \(X \to Y\) 或 \(Y \to X\) 的方向判断。多变量部分的输入是 \(d\) 个变量的联合样本,输出是一个 causal order,后续可以再配合条件独立检验剪枝成 DAG。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["观测样本<br/>联合分布"] --> B["QPE 观测统计量<br/>条件分位数偏导"]
B --> C["有限基函数张成假设<br/>方向不对称性"]
C --> D["双变量检验<br/>QPE-k / QPE-f"]
B --> E["QPE-score 关系<br/>连接 Fisher 信息"]
E --> F["FICO 因果排序<br/>递归选择叶节点"]
D --> G["双变量因果方向"]
F --> H["多变量因果顺序"]
关键设计¶
1. QPE 观测统计量:把机制不对称改写成条件分布形状不对称
QPE 的定义来自条件分位数函数。设 \(Q_{Y|X}(\tau|x)\) 是 \(Y|X=x\) 的条件分位数函数,且 \(\tau=F_{Y|X}(y|x)\),则论文定义
直观上,它问的是:当协变量 \(x\) 发生微小变化时,同一个条件分位点上的 \(Y\) 会往哪里移动。ANM 中所有分位曲线基本一起平移,QPE 对 \(y\) 是常数;HNM 中尺度也随 \(x\) 改变,QPE 往往是 \(y\) 的仿射函数。这样一来,许多 FCM 施加在机制和噪声上的约束,可以被转写成 QPE 关于结果变量 \(y\) 的简单函数形式。
关键好处是 QPE 不需要先知道真实结构方程。由条件 CDF 与条件分位数的反函数关系,论文给出等价表达
这说明 QPE 完全是观测层对象。即使作者也证明它在单调 Markovian SCM 下等价于 causal velocity,QPE 本身并不要求读者承诺某个 latent noise 或 counterfactual mechanism 存在。这一步是全文的核心重定位:不是从机制出发解释观测分布,而是从观测分布的形状变化中抽取可检验的不对称性。
2. 有限基函数张成假设:用 Wronskian 条件检验真实方向是否“形状简单”
论文的主要识别假设是:在真实方向上,每个 QPE 分量作为结果变量的函数,都落在一组已知基函数 \(\phi=(\phi_1,\ldots,\phi_k)\) 的有限线性张成空间里,即
这个假设看似抽象,但它正好覆盖了很多熟悉模型:LiNGAM 和 ANM 对应常数基,HNM 对应 \(1,y\) 这样的仿射基,PNL 类模型在给定变换时也能写成有限基形式。也就是说,作者不是丢掉 FCM,而是把一批 FCM 的共同结构抽成“QPE 关于 effect variable 的秩很低”。
为了把这个假设变成只依赖观测分布的判据,论文利用 QPE 与 score function 的 PDE 关系。若 \(\xi=\psi_{Y|X}\),则有
进一步代入有限基函数形式后,可以得到由 joint density 的混合二阶导数和基函数 Stein operator 组成的 Wronskian determinant 条件。Theorem 3.6 说明,真实方向满足有限 span 假设时,这个 Wronskian 必须为零;在若干线性独立和边界条件下,反过来也成立。于是,识别性不再依赖“真实噪声是不是独立”“机制是不是单调”,而变成观测联合分布上的一个形状方程。
3. 双变量 QPE 检验:QPE-k 快速非参数估计,QPE-f 用 flow 提高精度
理论上知道真实方向的 QPE 更容易被给定基函数解释后,算法就变成比较两个方向的残差:如果 \(X\to Y\) 方向的 \(\psi_{Y|X}\) 更接近 \(\mathrm{span}(\phi)\),就判定 \(Y\) 是 effect;反向同理。论文给出两种实现,分别服务于速度和精度。
QPE-k 直接用核方法估计条件 CDF。作者用 Gaussian kernel 近似 \(x\) 附近的样本权重,用 sigmoid 近似指示函数 \(1(y_i\le y)\),得到平滑的 \(\hat F_{Y|X}(y|x)\),再由闭式导数计算 \(\nabla_x\hat F_{Y|X}\) 和 \(\partial_y\hat F_{Y|X}\),从而得到 \(\hat\psi_{Y|X}\)。之后在一组固定 \(x_t,y_m\) 测试点上构造响应矩阵 \(\hat\Psi\),用基函数矩阵 \(B\) 做最小二乘投影,残差近似为
QPE-f 则先训练 causal flow \(u_\theta(x,y)\),把观测变量映到标准正态 latent。借助 causal velocity 与 QPE 的等价性,它用自动微分计算 \(\hat\psi_{Y|X}=\nabla_xu_\theta/\partial_yu_\theta\),再用一个神经网络建模系数函数 \(c_{i,j,\theta}(x)\),直接最小化 QPE 与 \(C_\theta\phi^\top\) 的差距。相比 QPE-k,QPE-f 需要训练神经网络,速度慢一些,但在高密度区域的 QPE 形状拟合更准,实验里也通常更强。
4. Fisher 信息因果排序:高维时不估 QPE,递归找最小 Fisher 信息叶节点
高维多变量里直接估计 \(\psi_{Y|X}\) 会遇到维度灾难,所以论文换了一条路:利用 QPE 和 score function 的关系,把关于 QPE 二阶矩的假设转化为 Fisher 信息大小关系。对变量 \(X_i\) 的 partial score \(s_{X_i}=\partial_{x_i}\log p_X\),其 Fisher 信息是 \(E[(s_{X_i})^2]\)。论文证明在一定边界条件下,QPE 的二阶矩、高阶导数项和 Fisher 信息之间满足精确等式;进一步在 Assumption 5.4 下,一个变量的父节点会拥有更大的 Fisher 信息,因此 Fisher 信息最小的变量可以视为 leaf variable。
FICO 的算法因此非常简单:在当前变量集合 \(X^{(j)}\) 中估计每个变量的 partial score,选择 \(E[(\partial_{x_i}\log p_{X^{(j)}})^2]\) 最小的变量作为叶节点,把它放到 causal order 的前端或反向序列中,然后移除它并递归。完整移除 \(d\) 次后得到因果顺序。这个设计和 CaPS 在算法形式上等价,但 FICO 使用 \(E[(\partial_{x_i}\log p_X)^2]\) 而不是 \(-E[\partial^2_{x_i}\log p_X]\),导数阶数更低,因此计算更快;理论解释也从 ANM 扩展到了 QPE 视角。
一个完整示例¶
可以用一个二变量异方差例子理解 QPE 为什么能区分方向。假设真实机制大致是 \(Y=a(X)+b(X)U\),其中 \(b(X)\) 会随 \(X\) 改变。此时条件分布 \(Y|X=x\) 不只是整体平移,还会随 \(x\) 拉宽或压窄。对应的 QPE 通常可以写成 \(c_0(x)+c_1(x)y\),也就是落在 \(\mathrm{span}(1,y)\) 里。
如果用 QPE-k 处理一组成对样本,算法先在若干 \(x_t\) 和 \(y_m\) 位置估计 \(\hat\psi_{Y|X}(y_m|x_t)\),得到一张“每个 \(x_t\) 上 QPE 如何随 \(y\) 变化”的矩阵。若真实方向是 \(X\to Y\),这张矩阵的每一行大多能被 \(1,y\) 的线性组合解释,最小二乘投影残差较小。反过来估计 \(\hat\psi_{X|Y}\) 时,\(X|Y\) 的分布形状往往需要更复杂的非线性函数才能描述,投影到同一组基函数后的残差更大。于是算法比较两个残差,选择更“低秩、更简单”的方向作为因果方向。
在多变量 FICO 中,例子变成递归排序。假设当前有 \(X_1,X_2,X_3\),真实结构是 \(X_1\to X_2\to X_3\)。在满足论文假设时,叶节点 \(X_3\) 的 Fisher 信息最小,算法先移除 \(X_3\);剩下 \(X_1,X_2\) 后,新的叶节点是 \(X_2\);最后剩下 \(X_1\)。把移除顺序反过来,就得到 \(X_1,X_2,X_3\) 的因果顺序。
损失函数 / 训练策略¶
QPE-k 没有神经训练,主要超参数是核带宽、测试位置数量以及基函数集合。论文实验中把数据标准化,使用 \(M=T=20\) 个测试位置和测试样本,复杂度主要来自构造 OLS 响应矩阵,约为 \(O(NMT)\),因此很快。
QPE-f 需要两阶段优化。第一阶段训练 causal flow,目标来自 change-of-variable 下的最大似然:
论文候选的 flow transformation 包括 RQS、MNN 和 UMNN,并调节复合层数 \(t\in\{1,2,5\}\)。第二阶段训练神经基函数检验,用参数网络拟合系数函数,优化
其中 \(\varepsilon\) 衡量估计 QPE 与有限基函数展开之间的差距。实验中 Adam 学习率为 \(0.01\),weight decay 为 \(0.001\),网络使用两层宽度 100 的 SiLU MLP,训练 1000 epochs,并根据最小 loss 选择模型。
FICO 的训练负担集中在每一轮 score function 估计。论文使用 kernel-based score matching,每次估计复杂度约为 \(O(N^3+N^2d)\),递归 \(d-1\) 次后总体约为 \(O(N^3d+N^2d^2)\)。因此当样本量远大于维度时,score 估计会成为主要瓶颈。
实验关键数据¶
主实验¶
双变量实验覆盖 24 个合成与真实 benchmark,主文表 2 展示其中 12 个数据集。QPE-f 通常取得最好或并列最好的准确率,QPE-k 速度极快但精度受核估计限制。下面摘出主文最能说明趋势的一部分结果。
| 方法 | AN | LS | SIM | SIM-c | Cha | Net | Per | Sig | Qd-V | NN-V | Tue | D4-s1 | 平均时间(s) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ANM | 0.43 | 0.46 | 0.45 | 0.49 | 0.41 | 0.47 | 0.49 | 0.44 | 0.49 | 0.48 | 0.65 | 0.50 | 0.250 |
| LOCI | 1.00 | 1.00 | 0.78 | 0.81 | 0.73 | 0.87 | 0.96 | 0.70 | 0.71 | 0.78 | 0.61 | 0.58 | 14.981 |
| CVEL | 1.00 | 0.98 | 0.63 | 0.72 | 0.68 | 0.62 | 1.00 | 0.84 | 0.91 | 0.87 | 0.64 | 0.67 | 1.597 |
| QPE-k | 0.99 | 1.00 | 0.83 | 0.79 | 0.60 | 0.89 | 0.77 | 0.89 | 0.42 | 0.53 | 0.54 | 0.58 | 0.009 |
| QPE-f | 1.00 | 1.00 | 0.88 | 0.88 | 0.85 | 0.86 | 1.00 | 0.90 | 0.91 | 0.90 | 0.70 | 0.79 | 7.804 |
多变量部分主文主要报告 FICO 与 CaPS 的运行效率,因为两者算法等价、精度差异主要来自数值实现。FICO 在所有维度都更快,维度越高差距越明显。
| 方法 | \(d=5\) | \(d=10\) | \(d=20\) | \(d=50\) | \(d=100\) |
|---|---|---|---|---|---|
| CaPS | 0.455 ± 0.037 | 1.074 ± 0.056 | 2.761 ± 0.285 | 10.822 ± 1.037 | 33.794 ± 3.501 |
| FICO | 0.425 ± 0.322 | 0.797 ± 0.364 | 1.727 ± 0.523 | 5.550 ± 0.943 | 13.538 ± 1.248 |
消融实验¶
论文没有用传统“去掉模块”的方式做消融,而是通过 QPE-k / QPE-f 对比、QPE-f 超参数调节、FICO 与 CaPS/score-based 方法对比来分析关键设计的影响。下面整理成方法分析表。
| 配置 | 关键指标 | 说明 |
|---|---|---|
| QPE-k | 表 2 平均时间 0.009s;AN/LS/SIM 上为 0.99/1.00/0.83 | 核估计 + OLS 基函数检验很快,适合快速双变量判断,但在 Qd-V、NN-V 这类复杂 QPE 数据上精度受限 |
| QPE-f | 表 2 平均时间 7.804s;多数数据集最佳 | flow 估计 QPE 更准,尤其在非 ANM/HNM 的 causal flow 和 constrained QPE 数据上优势明显 |
| CVEL | 表 2 平均时间 1.597s;Per/Qd-V/Rbf-V 等强 | 与 QPE-f 同样受益于更一般的 causal velocity/QPE 视角,但 QPE-f 的基函数检验在多数组合上更稳 |
| FICO vs CaPS | \(d=100\) 时 13.538s vs 33.794s | 二者排序逻辑等价,但 FICO 用一阶 score 平方的 Fisher 信息,避免二阶导,计算更省 |
| FICO 假设敏感性 | 异方差高斯实验中 \(\alpha,\beta\) 增大时 ODR 变差 | 当 $ |
关键发现¶
- QPE-f 的优势主要来自更准确的 QPE 估计,而不是简单换一个分类器。附录 24 个双变量数据集结果显示,它在绝大多数数据集上达到 SOTA 或接近 SOTA,尤其在 Per、Sig、Qd-V、Sig-V、Rbf-V、NN-V 这类不必满足 ANM/HNM 的数据上表现强。
- QPE-k 是一个很有价值的速度基线。它在主文表 2 中平均每对样本只需 0.009s,比几乎所有神经方法都快,但当真实 QPE 形状复杂或核带宽难调时,准确率会明显掉下来。
- FICO 的实验信息更偏“理论解释 + 效率改进”。它和 CaPS 在性能上几乎相同,但在 \(d=100\) 时运行时间约为 CaPS 的 40%,说明用 Fisher 信息的一阶表达有实际计算收益。
- 多变量 synthetic 结果里,score function based 方法整体比较稳,ODR 多数低于随机排序的 0.5 隐含基线;但 real-world Sachs 上这类方法表现并不好,说明 QPE/Fisher 信息假设在真实系统中仍可能失效。
亮点与洞察¶
- 把 causal velocity “降维”成 QPE 是这篇论文最漂亮的地方。它说明某些看似 counterfactual 的速度量,其实可以完全由条件分位数和条件 CDF 表达,从而把因果方向识别带回观测分布层。
- 有限基函数张成假设提供了一个统一视角:ANM、HNM、部分 PNL 不是孤立模型,而是 QPE 关于结果变量具有低秩结构的特例。这比逐个发明噪声模型更有抽象力度。
- QPE-k 和 QPE-f 的组合很实用。前者像快速筛查工具,后者像较重但更准的判别器;如果要在大规模 cause-effect pairs 上跑,可以先用 QPE-k 过滤,再对不确定样本用 QPE-f。
- FICO 的价值不只是提出一个新排序算法,而是解释了为什么某些 score-based causal ordering 方法在超出 ANM 的场景里仍然稳。它把这种稳健性从“实验现象”部分转成了 QPE 二阶矩条件。
- 这套思想可迁移到因果表示学习或时序因果发现:只要能定义某种条件分布形状的低维变化模式,就可能用观测层统计量替代部分机制假设。
局限与展望¶
- 双变量 QPE 识别依赖已知基函数集合 \(\phi\)。如果真实方向上的 QPE 不在预设 span 里,或者反方向也恰好能被同一组基解释,算法会失去方向区分力。作者也在结论中指出,未来需要放宽固定基函数假设。
- QPE-f 的性能依赖 flow 训练和超参数选择。附录显示不同 transformation、层数和检验网络在不同数据集上差异明显,这意味着实际使用时仍需要调参,不能把理论识别性直接等同于稳定工程性能。
- FICO 的 Assumption 5.4 目前只在异方差高斯场景下有较直观分析。更一般分布中,这个假设意味着什么、如何验证,论文仍没有给出足够可操作的答案。
- 多变量方法只给 causal order,论文没有把图剪枝作为重点。真实应用里还需要可靠的条件独立检验或边选择策略,否则 order 正确不等于最终 DAG 可靠。
- 实验虽然覆盖面广,但 real-world Sachs 上 score-based 方法表现较弱,提醒读者在真实生物系统、潜在混杂或测量噪声严重的数据上要谨慎使用。
相关工作与启发¶
- vs ANM/HNM/PNL: 这些方法从机制和噪声形式出发建立可识别性,本文从 QPE 的观测分布形状出发统一它们。优势是理论覆盖更宽、假设更贴近可观测统计量;劣势是仍要选择基函数或接受 QPE 相关假设。
- vs Causal Velocity (CVEL): CVEL 用 counterfactual flow 的速度刻画方向不对称,本文证明在单调 Markovian 条件下 causal velocity 等价于 QPE,并进一步强调 QPE 可以不依赖这些机制假设。实验上 QPE-f 往往比 CVEL 更准,但训练成本也不低。
- vs CaPS: CaPS 和 FICO 的排序算法形式等价,但 CaPS 理论主要围绕 ANM,而 FICO 从 QPE 与 Fisher 信息关系推导,理论解释更一般;同时 FICO 使用一阶 score 平方,效率优于 CaPS 的二阶导实现。
- vs SCORE/NoGAM/SKEW: 这些都是 score function based causal ordering 方法,实验中整体稳健。本文的启发是,score-based 方法的成功可能不只是因为某个特定噪声模型成立,而是因为背后存在更宽的 QPE/Fisher 信息结构。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用 QPE 统一 FCM、causal velocity 和 Fisher 信息排序,观测层视角很有新意。
- 实验充分度: ⭐⭐⭐⭐ 双变量和多变量 benchmark 覆盖广,附录结果很完整;但真实数据和假设可检验性仍偏弱。
- 写作质量: ⭐⭐⭐⭐ 理论链条清楚,图表和附录充分;不过 Wronskian/PDE 部分门槛较高,读者需要较强数学背景。
- 价值: ⭐⭐⭐⭐⭐ 对因果发现里的“机制假设能否转成观测形状假设”给出很有启发的答案,也提供了可运行的双变量和多变量算法。