跳转至

Causal Score Conditioning for Multi-Resolution Latent Systems

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=M4Z2A1jYpU
代码: https://github.com/PaperSubmissionFinal/ICLR2026
领域: 因果推断 / 概率方法(基于分数的扩散 + 概率图模型)
关键词: causal graphical model, score-based diffusion, multi-resolution inference, variational inference, Markov blanket, disaster modeling

一句话总结

本文提出 SVGDM,把基于分数的扩散嵌进因果有向图,用「因果分数分解」让信息沿因果边在不同分辨率、不同噪声水平的观测之间传播,从而在异质、不完整观测下联合反演多个相互依赖的隐变量(如地震→滑坡→建筑损毁)。

研究背景与动机

领域现状:地球系统、流行病、气候等复杂系统里,多个隐变量通过已知的物理因果机制互相影响,观测数据来自遥感/InSAR/雷达/光学影像,天然带有不同的空间分辨率(30 m 到 5 km)、时间频率和噪声特性。机器学习被广泛用来反演这些隐变量的时空状态。

现有痛点:主流多模态/多源融合方法依赖三类常被现实违反的假设——(1) 变量间有显式闭式依赖;(2) 观测质量均匀(同分辨率、同模态、同噪声);(3) 所有变量都可观测。具体到方法层面有三处硬伤:把因果相关的变量当成独立处理、丢掉了因果信息;无法有效整合多分辨率观测,往往要把高分辨率数据降采样到统一尺度而损失细节;缺乏对级联近似误差的理论刻画。少数用扩散同化多分辨率数据的工作也只针对单变量系统。

核心矛盾:要联合反演多个隐变量,既得让高质量观测的变量去"补"低质量观测的变量(信息要跨变量、跨尺度流动),又得保留每个观测的原始分辨率不被抹平——但因果路径和扩散过程耦合在一起,直接对大量隐变量做后验推断在计算上不可行。

本文目标:在已知(哪怕只是部分已知)因果 DAG 的前提下,从多分辨率、质量不均、不完整的观测中估计多个因果相关的物理过程的后验 \(p(Z|Y)\),同时保留原始分辨率、利用因果依赖传播信息、并给出推断质量的理论保证。

核心 idea因果分数分解 + 观测约束扩散):选扩散是因为它的前向 SDE 天然编码"分辨率越粗噪声越大"这种尺度相关噪声,是归一化流和标准变分推断刻画不了的;再把全局分数沿因果图的「因果毯」(causal blanket,即因果父节点)局部分解,使每个变量的反向 SDE 只依赖自己和父节点的局部分数。

方法详解

整体框架

SVGDM 给每个隐变量 \(z_i\) 配一条受观测约束的前向 SDE,让 \(z(1)\) 锚定在观测上(而非像经典 DDPM 那样塌缩到 \(\mathcal{N}(0,I)\));推断时走反向 SDE,其漂移项的核心是"因果分数" \(\nabla_{z_i}\log p_t(z_i|z_{P(i)})\)。整篇方法围绕"如何把这个因果分数算出来":先用马尔可夫毯把它局部化(Thm 2),再分解成边际项 + 因果一致项(Prop 1),边际项用去噪分数匹配(DSM)学一个网络、因果一致项用局部高斯近似 + Tweedie 公式算(Thm 3),最后套进随机变分推断目标统一训练。

graph LR
    A["多分辨率观测 Y<br/>(不同尺度/噪声/缺失)"] --> B["观测约束前向 SDE<br/>z(1) 锚定观测"]
    G["已知因果 DAG G<br/>地震→滑坡→损毁"] --> C
    B --> C["反向 SDE 推断<br/>需因果分数 ∇log p(zi|z_P(i))"]
    C --> D["因果分数分解"]
    D --> E["边际项 ∇log p(zi)<br/>→ DSM 学神经网络 s_ψ"]
    D --> F["因果一致项 ∇log p(z_P(i)|zi)<br/>→ 局部高斯 + Tweedie"]
    E --> H["随机变分推断<br/>L = λ1 L_DSM + λ2 L_causal + λ3 L_VI"]
    F --> H
    H --> I["后验 p(Z|Y)<br/>保留原始分辨率"]

关键设计

1. 观测约束的节点级因果 SDE:让信息既跨变量又跨分辨率流动。 系统给每个节点 \(i\) 写一条带因果父依赖的 SDE \(dz_i(t)=f_i(z_i,z_{P(i)},t)dt+g_i(t)dW_i(t)\),各节点的布朗运动相互独立。Thm 1 证明这套系统有唯一强解,且联合过程的无穷小生成元可分解为 \(L_t=\sum_i L_{i,t}\),每个局部算子只依赖 \(z_i\) 和它的父节点——注意这是"生成元的局部性"而非 \(p_t\) 的条件独立性,因为扩散动力学会在 \(t>0\) 引入额外依赖,作者明确把这个分解当作架构先验而非精确的马尔可夫性质。为了把异质观测灌进来,再给漂移加一项 \(\sum_k \lambda_{i,k}(t)[\phi_i^k(y_i^k,z_{P(i)})-z_i(t)]\)\(\phi_i^k\) 把分辨率 \(k\) 的观测映射回隐空间,\(\lambda_{i,k}(t)\) 控制该分辨率观测的影响力。这一项正是"保留原始分辨率"的关键——不同尺度的观测各自通过自己的 \(\phi_i^k\) 进入同一条 SDE,无需先降采样对齐。

2. 经马尔可夫毯的因果分数分解:把全局分数局部化为可算的两项。 反向 SDE(Lemma 1)需要因果分数 \(\nabla_{z_i}\log p_t(z_i|z_{P(i)})\),但全局分数直接算不动。作者借鉴序列扩散里"全局分数可用马尔可夫毯局部化"的思路,把因果父节点 \(P(i)\) 当作 \(z_i\) 的"因果毯",由因果马尔可夫性 \(z_i \perp \text{NonDescendants}(z_i)\mid P(i)\) 得到 Thm 2:扩散扰动后因果毯关系近似保持,\(\nabla_{z_i}\log p_t(z_{1:N})\approx \nabla_{z_i}\log p_t(z_i,z_{P(i)})\),且 \(t\to 0\) 时近似变精确、\(t>0\) 时误差随噪声 \(\sigma(t)\) 和因果依赖强度变化。进一步 Prop 1 把它拆成两项:\(\nabla_{z_i}\log p_t(z_i|z_{P(i)})=\nabla_{z_i}\log p_t(z_i)+\nabla_{z_i}\log p_t(z_{P(i)}|z_i)\)。前者是边际分数(吸收来自所有分辨率的直接观测证据),后者是"因果一致项"——它不是反向因果,而是约束 \(z_i\) 的更新必须与父节点的联合分布保持兼容,从而让父变量的观测沿因果路径反哺子变量。

3. 边际项用 DSM、因果一致项用局部高斯 + Tweedie:两条不同路子估两项分数。 边际项 \(\nabla_{z_i}\log p_t(z_i)\) 用连续时间去噪分数匹配训练神经网络 \(s_{\psi_i}\),目标为 \(L_{\text{DSM},i}=\mathbb{E}[\lambda(t)\|s_{\psi_i}(z_i(t),t)-\nabla_{z_i}\log p_t(z_i(t)|z_i(0))\|^2]\),Prop 2 保证其总体极小点恰为真分数。因果一致项则用局部高斯近似 \(z_{P(i)}(t)|z_i(t)\sim\mathcal{N}(\mu_c(\hat z_i(t)),\Sigma_c)\),其中后验均值 \(\hat z_i(t)\) 由 Tweedie 公式 \(\hat z_i(t)=z_i(t)+\sigma_i(t)^2 s_{\psi_i}(z_i(t),t)/\mu_i(t)\) 给出,再用链式法则求导得到因果分数。Thm 3 给出该近似的有效条件(条件分布局部对数凹、扩散噪声压过高阶非线性 \(\sigma(t)^2\gg\|\nabla^3\log p_t\|_\infty\)、Tweedie 重建误差有界)和误差界 \(O(\delta^2+\sigma(t)^{-2})\)——早期低噪声阶段最准、\(t\to 1\) 时优雅退化;当条件被违反时加自适应正则 \(\lambda_{\text{reg}}\|\nabla\mu_c\|_F^2\)。值得注意的是理论用高斯/对数凹假设只为可分析,实现上不依赖它,作者在重尾、偏态噪声下实测仍稳定。

4. 随机变分推断统一训练 + 级联误差分析给稳定性保证。 给定学好的反向 SDE,变分后验 \(q_\psi(Z|Y)\) 由带后验分数 \(\nabla_{z_i}\log q_{\psi,t}=s_{\psi_i}+\nabla_{z_i}\log p(Y|Z)\) 的反向 SDE 隐式定义,用 Jensen 不等式得 ELBO,熵项借反向 SDE 的归一化流雅可比 + Hutchinson 迹估计稳定计算。总目标 \(L_{\text{total}}=\lambda_1\sum_i L_{\text{DSM},i}+\lambda_2\sum_i L_{\text{causal}}+\lambda_3\hat L_{VI}\)。论文还专门做了级联误差分析(§4):把误差归为五类(Euler-Maruyama 离散 \(\varepsilon_1=O(\Delta t^{1/2})\)、神经分数 \(\varepsilon_2=O(1/\sqrt N+\lambda_{\text{reg}})\)、局部高斯 \(\varepsilon_3\)、Tweedie \(\varepsilon_4=O(\sigma(t)^2\varepsilon_2)\)、KDE 熵 \(\varepsilon_5\)),Thm 4 给出总误差界含交叉项 \(O(\varepsilon_2\varepsilon_3)\),并指出最危险的是分数估计与高斯建模的交互——其迭代训练策略(先把分数练好、再 refine 因果参数)正是为了避免误差灾难性叠加,Thm 5 进一步保证各 \(\varepsilon_i\to 0\)\(q_\psi\to p(z|y)\)

实验关键数据

主实验(合成数据,3 节点因果系统)

三种观测场景下的隐变量重建误差(mean ± std,越低越好);VFO 最优,并从 VFO→LFO→LPO 系统性退化,验证因果结构确实在跨质量变量间传播信息。

场景 变量 MAPE NRMSE CRPS
VFO(变分辨率全观测) z1 0.0526 0.0683 0.0396
z2 0.0991 0.1239 0.0756
z3 0.0763 0.1031 0.0567
LFO(低分辨率全观测) z1 0.0756 0.0922 0.0572
z3 0.1451 0.1814 0.1088
LPO(低分辨率部分观测) z1 0.1067 0.1227 0.0810
z3 0.1961 0.2228 0.1515

与基线对比:SVGDM 比领域专用方法(VBCI、DisasterNet)好 2−3×,比通用变分推断方法好 10−20×;VI 基线 MAPE > 60%,凸显引入因果结构的必要性。

真实灾害系统

  • 多灾种地震评估(联合估计滑坡 zLS、液化 zLF、建筑损毁 zBD):2020 波多黎各地震三类灾害 AUROC 达 0.9331 / 0.9317 / 0.9512,比变分推断基线(BBVI、ADVI、NUTS)提升 14–21%;2021 海地地震 AUROC 0.9550(滑坡)/ 0.9587(损毁);2023 土耳其-叙利亚 0.9488(损毁)。
  • 野火蔓延预测(时空二分类):F1 = 0.5913、AP = 0.4430,优于逻辑回归及 U-Net、ConvLSTM、UTAE 等深度基线。

消融与扩展

  • 损失组件消融(合成 3 节点):去掉局部 DSM 分数、因果毯分数、观测一致项中任一个都会一致退化。
  • 可扩展性:10–15 个隐变量、稀疏/稠密因果图下精度稳定,运行时随因果边数 \(|E|\) 近似线性增长。
  • 多视图 VAE 对比(JMVAE / MMVAE / MoPoE-VAE,把所有观测当单一共享隐表示的不同视图):SVGDM 在所有隐变量上 NRMSE、MAPE 都显著更低,量化了"把因果相连的多分辨率物理过程塌缩成单一共享隐变量"会损失多少精度。
  • 关键发现:因果结构是性能主导因素(去掉因果信息的 VI 直接崩到 MAPE>60%);局部高斯近似在重尾/偏态噪声下仅轻微退化,理论假设充分但非必需。

亮点与洞察

  • 把"因果毯"概念从序列扩散迁移到一般因果 DAG:用因果父节点作 Markov blanket 做分数的局部分解,是连接概率图模型与基于分数扩散的一个干净接口,计算复杂度随因果边而非变量数爆炸地增长。
  • 诚实地区分"生成元局部性"与"分布条件独立性":作者明确指出 \(t>0\)\(p_t\) 不再严格因子化,把生成元分解当架构先验而非精确性质,理论表述比很多"扩散保持条件独立"的工作更克制可信。
  • 扩散用对了地方:前向 SDE 编码尺度相关噪声,正好对上遥感里"分辨率越粗、speckle/大气延迟/重采样伪影越强"的物理事实,这是相比归一化流的实质优势而非套壳。
  • 完整的级联误差分析:把五类近似误差逐一定界、找出最危险的交叉项,并用"先练分数再 refine 因果参数"的训练顺序去抑制它,理论与工程闭环。

局限与展望

  • 依赖已知因果结构:方法假设 DAG 已知(虽然部分已知也能用),当拓扑需要从数据推断时不适用;未来可联合做结构发现。
  • 局部高斯近似的脆弱点:强非线性违反对数凹条件时近似会退化,需更灵活的近似族。
  • 可扩展性天花板:复杂度随因果依赖数增长,对超大系统仍有压力。
  • 时变因果未覆盖:当前因果关系是静态的,扩展到 time-varying causal relationships 是开放方向。
  • 评测虽然真实(地震、野火),但因果图均来自成熟领域知识,迁移到因果机制不清晰的领域(如金融、流行病早期)效果未知。

相关工作与启发

  • 基于分数的扩散 / 逆问题求解:Song & Ermon (2019)、Song et al. (2020b) 的 score SDE,Chung et al. (2022) 的 diffusion posterior sampling,Tweedie 公式(Efron 2011; Kim & Ye 2021)——本文把这些后验采样工具搬到"多变量 + 因果约束"的设定。
  • 序列扩散的局部分数分解:Rozet & Louppe (2023) 在马尔可夫链上用伪毯做分数分解,本文是其在因果图设定下的推广,是最直接的方法论源头。
  • 概率图模型 / 变分推断:Koller & Friedman (2009)、Blei et al. (2017),本文指出标准消息传递/变分推断在节点观测分辨率/噪声差异巨大时会失效,正是要解决的缺口。
  • 时空数据同化与灾害建模:DisasterNet、VBCI 等领域专用方法是主要对手,本文证明用通用因果分数框架能稳定超过它们。
  • 启发:对任何"已知机理依赖 + 异质多源观测"的科学 ML 问题(气候遥感、流行病、电网/基础设施),"因果毯局部化 + 观测约束扩散"提供了一个可复用的反演范式,关键是把领域因果知识写成 DAG 注入分数函数,而不是把异质观测硬塞进单一隐空间。

评分

  • 新颖性: ⭐⭐⭐⭐ —— 把因果毯式分数分解从序列推广到一般因果 DAG,并用观测约束 SDE 优雅处理多分辨率,组合新颖且接口干净;扣分在于核心思路(Markov blanket 局部分数)是已有思想的迁移。
  • 实验充分度: ⭐⭐⭐⭐ —— 合成(含可扩展性、损失消融、多视图 VAE 对比)+ 三场真实地震 + 野火,覆盖面广、提升幅度大(14–21%、AUROC>0.93);扣分在于很多关键结果(10–15 变量、消融细表)放在附录,正文表格略单薄。
  • 写作质量: ⭐⭐⭐⭐ —— 理论推导层层递进、对近似有效性和误差级联讲得很诚实(明确区分生成元局部性与条件独立);扣分在于原文有多处拼写错误(orginal、obsevation、discrimiorginal)且符号密度高,可读性受影响。
  • 价值: ⭐⭐⭐⭐ —— 直击地球系统/灾害评估等高影响场景的真实痛点(异质、不完整、多分辨率观测),有开源代码和可复现实验,方法范式对科学 ML 社区有迁移价值。