跳转至

Causal Structure Learning in Hawkes Processes with Complex Latent Confounder Networks

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=mA78uXqcnl
代码: 待确认
领域: 因果推断 / 因果发现
关键词: Hawkes 过程, 因果结构学习, 潜在混杂, 秩约束, 可识别性

一句话总结

当多元 Hawkes 过程里存在数量未知、位置未知的潜在子过程(latent subprocess)时,本文先证明:把连续时间事件序列按极小窗口离散化后,Hawkes 过程等价于一个离散时间线性自回归因果模型;再利用观测计数的互协方差矩阵秩约束给出识别潜在混杂子过程与全部因果边的充要条件,并据此设计一个两阶段迭代算法,无需事先知道潜变量是否存在、有几个、连在哪。

研究背景与动机

领域现状:多元 Hawkes 过程(multivariate Hawkes process)是建模"事件触发事件"这类时序依赖的标准工具——社交网络转发、神经元放电、金融成交都能用它刻画。学界学 Hawkes 因果结构的主流做法有两条:一是基于 Granger 因果 + 极大似然,直接在连续时间事件序列上拟合激发核(excitation kernel);二是把事件先分箱(binning)成计数,再在箱计数上做基于似然的估计,减少对高分辨率时间戳的依赖。

现有痛点:几乎所有方法都隐含因果充分性(causal sufficiency)假设——所有任务相关的子过程都被完整观测到,目标只是在这些观测子过程之间找因果边。但现实系统往往只是部分可观测:神经科学里大量神经元因记录手段受限而完全没被测到,却实实在在影响着被记录的神经元。如果这些没观测到的子过程恰好是混杂者(confounder),忽略它们就会在观测子过程之间凭空造出虚假因果边,得出错误结论。已有的 Shelton et al. (2018) 只能在某个观测子过程内部用后验采样补全缺失事件时刻,无法处理"整条子过程都没观测到"的情形——除非你提前指定潜过程的存在与数量,而这恰恰是不现实的要求。

核心矛盾:连续时间的 Hawkes 强度 \(\lambda_i(t)\) 是一个对历史依赖的瞬时速率,直接在它上面做带潜变量的因果发现极难——既没有现成的条件独立性检验,也无法对潜过程做干预。而经典的带潜变量因果发现(如基于秩的线性潜变量方法、时序的 LPCMCI)又都依赖 Hawkes 场景下被违背的假设:要么要求无环、要么要求弱自相关、要么要求潜变量是外生的,而 Hawkes 天然带稠密的跨时滞依赖、内生潜过程,还允许环和自环。

本文目标:在完全的部分可观测设定下,恢复观测与潜在子过程之间的完整因果图(summary causal graph),且不预设潜过程是否存在、有几个、连在哪。

切入角度:作者的关键观察是——把连续时间按窗口宽度 \(\Delta\) 离散化,当 \(\Delta \to 0\) 时,Hawkes 过程会收敛到一个离散时间线性自回归模型。一旦有了线性表示,潜混杂在观测变量的二阶统计量(互协方差)里就会留下特征性的低秩指纹,从而可以只用观测计数、靠秩检验把它揪出来。

核心 idea:用"离散化后的线性因果表示 + 互协方差秩约束"代替"连续时间极大似然拟合",把带未知潜混杂的 Hawkes 因果发现,转化为一组可证可算的秩检验。

方法详解

整体框架

整篇论文的逻辑链是:连续 Hawkes → 离散线性自回归(建立等价表示)→ 秩约束刻画 d-分离(把图结构翻译成可观测统计量)→ 用观测代理替换潜变量(让潜混杂也能被秩检验)→ 两阶段迭代算法(交替识别因果边与发现新潜过程)→ 可识别性定理(给出充要条件)

要分清两张图:summary 因果图是本文真正要恢复的对象,节点是子过程、有向边对应非零激发函数,允许环、自环、潜节点;window 因果图是把每个子过程在每个长度 \(\Delta\) 窗口内的计数当作一个变量,按时滞展开后是个有向无环图(DAG,因为未来不能影响过去)。两图是一一对应的:summary 图里一条边 \(N_2 \to N_1\),等价于 window 图里 \(N_2\) 的所有时滞变量都指向当前变量 \(N_1^{(n)}\)。本文所有的"识别"都先在 window 图上用观测变量做秩检验,再翻译回 summary 图的因果结论。

模型记为 PO-MHP(Partially Observed Multivariate Hawkes Process-based Causal Model):节点集 \(N_G\)\(p\) 个观测节点 \(O_G\)\(q\) 个潜节点 \(L_G\)。核心概念是父因集(parent-cause set) \(P_G\):对子过程 \(N_i\),它是使"给定 \(P_G\)\(N_i\) 局部独立(locally independent)于其余所有子过程"的最小集合(命题 3.4,相当于带环图版本的局部 Markov 性质)。算法要做的就是逐个把每个子过程(含后来发现的潜过程)的父因集找出来。

关键设计

1. Hawkes 离散化为线性自回归模型:把连续时间难题换成可做统计检验的线性表示

直接在连续时间强度 \(\lambda_i(t)=\mu_i+\sum_j\int_0^t \phi_{ij}(t-s)\,dN_j(s)\) 上做因果发现没有抓手。定理 4.1 给出救命的等价表示:把第 \(n\) 个窗口的计数定义为 \(N_i^{(n)}:=N_i(n\Delta)-N_i((n-1)\Delta)\),则当 \(\Delta\to 0\)

\[N_i^{(n)}=\sum_{j=1}^{l}\sum_{k=1}^{n}\theta_{ij}^{(k)}N_j^{(n-k)}+\varepsilon_i^{(n)}+\theta_i^{(0)},\]

其中背景项 \(\theta_i^{(0)}=\Delta\cdot\mu_i\),激发系数 \(\theta_{ij}^{(k)}=\int_{(k-1)\Delta}^{k\Delta}\phi_{ij}(s)\,ds\)\(\varepsilon_i^{(n)}\) 是序列不相关的白噪声。这一步的价值在于:每个当前计数都成了"过去时滞计数的线性组合 + 噪声",离散变量于是编码了连续子过程的因果结构。实际中不必用全部时滞——激发函数作为衰减核通常有有限支撑,远端时滞系数趋零,所以截断到至多 \(m\) 个有效时滞(\(m\ge K\)\(K\) 为有效时滞数)即可;\(\Delta\) 通过网格搜索取"恢复结构对 \(\Delta\) 扰动稳健"的稳定区间。这正是它跟那条分箱似然路线的本质区别:后者只重建箱计数的似然、不建模箱之间的结构关系,而本文建立的是离散化 Hawkes 的线性因果表示

2. 秩约束刻画 d-分离:把"图上的条件独立"翻译成"互协方差矩阵的秩"

有了线性白噪声表示,因果结构就会在观测离散变量的互协方差矩阵里诱导出特征低秩模式。引理 4.2 给出基石等价:对任意不相交变量集 \(A_v,B_v,C_v\),"\(C_v\) d-分离 \(A_v\)\(B_v\)" 当且仅当 \(\mathrm{rank}(\Sigma_{A_v\cup C_v,\,B_v\cup C_v})=|C_v|\)。基于此,命题 4.3 给出"识别观测父因集"的四条等价表述:在 summary 图里 \(P_G\subseteq O_G\)\(O_1\) 的父因集,等价于 window 图里时滞变量集 \(P_v\) 包含 \(O_1^{(n)}\) 的全部父变量、等价于 \(P_v\) d-分离 \(O_1^{(n)}\) 与其余观测变量、等价于 \(\mathrm{rank}(\Sigma_{O_1^{(n)}\cup P_v,\,O_v\setminus O_1^{(n)}})=|P_v|\)。关键是这四条只涉及观测变量——只要某个观测子过程满足这个秩判据,它的父因集就被唯一确定。这一设计把"检验条件独立"换成了"算一个互协方差矩阵的秩",既绕开了 Hawkes 上缺乏现成 CI 检验的困境,又自然容纳了环和自环。

3. 对称路径条件 + 低秩签名:从观测效应反推潜在混杂子过程

观测父因集找完后,剩下的就是潜混杂。直觉是:当同一个潜过程通过激发核同时驱动多个观测子过程时,它对这些观测当前值的贡献在各时滞上是对齐的,于是互协方差矩阵的相应行落在一个低维子空间里——表现为一种"任何纯观测父因集都解释不了的秩亏"。为把这种秩亏精确对应到图结构,论文先约束激发函数形式(假设 1):\(\phi_{ij}(s)=a_{ij}w(s)\),即"节点对强度 \(a_{ij}\)"乘"共享衰减函数 \(w(s)\)",常用的指数衰减 \(\alpha_{ij}e^{-\beta s}\) 就属此类。在两时滞的最简例(图 2a/2b)里,\([O_1^{(n)},O_2^{(n)}]^\top\) 由潜变量时滞 \([L_1^{(n-1)},L_1^{(n-2)}]^\top\) 经一个秩 1 系数矩阵 \(E\) 驱动,于是 \(\mathrm{rank}(\Sigma_{\{O_1^{(n)},O_2^{(n)}\},\{O_i^{(j)}\}_{i\in\{3,4\}}})=1\),这恰好指示存在单个潜混杂 \(L_1\) 同时作 \(O_1,O_2\) 的父因(若 \(O_1,O_2\) 还带自环,秩变为 \(2m+1\),因为要把它们的时滞观测变量也纳进来)。为覆盖潜混杂经多个中间潜过程间接连到观测的复杂情形,论文提出对称无环路径条件(Symmetric Acyclic Path Situation,定义 4.4):从 \(L_1\) 到效应集里每个观测过程的有向路径都只由中间潜过程组成、长度相同、且都无环。满足该条件时,命题 4.5 给出充要判据 \(\mathrm{rank}(\Sigma_{\{O_i^{(j)}\}_{i\in\{1,2\}},\,O_v\setminus\{O_1^{(n)},O_2^{(n)}\}})=2m+1\) 当且仅当存在这样一个潜混杂 \(L_1\)——这是"从观测效应反推潜混杂存在"的核心一步。

4. 观测代理(surrogate)替换潜变量:让潜过程也能进秩检验

潜变量本身没被观测,没法直接放进互协方差矩阵。定义 4.6 给出巧妙的替身机制:对每个被推断出的潜过程 \(L_1\),指定它的某个观测效应 \(De(L_1):=O_1\) 作为观测代理(要求存在一条从 \(L_1\)\(O_1\)、不经过任何其他观测过程的有向路径),并定义其观测兄弟集 \(Sib(De(L_1))\) 为所有同样被 \(L_1\) 影响、且路径不经过其他观测过程的观测子过程。有了代理,定理 4.7 把命题 4.3 推广到"被检主体或候选父因含潜变量"的情形:当 \(N_1\) 是潜的、或候选父因集 \(P_G'\) 含潜过程时,识别条件变成 \(\mathrm{rank}(\Sigma_{A_v,B_v})=|A_v|-1\)(其中 \(A_v\)\(B_v\) 用代理与兄弟集拼出)。定理 4.8 进一步把命题 4.5 推广到"从潜混杂识别潜混杂"——即两个被检主体本身都可能是潜过程时,仍用各自代理判定是否存在共同潜父因。这一设计的精髓是:凡评估秩时,一律用观测代理把潜过程换掉,从而把"含潜变量的秩检验"还原成"只含观测变量的秩检验"。

5. 两阶段迭代算法 + 可识别性定理:交替"识别因果边"与"发现新潜过程"直到收敛

四条识别定理凑齐后,算法 1 用一个主动过程集 \(A_G\)(父因尚未识别的子过程,初始为 \(O_G\))驱动两阶段迭代。Phase I(识别因果关系):遍历 \(A_G\) 中每个子过程,用当前的 \(A_G\cup O_G\) 检验其父因;一旦某子过程父因集被命题 4.3 或定理 4.7 完全覆盖,就识别它并从 \(A_G\) 移除,直到无更新。Phase II(发现新潜过程):当 Phase I 无法再解决任何过程时,用命题 4.5 与定理 4.8 穷举 \(A_G\) 中所有配对,搜索新的潜混杂;若两对在子过程上重叠则合并(意味着共享潜父),把新潜过程加入 \(A_G\)、移除其效应,再回到 Phase I。注意因为 summary 图有环,已被识别为"效应"的观测过程仍可能是别人的"因",故仍留在考察范围。两阶段交替直到 \(A_G\) 为空或不再变化。定理 5.1 给出整体可识别性保证:只要每个潜混杂连同它的全部观测代理(\(\ge 2\) 个)都满足定义 4.4 的对称路径条件,观测与潜混杂上的因果图就可被识别;当不存在潜过程时仅用 Phase I 即可完全识别。

损失函数 / 训练策略

本文是理论 + 算法工作,没有需要优化的损失函数。整个流程是确定性的统计检验:估计观测离散变量的互协方差矩阵后,对一系列子矩阵做秩检验(实践中保留与当前变量相关性统计显著的时滞变量来估有效时滞 \(K\)\(\Delta\) 用网格搜索取稳定区间),按算法 1 的两阶段迭代推进。所有保证依赖两个温和假设:激发函数取 \(\phi_{ij}(s)=a_{ij}w(s)\) 形式,以及标准的秩忠实性(rank-faithfulness)——它排除了"因果关系恰好无法识别"的病态参数化,在无限数据下几乎必然成立(失败集是 Lebesgue 测度零)。

实验关键数据

主实验

合成数据上与六个强基线对比:SHP、THP(离散化 Hawkes 的似然方法)、NPHC(基于累积量的方法);以及为带潜变量场景额外加入的 Hier. Rank、RLCD(i.i.d. 线性潜变量模型的秩方法)和 LPCMCI(处理外生潜混杂的时序方法)——后三者都依赖本文设定下不满足的强假设。测试六个合成图族:一个全观测图(图 1b)与五个带潜过程的结构(图 2a 及图 3a–3d)。指标为十次运行的平均 F1。

设定 结构 结果
全观测 图 1b 本文方法 F1 持续优于全部基线
单潜混杂 图 2a 本文显著领先,潜变量情形需更大样本量
复杂潜路径 (Cases 3–4) 图 3a/3b 本文稳定恢复,基线因假设违背明显掉点

一个值得注意的观察:带潜变量的情形通常需要更大样本量。因为平稳 Hawkes 过程谱半径 \(<1\),因果影响沿潜路径会衰减,使可靠检测更"吃数据"。

消融 / 鲁棒性分析

配置 说明
两类输入对比 既测连续 Hawkes(式 1)生成的事件序列,也测直接由离散模型(式 2)生成的数据,两者均有效
更大图 / \(\Delta\) 敏感性 附录 Q 报告对 \(\Delta\) 的敏感性——小于激发函数支撑的 \(\Delta\) 即可,稳定区间内结构稳健
秩忠实性违背鲁棒性 附录 Q 测试 rank-faithfulness 被违背时的鲁棒性

真实数据

公开的蜂窝网络告警数据集(含专家验证的 ground truth):18 种告警类型、55 台设备、约 8 个月 35k 事件。聚焦 device id=8,取五告警子图(Alarm id=0–3 与 7),人为把 Alarm id=7 当作潜过程剔除。由于 Alarm id=1 和 id=3 是该潜过程的观测效应,本文方法成功从观测数据里把 id=7 重新识别为潜在子过程并恢复其主要影响(图 5),定量上也优于代表性基线(附录 Q.4)。

关键发现

  • 离散化表示是地基:定理 4.1 把连续 Hawkes 换成线性自回归,是后续所有秩检验得以成立的前提;去掉它整套方法不成立。
  • 潜路径越长越难:因果影响沿潜路径衰减,潜变量情形天然更需要数据;这是方法的内在难度而非缺陷。
  • 对称路径条件是识别的边界:一旦中间潜路径长度不对称或引入环(如图 2d 加一条 \(L_5\to L_3\)),定义 4.4 被破坏,对应秩签名就不再成立,潜混杂也就识别不出来。

亮点与洞察

  • "\(\Delta\to 0\) 时 Hawkes ≈ 线性自回归"这一桥梁极其漂亮:它把一个连续时间随机过程的因果发现,整体搬运到了成熟的线性潜变量秩约束工具箱里——这是全文最关键的"啊哈"点,也是后面一切可证性的来源。
  • 用"秩亏 = 潜混杂指纹"来侦测看不见的东西:同一潜过程驱动多个观测时,其贡献在时滞上对齐导致互协方差低秩,这种"以二阶统计量反推不可见结构"的思路,可迁移到其他带共享隐因的线性时序系统。
  • 观测代理(surrogate)替换是让潜变量"可计算"的关键工程:把潜节点替换成它的观测效应再做秩检验,是把"理论上存在的潜变量"落到"实际能算的统计量"的桥,值得在其他潜变量因果发现里借鉴。
  • 首个不需预设潜过程数量/位置的 Hawkes 因果发现框架:相比必须事先指定潜过程数量的旧方法,这在"完全不知道有没有隐变量"的真实场景里实用得多。

局限与展望

  • 激发函数被约束为可分形式 \(\phi_{ij}(s)=a_{ij}w(s)\)(共享衰减核),作者已指出未来可放宽为节点特定衰减率以拓展适用范围。
  • 依赖对称无环路径条件(定义 4.4)与秩忠实性:当潜混杂到多个观测效应的路径长度不对称、或路径中含环时,识别保证失效;这界定了方法能work的图结构边界。
  • 计算复杂度随子过程数与图稠密度增长:Phase II 穷举配对搜索潜混杂,规模大时迭代次数多,作者把"设计更低复杂度的发现算法"列为未来方向。
  • 真实数据评测较单薄:仅一个蜂窝网络数据集、且潜过程是人为剔除制造的;更多元的真实场景验证仍待补充(作者亦承认)。
  • 每个潜混杂需至少 2 个观测代理才可识别(定理 5.1),对只有单一观测效应的潜过程无能为力。

相关工作与启发

  • vs 似然类 Hawkes 方法(SHP / THP / NPHC / Granger-MLE): 它们在连续或分箱数据上做极大似然/累积量拟合,且都预设因果充分性(全观测);本文不拟合似然,而是利用离散化后的线性表示在互协方差里找低秩模式,从而能识别潜混杂——这是"换检验范式"而非"改拟合细节"的区别。
  • vs 分箱似然(Shlomovich et al. 2022): 它们重建箱计数的似然但不建模箱间结构关系;本文建立离散化 Hawkes 的线性因果表示,结构对应是本质差异。
  • vs i.i.d. 线性潜变量秩方法(Hier. Rank, RLCD): 它们允许潜变量但保证通常只到等价类、且依赖与 Hawkes 动力学不兼容的结构/基数假设;本文针对子过程而非静态变量,并通过 Hawkes 专属的时间感知秩约束给出可识别性。
  • vs 时序因果(LPCMCI): 它假设弱自相关与外生潜混杂,而 Hawkes 天然有稠密跨时滞依赖与内生潜过程,违背其前提;本文同时容纳内生与外生潜过程。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个无需预设潜过程数量/位置、可识别带复杂潜混杂网络的 Hawkes 因果发现框架,离散化桥梁 + 秩签名的组合很原创。
  • 实验充分度: ⭐⭐⭐⭐ 合成数据覆盖六类图族 + 真实蜂窝网络验证,但真实数据偏单一且潜过程是人为制造。
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨、定义—命题—定理层层递进,但秩约束记号密集、对非因果发现背景读者门槛较高。
  • 价值: ⭐⭐⭐⭐⭐ 把部分可观测这一现实痛点用可证方法解决,对神经科学、网络告警等隐变量普遍存在的场景有直接价值。