跳转至

MAAT: 基于知识引导核回归的异构部分观测状态重建

会议: ICML 2026
arXiv: 2601.22328
代码: 未公开
领域: 科学计算 / 动力学系统建模 / 符号回归
关键词: 核状态重建、RKHS、异构观测算子、符号回归、物理先验

一句话总结

MAAT 把"从稀疏 + 异构 + 含噪观测里恢复一条物理一致的潜在状态轨迹"重新表述成一个 RKHS 上的带约束核岭回归问题,把观测算子、平滑性和物理先验(非负、守恒、单调)一起塞进同一个目标函数,给下游符号回归(SINDy / PySR)提供具有解析时间导数的高质量轨迹,在 9 个合成基准 + COVID-19 真实数据上把重建 MSE 降低 1–3 个数量级。

研究背景与动机

领域现状:在医学、生态、物理等领域,潜在动力学状态 \(x(t)\in\mathbb{R}^d\) 由 ODE \(\dot{x}=f(x)\) 控制,但很少能直接、规则地观测到完整状态。实践中要么用经典平滑(样条、RBF、Savitzky–Golay)拿到连续轨迹,要么用状态空间模型(Kalman、GP)做传感器融合,要么用 Neural ODE / UDE 等深度方法学习潜在动力学。

现有痛点:上述方法各有硬伤——经典平滑忽略观测算子和领域约束,只能处理单通道规则采样;GP 给出解析导数但难以塞入"质量守恒""非负"这类硬约束;Kalman 需要先验给出转移动力学;Neural ODE 是黑箱,恢复的轨迹很难直接喂给"机理发现"流程(如符号回归)。最致命的问题是这些方法的导数估计:有限差分对噪声敏感,存在不可消除的误差下限 \(\Omega(\sigma^2/\Delta t^2)\),而下游符号回归对导数的精度极其敏感。

核心矛盾:测量是异构的——稀疏直接测量(如基因表达快照)和高频聚合信号(如血液生物标志物)通过不同的线性算子 \(\mathcal{H}_i\) 映射到状态空间,且伴随测量噪声。如何在一个统一框架里同时处理这些异构观测、注入物理先验、并产出解析可微的轨迹,是把"测量到机理发现"贯通起来的关键瓶颈。

本文目标:把状态重建从"数值预处理步骤"升级为"函数空间里的知识引导推断问题",让重建结果天然带有解析导数,并且可以编码守恒、非负、单调等机理约束。

切入角度:作者注意到 RKHS 框架同时给了三件好事——表示定理(Representer Theorem)保证最优解是核的有限线性组合;常见核(如高斯核)是 \(C^{\infty}\) 的,导数有解析形式;约束可以以正则项形式无缝注入。这天然适合"数据稀疏 + 异构 + 需要导数 + 需要先验"的科学场景。

核心 idea:在 RKHS 里写一个复合损失,把"快照 fidelity + 异构线性观测 fidelity + 动力学先验 + 范数正则"四项一锅端,用闭式核运算解出系数矩阵 \(U\),得到一条带解析导数的物理一致轨迹,作为符号回归的"干净接口"。

方法详解

整体框架

输入:在不规则时间戳 \(\{t_i\}_{i=1}^N\) 上采集到的 \(N\) 条观测 \(\mathcal{D}=\{(t_i, y_i, \mathcal{H}_i)\}\),每条观测通过线性算子 \(\mathcal{H}_i\) 关联到潜在状态 \(x(t_i)\) 并叠加高斯噪声;可选的物理约束集 \(\mathcal{C}\)(非负、守恒、单调);可选的动力学先验 \(F(\cdot)\)

中间:用高斯核 \(\kappa(t,t')\) 构造 RKHS \(\mathcal{H}_K\),把每个状态分量参数化为 \(\widehat{x}_j(t)=\sum_{\ell=1}^N u_{\ell j}\,\kappa(t,t_\ell)\),系数矩阵 \(U\in\mathbb{R}^{N\times d}\) 是唯一可学习量。优化目标是一个标量凸损失(数据保真 + 平滑性 + 物理先验三项加权),通过闭式或凸优化解出 \(U\)

输出:连续轨迹 \(\widehat{x}(t)\) 及其解析时间导数 \(\partial_t \widehat{x}(t)=U\,\partial_t\kappa(t,\boldsymbol{t})\),可直接喂给 SINDy / PySR 等符号回归引擎做方程发现。

关键设计

  1. RKHS 复合损失(Kernel State Reconstruction, KSR)

    • 功能:在一个目标函数里同时拟合稀疏直接快照 \(\mathbf{X}^{\mathrm{obs}}\)、异构线性聚合信号 \(\mathbf{Y}\) 和动力学先验,避免传统流程中"先平滑再差分再发现方程"的级联误差。
    • 核心思路:把系数矩阵 \(U\) 学习写成 \(\min_U \tfrac{w_s}{N_{\text{obs}}}\|\mathbf{K}^{\mathrm{obs}}U-\mathbf{X}^{\mathrm{obs}}\|_F^2 + \sum_i \tfrac{w_i}{N}\|\mathbf{K}U\mathbf{H}_i^\top-\mathbf{Y}\|_F^2 + \gamma\|\dot{\mathbf{K}}U-F(\mathbf{K}U)\|_F^2 + \lambda\|U\|_F^2\),其中第一项是快照保真,第二项把每个异构观测算子 \(\mathbf{H}_i\) 显式作用在重建上做"匹配观测",第三项让重建的时间导数 \(\dot{\mathbf{K}}U\) 接近一个动力学先验 \(F\)(先验未知时该项权重置零),第四项是 RKHS 范数正则。论文给出 Lemma 1 证明该复合损失是真 \(L^2\) 误差的 calibrated surrogate,最小化它等价于最小化真实 \(L^2\) 重建误差(差一个常数倍 \(1+\|H\|^2\))。
    • 设计动机:异构观测、物理先验、平滑性三者历史上分散在不同框架(GP / 状态空间 / PINN),第一次在一个 RKHS 闭式问题里把它们统一,并且保留了最关键的"解析导数"性质。
  2. 解析导数估计与噪声鲁棒性

    • 功能:直接对核函数求时间导数得到 \(\partial_t \widehat{x}(t)\),避免对噪声轨迹做数值差分。
    • 核心思路:因为模型对 \(U\) 线性,求导算子只作用在核上:\(\partial_t \widehat{x}(t)=U\,\partial_t\kappa(t,\boldsymbol{t})\),高斯核等常见 \(C^{\infty}\) 核的导数有闭式。Proposition 1 给出理论保证:有限差分的导数误差是 \(\mathcal{O}(\Delta t^4)+\Omega(\sigma^2/\Delta t^2)\),存在不可消除的噪声放大下限(步长越细噪声越被放大);KSR 的导数误差是 \(\mathcal{O}(\lambda)+\mathcal{O}(\sigma^2/n)\),是标准的 bias–variance trade-off,随样本量增加而下降,没有高频噪声放大问题。
    • 设计动机:下游符号回归(如 SINDy)对导数精度极其敏感,导数若被噪声污染,整个发现的方程都会失真。解析导数 + 没有噪声下限是 MAAT 比所有数值差分方法都明显更适合做"机理发现接口"的根本原因。
  3. 物理先验作为附加正则\(\mathcal{R}_{\text{phys}}(x,\mathcal{C})\)):

    • 功能:把领域知识(非负 \(x_j(t)\ge 0\)、质量守恒 \(\sum_j x_j(t)=\text{const}\)、单调 \(R'(t)\ge 0\)\(S'(t)\le 0\))作为可微惩罚项注入到 RKHS 优化里。
    • 核心思路:在 SEIR / SEIRH 这类隔间模型里,把 \(\mathcal{R}_{\text{phys}}\) 写成对约束违反量的平方惩罚(如 \(\sum_t (\max(0,-x_j(t)))^2\)\(\sum_t (\sum_j x_j(t)-C)^2\)),与 KSR 主损失加权求和,整体仍可凸优化或一阶法求解。约束在采样网格上检查即可,不必处处成立。
    • 设计动机:传统 GP / Kalman 没法直接吃硬约束,深度方法虽然能加约束但训练不稳;RKHS 表示让约束以二次惩罚的形式自然出现,既保住了凸性又能利用领域语义把不合理的轨迹剪掉。表 2 显示加 priors 在所有噪声类型(高斯 / 相关高斯 / Student-t)下 MSE 都稳定下降约 10–15%。

损失函数 / 训练策略

总损失 = 快照保真项 \(\tfrac{w_s}{N_{\text{obs}}}\|\mathbf{K}^{\mathrm{obs}}U-\mathbf{X}^{\mathrm{obs}}\|_F^2\) + 异构观测保真项 \(\sum_i \tfrac{w_i}{N}\|\mathbf{K}U\mathbf{H}_i^\top-\mathbf{Y}\|_F^2\) + 动力学先验项 \(\gamma\|\dot{\mathbf{K}}U-F(\mathbf{K}U)\|_F^2\) + RKHS 正则 \(\lambda\|U\|_F^2\) + 物理先验项 \(\lambda_2\mathcal{R}_{\text{phys}}(x,\mathcal{C})\)。当 \(F\) 线性、\(\mathcal{R}_{\text{phys}}\) 二次时整问题闭式可解;否则用一阶凸优化。核选用高斯核,带宽和正则系数 \(\lambda,\gamma,\lambda_2\) 通过验证集网格搜索。

实验关键数据

主实验

九个合成动力学基准 × 两个符号回归后端(PySR / SINDy)的状态重建 MSE 对比(节选自 Table 1):

数据集 后端 之前最强 baseline 之前最优 MSE MAAT MSE 提升幅度
CRC SINDy Kalman \(1.1\times 10^{-2}\) \(\mathbf{1.5\times 10^{-3}}\) ~7×
Neutralization SINDy Kalman \(2.5\times 10^{-3}\) \(\mathbf{4.3\times 10^{-4}}\) ~6×
SEIR SINDy Kalman \(8.4\times 10^{-4}\) \(\mathbf{7.9\times 10^{-5}}\) ~11×
SEIRH SINDy GP \(8.6\times 10^{-4}\) \(\mathbf{4.1\times 10^{-5}}\) ~21×
TMDD SINDy GP \(8.7\times 10^{-2}\) \(\mathbf{4.8\times 10^{-3}}\) ~18×
Tumor SINDy Kalman \(8.8\times 10^{-1}\) \(\mathbf{1.2\times 10^{-1}}\) ~7×
TDI SINDy Kalman \(4.7\times 10^{1}\) \(\mathbf{1.8\times 10^{0}}\) ~26×
Viral SINDy Kalman \(8.1\times 10^{-4}\) \(\mathbf{1.3\times 10^{-4}}\) ~6×

COVID-19 真实数据(Table 3,SINDy 后端,5 个随机种子 mean ± 95% CI):

方法 Test MSE 95% CI
MAAT \(\mathbf{6.33\times 10^{-5}}\) \(\pm 1.07\times 10^{-5}\)
RBF \(9.64\times 10^{-4}\) \(\pm 6.51\times 10^{-4}\)
Savitzky–Golay \(9.73\times 10^{-4}\) \(\pm 6.47\times 10^{-4}\)
TVRegDiff \(9.73\times 10^{-4}\) \(\pm 6.47\times 10^{-4}\)
Linear \(9.80\times 10^{-4}\) \(\pm 6.53\times 10^{-4}\)

MAAT 在真实疫情数据上把重建误差再降一个数量级。

消融实验

物理先验消融(Table 2,SEIR / SEIRH × 3 种噪声):

配置 SEIR (Gauss, PySR) SEIRH (Gauss, PySR) 说明
Plain \(2.58\times 10^{-5}\) \(1.71\times 10^{-5}\) 仅 KSR + 异构观测,不加守恒/非负/单调
+ priors \(\mathbf{2.19\times 10^{-5}}\) \(\mathbf{1.48\times 10^{-5}}\) 加上质量守恒 + 非负 + \(R'\ge 0\), \(S'\le 0\)
Plain (Student-t, SINDy) \(7.69\times 10^{-5}\) \(4.12\times 10^{-5}\) 重尾噪声
+ priors (Student-t, SINDy) \(\mathbf{7.38\times 10^{-5}}\) \(\mathbf{3.68\times 10^{-5}}\) 重尾下先验仍稳定带来 5–10% 提升

关键发现

  • 谁是关键模块:在没有动力学先验 \(F\) 的情况下,KSR + 异构观测算子已经能击败所有基线 1–2 个数量级;进一步加结构先验(守恒 / 非负 / 单调)能再榨出 10–20% 的提升,说明"异构观测算子建模"才是性能跃迁的主导因素,物理先验是稳健性的精修。
  • 谁是最大输家:Neural ODE 在大部分基准上 MSE 比 MAAT 高 4–10 个数量级,在某些数据集(Conservation, Tumor)甚至炸到 \(10^{10}\) 量级,说明纯黑箱深度方法在低数据 + 高噪声的科学场景下完全不可用。
  • 噪声鲁棒性:在 Student-t 重尾噪声和相关高斯噪声下 MAAT 的 MSE 几乎不变,而经典平滑(RBF、Cubic)在高噪声下 MSE 涨 5–10 倍,与 Proposition 1 中"KSR 无噪声放大下限"的理论一致。
  • 下游符号回归质量:用 MAAT 重建的轨迹喂给 SINDy / PySR 后,发现的方程在所有 9 个数据集上都更接近 ground truth,证明高质量解析导数确实是符号回归的瓶颈。

亮点与洞察

  • 把"重建"重新定义为"函数空间推断":以往状态重建被当作机理发现的数值预处理,本文把它升格为一个可以系统注入观测算子、物理先验、平滑性的 RKHS 推断问题,这是研究视角的换层,不只是新方法。
  • Proposition 1 的诊断力:用一个简单的 bias–variance 分析揭示了"为什么有限差分天然不适合符号回归" —— \(\Omega(\sigma^2/\Delta t^2)\) 的噪声下限是结构性的,加密采样反而更糟。这条洞察可以迁移到任何"需要从噪声序列估导数"的任务(信号处理、强化学习里的 advantage 估计、生理信号处理)。
  • 异构线性算子的统一表达:把"高频聚合信号 \(y_i = H_i x(t_i) + \epsilon\)"和"稀疏快照"用同一个核矩阵-观测矩阵乘积 \(\mathbf{K}U\mathbf{H}_i^\top\) 表达,几行公式就把多模态融合做了——这个表达本身可以迁移到任何多传感器、多模态时间序列融合任务。
  • 凸性 + 解析导数的双重便利:在深度学习占主导的今天,这篇展示了一个"经典数学工具配合现代问题表述"的反向案例——RKHS 凸优化在数据稀缺、噪声大、需要解释性的科学场景里,可以全面碾压黑箱方法。

局限与展望

  • 作者承认的局限:当前框架只支持线性观测算子 \(\mathcal{H}_i\),对非线性传感模型(如对数变换、阈值传感器)需要近似线性化;动力学先验 \(F\) 假设已知或部分已知,对完全未知的高维系统作用有限。
  • 自己发现的局限:核选择被固定为高斯核,带宽是验证集网格搜索调出来的,在状态分量时间尺度差异极大的多尺度系统里可能需要可学习核或多核结合;\(O(N^2)\) 核矩阵让方法不适合 \(N>10^4\) 的密集长序列,需要 Nyström / inducing points 近似;物理先验依赖人工指定(如知道是 SEIR 模型才能写守恒),对未知的新系统仍需先验调研。
  • 改进思路:将 \(\mathcal{H}_i\) 推广到核映射下的非线性算子;引入可学习核(DKL / spectral mixture)做尺度自适应;与 LLM 配合自动从文献里挖掘候选物理约束。

相关工作与启发

  • vs Gaussian Process (Rasmussen & Williams 2005):GP 给出解析导数和不确定度量化,但难以塞入硬约束(非负、守恒),也不天然支持异构观测算子。MAAT 把 GP 的核表示沿用,但把它泛化到带约束 + 异构观测的复合损失,性能在 SEIR / SEIRH 等隔间模型上比 GP 高 1–2 个数量级。
  • vs Kalman Filter (Kalman 1960):Kalman 善于做传感器融合,但需要先验给出转移动力学;当转移未知时退化为简单平滑。MAAT 把动力学先验作为可选项注入(先验未知就令 \(\gamma=0\)),并通过物理约束补足。Kalman 在某些基准(如 Conservation, \(9.0\))仍是 MAAT 之外最强的,但平均落后 1 个数量级。
  • vs Neural ODE / UDE (Chen et al. 2018; Rackauckas et al. 2020):深度方法用神经向量场表示动力学,灵活但在低数据下崩溃严重(实验里 MSE 经常 \(10^{10}+\)),且不处理异构观测算子。MAAT 完全凸 + 闭式可解,在科学数据典型规模下表现更稳。
  • vs Physics-Informed Kernel Learning (Doumèche et al. 2025):PIKL 同样用 RKHS 但解决的是 forward / hybrid 问题(已知微分算子 \(\mathcal{D}\),求解 PDE),目标和 MAAT 正交。MAAT 是 inverse 问题 + 重建,PIKL 是 forward + 物理一致预测,两者可以未来联用做"先重建后求 PDE"。
  • vs 经典平滑(Splines, RBF, Savitzky–Golay, TVRegDiff):经典平滑只能单通道规则采样、忽略观测算子、忽略约束,且导数估计在高噪声下崩溃。MAAT 在 COVID-19 真实数据上把 MSE 从 \(10^{-4}\) 量级降到 \(10^{-5}\),差距来自异构观测建模和物理先验。

评分

  • 新颖性: ⭐⭐⭐⭐ 把异构观测算子 + 物理先验 + 解析导数三件事第一次塞进同一个 RKHS 框架,并配上 Lemma 1 / Proposition 1 的理论支撑。
  • 实验充分度: ⭐⭐⭐⭐ 九个合成基准 + 三种噪声 + 真实 COVID-19 + 两种符号回归后端 + 多 baseline,覆盖很全。
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,公式精炼,理论与实验对应清楚;Method 部分稍偏紧凑,部分推导推到 Appendix。
  • 价值: ⭐⭐⭐⭐ 对"从测量到机理发现"全流程是关键一环,给科学发现自动化提供了高质量解析导数的"接口层",工程价值显著。