MAAT: 基于知识引导核回归的异构部分观测状态重建¶

会议: ICML 2026
arXiv: 2601.22328
代码: 未公开
领域: 科学计算 / 动力学系统建模 / 符号回归
关键词: 核状态重建、RKHS、异构观测算子、符号回归、物理先验

一句话总结¶

MAAT 把"从稀疏 + 异构 + 含噪观测里恢复一条物理一致的潜在状态轨迹"重新表述成一个 RKHS 上的带约束核岭回归问题，把观测算子、平滑性和物理先验（非负、守恒、单调）一起塞进同一个目标函数，给下游符号回归（SINDy / PySR）提供具有解析时间导数的高质量轨迹，在 9 个合成基准 + COVID-19 真实数据上把重建 MSE 降低 1–3 个数量级。

研究背景与动机¶

领域现状：在医学、生态、物理等领域，潜在动力学状态 \(x(t)\in\mathbb{R}^d\) 由 ODE \(\dot{x}=f(x)\) 控制，但很少能直接、规则地观测到完整状态。实践中要么用经典平滑（样条、RBF、Savitzky–Golay）拿到连续轨迹，要么用状态空间模型（Kalman、GP）做传感器融合，要么用 Neural ODE / UDE 等深度方法学习潜在动力学。

现有痛点：上述方法各有硬伤——经典平滑忽略观测算子和领域约束，只能处理单通道规则采样；GP 给出解析导数但难以塞入"质量守恒""非负"这类硬约束；Kalman 需要先验给出转移动力学；Neural ODE 是黑箱，恢复的轨迹很难直接喂给"机理发现"流程（如符号回归）。最致命的问题是这些方法的导数估计：有限差分对噪声敏感，存在不可消除的误差下限 \(\Omega(\sigma^2/\Delta t^2)\)，而下游符号回归对导数的精度极其敏感。

核心矛盾：测量是异构的——稀疏直接测量（如基因表达快照）和高频聚合信号（如血液生物标志物）通过不同的线性算子 \(\mathcal{H}_i\) 映射到状态空间，且伴随测量噪声。如何在一个统一框架里同时处理这些异构观测、注入物理先验、并产出解析可微的轨迹，是把"测量到机理发现"贯通起来的关键瓶颈。

本文目标：把状态重建从"数值预处理步骤"升级为"函数空间里的知识引导推断问题"，让重建结果天然带有解析导数，并且可以编码守恒、非负、单调等机理约束。

切入角度：作者注意到 RKHS 框架同时给了三件好事——表示定理（Representer Theorem）保证最优解是核的有限线性组合；常见核（如高斯核）是 \(C^{\infty}\) 的，导数有解析形式；约束可以以正则项形式无缝注入。这天然适合"数据稀疏 + 异构 + 需要导数 + 需要先验"的科学场景。

核心 idea：在 RKHS 里写一个复合损失，把"快照 fidelity + 异构线性观测 fidelity + 动力学先验 + 范数正则"四项一锅端，用闭式核运算解出系数矩阵 \(U\)，得到一条带解析导数的物理一致轨迹，作为符号回归的"干净接口"。

方法详解¶

整体框架¶

MAAT 要解决的是"从不规则、异构、含噪的稀疏观测里恢复一条带解析导数、物理一致的潜在状态轨迹"。它的做法是把整件事搬到 RKHS 里：用高斯核 \(\kappa(t,t')\) 把每个状态分量写成核的有限线性组合 \(\widehat{x}_j(t)=\sum_{\ell=1}^N u_{\ell j}\,\kappa(t,t_\ell)\)，于是唯一的可学习量就是系数矩阵 \(U\in\mathbb{R}^{N\times d}\)；再把"拟合快照 + 拟合异构聚合信号 + 贴合动力学先验 + 平滑性 + 物理约束"全部写进一个凸损失，闭式或一阶法解出 \(U\)。输入是不规则时间戳 \(\{t_i\}_{i=1}^N\) 上的观测 \(\mathcal{D}=\{(t_i,y_i,\mathcal{H}_i)\}\)（每条观测经线性算子 \(\mathcal{H}_i\) 关联到状态并叠加高斯噪声）外加可选的物理约束集 \(\mathcal{C}\) 与动力学先验 \(F\)；输出是连续轨迹 \(\widehat{x}(t)\) 及其解析时间导数 \(\partial_t\widehat{x}(t)=U\,\partial_t\kappa(t,\boldsymbol{t})\)，可直接喂给 SINDy / PySR 做方程发现。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["异构观测：稀疏直接快照 + 高频聚合信号<br/>每条经线性算子 H_i 映射到状态并叠加噪声"]
    P["物理先验正则<br/>非负 / 质量守恒 / 单调"]
    A --> K["RKHS 复合损失（KSR）<br/>高斯核展开 x̂ = U·κ，闭式解系数矩阵 U"]
    P -->|可微平方惩罚| K
    K --> Dv["重建轨迹 x̂(t) + 解析导数 ∂x̂ = U·∂κ<br/>绕开有限差分的噪声放大下限"]
    Dv --> S["下游符号回归 SINDy / PySR<br/>发现 ODE ẋ = f(x)"]

关键设计¶

1. RKHS 复合损失（KSR）：把级联流程压成一个凸目标

传统"先平滑、再差分、再发现方程"的级联会把每一步的误差累积放大，而 MAAT 把这三件事一锅端进同一个凸目标。它最小化 \(\min_U \tfrac{w_s}{N_{\text{obs}}}\|\mathbf{K}^{\mathrm{obs}}U-\mathbf{X}^{\mathrm{obs}}\|_F^2 + \sum_i \tfrac{w_i}{N}\|\mathbf{K}U\mathbf{H}_i^\top-\mathbf{Y}\|_F^2 + \gamma\|\dot{\mathbf{K}}U-F(\mathbf{K}U)\|_F^2 + \lambda\|U\|_F^2\)：第一项让重建对齐稀疏直接快照 \(\mathbf{X}^{\mathrm{obs}}\)，第二项把每个异构观测算子 \(\mathbf{H}_i\) 显式作用在重建上去匹配高频聚合信号 \(\mathbf{Y}\)，第三项让重建的时间导数 \(\dot{\mathbf{K}}U\) 贴合动力学先验 \(F\)（先验未知时令 \(\gamma=0\) 直接关掉），第四项是 RKHS 范数正则。异构观测、物理先验、平滑性这三件事历史上分散在 GP、状态空间模型、PINN 等不同框架里，KSR 第一次把它们统一进一个闭式可解的问题，且保住了最关键的解析导数性质。论文用 Lemma 1 证明这个复合损失是真 \(L^2\) 重建误差的 calibrated surrogate——最小化它等价于最小化真实 \(L^2\) 误差，只差一个常数倍 \(1+\|H\|^2\)，所以这个代理目标不会把优化引偏。

2. 解析导数估计：绕开有限差分的噪声放大下限

下游符号回归对导数精度极其敏感，导数一旦被噪声污染，发现的方程就整体失真，而这正是数值差分的死穴。MAAT 利用模型对 \(U\) 线性这一点，让求导算子只落在核上：\(\partial_t\widehat{x}(t)=U\,\partial_t\kappa(t,\boldsymbol{t})\)，高斯核这类 \(C^{\infty}\) 核的导数有闭式，于是导数直接从重建里解析读出，根本不碰噪声轨迹。Proposition 1 把两者的差距量化清楚：有限差分的导数误差是 \(\mathcal{O}(\Delta t^4)+\Omega(\sigma^2/\Delta t^2)\)，后一项是结构性的噪声放大下限——步长 \(\Delta t\) 越细噪声越被放大，加密采样反而更糟；而 KSR 的导数误差是 \(\mathcal{O}(\lambda)+\mathcal{O}(\sigma^2/n)\)，是标准的 bias–variance 权衡，随样本量 \(n\) 增加而下降，没有高频放大项。这条"没有噪声下限"的性质，是 MAAT 比一切数值差分方法都更适合当"机理发现接口"的根本原因。

3. 物理先验作为可微正则：把领域知识缝进凸优化

GP、Kalman 这类经典工具吃不下"非负""守恒""单调"这种硬约束，深度方法虽能加约束但训练不稳，MAAT 则把它们写成可微惩罚塞进同一个目标。它把约束违反量做平方惩罚——非负写成 \(\sum_t(\max(0,-x_j(t)))^2\)、质量守恒写成 \(\sum_t(\sum_j x_j(t)-C)^2\)、单调写成对 \(R'(t)\ge 0\)、\(S'(t)\le 0\) 的违反惩罚——汇成 \(\mathcal{R}_{\text{phys}}(x,\mathcal{C})\) 后以权重 \(\lambda_2\) 加到 KSR 主损失上。约束只需在采样网格上检查、不必处处成立，加之二次惩罚保住了整体凸性，既能用领域语义把不合理轨迹剪掉又不破坏闭式可解性。这种精修在所有噪声类型（高斯 / 相关高斯 / Student-t）下都能稳定再压低约 10–15% 的 MSE（表 2）。

损失函数 / 训练策略¶

总损失把上面五项合在一起：快照保真 \(\tfrac{w_s}{N_{\text{obs}}}\|\mathbf{K}^{\mathrm{obs}}U-\mathbf{X}^{\mathrm{obs}}\|_F^2\) + 异构观测保真 \(\sum_i \tfrac{w_i}{N}\|\mathbf{K}U\mathbf{H}_i^\top-\mathbf{Y}\|_F^2\) + 动力学先验 \(\gamma\|\dot{\mathbf{K}}U-F(\mathbf{K}U)\|_F^2\) + RKHS 正则 \(\lambda\|U\|_F^2\) + 物理先验 \(\lambda_2\mathcal{R}_{\text{phys}}(x,\mathcal{C})\)。当 \(F\) 线性、\(\mathcal{R}_{\text{phys}}\) 二次时整个问题闭式可解，否则退到一阶凸优化；核固定取高斯核，带宽与正则系数 \(\lambda,\gamma,\lambda_2\) 都用验证集网格搜索定。

实验关键数据¶

主实验¶

九个合成动力学基准 × 两个符号回归后端（PySR / SINDy）的状态重建 MSE 对比（节选自 Table 1）：

数据集	后端	之前最强 baseline	之前最优 MSE	MAAT MSE	提升幅度
CRC	SINDy	Kalman	\(1.1\times 10^{-2}\)	\(\mathbf{1.5\times 10^{-3}}\)	~7×
Neutralization	SINDy	Kalman	\(2.5\times 10^{-3}\)	\(\mathbf{4.3\times 10^{-4}}\)	~6×
SEIR	SINDy	Kalman	\(8.4\times 10^{-4}\)	\(\mathbf{7.9\times 10^{-5}}\)	~11×
SEIRH	SINDy	GP	\(8.6\times 10^{-4}\)	\(\mathbf{4.1\times 10^{-5}}\)	~21×
TMDD	SINDy	GP	\(8.7\times 10^{-2}\)	\(\mathbf{4.8\times 10^{-3}}\)	~18×
Tumor	SINDy	Kalman	\(8.8\times 10^{-1}\)	\(\mathbf{1.2\times 10^{-1}}\)	~7×
TDI	SINDy	Kalman	\(4.7\times 10^{1}\)	\(\mathbf{1.8\times 10^{0}}\)	~26×
Viral	SINDy	Kalman	\(8.1\times 10^{-4}\)	\(\mathbf{1.3\times 10^{-4}}\)	~6×

COVID-19 真实数据（Table 3，SINDy 后端，5 个随机种子 mean ± 95% CI）：

方法	Test MSE	95% CI
MAAT	\(\mathbf{6.33\times 10^{-5}}\)	\(\pm 1.07\times 10^{-5}\)
RBF	\(9.64\times 10^{-4}\)	\(\pm 6.51\times 10^{-4}\)
Savitzky–Golay	\(9.73\times 10^{-4}\)	\(\pm 6.47\times 10^{-4}\)
TVRegDiff	\(9.73\times 10^{-4}\)	\(\pm 6.47\times 10^{-4}\)
Linear	\(9.80\times 10^{-4}\)	\(\pm 6.53\times 10^{-4}\)

MAAT 在真实疫情数据上把重建误差再降一个数量级。

消融实验¶

物理先验消融（Table 2，SEIR / SEIRH × 3 种噪声）：

配置	SEIR (Gauss, PySR)	SEIRH (Gauss, PySR)	说明
Plain	\(2.58\times 10^{-5}\)	\(1.71\times 10^{-5}\)	仅 KSR + 异构观测，不加守恒/非负/单调
+ priors	\(\mathbf{2.19\times 10^{-5}}\)	\(\mathbf{1.48\times 10^{-5}}\)	加上质量守恒 + 非负 + \(R'\ge 0\), \(S'\le 0\)
Plain (Student-t, SINDy)	\(7.69\times 10^{-5}\)	\(4.12\times 10^{-5}\)	重尾噪声
+ priors (Student-t, SINDy)	\(\mathbf{7.38\times 10^{-5}}\)	\(\mathbf{3.68\times 10^{-5}}\)	重尾下先验仍稳定带来 5–10% 提升

关键发现¶

谁是关键模块：在没有动力学先验 \(F\) 的情况下，KSR + 异构观测算子已经能击败所有基线 1–2 个数量级；进一步加结构先验（守恒 / 非负 / 单调）能再榨出 10–20% 的提升，说明"异构观测算子建模"才是性能跃迁的主导因素，物理先验是稳健性的精修。
谁是最大输家：Neural ODE 在大部分基准上 MSE 比 MAAT 高 4–10 个数量级，在某些数据集（Conservation, Tumor）甚至炸到 \(10^{10}\) 量级，说明纯黑箱深度方法在低数据 + 高噪声的科学场景下完全不可用。
噪声鲁棒性：在 Student-t 重尾噪声和相关高斯噪声下 MAAT 的 MSE 几乎不变，而经典平滑（RBF、Cubic）在高噪声下 MSE 涨 5–10 倍，与 Proposition 1 中"KSR 无噪声放大下限"的理论一致。
下游符号回归质量：用 MAAT 重建的轨迹喂给 SINDy / PySR 后，发现的方程在所有 9 个数据集上都更接近 ground truth，证明高质量解析导数确实是符号回归的瓶颈。

亮点与洞察¶

把"重建"重新定义为"函数空间推断"：以往状态重建被当作机理发现的数值预处理，本文把它升格为一个可以系统注入观测算子、物理先验、平滑性的 RKHS 推断问题，这是研究视角的换层，不只是新方法。
Proposition 1 的诊断力：用一个简单的 bias–variance 分析揭示了"为什么有限差分天然不适合符号回归" —— \(\Omega(\sigma^2/\Delta t^2)\) 的噪声下限是结构性的，加密采样反而更糟。这条洞察可以迁移到任何"需要从噪声序列估导数"的任务（信号处理、强化学习里的 advantage 估计、生理信号处理）。
异构线性算子的统一表达：把"高频聚合信号 \(y_i = H_i x(t_i) + \epsilon\)"和"稀疏快照"用同一个核矩阵-观测矩阵乘积 \(\mathbf{K}U\mathbf{H}_i^\top\) 表达，几行公式就把多模态融合做了——这个表达本身可以迁移到任何多传感器、多模态时间序列融合任务。
凸性 + 解析导数的双重便利：在深度学习占主导的今天，这篇展示了一个"经典数学工具配合现代问题表述"的反向案例——RKHS 凸优化在数据稀缺、噪声大、需要解释性的科学场景里，可以全面碾压黑箱方法。

局限与展望¶

作者承认的局限：当前框架只支持线性观测算子 \(\mathcal{H}_i\)，对非线性传感模型（如对数变换、阈值传感器）需要近似线性化；动力学先验 \(F\) 假设已知或部分已知，对完全未知的高维系统作用有限。
自己发现的局限：核选择被固定为高斯核，带宽是验证集网格搜索调出来的，在状态分量时间尺度差异极大的多尺度系统里可能需要可学习核或多核结合；\(O(N^2)\) 核矩阵让方法不适合 \(N>10^4\) 的密集长序列，需要 Nyström / inducing points 近似；物理先验依赖人工指定（如知道是 SEIR 模型才能写守恒），对未知的新系统仍需先验调研。
改进思路：将 \(\mathcal{H}_i\) 推广到核映射下的非线性算子；引入可学习核（DKL / spectral mixture）做尺度自适应；与 LLM 配合自动从文献里挖掘候选物理约束。

评分¶

新颖性: ⭐⭐⭐⭐ 把异构观测算子 + 物理先验 + 解析导数三件事第一次塞进同一个 RKHS 框架，并配上 Lemma 1 / Proposition 1 的理论支撑。
实验充分度: ⭐⭐⭐⭐ 九个合成基准 + 三种噪声 + 真实 COVID-19 + 两种符号回归后端 + 多 baseline，覆盖很全。
写作质量: ⭐⭐⭐⭐ 问题定义清晰，公式精炼，理论与实验对应清楚；Method 部分稍偏紧凑，部分推导推到 Appendix。
价值: ⭐⭐⭐⭐ 对"从测量到机理发现"全流程是关键一环，给科学发现自动化提供了高质量解析导数的"接口层"，工程价值显著。