跳转至

Revitalizing Canonical Pre-Alignment for Irregular Multivariate Time Series Forecasting

会议: AAAI 2026
arXiv: 2508.01971
代码: github.com/zhouziyu02/KAFNet
领域: 时间序列
关键词: 不规则多变量时间序列, 规范预对齐, 时间核聚合, 频域线性注意力, 高效预测

一句话总结

首次论证了规范预对齐(CPA)在不规则多变量时间序列(IMTS)预测中不应被抛弃,提出 KAFNet 通过预卷积平滑、时间核聚合(TKA)压缩和频域线性注意力(FLA)三个模块解决 CPA 的效率问题,在 4 个 IMTS 数据集上实现 SOTA 精度,同时参数量减少 7.2 倍、训练推理加速 8.4 倍。

研究背景与动机

不规则多变量时间序列(IMTS)在交通、气象、医疗等场景中普遍存在,其特征是:

变量内不规则(intra-series irregularity):同一变量的观测时间间隔不均匀

变量间异步(inter-series asynchrony):不同变量的采样时刻不一致

规范预对齐(CPA)的两面性

CPA 是处理 IMTS 的经典预处理方法——将所有变量对齐到统一时间网格,缺失位置填零。它解决了变量间异步问题,统一了序列长度,方便批量训练。但致命缺陷是零填充导致序列长度膨胀——当变量数多时,合并后的全局时间戳集合远大于单个变量的观测数,导致计算和内存瓶颈。

近期趋势——绕过 CPA:tPatchGNN、GraFITi、TimeCHEAT 等图神经网络方法通过 patch 化或图结构直接处理原始不规则序列,避免了 CPA 的长度爆炸。但这些方法依赖局部消息传递,难以捕获全局跨变量相关性——当两个变量从未在同一时刻共现时,消息无法直接传递。

本文核心立场:CPA 不应被抛弃,而应被"复兴"。只要解决效率问题,基于 CPA 的模型可以超越绕过 CPA 的 SOTA 图模型。这是一个大胆且逆主流的论点。

方法详解

整体框架

KAFNet 由四个模块构成: 1. Pre-Convolution:平滑 CPA 后的稀疏序列,注入时间嵌入 2. Temporal Kernel Aggregation (TKA):用可学习高斯核压缩长序列为固定长度表示 3. Frequency Linear Attention (FLA) Blocks:在频域中用线性注意力建模跨变量依赖 4. Output Layer:MLP 生成查询特定的预测

关键设计

  1. Pre-Convolution 序列平滑:CPA 的零填充导致序列信息分布极不均匀——观测位置有值,大量填充位置为零。直接将这种稀疏序列送入复杂模型会导致学习困难。因此先用两层轻量卷积平滑序列:

    \(\tilde{x}^n = \text{Conv}_{1\times 1}(\sigma(\text{Conv}_{1\times 3}(x^n))) \in \mathbb{R}^L\)

同时,由于 CPA 生成的时间网格索引不再反映真实的时间间隔,引入连续时间嵌入:

$\text{TE}(t) = [w_s t + b_s \oplus \sin(\mathbf{w}_p t + \mathbf{b}_p) \oplus \cos(\mathbf{w}_c t + \mathbf{b}_c)]$

将卷积特征与时间嵌入相加得到时间感知表示 \(\hat{x}^n = \tilde{x}^n + \mathbf{w}_t^\top \text{TE}(\mathbf{t}^n)\)

设计动机:3×1 卷积利用局部邻域信息"扩散"观测值到零填充位置,缓解稀疏性;时间嵌入恢复了被 CPA 破坏的真实时间距离信息。

  1. 时间核聚合(TKA):这是解决 CPA 序列膨胀的核心模块。将每个变量的长序列 \(\hat{x}^n \in \mathbb{R}^L\) 压缩为固定长度 \(K\) 的表示。

具体做法:在 min-max 归一化后的时间轴 \([0,1]\) 上放置 \(K\) 个等间距高斯核 \(\{c_k, \sigma_k\}\),带宽 \(\sigma_k\) 可学习。每个时刻 \(\hat{t}_l^n\) 到第 \(k\) 个核的权重为:

$w_{l,k}^n = \exp\left[-\frac{1}{2}(\hat{t}_l^n - c_k)^2 / \sigma_k^2\right] \cdot m_l^n$

其中 \(m_l^n\) 是 CPA 的 mask(仅对实际观测有贡献)。归一化后加权聚合:

$h_k^n = \sum_{l=1}^{L} a_{l,k}^n \hat{x}_l^n, \quad a_{l,k}^n = \frac{w_{l,k}^n}{\sum_j w_{j,k}^n}$

通过门控 \(\tilde{\mathbf{h}}^n = \text{Sigmoid}(\mathbf{g}) \odot \mathbf{h}^n\) 和线性投影得到 \(\mathbf{z}^n \in \mathbb{R}^d\)

设计动机: - 高斯核形成时间轴上的"软时间码本"——每个核覆盖一个时间区域,按亲和度对该区域内的观测加权聚合 - mask 机制确保零填充位置不参与聚合,只有真实观测贡献 - 压缩后长度 \(K\) 与原始长度 \(L\) 无关,彻底解决了 CPA 的序列膨胀问题 - 可学习带宽允许核自适应调整覆盖范围——稠密区域用窄核细粒度建模,稀疏区域用宽核平滑

  1. 频域线性注意力(FLA):TKA 将每个变量压缩为 \(\mathbf{z}^n \in \mathbb{R}^d\),拼接成 \(\mathbf{Z} \in \mathbb{R}^{N \times d}\)。FLA block 在频域中建模跨变量依赖:

先对 \(\mathbf{Z}\) 做 rFFT 转换到频域 \(\mathbf{C} \in \mathbb{R}^{N \times 2d_f}\),然后对 \(\mathbf{C}\) 做多头注意力,最后 irFFT 回到时域。关键创新是用 随机傅里叶特征(RFF) 近似 softmax 核,实现线性复杂度注意力:

$\phi(\mathbf{x}) = \frac{1}{\sqrt{R}} [\cos(\mathbf{\Omega}^\top \mathbf{x} + \mathbf{b}), \sin(\mathbf{\Omega}^\top \mathbf{x} + \mathbf{b})] \in \mathbb{R}^R$

$\mathbf{O}^{(h)} = \frac{\phi(\mathbf{Q}^{(h)})(\phi(\mathbf{K}^{(h)})^\top \mathbf{V}^{(h)})}{\phi(\mathbf{Q}^{(h)})(\phi(\mathbf{K}^{(h)})^\top)}$

堆叠多层 FLA block,每层包含 attention + FFN + 残差连接。

设计动机: - 频域变换:捕获周期性和全局信息更自然,且 rFFT/irFFT 的\(O(Nd\log d)\)复杂度远低于时域全注意力 - RFF 线性化:标准 softmax attention 对变量数 \(N\)\(O(N^2)\),在变量多时不可行;RFF 近似将复杂度降为 \(O(NR)\) - 与 CPA 的协同:CPA 已将所有变量对齐到统一时间轴,FLA 可以直接在所有变量间交换信息,而图模型无法做到这一点

损失函数 / 训练策略

\[\mathcal{L} = \frac{1}{N} \sum_{n=1}^{N} \frac{1}{Q_n} \sum_{j=1}^{Q_n} (\hat{x}_j^n - x_j^n)^2\]

标准 MSE 损失,Adam 优化器。Output Layer 为 3 层 MLP,将变量表示与查询时间嵌入拼接后预测标量值:\(\hat{x}_j^n = \text{MLP}(\mathbf{H}^n \oplus \text{TE}(q_j^n))\)

计算复杂度:总复杂度 \(\Omega = N[(4d+3K)L + Kd + (Q+3)d^2 + 2d(\log d + R)]\),对 \(L\)\(N\) 均为线性。TKA 压缩后,FLA 和输出层完全与序列长度 \(L\) 无关。

实验关键数据

主实验

在 PhysioNet(41变量)、MIMIC(96变量)、Human Activity(12变量)、USHCN(5变量) 四个 IMTS 数据集上,与 23 个基线比较:

方法 PhysioNet MAE(×10⁻²) MIMIC MSE(×10⁻²) Human Activity MSE(×10⁻³) USHCN MAE(×10⁻¹) 平均排名
KAFNet 3.52 1.59 2.54 2.99 1.6
tPatchGNN 3.72 1.69 2.66 3.08 2.4
GraFITi* 3.73 1.71 2.73 3.09 3.8
tPatchGNN* 3.89 1.71 2.76 3.09 5.4
Warpformer 4.21 1.73 2.79 3.23 6.9
TimeCHEAT* 3.89 1.70 4.06 3.10 6.8
DLinear 15.52 4.90 4.03 3.88 20.9

KAFNet 平均排名 1.6,显著优于所有基线(Friedman + Nemenyi 检验通过 \(\alpha=0.05\))。

消融实验

配置 PhysioNet MSE(×10⁻³) MIMIC MSE(×10⁻²) Human Activity MSE(×10⁻³) USHCN MSE(×10⁻¹)
KAFNet (完整) 5.88 1.59 2.54 4.98
w/o CPA 6.21 1.69 2.70 5.04
w/o Pre-Conv 6.42 1.62 2.66 5.06
w/o T-Norm 6.37 1.73 2.66 5.14
w/o TKA 6.95 1.74 4.21 5.07
w/o FLA 6.26 1.79 2.71 5.23
w/o FLA & w/ SA 6.08 1.67 2.57 5.20

效率对比(MIMIC 数据集):

指标 KAFNet tPatchGNN GraFITi TimeCHEAT HyperIMTS
Parameters 5K 36K 180K+ 100K+ 50K+
FLOPs 0.38B 数B级 数B级 数B级 数B级

KAFNet 实现 7.2× 参数减少和 8.4× 训练推理加速。

关键发现

  1. CPA 核心不可或缺:w/o CPA 在所有数据集上一致下降,证明了 CPA 在缓解变量间异步方面的关键作用
  2. TKA 对高维 IMTS 至关重要:w/o TKA 在 Human Activity 上 MSE 从 2.54 飙升到 4.21(+66%),因为没有压缩的长序列会严重影响下游建模
  3. FLA 优于 SA:将 FLA 替换为标准 softmax attention 后性能下降,FLA 的频域变换+RFF 近似在效率和表达力上都更优
  4. FLA 注意力图动态范围更大:可视化显示 FLA 的注意力分数跨越几乎整个色阶,而 SA 集中在窄带低值区,说明 FLA 能更精确地选择性放大/抑制跨变量依赖

亮点与洞察

  • 逆潮流论点的成功验证:"复兴 CPA"在图模型主导的 IMTS 领域是一个大胆的立场,实验结果充分支持了这一论点
  • TKA 的"软时间码本":高斯核聚合在概念上类似于 soft attention 但更轻量,可推广到其他需要不规则时间建模的场景
  • 极致轻量:仅 5K 参数就超越了数十倍规模的图模型,证明了"对的归纳偏置 > 更多参数"
  • Pre-Conv 和 T-Norm 可迁移:这两个架构无关的设计可被其他 IMTS 模型直接采用

局限与展望

  1. 仅限预测任务:未评估分类、插值、异常检测等其他 IMTS 下游任务
  2. 数据集领域有限:4 个数据集覆盖医疗、生物力学、气候,缺少交通和能源等更大规模场景
  3. 高斯核数量需调优:核数过多会导致重叠过度,需在精度和效率间折中
  4. 未来方向:扩展到 IMTS 分类、插值和异常检测;在大规模交通/能源 IMTS 上评估

相关工作与启发

  • tPatchGNN:本文的主要对标。tPatchGNN 通过 patch 绕过 CPA,但 rigid patch 会扭曲局部时间模式;KAFNet 保留 CPA 并用 TKA 压缩,更好地保留了全局对齐信息
  • FiLM / FNet 系列:频域变换在 NLP 和图像中已有成功应用,本文将其引入 IMTS 的跨变量建模中
  • 线性注意力:Performer 等用核近似降低注意力复杂度,本文选用 RFF 近似并在频域中操作,是一种有效的组合

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — "复兴 CPA"的反直觉论点+TKA+FLA 三模块设计极具创新性
  • 实验充分度: ⭐⭐⭐⭐ — 23 个基线、全面消融、效率分析、注意力可视化,但数据集可再扩展
  • 写作质量: ⭐⭐⭐⭐⭐ — 论点清晰,动机论证有力,图示精美
  • 价值: ⭐⭐⭐⭐⭐ — 在 IMTS 预测领域提供了范式转变的证据,实用价值极高