TimePerceiver: An Encoder-Decoder Framework for Generalized Time-Series Forecasting¶

会议: NeurIPS 2025
arXiv: 2512.22550
代码: GitHub
领域: 时间序列
关键词: 时间序列预测, 编码器-解码器, 潜在瓶颈, 广义预测公式, 交叉注意力

一句话总结¶

提出 TimePerceiver 统一编码器-解码器框架，通过广义化预测任务（同时包含外推、插值和填补）以及潜在瓶颈编码器 + 查询式解码器设计，在 8 个标准基准上取得全面 SOTA。

研究背景与动机¶

时间序列预测领域近年来涌现了大量新架构（Transformer、CNN、MLP、SSM），但这些工作过度聚焦于编码器设计，而忽略了两个同样重要的方面：

解码策略粗糙：大多数方法直接用线性投影从编码表示预测未来值，难以充分捕获复杂的时序结构

训练策略与架构脱节：受 BERT 启发的预训练-微调（mask-and-reconstruct → forecasting）两阶段训练存在目标不对齐问题——预训练学的是重建，但最终目标是预测

此外，通道独立模型（如 PatchTST）简单鲁棒但忽略了跨通道交互，而通道依赖模型（如 iTransformer、CARD）虽然建模了交互但计算成本高且效果不稳定。

核心创新思路：将标准预测任务（从过去连续观测预测未来连续值）广义化为在时间轴上的任意位置进行预测（外推+插值+填补），使训练过程自然对齐预测目标，消除两阶段训练的需求。

方法详解¶

整体框架¶

TimePerceiver 由三部分组成：(1) 基于 Patch 的嵌入构建；(2) 带有潜在瓶颈的编码器，联合建模时序和跨通道依赖；(3) 基于查询的解码器，根据目标时间戳选择性检索相关信息。

关键设计¶

广义预测公式：将标准预测 \(f_\theta(\mathbf{X}_{\text{past}}) \to \mathbf{X}_{\text{future}}\) 推广为对任意时间索引子集的预测。给定输入索引 \(\mathcal{I}\) 和目标索引 \(\mathcal{J} = \{1,...,T\} \setminus \mathcal{I}\)：

\(\hat{\mathbf{X}}_{\mathcal{J}} = g_\theta(\mathbf{X}_{\mathcal{I}}, \mathcal{I}, \mathcal{J})\)

训练时随机采样输入-目标分割，涵盖外推（预测未来）、插值（预测中间缺失）和填补（预测过去缺失）三种任务。标准预测只是这个广义公式的特例。这使模型在单轮端到端训练中就能学到深层的时序动态理解。

潜在瓶颈编码器：引入 \(M\) 个可学习的潜在 token \(\mathbf{Z}^{(0)} \in \mathbb{R}^{M \times D}\)（\(M \ll C|\mathcal{I}_{\text{patch}}|\)），通过三步瓶颈过程编码输入：
- 压缩：潜在 token 通过交叉注意力从输入 token 收集上下文信息 \(\mathbf{Z}^{(1)} = \text{AttnBlock}(\mathbf{Z}^{(0)}, \mathbf{H}^{(0)})\)
- 精炼：\(K\) 层自注意力在潜在空间内相互作用 \(\mathbf{Z}^{(k+1)} = \text{AttnBlock}(\mathbf{Z}^{(k)}, \mathbf{Z}^{(k)})\)
- 回传：更新后的潜在 token 反向增强输入 token \(\mathbf{H}^{(1)} = \text{AttnBlock}(\mathbf{H}^{(0)}, \mathbf{Z}^{(K+1)})\)

复杂度从全注意力的 \(\mathcal{O}(N^2)\) 降为 \(\mathcal{O}(NM)\)，同时选择性保留时序和跨通道关键模式。

查询式解码器：利用目标 patch 对应的位置嵌入（时间位置 + 通道位置）构建查询 \(\mathbf{Q}^{(0)}\)，通过交叉注意力从编码输出中检索相关信息：

\(\mathbf{Q}^{(1)} = \text{AttnBlock}(\mathbf{Q}^{(0)}, \mathbf{H}^{(1)})\)

最终通过线性投影 \(\hat{\mathbf{X}}_{\mathcal{P}_j, c} = \mathbf{Q}^{(1)}_{c,j} \mathbf{W}_{\text{output}}\) 生成预测值。这种设计自然适配广义预测公式——无论目标位置在哪，解码器都能通过位置查询获取正确的上下文。

损失函数 / 训练策略¶

端到端训练，使用 MSE 损失：

\[\mathcal{L} = \frac{1}{|\mathcal{J}|C} \sum_{j \in \mathcal{J}} \|\hat{\mathbf{x}}_j - \mathbf{x}_j\|_2^2\]

训练时随机采样输入-目标索引分割，无需预训练阶段。输入长度从 \(\{96, 384, 768\}\) 中变化以增强泛化性。

实验关键数据¶

主实验（8 个数据集，MSE 平均值，\(L\) 在 96/384/768 上平均）¶

数据集	TimePerceiver	DeformableTST	CARD	PatchTST	iTransformer	提升(vs次优)
Weather	0.227	0.233	0.247	0.236	0.244	-2.6%
Solar	0.198	0.199	0.228	0.234	0.214	-0.5%
Electricity	0.161	0.169	0.174	0.177	0.175	-4.7%
Traffic	0.407	0.410	0.426	0.430	0.424	-0.7%
ETTh1	0.410	0.413	0.430	0.438	0.461	-0.7%
ETTh2	0.344	0.336	0.355	0.356	0.390	—
ETTm1	0.347	0.358	0.368	0.365	0.386	-3.1%
ETTm2	0.261	0.267	0.268	0.273	0.281	-2.2%
Rank	1.375	2.525	4.975	5.450	6.475	—

80 个指标中取得 55 个最优、17 个次优。

消融实验¶

公式/编码器/PE策略	ETTh1 MSE	ETTm1 MSE	Solar MSE	ECL MSE
标准公式 + 潜在瓶颈	0.420	0.355	0.194	0.169
广义公式 + 潜在瓶颈	0.404	0.338	0.182	0.157
广义公式 + 全自注意力	0.425	0.353	0.192	0.161
广义公式 + 解耦自注意力	0.423	0.356	0.189	0.158
广义公式 + 不共享 PE	0.423	0.342	0.193	0.163

关键发现¶

广义公式比标准公式全面更优：平均 MSE 改善 5.0%，MAE 改善 3.4%，说明暴露于更多样的时序推理任务有助于泛化
潜在瓶颈优于全注意力：瓶颈不仅计算高效，还通过信息压缩迫使模型学习更本质的模式
广义公式具有通用性：应用于 PatchTST 编码器 + 查询解码器的组合同样带来提升（ETTh1 MSE: 0.423→0.415）
通道共享 PE 优于不共享：共享位置编码使模型更好地利用跨通道的位置信息

亮点与洞察¶

视角转换：不再只关注"更好的编码器"，而是从训练目标和解码器设计角度系统思考预测问题
广义公式的优雅性：通过随机采样输入-目标分割，将预训练和预测训练统一为一个过程，消除了两阶段训练的复杂性
瓶颈机制的双重作用：既降低计算成本又起了类似正则化的作用，提升泛化

局限与展望¶

广义公式的随机采样策略可能需要更多训练 epoch 收敛
查询解码器增加了额外的交叉注意力计算，比纯线性投影慢
目前仅在固定 patch 大小设置下评估，未探索自适应 patch 策略
在通道极多（如 Traffic 862 通道）时瓶颈大小选择对结果影响较大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 广义预测公式 + 瓶颈编码器 + 查询解码器的统一框架非常新颖
实验充分度: ⭐⭐⭐⭐⭐ 8 数据集、多输入长度、详尽消融、与 9 个基线全面比较
写作质量: ⭐⭐⭐⭐⭐ 动机论述充分、公式清晰、图示直观
价值: ⭐⭐⭐⭐⭐ 在竞争激烈的时序预测领域建立了新 SOTA，思路可推广