TimePerceiver: An Encoder-Decoder Framework for Generalized Time-Series Forecasting¶
会议: NeurIPS 2025
arXiv: 2512.22550
代码: GitHub
领域: 时间序列
关键词: 时间序列预测, 编码器-解码器, 潜在瓶颈, 广义预测公式, 交叉注意力
一句话总结¶
提出 TimePerceiver 统一编码器-解码器框架,通过广义化预测任务(同时包含外推、插值和填补)以及潜在瓶颈编码器 + 查询式解码器设计,在 8 个标准基准上取得全面 SOTA。
研究背景与动机¶
时间序列预测领域近年来涌现了大量新架构(Transformer、CNN、MLP、SSM),但这些工作过度聚焦于编码器设计,而忽略了两个同样重要的方面:
解码策略粗糙:大多数方法直接用线性投影从编码表示预测未来值,难以充分捕获复杂的时序结构
训练策略与架构脱节:受 BERT 启发的预训练-微调(mask-and-reconstruct → forecasting)两阶段训练存在目标不对齐问题——预训练学的是重建,但最终目标是预测
此外,通道独立模型(如 PatchTST)简单鲁棒但忽略了跨通道交互,而通道依赖模型(如 iTransformer、CARD)虽然建模了交互但计算成本高且效果不稳定。
核心创新思路:将标准预测任务(从过去连续观测预测未来连续值)广义化为在时间轴上的任意位置进行预测(外推+插值+填补),使训练过程自然对齐预测目标,消除两阶段训练的需求。
方法详解¶
整体框架¶
TimePerceiver 由三部分组成:(1) 基于 Patch 的嵌入构建;(2) 带有潜在瓶颈的编码器,联合建模时序和跨通道依赖;(3) 基于查询的解码器,根据目标时间戳选择性检索相关信息。
关键设计¶
-
广义预测公式:将标准预测 \(f_\theta(\mathbf{X}_{\text{past}}) \to \mathbf{X}_{\text{future}}\) 推广为对任意时间索引子集的预测。给定输入索引 \(\mathcal{I}\) 和目标索引 \(\mathcal{J} = \{1,...,T\} \setminus \mathcal{I}\):
\(\hat{\mathbf{X}}_{\mathcal{J}} = g_\theta(\mathbf{X}_{\mathcal{I}}, \mathcal{I}, \mathcal{J})\)
训练时随机采样输入-目标分割,涵盖外推(预测未来)、插值(预测中间缺失)和填补(预测过去缺失)三种任务。标准预测只是这个广义公式的特例。这使模型在单轮端到端训练中就能学到深层的时序动态理解。
-
潜在瓶颈编码器:引入 \(M\) 个可学习的潜在 token \(\mathbf{Z}^{(0)} \in \mathbb{R}^{M \times D}\)(\(M \ll C|\mathcal{I}_{\text{patch}}|\)),通过三步瓶颈过程编码输入:
- 压缩:潜在 token 通过交叉注意力从输入 token 收集上下文信息 \(\mathbf{Z}^{(1)} = \text{AttnBlock}(\mathbf{Z}^{(0)}, \mathbf{H}^{(0)})\)
- 精炼:\(K\) 层自注意力在潜在空间内相互作用 \(\mathbf{Z}^{(k+1)} = \text{AttnBlock}(\mathbf{Z}^{(k)}, \mathbf{Z}^{(k)})\)
- 回传:更新后的潜在 token 反向增强输入 token \(\mathbf{H}^{(1)} = \text{AttnBlock}(\mathbf{H}^{(0)}, \mathbf{Z}^{(K+1)})\)
复杂度从全注意力的 \(\mathcal{O}(N^2)\) 降为 \(\mathcal{O}(NM)\),同时选择性保留时序和跨通道关键模式。
-
查询式解码器:利用目标 patch 对应的位置嵌入(时间位置 + 通道位置)构建查询 \(\mathbf{Q}^{(0)}\),通过交叉注意力从编码输出中检索相关信息:
\(\mathbf{Q}^{(1)} = \text{AttnBlock}(\mathbf{Q}^{(0)}, \mathbf{H}^{(1)})\)
最终通过线性投影 \(\hat{\mathbf{X}}_{\mathcal{P}_j, c} = \mathbf{Q}^{(1)}_{c,j} \mathbf{W}_{\text{output}}\) 生成预测值。这种设计自然适配广义预测公式——无论目标位置在哪,解码器都能通过位置查询获取正确的上下文。
损失函数 / 训练策略¶
端到端训练,使用 MSE 损失:
训练时随机采样输入-目标索引分割,无需预训练阶段。输入长度从 \(\{96, 384, 768\}\) 中变化以增强泛化性。
实验关键数据¶
主实验(8 个数据集,MSE 平均值,\(L\) 在 96/384/768 上平均)¶
| 数据集 | TimePerceiver | DeformableTST | CARD | PatchTST | iTransformer | 提升(vs次优) |
|---|---|---|---|---|---|---|
| Weather | 0.227 | 0.233 | 0.247 | 0.236 | 0.244 | -2.6% |
| Solar | 0.198 | 0.199 | 0.228 | 0.234 | 0.214 | -0.5% |
| Electricity | 0.161 | 0.169 | 0.174 | 0.177 | 0.175 | -4.7% |
| Traffic | 0.407 | 0.410 | 0.426 | 0.430 | 0.424 | -0.7% |
| ETTh1 | 0.410 | 0.413 | 0.430 | 0.438 | 0.461 | -0.7% |
| ETTh2 | 0.344 | 0.336 | 0.355 | 0.356 | 0.390 | — |
| ETTm1 | 0.347 | 0.358 | 0.368 | 0.365 | 0.386 | -3.1% |
| ETTm2 | 0.261 | 0.267 | 0.268 | 0.273 | 0.281 | -2.2% |
| Rank | 1.375 | 2.525 | 4.975 | 5.450 | 6.475 | — |
80 个指标中取得 55 个最优、17 个次优。
消融实验¶
| 公式/编码器/PE策略 | ETTh1 MSE | ETTm1 MSE | Solar MSE | ECL MSE |
|---|---|---|---|---|
| 标准公式 + 潜在瓶颈 | 0.420 | 0.355 | 0.194 | 0.169 |
| 广义公式 + 潜在瓶颈 | 0.404 | 0.338 | 0.182 | 0.157 |
| 广义公式 + 全自注意力 | 0.425 | 0.353 | 0.192 | 0.161 |
| 广义公式 + 解耦自注意力 | 0.423 | 0.356 | 0.189 | 0.158 |
| 广义公式 + 不共享 PE | 0.423 | 0.342 | 0.193 | 0.163 |
关键发现¶
- 广义公式比标准公式全面更优:平均 MSE 改善 5.0%,MAE 改善 3.4%,说明暴露于更多样的时序推理任务有助于泛化
- 潜在瓶颈优于全注意力:瓶颈不仅计算高效,还通过信息压缩迫使模型学习更本质的模式
- 广义公式具有通用性:应用于 PatchTST 编码器 + 查询解码器的组合同样带来提升(ETTh1 MSE: 0.423→0.415)
- 通道共享 PE 优于不共享:共享位置编码使模型更好地利用跨通道的位置信息
亮点与洞察¶
- 视角转换:不再只关注"更好的编码器",而是从训练目标和解码器设计角度系统思考预测问题
- 广义公式的优雅性:通过随机采样输入-目标分割,将预训练和预测训练统一为一个过程,消除了两阶段训练的复杂性
- 瓶颈机制的双重作用:既降低计算成本又起了类似正则化的作用,提升泛化
局限与展望¶
- 广义公式的随机采样策略可能需要更多训练 epoch 收敛
- 查询解码器增加了额外的交叉注意力计算,比纯线性投影慢
- 目前仅在固定 patch 大小设置下评估,未探索自适应 patch 策略
- 在通道极多(如 Traffic 862 通道)时瓶颈大小选择对结果影响较大
相关工作与启发¶
TimePerceiver 的名字和架构灵感来自 Perceiver 系列(DeepMind),将潜在瓶颈思想引入时序领域。广义预测公式可视为 BERT 式预训练与预测任务的统一,为时序基础模型的训练范式提供了新思路。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 广义预测公式 + 瓶颈编码器 + 查询解码器的统一框架非常新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 8 数据集、多输入长度、详尽消融、与 9 个基线全面比较
- 写作质量: ⭐⭐⭐⭐⭐ 动机论述充分、公式清晰、图示直观
- 价值: ⭐⭐⭐⭐⭐ 在竞争激烈的时序预测领域建立了新 SOTA,思路可推广