Enhancing Multivariate Time Series Forecasting with Global Temporal Retrieval¶
会议: ICLR 2026
arXiv: 2602.10847
代码: https://github.com/macovaseas/GTR
领域: 视频理解 / 时间序列预测
关键词: 时间序列预测, 全局周期性, 检索增强, 即插即用模块, 2D卷积
一句话总结¶
提出 Global Temporal Retriever(GTR),一个轻量级即插即用模块,通过维护自适应全局周期嵌入并利用绝对时间索引检索对齐全局周期信息,使任意预测模型突破回看窗口限制,有效捕获远超输入长度的全局周期模式。
研究背景与动机¶
全局周期性的重要性:真实时间序列常包含多尺度周期模式(日、周、月、季节),全局周期信号往往比局部相邻模式包含更强的预测信号。例如 Electricity 数据集中,远距离全局周期段的 Pearson 相关性(0.96)高于相邻局部周期段(0.94, 0.88)
回看窗口限制:现有方法(分解、频域、重塑等)均在固定回看窗口内操作,当全局周期长度远超输入长度时,模型对全局模式"视而不见"
暴力扩展窗口不可行:简单增大输入长度会导致过拟合噪声、计算/内存开销激增、难以从冗余信息中提取有效信号
现有方法的局限:季节-趋势分解方法受限于窗口内的分解精度;频域方法在稳态周期假设下工作良好但难处理长周期非平稳现象;检索增强方法依赖相似度搜索质量且未提供紧凑的时间对齐表示
方法详解¶
整体框架¶
GTR 分两阶段运作:(1) GTR 模块从全局时序嵌入中动态检索周期信息并通过 2D 卷积与输入融合;(2) 增强后的表示送入骨干模型(MLP)完成最终预测。核心创新在于维护一个覆盖整个周期的可学习全局参数矩阵。
关键设计¶
1. 全局时序嵌入
- 功能:引入可学习参数矩阵 \(\mathbf{Q} \in \mathbb{R}^{L \times N}\)(L为全局周期长度,N为变量数),初始化为零,在训练中自动学习各变量的全局周期模式
- 核心思路:通过绝对时间索引精确定位输入序列在全局周期中的位置,检索对应的全局时序参考
- 设计动机:直接编码整个周期的时序结构,使模型无需扩大输入窗口即可访问全局周期信息
2. 周期信息对齐(Cycle Information Alignment)
- 功能:计算周期索引向量 \(\mathbf{i} = [(t_0 \bmod L) + \tau] \bmod L\),从全局嵌入中检索对应片段并通过线性变换增强
- 核心思路:利用输入序列的绝对起始时间 \(t_0\) 计算其在全局周期中的位置,然后将原始输入与检索的全局参考堆叠为 2×T 的 2D 表示
- 设计动机:建立输入序列与全局周期结构之间的精确位置对齐,使模型能感知"此刻在全局周期中处于什么阶段"
3. 时序模式提取(2D 卷积融合)
- 功能:对堆叠的局部-全局 2D 表示 \(\mathbf{F}_n \in \mathbb{R}^{2 \times T}\) 应用 2D 卷积 \(\mathcal{C}(\mathbf{F}_n; \kappa=(2, 1+2\lfloor P/2 \rfloor))\),其中 P 为主导高频周期长度
- 核心思路:卷积核高度为 2(跨越局部和全局两个尺度),宽度由主导周期 P 决定,同时捕获局部-全局交互和周期内模式
- 设计动机:2D 卷积自然适合建模两个时间尺度间的交互,残差连接 \(\mathbf{z}_n = \mathbf{x}_n + \text{Dropout}(\mathbf{h}_n)\) 保留原始信息
4. 即插即用集成
- 功能:GTR 保持输入维度不变,输出直接送入任意骨干模型,支持端到端训练
- 核心思路:模块化设计,与 iTransformer、PatchTST、DLinear 等不同架构无缝集成
- 设计动机:最大化通用性,无需修改宿主模型架构
损失函数 / 训练策略¶
- 标准 MSE 损失,端到端训练
- 使用 RevIN(Reversible Instance Normalization)处理分布偏移
- Adam 优化器,学习率从 {1e-3, 3e-3, 5e-4} 中选取
- MLP 骨干隐藏维度 D=512
实验关键数据¶
主实验¶
长期预测(T=96, S∈{96,192,336,720}平均):
| 模型 | ETTh1 MSE | ETTm1 MSE | Electricity MSE | Solar MSE | Weather MSE | Top-2 次数 |
|---|---|---|---|---|---|---|
| GTR (Ours) | 0.439 | 0.367 | 0.166 | 0.194 | 0.239 | 10/16 |
| RAFT | 0.428 | 0.381 | 0.175 | 0.301 | 0.270 | 3/16 |
| TQNet | 0.441 | 0.377 | 0.164 | 0.198 | 0.242 | 7/16 |
| CycleNet | 0.457 | 0.379 | 0.168 | 0.210 | 0.243 | 3/16 |
短期预测(PEMS 数据集, T=96, S∈{12,24,48,96}平均):
| 模型 | PEMS03 | PEMS04 | PEMS07 | PEMS08 | Top-2 次数 |
|---|---|---|---|---|---|
| GTR (Ours) | 0.087 | 0.087 | 0.076 | 0.142 | 8/8 |
| TQNet | 0.097 | 0.091 | 0.075 | 0.142 | 7/8 |
| iTransformer | 0.113 | 0.111 | 0.101 | 0.150 | 0/8 |
消融实验¶
| 模型 + GTR Tech. | Electricity MSE 改善 | Weather MSE 改善 |
|---|---|---|
| iTransformer + GTR | 显著改善 | 显著改善 |
| PatchTST + GTR | 显著改善 | 显著改善 |
| DLinear + GTR | 显著改善 | 显著改善 |
GTR 作为即插即用模块在不同骨干上均带来一致提升,验证了其通用性。
关键发现¶
- 全局周期建模至关重要:GTR 在 Solar-Energy 数据集上超越 CycleNet 8.2% MSE,因为该数据集具有强烈的长期周期模式
- 短期预测上优势更明显:PEMS 全部 8 个任务均达到 Top-2,相比 iTransformer 平均降低 18.7% MSE
- 跨模型通用性:GTR 技术在 iTransformer、PatchTST、DLinear 等不同架构上均带来一致提升
- Traffic 数据集的局限:由于强时空依赖和时延效应,GTR 在 Traffic 上不如专门建模变量间关系的模型(S-Mamba, SOFTS)
亮点与洞察¶
- 核心洞察:全局周期的预测信号强于局部相邻模式(用 Pearson 相关矩阵定量验证),但被固定窗口遮蔽
- 设计极简而有效:仅一个可学习矩阵 + 绝对时间索引 + 2D 卷积,参数和计算开销极小
- 即插即用特性使 GTR 具有广泛实用价值,可直接提升现有预测系统的性能
- 复杂度分析清晰:总复杂度 \(O(NT^2 + Nd^2 + NTd + NSd)\),关于变量数 N 和预测长度 S 线性
局限与展望¶
- 全局周期长度 L 需要预先指定:对于周期长度未知或变化的时间序列,需要自动周期检测机制
- 对强空间依赖数据表现不佳:Traffic 数据集的结果表明 GTR 未充分建模变量间关系
- 全局嵌入是静态的:一旦训练完成,全局周期模式固定,对概念漂移或周期变化的适应需要重新训练
- MLP 骨干的选择:虽然验证了跨模型通用性,但骨干模型选择对最终性能仍有影响
- 缺少对非周期性或弱周期性时间序列的分析
相关工作与启发¶
- CycleNet:显式学习循环周期结构,但受限于观测窗口——GTR 通过全局嵌入突破此限制
- TimesNet:将 1D 序列变换为 2D 张量建模周期内和周期间变化——GTR 的 2D 卷积思路与之类似但直接建模局部-全局交互
- 检索增强预测(RAFT 等):通过检索历史相似片段扩大上下文——GTR 用紧凑的全局嵌入替代显式检索,更高效且时间对齐
- 思路可推广至视频理解:视频中的周期性动作识别也面临"局部窗口看不到全局周期"的类似问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 全局周期嵌入 + 绝对时间索引的组合简洁新颖,但整体理念比较直观
- 实验充分度: ⭐⭐⭐⭐⭐ 6个数据集、长短期预测、跨模型消融、复杂度分析非常全面
- 写作质量: ⭐⭐⭐⭐ 动机可视化(Pearson 矩阵)直观有力,方法描述清晰
- 价值: ⭐⭐⭐⭐ 即插即用设计具有很高实用价值,但贡献集中在工程层面