Beyond Extrapolation: Knowledge Utilization Paradigm with Bidirectional Inspiration for Time Series Forecasting¶
会议: ICML 2026
arXiv: 2605.19249
代码: 待确认
领域: 时间序列预测
关键词: 时间序列预测, 检索增强, 后目标延续, 双向启发, 门控融合
一句话总结¶
提出 KUP-BI 框架,从训练集中构建"后目标延续"知识库,通过比率式变换检索相似历史轨迹的延续模式,生成延续风格辅助流并与主干网络特征门控融合,在 6 个数据集、4 种骨干架构上一致提升长时预测性能。
研究背景与动机¶
领域现状:时间序列预测广泛应用于能源、交通、金融等场景,主流深度学习方法(Transformer、MLP、CNN 等)均遵循单向推理范式——将历史序列映射到未来目标序列。
现有痛点:单向外推在长时预测中容易出现误差累积和趋势漂移。部分近期工作(如 RAFT)尝试从训练集检索目标段作为辅助信息,但目标段与监督信号高度对齐,训练时容易成为过强的捷径(shortcut),损害泛化能力。
核心矛盾:训练数据中天然存在"历史 → 目标 → 后目标延续"三段链结构,但现有方法只利用了前两段。后目标延续段(post-target continuation)与目标段共享同一动态系统,但在时间上与目标段解耦,提供的是更弱但更可迁移的演化线索。
本文目标:在推理时无法观测后目标延续的前提下,从训练集中蒸馏出延续风格的结构化先验,注入到标准预测骨干中。
切入角度:将后目标延续相对于历史的变化表示为比率(ratio),检索相似历史的比率模式并施加到当前输入,即可生成当前输入的近似后目标延续代理。
核心 idea:用检索+比率变换从训练集构建延续风格辅助流,与原始输入流门控融合,实现"双向启发"式预测。
方法详解¶
整体框架¶
KUP-BI 的 pipeline 分为三个阶段:(1) 从训练集构建仅训练时使用的检索库;(2) 给定新输入,逐通道检索相似历史并聚合其比率变换,生成延续风格辅助信号 \(\mathbf{Z}\);(3) 将 \(\mathbf{Z}\) 与原始输入 \(\mathbf{X}\) 分别提取特征后通过轻量门控模块融合,送入不做修改的预测骨干。整个过程不引入训练集之外的额外信息,仅提供结构化归纳偏置。
关键设计¶
- 比率式检索库构建:
对训练集中每条轨迹提取三段链 \((\mathbf{H}, \mathbf{Y}, \mathbf{F})\)(历史、目标、后目标延续),计算后目标延续相对于历史的比率表示:
$\(\mathbf{R} = (\mathbf{F} - \mathbf{H}) \oslash (\mathbf{H} + \epsilon \, \text{sign}(\mathbf{H}))\)$
其中 \(\oslash\) 为逐元素除法,\(\epsilon\) 为数值稳定项。这种比率表示描述了延续段相对于历史的相对变化(幅度缩放、季节性增减等),比残差表示更具尺度不变性。历史段经最后一步偏移(last-step offsetting)去除局部水平差异后作为检索键,与比率矩阵 \(\mathbf{R}\) 配对存入库 \(\mathcal{D} = \{(\tilde{\mathbf{H}}_j, \mathbf{R}_j)\}_{j=1}^N\)。检索阶段按逐通道 Pearson 相关性选取 Top-\(k\) 候选,通过温度控制的 softmax 加权聚合各候选的比率列,再经分位数-\(\tanh\) 裁剪抑制极端值,最终施加到当前输入生成辅助序列 \(\mathbf{Z}\),并做通道均值/标准差对齐。
- 轻量门控融合:
主流 \(\mathbf{X}_\text{main} = \text{Fea}(\mathbf{X})\) 与辅助流 \(\mathbf{X}_\text{aux} = \text{Fea}(\mathbf{Z})\) 通过门控权重 \(\boldsymbol{\gamma}\) 融合:
$\(\widetilde{\mathbf{X}} = \boldsymbol{\gamma} \odot \mathbf{X}_\text{main} + (1 - \boldsymbol{\gamma}) \odot \mathbf{X}_\text{aux}\)$
再经残差权重 \(\alpha\) 做凸组合 \(\mathbf{X}' = \alpha \mathbf{X}_\text{main} + (1 - \alpha) \widetilde{\mathbf{X}}\),保证主流始终占主导地位。门控支持静态(可学习标量 \(g\))和动态(轻量 MLP \(\phi\))两种模式。消融实验表明 \(\alpha\) 是最关键的超参数,去除后 ILI 数据集 MSE 从 1.366 剧增到 1.929。
- 即插即用的骨干无关设计:
KUP-BI 的检索库构建和比率变换均为非参数操作,与骨干完全解耦。同一检索库可复用于不同架构(Transformer / MLP / CNN / 混合)。支持两种接入模式:Plugin-only(仅调 KUP-BI 超参数)和 Joint-tune(与骨干轻量联调),前者已能获得稳定增益。
实验关键数据¶
| 数据集 | 骨干 | 原始 MSE | +KUP-BI (Plugin) MSE | +KUP-BI (Joint) MSE | 最佳相对降幅 |
|---|---|---|---|---|---|
| ETTh2 | DLinear | 0.469 | 0.453 | 0.394 | -16.0% |
| ILI | TimesNet | 2.438 | 2.328 | 2.114 | -13.3% |
| Exchange | DLinear | 0.369 | 0.362 | 0.313 | -15.2% |
| ETTh1 | xPatch | 0.444 | 0.431 | 0.409 | -7.9% |
| ETTm2 | PatchTST | 0.258 | 0.257 | 0.255 | -1.2% |
| ILI | xPatch | 1.383 | 1.366 | 1.365 | -1.3% |
| 消融实验 (xPatch, 全长度平均) | ETTh1 MSE | ETTm1 MSE | ILI MSE |
|---|---|---|---|
| KUP-BI 完整 | 0.431 | 0.352 | 1.366 |
| 去除 \(\alpha\) | 0.457 | 0.412 | 1.929 |
| 随机检索 | 0.443 | 0.352 | 1.378 |
| 直接使用目标段 | 0.466 | 0.352 | 1.382 |
| 拼接替代门控 | 0.411 | 0.388 | 1.713 |
亮点与洞察¶
- 后目标延续 vs 目标段:利用后目标延续而非目标段作为辅助信息,避免训练时对标签邻居的过度依赖,提供更可迁移的结构先验
- 比率 vs 残差:比率式表示具有尺度不变性,在 ETTh1 上 MSE 0.431 vs 残差式 0.488,优势显著
- 弱骨干获益更大:建模能力较弱的 DLinear 从延续辅助信号中获益最多(ETTh2 降幅 16%),强骨干如 xPatch 改进更温和但同样稳定
- 推荐默认超参数:\(\alpha = 0.75\), Top-\(k = 1\), \(\tau = 0.01\)
局限性 / 可改进方向¶
- 当前检索策略未显式处理相位偏移,可能导致检索匹配不精确
- 为充分发挥潜力,KUP-BI 可能需要骨干特定调参,而非完全即插即用,增加训练成本
- 比率变换为启发式设计,未来可探索可学习的编码器替代非参数比率
- 对突发尖峰等极端波动仍难以准确捕捉
相关工作与启发¶
- RAFT (Han et al., 2025):检索目标段辅助预测,但目标段与监督对齐过强;KUP-BI 转用后目标延续段避免该问题
- RAF (Tire et al., 2024):为基础时序模型做检索增强的 prompt,仅在推理时使用
- xPatch (Stitsyuk & Choi, 2025):双流 MLP+CNN 混合骨干,作为实验中的最强 baseline
评分¶
- 新颖性: ⭐⭐⭐⭐ — "后目标延续"视角独特,将训练链条的第三段纳入建模是时序预测领域的新颖切入点
- 实验充分度: ⭐⭐⭐⭐ — 6 数据集 × 4 骨干,含消融、超参敏感度、比率 vs 残差、检索 vs 预测式等全面分析
- 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,动机推导自然,公式符号一致
- 价值: ⭐⭐⭐⭐ — 提供了通用可插拔的增强范式,但绝对增益在强骨干上较有限