跳转至

Abstain Mask Retain Core: Time Series Prediction by Adaptive Masking Loss with Representation Consistency

会议: NeurIPS 2025 (Spotlight)
arXiv: 2510.19980
代码: GitHub
领域: 时间序列预测 / 信息瓶颈
关键词: time series forecasting, information bottleneck, adaptive masking, representation consistency, redundant features

一句话总结

揭示了时间序列预测中"适当截断历史数据反而提升精度"的反直觉现象(冗余特征学习问题),基于信息瓶颈理论提出AMRC方法,通过自适应掩码损失和表征一致性约束来抑制冗余特征学习,作为模型无关的训练框架在多种架构上显著提升性能。

背景与动机

主流时间序列预测模型遵循"长序列信息增益假设"——认为更长的历史输入能提供更多时间依赖信息。然而实验发现一个反直觉现象:适当截断输入序列(如掩码前k个时间步)在超过50%的样本上能降低预测MSE。这说明现有模型在训练过程中学习了大量冗余特征(噪声、无关波动),这些特征不仅无法提升性能,还干扰了有效信号的提取。

核心问题

  1. 为什么更长的历史序列不总是更好?现有模型如何受到冗余特征的影响?
  2. 如何在不手动截断输入的情况下,自动抑制冗余特征的学习?
  3. 能否设计一种模型无关的训练框架来解决这个问题?

方法详解

整体框架

AMRC由两个核心组件组成: 1. 自适应掩码损失 (AML):在训练时动态识别具有高判别力的时间段,引导梯度优化关注信息量最大的输入区域 2. 嵌入相似性惩罚 (ESP):约束输入、标签和预测之间的表征映射关系保持一致性

两者结合形成总训练目标:\(\mathcal{L} = \mathcal{L}_{task} + \alpha \cdot \mathcal{L}_{AML} + \lambda \cdot \mathcal{L}_{ESP}\)

关键设计

  1. 自适应掩码损失 (AML)

    • 功能:在训练时为每个batch动态寻找最优掩码长度,引导模型表征忽略冗余时间段
    • 核心思路:对长度为L的输入,随机采样m个掩码长度 \(\{k_s\}_{s=1}^m \sim \text{Uniform}\{1,...,L\}\),计算每种掩码下的预测损失 \(\ell_s = \mathcal{L}(f_\theta(\mathcal{M}_{k_s}(X)), Y)\),选择增益最大的 \(s^* = \arg\max_s (\ell - \ell_{s})\)。然后最小化原始表征Z与最优掩码表征 \(\tilde{Z}_{s^*}\) 之间的L2距离:\(\mathcal{L}_{AML} = \beta \cdot \frac{1}{D_1 \times D_2} \|Z - \tilde{Z}_{s^*}\|^2\),其中 \(\beta = \max(0, (\ell - \ell_{s^*})/\ell)\) 仅在找到更好掩码时激活
    • 设计动机:直接在表征空间引导模型"遗忘"冗余信息,而非简单截断输入
  2. 嵌入相似性惩罚 (ESP)

    • 功能:约束embedding空间的几何结构与输出空间保持一致
    • 核心思路:对batch内样本对计算嵌入距离 \(\Delta^E_{ij}\) 和标签距离 \(\Delta^O_{ij}\),惩罚两者不一致:\(\mathcal{L}_{ESP} = \frac{1}{n^2} \sum_{i,j} |\Delta^E_{ij} - \Delta^O_{ij}|_+\)
    • 设计动机:t-SNE可视化揭示模型embedding异常集中(表征坍缩),与标签分布不匹配,说明编码了任务无关的冗余特征
  3. 理论基础(信息瓶颈):从IB理论出发,目标是最大化\(I(Z;Y) - \beta I(Z;X)\)。现有模型主要关注\(I(Z;Y)\)的优化,而AMRC通过AML显式最小化\(I(Z;X)\)中的冗余部分,提供了新的优化路径。

实验关键数据

主实验:冗余特征学习的普遍性

数据集 基线模型 原始MSE 最优掩码MSE 改善比例(样本%)
ETTh1 iTransformer 0.413 0.289 60.07%
Weather iTransformer 0.209 0.170 80.26%
ETTh2 TSMixer 0.324 0.289 42.13%
Solar-Energy PatchTST 0.374 0.344 51.66%

AMRC性能提升

模型 数据集 原始MSE +AMRC MSE 改善
SOFTS ETTh1 0.408 0.389 -4.7%
SOFTS ETTm2 0.210 0.198 -5.7%
iTransformer Electricity 0.176 0.163 -7.4%
iTransformer Weather 0.209 0.201 -3.8%
TimeMixer ETTm1 0.466 0.447 -4.1%
PatchTST ETTm2 0.211 0.196 -7.1%
  • 冗余特征学习是架构无关的:在MLP (TSMixer)、Transformer (iTransformer, PatchTST)、attention-based (SOFTS) 等多种架构上都普遍存在
  • AMRC作为plug-in在5种基线模型、7个数据集上均显著提升性能

消融实验

配置 说明
Full AMRC 最佳性能,AML + ESP 联合优化
Only AML 有效但不如组合,说明表征一致性也很重要
Only ESP 单独使用也有提升,验证了表征坍缩问题的真实性
Baseline 无额外损失项,存在冗余特征问题

亮点

  • 反直觉发现极具启发性:简单的截断实验就暴露了主流时间序列模型的根本缺陷
  • 信息瓶颈的新应用:将IB理论中通常被忽视的\(I(Z;X)\)最小化路径具体化为可操作的训练策略
  • 模型无关的框架:作为训练时的plug-in,可以应用于任何时间序列预测模型
  • 表征一致性约束新颖:通过约束预测和标签的成对距离分布一致,间接改善了模型的泛化能力

局限与展望

  • 最优掩码长度的搜索增加了训练开销(需要对每个batch尝试多个掩码长度)
  • 冗余特征的定义依赖于MSE改善,可能对不同的预测目标有不同表现
  • 仅在时间序列预测上验证,信息冗余抑制的思路可能适用于更广泛的序列建模任务
  • ESP的超参数λ和α需要调参

与相关工作的对比

  • vs TS2Vec / TS-CoT:这些方法通过对比学习来改善表征,但没有显式处理冗余特征问题
  • vs DECL:使用去噪对比学习,但去噪和冗余特征抑制是不同层面的问题
  • vs VIB (Alemi et al.):VIB通过变分推断优化IB目标,但没有针对时间序列的时间维度冗余做定制设计

启发与关联

  • "更多数据不总是更好"的观察值得在其他领域(NLP、CV)验证
  • 自适应掩码的思路可以启发其他任务中的attention机制设计
  • 表征一致性约束可能在多模态对齐任务中也有应用价值

评分

  • 新颖性: ⭐⭐⭐⭐ 冗余特征学习的发现和IB视角的解决方案都很新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多架构、消融实验、可视化分析充分
  • 写作质量: ⭐⭐⭐⭐ 问题驱动的叙事结构清晰,从发现→分析→解决
  • 价值: ⭐⭐⭐⭐ 作为模型无关的plug-in框架有很好的实用价值