Abstain Mask Retain Core: Time Series Prediction by Adaptive Masking Loss with Representation Consistency¶
会议: NeurIPS 2025 (Spotlight)
arXiv: 2510.19980
代码: GitHub
领域: 时间序列预测 / 信息瓶颈
关键词: time series forecasting, information bottleneck, adaptive masking, representation consistency, redundant features
一句话总结¶
揭示了时间序列预测中"适当截断历史数据反而提升精度"的反直觉现象(冗余特征学习问题),基于信息瓶颈理论提出AMRC方法,通过自适应掩码损失和表征一致性约束来抑制冗余特征学习,作为模型无关的训练框架在多种架构上显著提升性能。
背景与动机¶
主流时间序列预测模型遵循"长序列信息增益假设"——认为更长的历史输入能提供更多时间依赖信息。然而实验发现一个反直觉现象:适当截断输入序列(如掩码前k个时间步)在超过50%的样本上能降低预测MSE。这说明现有模型在训练过程中学习了大量冗余特征(噪声、无关波动),这些特征不仅无法提升性能,还干扰了有效信号的提取。
核心问题¶
- 为什么更长的历史序列不总是更好?现有模型如何受到冗余特征的影响?
- 如何在不手动截断输入的情况下,自动抑制冗余特征的学习?
- 能否设计一种模型无关的训练框架来解决这个问题?
方法详解¶
整体框架¶
AMRC由两个核心组件组成: 1. 自适应掩码损失 (AML):在训练时动态识别具有高判别力的时间段,引导梯度优化关注信息量最大的输入区域 2. 嵌入相似性惩罚 (ESP):约束输入、标签和预测之间的表征映射关系保持一致性
两者结合形成总训练目标:\(\mathcal{L} = \mathcal{L}_{task} + \alpha \cdot \mathcal{L}_{AML} + \lambda \cdot \mathcal{L}_{ESP}\)
关键设计¶
-
自适应掩码损失 (AML):
- 功能:在训练时为每个batch动态寻找最优掩码长度,引导模型表征忽略冗余时间段
- 核心思路:对长度为L的输入,随机采样m个掩码长度 \(\{k_s\}_{s=1}^m \sim \text{Uniform}\{1,...,L\}\),计算每种掩码下的预测损失 \(\ell_s = \mathcal{L}(f_\theta(\mathcal{M}_{k_s}(X)), Y)\),选择增益最大的 \(s^* = \arg\max_s (\ell - \ell_{s})\)。然后最小化原始表征Z与最优掩码表征 \(\tilde{Z}_{s^*}\) 之间的L2距离:\(\mathcal{L}_{AML} = \beta \cdot \frac{1}{D_1 \times D_2} \|Z - \tilde{Z}_{s^*}\|^2\),其中 \(\beta = \max(0, (\ell - \ell_{s^*})/\ell)\) 仅在找到更好掩码时激活
- 设计动机:直接在表征空间引导模型"遗忘"冗余信息,而非简单截断输入
-
嵌入相似性惩罚 (ESP):
- 功能:约束embedding空间的几何结构与输出空间保持一致
- 核心思路:对batch内样本对计算嵌入距离 \(\Delta^E_{ij}\) 和标签距离 \(\Delta^O_{ij}\),惩罚两者不一致:\(\mathcal{L}_{ESP} = \frac{1}{n^2} \sum_{i,j} |\Delta^E_{ij} - \Delta^O_{ij}|_+\)
- 设计动机:t-SNE可视化揭示模型embedding异常集中(表征坍缩),与标签分布不匹配,说明编码了任务无关的冗余特征
-
理论基础(信息瓶颈):从IB理论出发,目标是最大化\(I(Z;Y) - \beta I(Z;X)\)。现有模型主要关注\(I(Z;Y)\)的优化,而AMRC通过AML显式最小化\(I(Z;X)\)中的冗余部分,提供了新的优化路径。
实验关键数据¶
主实验:冗余特征学习的普遍性¶
| 数据集 | 基线模型 | 原始MSE | 最优掩码MSE | 改善比例(样本%) |
|---|---|---|---|---|
| ETTh1 | iTransformer | 0.413 | 0.289 | 60.07% |
| Weather | iTransformer | 0.209 | 0.170 | 80.26% |
| ETTh2 | TSMixer | 0.324 | 0.289 | 42.13% |
| Solar-Energy | PatchTST | 0.374 | 0.344 | 51.66% |
AMRC性能提升¶
| 模型 | 数据集 | 原始MSE | +AMRC MSE | 改善 |
|---|---|---|---|---|
| SOFTS | ETTh1 | 0.408 | 0.389 | -4.7% |
| SOFTS | ETTm2 | 0.210 | 0.198 | -5.7% |
| iTransformer | Electricity | 0.176 | 0.163 | -7.4% |
| iTransformer | Weather | 0.209 | 0.201 | -3.8% |
| TimeMixer | ETTm1 | 0.466 | 0.447 | -4.1% |
| PatchTST | ETTm2 | 0.211 | 0.196 | -7.1% |
- 冗余特征学习是架构无关的:在MLP (TSMixer)、Transformer (iTransformer, PatchTST)、attention-based (SOFTS) 等多种架构上都普遍存在
- AMRC作为plug-in在5种基线模型、7个数据集上均显著提升性能
消融实验¶
| 配置 | 说明 |
|---|---|
| Full AMRC | 最佳性能,AML + ESP 联合优化 |
| Only AML | 有效但不如组合,说明表征一致性也很重要 |
| Only ESP | 单独使用也有提升,验证了表征坍缩问题的真实性 |
| Baseline | 无额外损失项,存在冗余特征问题 |
亮点¶
- 反直觉发现极具启发性:简单的截断实验就暴露了主流时间序列模型的根本缺陷
- 信息瓶颈的新应用:将IB理论中通常被忽视的\(I(Z;X)\)最小化路径具体化为可操作的训练策略
- 模型无关的框架:作为训练时的plug-in,可以应用于任何时间序列预测模型
- 表征一致性约束新颖:通过约束预测和标签的成对距离分布一致,间接改善了模型的泛化能力
局限与展望¶
- 最优掩码长度的搜索增加了训练开销(需要对每个batch尝试多个掩码长度)
- 冗余特征的定义依赖于MSE改善,可能对不同的预测目标有不同表现
- 仅在时间序列预测上验证,信息冗余抑制的思路可能适用于更广泛的序列建模任务
- ESP的超参数λ和α需要调参
与相关工作的对比¶
- vs TS2Vec / TS-CoT:这些方法通过对比学习来改善表征,但没有显式处理冗余特征问题
- vs DECL:使用去噪对比学习,但去噪和冗余特征抑制是不同层面的问题
- vs VIB (Alemi et al.):VIB通过变分推断优化IB目标,但没有针对时间序列的时间维度冗余做定制设计
启发与关联¶
- "更多数据不总是更好"的观察值得在其他领域(NLP、CV)验证
- 自适应掩码的思路可以启发其他任务中的attention机制设计
- 表征一致性约束可能在多模态对齐任务中也有应用价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 冗余特征学习的发现和IB视角的解决方案都很新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多架构、消融实验、可视化分析充分
- 写作质量: ⭐⭐⭐⭐ 问题驱动的叙事结构清晰,从发现→分析→解决
- 价值: ⭐⭐⭐⭐ 作为模型无关的plug-in框架有很好的实用价值