Abstain Mask Retain Core: Time Series Prediction by Adaptive Masking Loss with Representation Consistency¶

会议: NeurIPS 2025 (Spotlight)
arXiv: 2510.19980
代码: GitHub
领域: 时间序列预测 / 信息瓶颈
关键词: time series forecasting, information bottleneck, adaptive masking, representation consistency, redundant features

一句话总结¶

揭示了时间序列预测中"适当截断历史数据反而提升精度"的反直觉现象（冗余特征学习问题），基于信息瓶颈理论提出AMRC方法，通过自适应掩码损失和表征一致性约束来抑制冗余特征学习，作为模型无关的训练框架在多种架构上显著提升性能。

背景与动机¶

主流时间序列预测模型遵循"长序列信息增益假设"——认为更长的历史输入能提供更多时间依赖信息。然而实验发现一个反直觉现象：适当截断输入序列（如掩码前k个时间步）在超过50%的样本上能降低预测MSE。这说明现有模型在训练过程中学习了大量冗余特征（噪声、无关波动），这些特征不仅无法提升性能，还干扰了有效信号的提取。

核心问题¶

为什么更长的历史序列不总是更好？现有模型如何受到冗余特征的影响？
如何在不手动截断输入的情况下，自动抑制冗余特征的学习？
能否设计一种模型无关的训练框架来解决这个问题？

方法详解¶

整体框架¶

AMRC由两个核心组件组成： 1. 自适应掩码损失 (AML)：在训练时动态识别具有高判别力的时间段，引导梯度优化关注信息量最大的输入区域 2. 嵌入相似性惩罚 (ESP)：约束输入、标签和预测之间的表征映射关系保持一致性

两者结合形成总训练目标：\(\mathcal{L} = \mathcal{L}_{task} + \alpha \cdot \mathcal{L}_{AML} + \lambda \cdot \mathcal{L}_{ESP}\)

关键设计¶

自适应掩码损失 (AML)：
- 功能：在训练时为每个batch动态寻找最优掩码长度，引导模型表征忽略冗余时间段
- 核心思路：对长度为L的输入，随机采样m个掩码长度 \(\{k_s\}_{s=1}^m \sim \text{Uniform}\{1,...,L\}\)，计算每种掩码下的预测损失 \(\ell_s = \mathcal{L}(f_\theta(\mathcal{M}_{k_s}(X)), Y)\)，选择增益最大的 \(s^* = \arg\max_s (\ell - \ell_{s})\)。然后最小化原始表征Z与最优掩码表征 \(\tilde{Z}_{s^*}\) 之间的L2距离：\(\mathcal{L}_{AML} = \beta \cdot \frac{1}{D_1 \times D_2} \|Z - \tilde{Z}_{s^*}\|^2\)，其中 \(\beta = \max(0, (\ell - \ell_{s^*})/\ell)\) 仅在找到更好掩码时激活
- 设计动机：直接在表征空间引导模型"遗忘"冗余信息，而非简单截断输入
嵌入相似性惩罚 (ESP)：
- 功能：约束embedding空间的几何结构与输出空间保持一致
- 核心思路：对batch内样本对计算嵌入距离 \(\Delta^E_{ij}\) 和标签距离 \(\Delta^O_{ij}\)，惩罚两者不一致：\(\mathcal{L}_{ESP} = \frac{1}{n^2} \sum_{i,j} |\Delta^E_{ij} - \Delta^O_{ij}|_+\)
- 设计动机：t-SNE可视化揭示模型embedding异常集中（表征坍缩），与标签分布不匹配，说明编码了任务无关的冗余特征
理论基础（信息瓶颈）：从IB理论出发，目标是最大化\(I(Z;Y) - \beta I(Z;X)\)。现有模型主要关注\(I(Z;Y)\)的优化，而AMRC通过AML显式最小化\(I(Z;X)\)中的冗余部分，提供了新的优化路径。

实验关键数据¶

主实验：冗余特征学习的普遍性¶

数据集	基线模型	原始MSE	最优掩码MSE	改善比例(样本%)
ETTh1	iTransformer	0.413	0.289	60.07%
Weather	iTransformer	0.209	0.170	80.26%
ETTh2	TSMixer	0.324	0.289	42.13%
Solar-Energy	PatchTST	0.374	0.344	51.66%

AMRC性能提升¶

模型	数据集	原始MSE	+AMRC MSE	改善
SOFTS	ETTh1	0.408	0.389	-4.7%
SOFTS	ETTm2	0.210	0.198	-5.7%
iTransformer	Electricity	0.176	0.163	-7.4%
iTransformer	Weather	0.209	0.201	-3.8%
TimeMixer	ETTm1	0.466	0.447	-4.1%
PatchTST	ETTm2	0.211	0.196	-7.1%

冗余特征学习是架构无关的：在MLP (TSMixer)、Transformer (iTransformer, PatchTST)、attention-based (SOFTS) 等多种架构上都普遍存在
AMRC作为plug-in在5种基线模型、7个数据集上均显著提升性能

消融实验¶

配置	说明
Full AMRC	最佳性能，AML + ESP 联合优化
Only AML	有效但不如组合，说明表征一致性也很重要
Only ESP	单独使用也有提升，验证了表征坍缩问题的真实性
Baseline	无额外损失项，存在冗余特征问题

亮点¶

反直觉发现极具启发性：简单的截断实验就暴露了主流时间序列模型的根本缺陷
信息瓶颈的新应用：将IB理论中通常被忽视的\(I(Z;X)\)最小化路径具体化为可操作的训练策略
模型无关的框架：作为训练时的plug-in，可以应用于任何时间序列预测模型
表征一致性约束新颖：通过约束预测和标签的成对距离分布一致，间接改善了模型的泛化能力

局限与展望¶

最优掩码长度的搜索增加了训练开销（需要对每个batch尝试多个掩码长度）
冗余特征的定义依赖于MSE改善，可能对不同的预测目标有不同表现
仅在时间序列预测上验证，信息冗余抑制的思路可能适用于更广泛的序列建模任务
ESP的超参数λ和α需要调参

与相关工作的对比¶

vs TS2Vec / TS-CoT：这些方法通过对比学习来改善表征，但没有显式处理冗余特征问题
vs DECL：使用去噪对比学习，但去噪和冗余特征抑制是不同层面的问题
vs VIB (Alemi et al.)：VIB通过变分推断优化IB目标，但没有针对时间序列的时间维度冗余做定制设计

启发与关联¶

"更多数据不总是更好"的观察值得在其他领域（NLP、CV）验证
自适应掩码的思路可以启发其他任务中的attention机制设计
表征一致性约束可能在多模态对齐任务中也有应用价值

评分¶

新颖性: ⭐⭐⭐⭐ 冗余特征学习的发现和IB视角的解决方案都很新颖
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多架构、消融实验、可视化分析充分
写作质量: ⭐⭐⭐⭐ 问题驱动的叙事结构清晰，从发现→分析→解决
价值: ⭐⭐⭐⭐ 作为模型无关的plug-in框架有很好的实用价值