VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters¶

会议: ICML2025
arXiv: 2408.17253
代码: Keytoyze/VisionTS
领域: 时序预测 / 跨模态迁移
关键词: 时间序列预测, 视觉基础模型, Masked Autoencoder, 零样本预测, 跨模态迁移

一句话总结¶

将时间序列重构为图像，利用 ImageNet 预训练的 MAE（Masked Autoencoder）在零样本设置下进行时序预测，无需任何时序数据训练即可匹敌甚至超越专门的时序基础模型。

研究背景与动机¶

时间序列预测（TSF）的基础模型目前有两条路线：

文本路线：复用 LLM（如 GPT4TS、TimeLLM），但语言与时序之间的模态差距大，迁移效果受质疑。

时序路线：从头构建大规模时序数据集训练（如 Moirai、TimesFM），但时序数据在长度、频率、领域等方面高度异构，数据集构建困难。

本文提出第三条路线：利用预训练视觉模型做时序预测。核心观察是图像与时序共享多个关键特性：

连续性：两者均为连续信号，不同于离散文本
同源性：都是对真实物理系统的观测
信息密度：都具有大量冗余，不同于高语义密度的语言
特征相似性：ImageNet 图像的像素行天然包含趋势、季节性、平稳性等时序特征

方法详解¶

VisionTS 将时序预测重新表述为 MAE 的图像重建任务，核心流程为：分段 → 归一化 → 渲染 → 对齐 → 重建 → 预测。

1. 分段（Segmentation）¶

给定单变量输入 \(X \in \mathbb{R}^L\)，按周期 \(P\) 分段为 \(\lfloor L/P \rfloor\) 个长度为 \(P\) 的子序列，堆叠成二维矩阵：

\[\boldsymbol{I}_{\text{raw}} \in \mathbb{R}^{P \times \lfloor L/P \rfloor}\]

周期 \(P\) 可通过 FFT 或采样频率的先验知识确定。当序列无明显周期时直接设 \(P=1\)。

2. 归一化（Normalization）¶

对 \(\boldsymbol{I}_{\text{raw}}\) 做实例归一化，标准差缩放至超参 \(r\)（默认 0.4）：

\[\boldsymbol{I}_{\text{norm}} = r \cdot \frac{\boldsymbol{I}_{\text{raw}} - \text{Mean}(\boldsymbol{I}_{\text{raw}})}{\text{Std}(\boldsymbol{I}_{\text{raw}})}\]

\(r < 1\) 的设计是因为 MAE 预训练时像素值范围有限，压缩幅值可防止越界。

3. 渲染（Rendering）¶

将归一化矩阵渲染为灰度图像 \(\boldsymbol{I}_{\text{grey}} \in \mathbb{R}^{P \times \lfloor L/P \rfloor \times 3}\)，三通道取相同值。实验表明额外学习颜色变换并无显著收益。

4. 对齐（Alignment）¶

MAE 预训练图像尺寸为 \(224 \times 224\)，划分为 \(N \times N\) 个 patch（每个 \(S \times S\)）。设可见 patch 列数为 \(n\)，掩码列数为 \(N - n\)：

\[n = \left\lfloor c \cdot N \cdot \frac{L}{L + H} \right\rfloor\]

其中 \(c \in [0,1]\)（默认 0.4）控制可见区域宽度。缩小可见区比例可使掩码率更接近 MAE 预训练时的 75%。通过双线性插值将灰度图调整到 \((N \cdot S, n \cdot S)\)。

5. 重建与预测¶

MAE 重建完整图像后，反向操作：调整尺寸回原始分段维度 → 三通道取均值 → 反归一化 → 展平 → 提取预测窗口。

多变量处理¶

采用通道独立（Channel Independence）策略，每个变量单独预测，不建模变量间交互。

实验关键数据¶

长期预测（8 个数据集，平均 {96,192,336,720} 步）¶

方法	预训练数据	设置	Avg MSE	Avg MAE
VisionTS	图像	零样本	0.309	0.345
Moirai-S	时序	零样本	0.327	0.357
Moirai-B	时序	零样本	0.310	0.344
Moirai-L	时序	零样本	0.329	0.350
TimeLLM	文本	少样本	0.336	0.368
GPT4TS	文本	少样本	0.360	0.378
PatchTST	无	少样本	0.378	0.389

关键发现：VisionTS 零样本在 8 个数据集中 7 次取得最佳 MSE，总体平均 MSE 优于所有 TS-based 和 Text-based 基础模型。

Monash 基准（29 个数据集）¶

VisionTS 在 Monash 基准的聚合指标上优于大多数零样本基础模型，覆盖多种频率和领域。

GIFT-Eval 排行榜（23 个数据集）¶

VisionTS 在 GIFT-Eval 排行榜上同样取得与专用时序基础模型可比的零样本性能。

微调（1 epoch）¶

仅微调 1 个 epoch，VisionTS 即可在大多数长期预测 benchmark 上达到 SOTA。

亮点与洞察¶

跨模态免费午餐：纯视觉模型无需任何时序数据适配即可做出高质量预测，揭示了图像与时序的深层相似性
极简设计：整个方法不引入任何可训练参数（零样本模式），全靠 MAE 预训练权重
Prompt 范式创新：将 TSF 重构为 MAE 的掩码图像重建，类似 NLP 中的 prompt tuning
表征可视化：通过 MAE 编码器的 t-SNE 可视化发现，时序数据与 ImageNet 图像存在表征重叠，且图像可充当不同时序领域之间的"桥梁"
超大规模评测：覆盖 60+ 数据集（8 长期 + 29 Monash + 23 GIFT-Eval），是当时 TSF 基础模型中最大规模的评测

局限与展望¶

多变量限制：仅采用通道独立策略，未建模变量间交互，受限于图像通道数（仅 3 通道）
超参敏感性：归一化尺度 \(r\) 和可见区比例 \(c\) 对性能有明显影响，当前依赖经验设定
周期性假设：分段依赖周期 \(P\) 的估计质量，对非周期序列可能不够鲁棒
分辨率限制：MAE 固定 224×224 输入尺寸，对超长序列或高分辨率需求存在信息压缩损失
灰度限制：仅使用灰度渲染，未充分利用 MAE 对彩色图像的建模能力

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次系统性证明纯视觉模型可做零样本时序预测，研究视角极具创新
实验充分度: ⭐⭐⭐⭐⭐ — 60+ 数据集全面评测，含消融实验和跨模态表征分析
写作质量: ⭐⭐⭐⭐ — 动机阐述清晰，图表丰富，部分数学符号较密
价值: ⭐⭐⭐⭐⭐ — 打开了"视觉→时序"跨模态基础模型的新范式