How Foundational are Foundation Models for Time Series Forecasting?¶
会议: NeurIPS 2025
arXiv: 2510.00742
作者: Nouha Karaouli, Denis Coquenet, Elisa Fromont, Martial Mermillod, Marina Reyboz
机构: Univ. Rennes / CNRS / Inria / IRISA; Univ. Grenoble Alpes / CEA
代码: 数据集公开 (Zenodo)
领域: 时间序列
关键词: 时间序列基础模型, 零样本预测, 微调, 领域迁移, 轻量模型
一句话总结¶
通过合成数据与真实电力消耗数据的系统性实验,揭示时间序列基础模型(TSFM)的零样本泛化能力高度依赖于预训练数据分布,在领域偏移场景下仅49.5K参数的轻量专用模型SAMFormer从头训练即可超越500M+参数的微调TimesFM。
研究背景与动机¶
基础模型在NLP/CV的成功¶
基础模型(Foundation Models)在NLP(如BERT)和CV(如ViT)领域已经取得了革命性成功。通过在大规模多样化数据上预训练,这些模型展现出强大的零样本和少样本迁移能力,在各种下游任务上持续优于从头训练的任务特定模型。
时间序列基础模型的挑战¶
受NLP/CV成功的启发,研究者提出了时间序列基础模型(TSFMs),如TimesFM、TimeGPT和TiReX,期望通过大规模预训练捕获通用时间模式表示。然而,时间序列数据具有独特挑战:
- 领域特异性结构:季节性、趋势、不规则采样等在不同应用间差异巨大
- 分布偏移:即使是同一大类下的数据也存在显著的统计特性差异
- 个体行为差异:真实场景中的个体级数据(如个人用电模式)与预训练中使用的人口级聚合数据分布截然不同
核心研究问题¶
- TSFMs能否泛化到超出其预训练分布的场景?
- 与轻量专用替代方案相比,TSFMs在实际应用中是否具有竞争力?
方法详解¶
评估框架设计¶
论文设计了一个从合成数据到真实数据的系统性评估流程,逐步增加任务难度和分布偏移程度。
模型选择¶
| 模型 | 类型 | 参数量 | 特点 |
|---|---|---|---|
| TimesFM | Decoder-only Transformer TSFM | 500M+ | Google发布,大规模合成+真实数据预训练 |
| TimeGPT | Transformer FM (托管API) | 未公开 | Nixtla,100B+时间序列观测值预训练 |
| TiReX | xLSTM架构 TSFM | 未公开 | 零样本长短horizon预测 |
| SAMFormer | 轻量注意力模型 | 49.5K | 通道维度注意力,从头训练 |
合成数据基准¶
构建四个合成数据集测试零样本能力,均包含2688个时间步(8周,30分钟采样间隔):
- D1, D2:谐波对齐的正弦波,完全可观测的周期信号——测试对简洁周期模式的识别和外推能力
- D3, D4:随机采样的非谐波正弦波,复杂且部分可观测的周期——测试对不完整模式的泛化能力
真实世界评估¶
使用 Elec_Consumption 数据集——一个覆盖2023-2024年共两年的单户家庭日用电量私有小数据集。该数据集反映个体消费行为,与TSFM预训练中使用的通用人口级数据集形成明确的分布偏移。
微调实验设置¶
- 优化器:Adam,学习率 \(10^{-4}\),权重衰减 0.01,批大小 64
- 滑窗分帧:context=128, horizon=128
- 训练:最多100 epochs,early stopping (patience=10)
- SAMFormer:5个不同随机种子取均值和标准差
- 硬件:NVIDIA Tesla V100 GPU
实验关键数据¶
表1:合成数据零样本MAE(D1-D4)¶
| 数据集 | Horizon | TimeGPT | TiReX | TimesFM |
|---|---|---|---|---|
| D1 | 128 | 0.89 | 0.11 | 0.13 |
| D1 | 256 | 1.08 | 0.21 | 0.22 |
| D1 | 512 | 1.09 | 0.37 | 0.34 |
| D2 | 128 | 0.80 | 0.29 | 0.15 |
| D2 | 256 | 1.25 | 0.72 | 0.35 |
| D2 | 512 | 1.57 | 1.11 | 0.72 |
| D3 | 128 | 1.86 | 1.10 | 1.13 |
| D3 | 512 | 2.29 | 3.30 | 3.50 |
| D4 | 128 | 1.30 | 0.78 | 0.89 |
| D4 | 512 | 2.31 | 2.80 | 2.98 |
关键发现:在简单周期模式(D1/D2)上TiReX和TimesFM表现优异;在复杂非谐波模式(D3/D4)上,长horizon时所有模型性能急剧下降,TimeGPT反而因保守策略表现更稳定。
表2:真实数据(Elec_Consumption)零样本及微调MAE¶
| 模型 | 15-7 | 30-7 | 60-30 | 128-128 | 365-365 |
|---|---|---|---|---|---|
| TimeGPT | 6.60 | 6.52 | 5.60 | 6.91 | 6.44 |
| TiReX | 6.94 | 5.71 | 4.61 | 3.78 | 5.90 |
| TimesFM | 5.07 | 5.83 | 4.08 | 4.63 | 5.30 |
微调对比(context=128, horizon=128):
| 模型 | 参数量 | MAE |
|---|---|---|
| TimesFM (微调) | 500M+ | 4.49 ± 0.00 |
| SAMFormer (从头训练) | 49.5K | 4.28 ± 0.05 |
关键发现:仅49.5K参数的SAMFormer从头训练即超越经过微调的500M+参数TimesFM,参数效率提升超过10000倍。
亮点¶
- 实验设计精巧:从合成数据到真实数据的渐进式评估,系统性地揭示TSFM在不同分布偏移程度下的表现退化模式
- 发现具有实际指导意义:明确指出"one-size-fits-all"承诺在时间序列领域不成立,为实际部署提供决策依据——当预训练-目标相似度高时用TSFM,否则用轻量专用模型
- 参数效率对比惊人:49.5K vs 500M+参数(万倍差距),轻量模型仍胜出,强有力地质疑了"越大越好"的预训练范式
- 关注实际部署场景:使用私有个体级用电数据而非公开基准,更贴近真实应用中的领域偏移挑战
- 数据集公开:所有使用的数据集均通过Zenodo公开,支持可复现性
局限性¶
- 评估范围有限:仅测试单变量时间序列预测,未涵盖多变量预测、异常检测、分类等其他时间序列任务
- 真实数据集过于简单:仅使用单户两年日用电数据,样本量极小(~730天),难以代表大规模真实场景
- TSFM选择不全面:仅测试TimesFM/TimeGPT/TiReX三个模型,未包含Chronos、Lag-Llama、MOIRAI等近期重要TSFM
- 微调策略单一:仅使用默认Adam配置微调TimesFM,未探索学习率调度、LoRA等参数高效微调策略,可能未充分发挥TSFM潜力
- 缺乏统计显著性检验:TimesFM微调结果方差为0.00(确定性),SAMFormer报告了标准差但未做正式统计检验
- 合成数据过于理想化:正弦波组合难以反映真实时间序列中的突变、缺失值、噪声等复杂特征
- 未分析计算成本:虽然提到参数效率,但未量化训练时间、推理延迟、内存占用等实际部署关键指标
相关工作¶
- 时间序列基础模型:TimesFM (Das et al., 2024)、TimeGPT (Garza et al., 2024)、TiReX (Auer et al., 2025)、FEDformer (Zhou et al., 2022) 代表大规模预训练路线
- TSFM基准评估:GIFT-Eval (Aksu et al., 2024) 跨领域泛化评估、OpenTS (2024) 可复现测试套件、Nixtla Arena (2024) 全面评估
- 质疑TSFM有效性:Xu et al. (2025, ICLR) 指出简单自回归基线可与TSFM竞争;Zhao et al. (2025) 发现延长微调可能导致TSFM性能退化
- 轻量专用模型:SAMFormer (Ilbert et al., 2024) 利用锐度感知最小化和通道注意力的紧凑Transformer
- 基础模型通用讨论:Bommasani et al. (2021) 提出基础模型的机遇与风险;Yuan et al. (2025) 质疑"一刀切"评估范式
评分¶
| 维度 | 分数 | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐ | 研究问题重要但并非首次提出,实质是经验验证性工作 |
| 技术深度 | ⭐⭐ | 无新方法/模型提出,主要是实验对比和观察总结 |
| 实验质量 | ⭐⭐⭐ | 合成到真实的渐进设计有亮点,但规模偏小、模型覆盖有限 |
| 写作质量 | ⭐⭐⭐⭐ | 结构清晰,论证逻辑流畅,图表规范 |
| 实用价值 | ⭐⭐⭐⭐ | 对TSFM实际部署决策有直接参考价值 |
| 总评 | 3.2/5 | 选题及时重要、结论有启发,但技术贡献有限、实验规模不足以支撑强结论 |