Frequency Matters: When Time Series Foundation Models Fail Under Spectral Shift¶

会议: NeurIPS 2025
arXiv: 2511.05619
代码: 无
领域: 时间序列 / 基础模型
关键词: 时间序列基础模型, 频谱偏移, 泛化失败, MOMENT, 游戏玩家预测

一句话总结¶

揭示时间序列基础模型（TSFM）在工业场景中泛化失败的关键原因——频谱偏移（downstream 数据主频与预训练数据不重叠），通过工业级手游玩家参与预测任务和受控合成实验验证了这一假说。

研究背景与动机¶

领域现状：时间序列基础模型（如 MOMENT、Chronos、TimesFM 等）在公开基准上表现优异，被类比为时间序列的"BERT moment"。这些模型通过自监督学习在大规模异构时间序列语料上预训练。

现有痛点：在工业实际应用中（如手游玩家行为预测），TSFM 的表现远不如领域适配的全监督基线（PatchTST）甚至传统方法（XGBoost）。公开基准的成功不等于工业可迁移。

核心矛盾：与 NLP 中语言结构和语义跨领域有强共享模式不同，时间序列数据的采样率、周期性、非平稳性等统计属性在不同领域间差异巨大。微小的主频偏移就可能导致完全不同的信号特征。

本文目标：为什么 TSFM 在工业场景中失效？频谱不对齐是否是核心原因？

切入角度：从频域分析入手，比较预训练数据和下游数据的主频分布，提出"频谱偏移"假说并用受控实验验证。

核心 idea：TSFM 泛化失败的主因是下游数据主频超出预训练频谱覆盖范围，模型记忆了特定频段而非学到通用时间表征。

方法详解¶

整体框架¶

本文不提出新模型，而是通过三个实验层次验证频谱偏移假说：(1) 工业级玩家参与预测（PEP）任务展示 TSFM 实际失败；(2) 预训练数据 vs 下游数据频谱分析提供证据；(3) 受控合成实验隔离频谱偏移的因果效应。

关键设计¶

工业案例：玩家参与预测（PEP）:
- 功能：在 Candy Crush Saga 手游中预测玩家 30 天内的购买行为（二分类）和参与度（回归）
- 数据设置：824,208 条多变量时间序列样本，每条最长 512 个游戏回合，32 个特征维度（进度、玩法、资源、策略、上下文）。时间跨度 226 天
- 评估协议：player-holdout（同期不同玩家）和 temporal-holdout（跨时间零样本）
- 设计动机：真实工业场景，采样率/周期性与公开数据集完全不同
频谱分析:
- 功能：比较下游数据集与 MOMENT 预训练数据集（FordA、FaultDetectionA 等）的主频分布
- 核心思路：对每条时间序列计算 FFT，提取 top-5 主频。观察发现下游游戏数据的主频与预训练数据主频区间几乎不重叠
- 设计动机：为频谱偏移假说提供直觉证据
受控合成实验:
- 功能：构建"seen"和"unseen"频段合成数据集，对比冻结 TSFM 编码器的下游性能
- 核心思路：对预训练数据集中的每条序列做 FFT 提取主频区间 \([f^{\text{low}}, f^{\text{high}}]\)。生成两组合成信号：seen 组频率从 \([f^{\text{low}}, f^{\text{high}}]\) 采样；unseen 组从 \([f^{\text{low}}+\delta, f^{\text{high}}+\delta]\) 采样（两区间不相交）。合成信号为正弦波叠加：\(x(t) = \sum_j A_j \sin(2\pi f_j t + \phi_j) + \text{noise}\)。回归标签为频率之和的 z-score 归一化：\(\tilde{y} = (y - \mu_y) / \sigma_y\)
- 设计动机：排除非频率因素的干扰，隔离频谱偏移对模型表征质量的影响。冻结骨干网络仅训练轻量头，测试的是编码器的表征能力而非端到端性能

损失函数 / 训练策略¶

合成实验使用 Adam 优化器（lr=\(10^{-3}\)），训练 50 epochs
二分类用交叉熵损失，回归用 MSE 损失
模型选择基于验证集 MSE，所有实验跑 3 次取均值和标准差

实验关键数据¶

主实验：PEP 工业任务¶

模型	Accuracy↑ (player)	AUC↑ (player)	MSE↓ (player)	MAE↓ (player)
XGBoost	0.841	0.915	1.200	0.780
TabNet	0.836	0.911	1.304	0.852
PatchTST	0.939	0.982	0.518	0.489
MOMENT-small	0.758	0.791	2.250	1.151

MOMENT 在所有指标上大幅落后于全监督 PatchTST（Accuracy 差 18.1%，AUC 差 19.1%），甚至不如 XGBoost。

合成实验：频谱偏移下的回归性能¶

预训练数据集	Seen MSE↓	Unseen MSE↓	Seen MAE↓	Unseen MAE↓
FordA	0.333±0.010	0.366±0.005	0.439±0.005	0.457±0.005
ElectricDevices	0.644±0.002	0.952±0.003	0.559±0.001	0.791±0.004
FaultDetectionA	0.689±0.001	0.942±0.004	0.666±0.001	0.779±0.001
FaultDetectionB	1.129±0.172	2.005±0.266	0.875±0.084	1.140±0.034

在所有数据集上，unseen 频段的 MSE/MAE 均高于 seen 频段，ElectricDevices 上 MSE 退化 47.8%，FaultDetectionB 上退化 77.6%。

关键发现¶

频谱偏移效应在分类任务中同样成立（如 ElectricDevices 分类 AUC 从 0.890 降至 0.716）
退化程度与频谱不重叠度正相关
即使标签经过 z-score 归一化消除了标度差异，模型仍然在 unseen 频段上表现更差，说明问题出在时间表征质量而非标签分布

亮点与洞察¶

频谱偏移假说：简单但有解释力，为 TSFM 泛化失败提供了可操作的诊断框架。实际部署前可先做频谱重叠分析
工业+合成双重验证：先在真实工业场景定位问题，再用受控合成实验隔离因果机制。实验设计范式值得借鉴
对 TSFM 社区的实践建议：(a) 量化预训练和下游数据的频谱重叠度；(b) 引入频率感知的数据增强或预训练策略；(c) 基准测试应显式评估频谱多样性

局限与展望¶

仅在一个 TSFM（MOMENT-small）和一个工业领域（手游）上验证，泛化性需更多验证
合成实验使用正弦信号，无法完全模拟真实世界的不规则采样、突发性和状态切换
未提出解决频谱偏移的具体方法（如频率感知预训练或微调策略）
论文较短（4 页正文 + 附录），技术深度有限
未对比其他 TSFM（Chronos、TimesFM、Moirai），结论的通用性存疑

评分¶

新颖性: ⭐⭐⭐⭐ 频谱偏移假说是新颖且有洞察力的视角，但实验设计相对简单
实验充分度: ⭐⭐⭐ 仅一个 TSFM + 一个工业案例 + 合成实验，覆盖面有限
写作质量: ⭐⭐⭐⭐ 逻辑清晰，从工业现象到假说到验证的叙事线流畅
价值: ⭐⭐⭐⭐ 对 TSFM 部署的实践指导意义大，为社区敲响了"基准 ≠ 实际"的警钟

Frequency Matters: When Time Series Foundation Models Fail Under Spectral Shift¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验：PEP 工业任务¶

合成实验：频谱偏移下的回归性能¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

与相关工作的对比¶

启发与关联¶

评分¶

Frequency Matters: When Time Series Foundation Models Fail Under Spectral Shift¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验：PEP 工业任务¶

合成实验：频谱偏移下的回归性能¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

与相关工作的对比¶

启发与关联¶

评分¶

相关论文¶