Synthetic Series-Symbol Data Generation for Time Series Foundation Models¶
会议: NeurIPS 2025
arXiv: 2510.08445
代码: GitHub
领域: 时间序列
关键词: time series foundation model, synthetic data generation, symbolic expressions, contrastive learning, pre-training
一句话总结¶
提出 Series-Symbol (S²) 数据生成机制和 SymTime 双模态基础模型,利用 Takens 定理和符号动力学理论生成无限规模的合成时序-符号配对数据(40M 对/50B token),通过跨模态对比学习预训练在 5 大时序任务上达到与真实数据预训练模型竞争的性能。
研究背景与动机¶
领域现状:时序基础模型(如 Moirai、Timer、TimeGPT)近年来取得了显著进展,但与 CV/NLP 领域相比,时序领域的训练数据面临严重的稀缺性和分布不平衡问题。现有的大规模时序数据集在金融、医疗等特定领域仍然不足,数据规模远小于 ImageNet 或 WebText 等基准。
现有痛点:根据 Neural Scaling Laws,训练数据的不平衡会导致模型在 OOD 数据上泛化能力下降,产生性能偏差。当前的时序预训练策略大多依赖真实数据收集,面临数据隐私限制和领域覆盖不全的双重瓶颈。少数使用合成数据的方法(如 Chronos)缺乏对时序本质的理论刻画。
核心 idea:基于 Takens 定理(时序是复杂动力系统的低维投影)和符号动力学理论(复杂系统可用符号表达式抽象表示),构建一套理论驱动的合成数据生成机制——通过随机构造多样的符号表达式来覆盖广泛的动力系统类型,由此生成的时序数据天然具备丰富的时序特性和语义对应关系。
方法详解¶
整体框架¶
整体分为两大部分:(1) Series-Symbol (S²) 数据生成机制,通过随机构造符号表达式并前向传播生成时序-符号配对数据,规模可无限扩展;(2) SymTime 基础模型,包含时序编码器和符号编码器,通过掩码建模和跨模态对比学习进行预训练,再在下游任务上微调。
关键设计¶
-
S² 数据生成机制:
- 功能:生成无限规模的高质量合成时序数据及其对应的符号表达式
- 核心思路:通过二叉树结构随机采样构建多变量符号表达式 f(·)——先选择二元运算符(+, −, ×)构建树骨架,再插入变量和常数到叶节点,添加一元运算符(sin, cos, log, exp, pow2 等),最后进行仿射变换增加多样性。输入 X 从混合分布和 ARMA 过程中采样,通过 Y=f(X) 前向传播得到输出序列
- 设计动机:基于 Takens 定理和符号动力学的理论支撑,符号表达式与时序之间存在严格的语义对应。通过遍历所有输入/输出维度组合(M∈[1,6], N∈[1,12]),确保生成数据覆盖完整的时序表示空间。最终生成 40M 对配对数据,共 50B token 长度
- 与先前方法区别:ForecastPFN 和 Chronos 的合成方法缺乏时序产生本质的理论刻画,S² 更贴合时序的生成机理
-
SymTime 双模态预训练架构:
- 功能:利用符号信息增强时序表示学习
- 核心思路:时序编码器(6 层 Transformer)通过 Masked Time Series Modeling (MTM) 重建被掩码的 patch;符号编码器(6 层 DistilBERT)通过 Masked Language Modeling (MLM) 学习符号表示。两个编码器通过 MoCo 风格的动量编码器进行跨模态对比学习,将语义相关的时序-符号对在表示空间中对齐
- 设计动机:单纯的 MTM 预训练只能学到时序的统计模式,无法捕获时序背后的动力学语义。通过跨模态对比学习将符号的语义信息注入时序编码器,使其获得独特的归纳偏置
-
动量蒸馏(Momentum Distillation):
- 功能:对齐掩码数据的编码器输出与动量编码器的输出,减轻掩码噪声的影响
- 核心思路:受 ALBEF 启发,将随机掩码视为噪声,使用动量编码器生成伪标签进行 KL 散度约束,使掩码后的表示更接近完整数据的表示
- 设计动机:直接在掩码数据上做对比学习可能因信息缺失而产生噪声梯度,动量蒸馏通过软标签平滑了这一问题
损失函数 / 训练策略¶
总预训练目标:L = L_mtm + L_mlm + α·L_tsc + (1−α)·L_tsc^mod,其中 L_mtm 为 patch 重建的 MSE 损失,L_mlm 为掩码语言建模的交叉熵损失,L_tsc 为跨模态对比损失,L_tsc^mod 为动量蒸馏的 KL 散度损失。下游微调时,分类任务直接加线性头;重建类任务(预测/填补/异常检测)先分解趋势+周期分量再分别处理。
实验关键数据¶
主实验(Scaling 效果 - 长期预测)¶
| 预训练规模 | ETTm1 MSE | ETTm2 MSE | ETTh1 MSE | Weather MSE | Traffic MSE | Exchange MSE | Avg MSE |
|---|---|---|---|---|---|---|---|
| 0B (无预训练) | 0.401 | 0.293 | 0.487 | 0.257 | 0.471 | 0.383 | 0.358 |
| 1B | 0.376 | 0.292 | 0.461 | 0.257 | 0.473 | 0.370 | 0.354 |
| 10B | 0.376 | 0.281 | 0.444 | 0.250 | 0.473 | 0.368 | 0.345 |
| 25B | 0.378 | 0.278 | 0.434 | 0.253 | 0.467 | 0.357 | 0.342 |
| 50B | 0.371 | 0.274 | 0.430 | 0.247 | 0.457 | 0.359 | 0.336 |
消融实验¶
| 配置 | ETTh1 MSE | ETTh2 MSE | 说明 |
|---|---|---|---|
| Full SymTime | 最优 | 最优 | 完整预训练配置 |
| w/o Pre-train | 显著下降 | 显著下降 | 不预训练直接微调 |
| w/o Symbol | 下降 | 下降 | 去除符号编码器,仅用 MTM 预训练 |
| Real-Data | 下降 | 下降 | 在等规模真实数据上仅用 MTM 预训练 |
| w/o MTM | 下降 | 下降 | 去除掩码时序建模损失 |
| w/o Distill | 下降 | 下降 | 去除动量蒸馏 |
| Freeze | 最差 | 最差 | 冻结预训练参数不微调 |
关键发现¶
- 预训练数据从 0B 扩展到 50B,长期预测平均 MSE 从 0.358 持续降低到 0.336,验证了 S² 数据的 scaling 效果
- 短期预测 OWA 从 0.887 降至 0.849,填补 MSE 从 0.038 降至 0.026(ETTm2),效果显著
- 消融证明符号编码器和对比学习是关键——去除符号信息后性能下降,说明符号语义确实增强了时序表示
- 复杂度分析显示 SymTime 比 Time-LLM 等 LLM 基础模型参数更少、显存更低
- t-SNE 可视化显示预训练后时序编码器对不同运算符类型形成清晰聚类,确认了跨模态语义对齐的有效性
亮点与洞察¶
- 基于 Takens 定理和符号动力学的理论支撑使合成数据生成有严格的数学基础,而非启发式设计
- 数据可无限生成且覆盖全表示空间(Radviz 可视化验证 S² 数据的统计特性覆盖了 Monash 真实数据集)
- 在纯合成数据上预训练即可获得与真实数据竞争的下游性能,完全绕过数据隐私和稀缺问题
- 跨模态对比学习让时序编码器学到符号语义这一独特归纳偏置,是对时序预训练范式的有意义探索
局限与展望¶
- 符号表达式覆盖度受限于选定的运算符集合(未涵盖随机微分方程等)
- 模型规模较小(6 层 Transformer),未探索更大模型的 scaling behavior
- 微调后性能比较充分,但未展示零样本预测能力(与 Chronos、Moirai 的零样本对比不足)
- 当前仅支持确定性符号表达式,未考虑随机过程对时序生成的影响
相关工作与启发¶
- Moirai / Timer / TimeGPT:在真实数据上预训练的时序基础模型,SymTime 用纯合成数据达到竞争性能是有说服力的
- Chronos:合成+真实数据结合,但合成策略缺乏理论驱动,S² 的生成机制更本质
- ALBEF / MoCo:跨模态对比学习和动量蒸馏的方法论来源
- 核心启发:时序的本质是动态系统的投影,用符号表达式生成时序是从源头造数据的思路,可推广到其他科学数据生成场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 符号-时序双模态预训练思路新颖,理论驱动的合成数据生成有说服力
- 实验充分度: ⭐⭐⭐⭐ 5 大任务 + scaling 实验 + 消融 + 表示分析 + 复杂度分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,理论与实验衔接好,Takens 定理的引入自然
- 价值: ⭐⭐⭐⭐ 为时序基础模型提供了新的数据范式,纯合成预训练的可行性有启发意义