CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data¶
会议: ICLR2026
OpenReview: xBW2FIfswU
代码: https://github.com/ShifengXIE/CauKer
领域: 时序基础模型 / 合成数据预训练
关键词: 时序基础模型, 合成数据, 高斯过程核, 结构因果模型, 缩放定律
一句话总结¶
CauKer 把高斯过程的核组合与结构因果模型(SCM)拼到一起,造出既有真实时序结构、又自带类别簇结构的纯合成时序,仅用这些数据预训练分类型时序基础模型(TSFM),就能在 128 个 UCR 数据集上几乎追平用大几十倍真实语料训练的原版模型,并首次展现出干净的数据/模型缩放定律。
研究背景与动机¶
领域现状:时序基础模型(TSFM)这两年很火,靠强 zero-shot 能力在预测和分类任务上都拿到了不错的成绩。主流做法是堆数据——从各个领域收集、清洗大规模真实时序语料做预训练,最夸张的工作用了 3000 亿个时间点。
现有痛点:这套"堆真实数据"的范式在分类任务上尤其难受。一是时序分类本身缺乏多样、丰富的预训练语料;二是真实分类语料(如 UEA)由一堆小的、异质的、样本量极不均衡的数据集拼凑而成,质量参差;三是用真实数据评测 OOD 泛化时还有数据泄漏风险。论文里更尖锐的观察是:在这种真实语料上,TSFM 几乎看不到缩放定律——加数据、加参数,准确率不增反抖。
核心矛盾:分类任务对合成数据有两个看似冲突的要求。一方面,生成的序列要有季节性、周期、趋势这些真实时序"长相";另一方面,分类要成立,样本之间必须有有意义的簇结构,模型才能学会把不同类别区分开。已有的合成管线各占一头:预测向的核方法(如 Chronos 的 KernelSynth)画零均值高斯过程,擅长平滑外推但没有类别可分性;表格分类向的 SCM 生成器(TabPFN)能造丰富的非线性因果依赖,却完全丢掉了时序结构。
本文目标:设计一条专为时序分类 TSFM 服务的纯合成数据生成管线,让模型只看合成数据预训练,就能匹配甚至超过看真实数据的版本,同时把缩放定律找回来。
切入角度:既然两类现成管线各有一半优点,那就把它们焊接起来——用核组合的高斯过程负责"时序长相",用 SCM 负责"因果可分性"。
核心 idea:用「核组合 GP 先验 + SCM 因果传播」生成既真实又可分的合成时序,把"造数据"而非"改架构"作为提升 TSFM 的主路径。
方法详解¶
整体框架¶
CauKer(Causal-Kernel)是一条五步合成数据生成管线,输入是三个预定义的函数库(核函数库 \(\mathcal{K}\)、均值函数库 \(\mathcal{M}\)、激活函数库 \(\mathcal{A}\)),输出是一批长度固定(实验里 \(T=512\))的单变量合成时序,直接拿去做 TSFM 的自监督预训练。整条流程的骨架是:先用核库随机采样并组合出复合核,配上从均值库采的均值函数,组成若干个高斯过程先验;从这些 GP 先验里采样得到的时序充当一张有向无环图(DAG)的根节点;图的每条边挂一个激活函数,把根节点的信号沿因果图非线性地传播、聚合到下游节点;最后把各节点输出插值到统一长度,汇成合成数据集。
关键直觉是:GP 那一半保证了周期性、季节性等"真实时序母题",SCM 那一半通过有向边注入非线性因果语义,让生成的序列天然带有簇结构。论文还指出,同一个 SCM 的不同节点可以理解为共享同一因果结构的多变量时序的不同通道——本文为对齐 TSFM 的单变量预训练,把每个节点轨迹当成一条独立的单变量序列用。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
K["核函数库 K"] --> GP["核组合 GP 先验<br/>随机 +/× 组合核"]
M["均值函数库 M"] --> MEAN["非零均值函数<br/>线性/指数/异常均值"]
GP --> ROOT["GP 根节点时序<br/>采样 M 个根序列"]
MEAN --> ROOT
A["激活函数库 A"] --> SCM["SCM 因果图传播<br/>DAG 逐边非线性聚合"]
ROOT --> SCM
SCM --> OUT["插值定长<br/>合成分类数据集"]
关键设计¶
1. 核组合 GP 先验:把真实时序的"长相"写进数据
分类合成数据的第一个要求是序列得像真的时序——有季节性、周期、趋势。CauKer 沿用 Chronos(Ansari 等)的核函数库,第 1 步从库里 i.i.d. 采出随机数量 \(K\sim\mathcal{U}(1,n_\mathcal{K})\) 个候选核 \(\{\kappa_i(t,t')\}_{i=1}^K\);第 2 步用 \(K-1\) 个随机选的二元运算(加法 \(+\) 与乘法 \(\times\))把它们组合成一个复合核 \(\kappa^* = \kappa_1 \star_1 \cdots \star_{K-1} \kappa_K\)。加法核叠加不同频率/尺度的成分,乘法核制造调制与交互,组合之后单个复合核就能表达相当复杂的时序母题。这一步直接继承了预测向 KernelSynth 的优点,但它只是半成品——单靠零均值 GP,生成的序列没有类别区分度。
2. 非零均值函数:把类别可分的"簇结构"写进数据
这是 CauKer 区别于预测向核方法的第一个关键改动,也是被消融实验确认有效的设计。KernelSynth 为了平滑外推画的是零均值 GP,但分类任务恰恰需要保留均值水平本身作为判别线索。第 3 步 CauKer 从均值函数库采 \(M\sim\mathcal{U}(1,n_\mathcal{M})\) 个均值函数 \(\{\mu_i(t)\}\),库里包含线性函数 \(ax+b\)、指数函数 \(ae^{bx}\),以及一个"异常均值函数"——在随机位置插入来自 \(\mathcal{U}(-5,5)\) 的随机值。把复合核与采样的均值拼成 \(M\) 个 GP 先验 \(\{\mathrm{GP}(\mu_i,\kappa^*_i)\}\) 并从中采样。直观上,不同的均值水平把序列推到嵌入空间的不同区域,于是同类内距离小、异类间距离大的簇就浮现出来;异常均值函数则模拟真实分类数据里常见的异常样本。论文用 200 条生成序列算两两 DTW 距离再层次聚类,画出的距离矩阵里能清楚看到块状的簇和异常,这正是分类所需的判别信号。
3. SCM 因果图传播:注入非线性因果语义,并几乎零额外开销
光有 GP 还不够,TabPFN 在表格分类上的成功说明结构因果能带来丰富的非线性类间依赖。CauKer 的第 4、5 步把 SCM 焊接进来:第 4 步采 \(E\sim\mathcal{U}(1,n_\mathcal{A})\) 个激活函数 \(\{\sigma_i\}\)(库里有线性、ReLU、sigmoid、正弦、逐元素取模 \(x \bmod c\)、Leaky ReLU 等);第 5 步随机生成一张有 \(|E|\) 条边、\(|V|\) 个节点、\(M\) 个根节点(入度为零)的 DAG,并用双射 \(\phi\) 给每个节点唯一绑定一个激活函数。\(M\) 个根节点装上前面采的 GP 时序,每个非根节点 \(v_j\) 的值由所有入边拼接后过一个随机初始化的线性层(权重偏置 \(W,b\sim\mathcal{N}(0,1)\))再过激活得到:
这样既保留了 GP 的周期结构,又通过有向边引入了非线性因果依赖。一个常被忽略的好处是效率:CauKer 只在根节点上采样 GP,再把这套根过程沿因果图传播,多个节点就能抽成多条单变量序列。实测生成 1000 条长度 512 的序列,CauKer 用 121.64 秒,比同样核库的 KernelSynth(182.25 秒)还略快;其中 99% 以上耗时在 GP 核采样上,构图与传播只占不到 1%(约 1.14 秒),相当于近乎免费地把数据量翻倍并加上了因果结构。
损失函数 / 训练策略¶
CauKer 只负责造数据,不绑定特定预训练目标,对两类 SSL 范式都通用。实验里同时覆盖:对比学习的 Mantis(8M,encoder-only)和掩码重建的 MOMENT(77M,encoder-decoder),两者损失与架构沿用各自原文,CauKer 仅替换其预训练语料。评测时冻结编码器 \(F:\mathbb{R}^t\to\mathbb{R}^q\),在其 embedding 上训一个轻量分类器——Mantis 用随机森林、MOMENT 用 SVM——以 zero-shot 准确率衡量表示质量。为保证 OOD,CauKer 预训练模型只见合成序列,从不接触 UCR/UEA 等真实分类基准。
实验关键数据¶
主实验¶
在 128 个 UCR 数据集上报告平均 zero-shot 准确率,对比不同合成生成器(固定 10 万样本、长度 512):
| 生成器 | Mantis (%) | MOMENT (%) |
|---|---|---|
| SCM (仿 TabPFN) | 73.49 | 59.23 |
| FPFN | 77.52 | 70.85 |
| KernelSynth | 77.70 | 69.31 |
| Mean+KernelSynth | 78.20 | 72.56 |
| CauKer (本文) | 78.31 | 74.24 |
纯表格向 SCM 在时序上崩得最惨(MOMENT 仅 59.23%),说明时序依赖对时序分类不可或缺;纯预测向 KernelSynth/FPFN 居中。CauKer 在两个模型上都最优,对通用架构 MOMENT 的增益尤其明显(比 KernelSynth 高近 5 个点)。
样本效率对比(Q3,几乎追平用大语料训练的原版):
| 模型 | 预训练集 | 规模 | UCR 含入? | UCR acc.(%) |
|---|---|---|---|---|
| Mantis | CauKer | 100K | 否(OOD) | 78.55 |
| Mantis | 原 Mantis 语料 | 1.89M | 是(ID) | 78.66 |
| Mantis | UEA | 100K | 否 | 76.73 |
| Mantis | 预测数据集 | 100K | 否 | 75.81 |
| MOMENT | CauKer | 10M | 否(OOD) | 77.49 |
| MOMENT | Time Series Pile | 13M | 是(ID) | 78.85 |
| MOMENT | UEA | 100K | 否 | 73.55 |
Mantis 用约 20× 更小、且严格 OOD 的合成数据,准确率掉不到 0.1%;MOMENT 用约 1.3× 更小的数据,掉幅勉强超过 1%——而原版那两行本质是 in-distribution(语料含 UCR 训练集),可视作 zero-shot 的实践上限。
消融实验¶
| 配置 | Mantis (%) | MOMENT (%) | 说明 |
|---|---|---|---|
| KernelSynth | 77.70 | 69.31 | 零均值 GP,无 SCM |
| + 非零均值 | 78.20 | 72.56 | 加均值函数(设计 2) |
| + SCM 因果传播 (CauKer) | 78.31 | 74.24 | 再加因果结构(设计 3) |
两步增益清晰可拆:加非零均值在 MOMENT 上 +3.25 个点,再加 SCM 因果结构再 +1.68 个点。对带强分类先验的 Mantis 增益较小,对通用 MOMENT 增益最大,说明这两个设计正好补上了 MOMENT 缺失的时序分类归纳偏置。
关键发现¶
- 缩放定律是最大卖点:CauKer 合成数据从 10K 到 10M、模型从 1M 到 783M,准确率单调上升;而真实 UEA 子集(0.1%→100%)和不同模型尺寸上准确率忽上忽下,缩放定律"断裂"。作者归因于 UEA 由异质、不均衡的小数据集拼成、多样性不足。
- 多样性证据互证:CauKer 的 Mantis 嵌入在 PCA 空间里覆盖一大片、把 UEA 和 UCR 都包进去;非线性度与逐层 CKA 在数据量超 100K 后出现明显结构性变化,而 UEA 从 600K 到 12M 几乎不变——再次印证合成数据更"丰富"。
- 训练动态有趣:合成数据训练 loss 更高(更难学),但测试准确率更平滑地持续爬升,最终反超快速记住真实语料的原版模型。
- 意外的预测迁移:CauKer 不做任何任务专属改动,直接拿去预训练 Chronos(0.5B 时间点),zero-shot 预测精度与用 84B token 训练的原版统计上不可区分(Wilcoxon 检验 p=0.84)。
亮点与洞察¶
- 两条现成管线的"焊接"恰到好处:GP 核组合给时序母题、SCM 给因果可分性,各取一半且互不冲突,省去了从零设计生成器;这种"组合既有工具补足彼此短板"的思路可迁移到其他模态的合成数据生成。
- 把非零均值当判别线索是个很反直觉但有效的小改动:预测任务里大家习惯零均值 GP,分类却恰恰要保留均值水平——一句话点破了为什么预测向合成数据在分类上不灵。
- 缩放定律作为合成数据质量的"诊断仪":用"是否出现干净缩放定律"来判断预训练语料好不好,比单看终点准确率更有洞察力,也顺手把真实分类语料多样性不足的问题量化了出来。
- 几乎零成本加因果结构:SCM 传播只占 <1% 时间却带来稳定增益,这种"廉价数据增殖"对算力受限的预训练很有吸引力。
局限与展望¶
- 作者承认只考察了 Mantis 与 MOMENT 两个模型(虽覆盖对比/掩码两种范式),因算力所限未扩展到更多架构;也未在 Time-300B 这类大规模预测基准上验证。
- 预训练实验限制在单变量输入,把每个节点轨迹当独立序列——而 SCM 的多节点本可天然支持多变量,这个"共享因果结构的多通道"潜力还没被真正利用。
- 函数库(核/均值/激活)是手工预定义的,库的设计本身可能限制覆盖的模式空间;自动搜索或学习这些库或许能进一步提升。
- 簇结构的"判别性"靠 DTW 聚类、SWD、CKNNA 等定性证据支撑,缺一个直接可控的类别数/类间距离旋钮,生成数据的难度难以精确调节。
相关工作与启发¶
- vs KernelSynth (Chronos):两者都用核组合 GP,但 KernelSynth 为预测设计、画零均值、无类间结构;CauKer 加非零均值 + SCM 因果传播,把它从"平滑外推"改造成"判别可分",在分类上稳定胜出。
- vs SCM/TabPFN 生成器:TabPFN 的 SCM 擅长非线性因果但丢掉时序结构,纯搬到时序上崩得最惨(MOMENT 59.23%);CauKer 让 GP 先验充当 SCM 的根节点,补回季节/趋势母题。
- vs ForecastPFN / TimePFN:同样纯合成预训练,但都面向预测;CauKer 是(据作者所知)首个面向时序分类 TSFM 的合成数据生成方法,并首次系统刻画了 zero-shot 时序分类的缩放定律。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个分类向时序合成数据管线,GP+SCM 焊接 + 缩放定律分析角度新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 128 UCR + 数据/模型/训练时间三类缩放 + 生成器对比 + 预测迁移,覆盖很全
- 写作质量: ⭐⭐⭐⭐ 动机与设计动机讲得清楚,五步管线公式完整;图表略依赖附录
- 价值: ⭐⭐⭐⭐⭐ 把"造好数据"确立为提升 TSFM 的主路径,且代码开源、可直接复用