Complexity- and Statistics-Guided Anomaly Detection in Time Series Foundation Models¶

会议: ICLR2026
OpenReview: rBt9aW3Mx7
代码: 待确认
领域: 时序异常检测 / 时序基础模型
关键词: 时序基础模型, 异常检测, 重建误差, 复杂度度量, 自适应集成

一句话总结¶

把时序基础模型（TFM，如 MOMENT）搬到重建式异常检测上时，会因「过泛化」（连异常也重建得很好）和「过平稳化」（实例归一化抹掉了均值方差）而失灵；本文用一个从重建/插补误差差导出的复杂度指标 \(\alpha\) 自适应地把 TFM 与轻量统计模型混合（CAE），再把均值方差重新注入解码端（MOMENT-Stat），在 23 个单变量 + 17 个多变量基准上把 VUS-PR 从此前 SOTA 的 0.4233 提到 0.4679。

研究背景与动机¶

领域现状：受 LLM 启发的时序基础模型（TFM）在「预测」任务上表现强劲，于是一个自然的想法是把它们直接拿来做异常检测——尤其是重建式异常检测：让模型重建输入，重建误差大的点就判为异常。

现有痛点：作者发现 TFM 直接做重建式异常检测会踩两个坑。第一个是过泛化（overgeneralization）——模型容量太强，连异常片段也能重建得跟正常数据一样准，结果异常点的异常分数反而不高，异常被「抹平」了。以往工作把这归咎于模型容量太大，却忽略了数据本身的复杂度：作者观察到过泛化在低复杂度数据（如以低频结构为主的序列）上尤其严重，因为这种数据太好「猜」，异常也顺手被补全了。第二个坑是过平稳化（overstationarization）——TFM 普遍带实例归一化层（RevIN / RMSNorm），它能提升预测精度，但会把每段输入的均值 \(\mu\) 和方差 \(\sigma\) 这类一阶/二阶统计量抹掉，而这些统计量恰恰是判断「统计型异常」的关键。

核心矛盾：TFM 为「预测」优化的两个特性——高容量、实例归一化——恰好都是「异常检测」的毒药。高容量导致过泛化，实例归一化导致过平稳化。直接微调或换 decoder 都治标不治本（论文引用：哪怕把 decoder 砍到单层全连接也消不掉过泛化）。

切入角度：作者不去改 TFM 本身（不重训那个庞大的 encoder），而是从「这条数据到底有多难」入手——既然过泛化只在简单数据上发作，那就量化「难度」，难的数据交给 TFM、简单的数据交给统计模型；同时把被归一化抹掉的统计量在解码前重新拼回去。

核心 idea：用一个从「插补误差 − 重建误差」导出的复杂度指标 \(\alpha\) 自适应地在 TFM 与统计模型之间分配权重（治过泛化），并把实例级 \(\mu,\sigma\) 重新拼接进解码特征（治过平稳化）——两者都不需要重训 TFM。

方法详解¶

整体框架¶

方法搭在一个预训练 TFM（论文用 MOMENT）的重建框架上：给定时间序列 \(x\in\mathbb{R}^T\)（实例归一化使 \(\|x\|_2^2=T\)），编码器 \(E\) 把带掩码的输入压成特征、线性解码器 \(D\) 重建出 \(\hat{x}(M)=D(E(x\odot M))\)。在此之上，本文同时算两条误差——重建误差 \(L_{rec}(x)=\|x-\hat{x}(M_{test})\|_2^2\)（几乎不掩码，简单任务）和插补误差 \(L_{imp}(x)=\mathbb{E}_{M\sim\mathcal{M}}[\|x-\hat{x}(M)\|_2^2]\)（按预训练的随机掩码方案约 30% 掩码，难任务）——用两者之差衡量数据复杂度 \(\alpha\)。随后一条支路把均值方差重注入解码端得到经过校正的 TFM 分数 \(s_{TFM}\)，另一条支路用轻量统计模型给出 \(s_{stat}\)，最后按 \(\alpha\) 把两者自适应融合成最终异常分数。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入时间序列 x"] --> B["TFM 重建<br/>算 Lrec 与 Limp"]
    B --> C["复杂度度量 α<br/>(Limp − Lrec)/‖x‖² 后分位变换"]
    B --> D["实例统计增强 MOMENT-Stat<br/>解码前拼回 μ、σ"]
    D --> E["TFM 分数 s_TFM"]
    F["统计模型<br/>SR / Sub-PCA / …"] --> G["统计分数 s_stat"]
    C --> H["复杂度感知集成 CAE<br/>α·s_TFM + (1−α)·s_stat"]
    E --> H
    G --> H
    H --> I["异常分数"]

关键设计¶

1. 复杂度度量 α：用「难任务 vs 易任务」的误差差量化一条序列有多难重建

针对过泛化只在简单数据上发作这个观察，作者需要一个能区分「TFM 容易过泛化」与「TFM 真的擅长」的信号。他们把重建（test 时几乎不掩码，是简单任务）和插补（按预训练随机掩码，是难任务）的误差差作为原始复杂度分：

\[w(x)=\frac{L_{imp}(x)-L_{rec}(x)}{\|x\|_2^2}.\]

直觉是：如果一条序列即使被遮住一部分也能轻松补全（\(L_{imp}\approx L_{rec}\)），说明它太「可预测」、TFM 会连异常一起补全——这正是过泛化的温床；反之 \(w\) 大说明部分掩码下模型很吃力，数据复杂、不易被过泛化。为消除不同数据集尺度差异，再对 \(w(x)\) 做分位变换得到 \(\alpha=\text{QuantileTransform}(w(x))\in[0,1]\)。论文还给了两条理论支撑：定理 1 用 Haar 小波把 \(\Delta=L_{imp}-L_{rec}\) 分解为各频率能量 \(\sum_k \phi(k)b_k\)，且系数 \(b_k\) 随频率 \(k\) 单调不减——即 \(\alpha\) 实质是高频能量的加权和，\(\alpha\) 越大说明序列高频细节越多、越难插值；定理 2 进一步论证高复杂度数据上正常样本损失的梯度范数 \(\|\nabla_W L_N\|_F^2\) 更大、优化地形更陡，从而正常/异常分数的间隔 \(\Delta_{gap}\) 增长更快——为「\(\alpha\) 大时更该信任 TFM」给了可证明的保证。

2. 实例统计增强 MOMENT-Stat：把被归一化抹掉的 μ、σ 在解码前拼回去

针对过平稳化，作者先用引理 3 把问题讲死：令 \(N(x)=(x-\mu_x)/\sigma_x\) 为实例归一化，对任意仿射变换 \(x'=\alpha x+\beta\ (\alpha>0)\) 都有 \(N(x')=N(x)\)，于是 \(f(x')=D(E(N(x')))=f(x)\)——也就是说带实例归一化的 TFM 对均值/方差的平移天然不可见，统计型异常（均值或方差异常偏移、但形状正常）会被它当成正常。解法极简且不用重训那个庞大 encoder：令 \(F_i=E(\text{RevIN}(x_i))\)，在送入线性解码器 \(D\) 前把实例统计量直接拼接到特征向量上，再用反归一化复原：

\[\hat{x}_i=\text{RevIN}^{-1}\big(D([F_i;\mu_i;\sigma_i]),\,\mu_i,\sigma_i\big).\]

这样重建误差 \(L_{rec}\) 就对 \(\mu,\sigma\) 的异常偏移敏感了。代价几乎为零（只多拼两维、不重训 encoder），却在「异常是统计离群而非形状违例」的数据集上明显涨点。

3. 复杂度感知集成 CAE：按 α 自适应地在 TFM 与统计模型之间分配权重

有了能区分难易的 \(\alpha\) 和校正过的 TFM 分数，最后一步是把 TFM 与一个轻量统计模型融合，让简单数据偏向统计模型、复杂数据偏向 TFM：

\[s_{CAE}=\alpha\cdot s_{TFM}+(1-\alpha)\cdot s_{stat}.\]

\(\alpha=0\) 退化为纯统计模型、\(\alpha=1\) 退化为纯 TFM，中间值是加权组合。统计模型只挑时间复杂度不超过 \(O(N\log N)\) 的轻量货（SR、Sub-PCA、Sub-HBOS、Sub-IForest、POLY），所以 CAE 几乎不增成本。与「加辅助分数」这类需要手调权重的旧路线相比，本文权重完全由数据特性（\(\alpha\)）自动定，省去人工调参；而且 \(\alpha\) 可以取实例级（CAE per data）或数据集级（取中位数）。作者还给了一个极端化变体 CAS（复杂度感知选择）——按数据集复杂度二选一地全权给某个模型，效果优于随机选择但仍不如软加权的 CAE。

损失函数 / 训练策略¶

不重训 TFM 的 encoder。MOMENT 以学习率 \(10^{-4}\) 训练 2 个 epoch、窗口大小 256、Adam 优化器；每个数据集的训练数据取时间跨度前 25% 或首个异常之前的部分；重建头是带 SiLU 激活、dropout 0.1 的单层全连接。\(\alpha\) 由分位变换在每个数据集上归一化得到。

实验关键数据¶

主实验¶

评测基准为单变量 TSB-AD-U（23 个数据集，覆盖 web 服务、股票、医疗、工业等）与多变量 TSB-AD-M（17 个数据集），主指标为阈值无关的 VUS-PR（Precision–Recall 曲面下体积，0–1，越大越好），辅以 AUC-PR / AUC-ROC / VUS-ROC。

先看过平稳化校正（实例统计增强）单独的效果：

方法	AUC-PR	VUS-PR	VUS-ROC	VUS-PR 全局排名
Sub-PCA（旧 SOTA 统计模型）	0.3700	0.4233	0.7600	1
MOMENT-Stat（本文）	0.3040	0.3913	0.7771	3
MOMENT (FT，微调)	0.3000	0.3857	0.7600	6
MOMENT (ZS，零样本)	0.3000	0.3790	0.7500	7

仅把 \(\mu,\sigma\) 重注入解码端、不重训 encoder，MOMENT-Stat 就把 VUS-PR 从微调版的 0.3857 提到 0.3913，超过了费力微调的 MOMENT。

再看复杂度感知集成（CAE）把统计模型抬到榜首：

统计骨干	α=0（纯统计）	CAE	排名变化
SR	0.3237	0.4596	14 → 1
Sub-PCA	0.4233	0.4679	1 → 1
Sub-IForest	0.2230	0.4318	29 → 2
POLY	0.3897	0.4274	3 → 2
Sub-HBOS	0.2283	0.3734	28 → 3

CAE 几乎把所有统计骨干都抬进前三：SR 从第 14 飙到第 1，Sub-IForest 从第 29 到第 2；Sub-PCA 在 CAE 下达到 0.4679，刷新此前 SOTA（Sub-PCA 单独 0.4233、纯 TFM 0.3857）。

消融实验¶

配置	关键指标（以 Sub-PCA 为例 VUS-PR）	说明
纯统计模型（α=0）	0.4233	治不了复杂数据
朴素平均（α=0.5，多变量 PCA）	0.3132	盲目融合反而比纯统计的 0.3878 还差
随机选择	0.4073	不看复杂度地二选一
CAS（按复杂度硬选）	0.4400	软选优于随机
CAE（本文软加权）	0.4679	最优
换用谱熵/近似熵/样本熵当复杂度	0.4288 / 0.4373 / 0.4409	都不如本文 α 的 0.4679

关键发现¶

复杂度自适应是核心：在多变量上盲目平均 TFM 与统计分数（α=0.5）会因 MOMENT 的通道独立假设而掉点（PCA 的 VUS-PR 从 0.3878 跌到 0.3132），而 CAE 用 \(\alpha\) 自适应调节后反而把 HBOS（0.1751→0.2535）、LOF（0.1091→0.2122）等弱骨干显著抬起。
本文复杂度指标优于通用熵：把 \(\alpha\) 换成谱熵/近似熵/样本熵，CAE 的 VUS-PR 普遍下降，说明「插补−重建误差差」比现成熵指标更贴合 TFM 的过泛化行为。
唯一例外 Sub-HBOS：当统计骨干本身太弱（Sub-HBOS 单独仅 0.2283，远低于 MOMENT-Stat 的 0.3913）时，纯 TFM（α=1）反而比 CAE 略好——融合一个太差的伙伴收益有限；但 CAE 仍把 Sub-HBOS 从 0.2283 大幅抬到 0.3734（排名 28→3）。
预测式 TFM 的反思：把预测误差当异常分数时，Chronos > TimeMoE > Moirai，且预测越准（sMAPE 越低）异常检测 VUS-PR 越高——预测能力的提升能直接转化为预测式异常检测的提升；但在多变量上，只有显式建模通道关系的 Moirai 才表现得好，凸显通道依赖建模对多变量异常检测的重要性。

亮点与洞察¶

把「过泛化」从模型容量问题重构成数据复杂度问题：以往都在砍 decoder 容量上打转，本文指出过泛化其实是「简单数据 + 高容量」的合谋，于是用一个数据侧的复杂度指标对症下药——视角的切换很巧妙。
复杂度指标几乎零成本且有理论背书：\(\alpha\) 直接复用 TFM 已有的重建/插补两条误差，不引入额外网络；还用 Haar 小波分解证明它本质是高频能量的加权和，把一个经验指标讲出了道理。
MOMENT-Stat 是典型的「不重训大模型」工程巧思：仅在解码前拼接 \([F;\mu;\sigma]\) 两维，就让被实例归一化阉割的统计敏感性回来了，几乎可白嫖到任意带 RevIN 的 TFM 上。
可迁移性：「用难/易两种自监督任务的误差差衡量样本难度，再据此自适应混合强/弱模型」这套思路，可迁移到其他重建式自监督场景（如图像/表格异常检测）做难度感知集成。

局限与展望¶

依赖统计骨干的质量：CAE 的增益在统计模型本身够强时才稳；骨干太弱（Sub-HBOS）时融合收益有限、甚至不如纯 TFM，需要先挑对统计模型。
通道独立假设的硬伤：核心 TFM（MOMENT）把多变量当独立通道处理，忽略通道间依赖；虽然 CAE 的自适应加权能缓解，但作者也承认多变量异常检测真正需要的是显式建模通道关系（如 Moirai 那样构造含通道信息的注意力），这超出了本文 backbone 的能力。
理论假设较强：定理 2 依赖「正常与异常数据梯度不对齐」、TFM「保低频抹高频」等假设，且证明在附录、正文只给结论，实际数据未必严格满足。
仅在 MOMENT 上验证：受限于「公开权重 + 显式支持异常检测」的 TFM 不多（One-fits-all、TimesNet、TimeMixer++ 未放权重），重建式实验主要绑定 MOMENT，方法在其它 TFM 上的普适性待验。

评分¶

新颖性: ⭐⭐⭐⭐ 把过泛化重构为数据复杂度问题、用插补−重建误差差当复杂度指标，并配上小波频谱的理论解释，角度新。
实验充分度: ⭐⭐⭐⭐ 覆盖 23 单变量 + 17 多变量、对比多种统计骨干/复杂度指标/集成策略，并诚实报告 Sub-HBOS 反例；但重建式实验主要绑定单一 TFM。
写作质量: ⭐⭐⭐⭐ 两个挑战—两个解法的结构清晰，理论与实验呼应。
价值: ⭐⭐⭐⭐ 给「TFM 做异常检测」提供了即插即用、不重训的实用范式，落地性强。