跳转至

HEPA: A Self-Supervised Horizon-Conditioned Event Predictive Architecture for Time Series

会议: ICML 2026
arXiv: 2605.11130
代码: 待确认
领域: 时间序列 / 自监督学习 / 事件预测
关键词: 事件预测, JEPA, 自监督预训练, 标签效率, 生存分析

一句话总结

HEPA 通过地平线条件化的 JEPA 自监督预训练学习时间序列中的可预测动态——冻结编码器只微调预测器,用单一架构和固定超参在 11 个领域 14 个基准上超越多个 SOTA 方法,仅用 2% 标签数据即可达到 92% 性能。

研究背景与动机

领域现状:涡轮机故障预测、心律不齐检测、异常检测、RUL(剩余寿命)预测这些事件预测任务分散在不同社区,各用各的基准、指标和模型架构。虽然这些任务从结构上看都是同一问题——"给定时刻 \(t\) 的观察,估计 \(P(\text{事件发生在} \Delta t \text{内})\)"——但方法论碎片化严重。

现有痛点: - 值预测方法(无论是监督还是预训练)将编码器塑造成所有信号变化的捕捉器,包括与下游事件无关的噪声。 - 现有自监督方法用 JEPA 做分类需要标签,做异常检测只针对特定任务调优。 - 单个架构无法跨领域通用,每个应用需要域特定的参数调整。

核心矛盾:如何让编码器学到"可预测的"时间动态(而非所有变化),同时用最少的标签完成下游事件预测任务?

本文目标:构建一个统一架构和固定超参的通用事件预测系统,能跨多个领域处理不同类型的事件(从机械磨损到心脏异常)。

切入角度:与其让编码器预测未来数值(包含噪声),不如让它预测未来表示(只保留可预测部分)——这正是 JEPA 的核心思想。

核心 idea:(1)用 horizon-conditioned JEPA 预训练编码器,强制它在多个时间尺度学习动态;(2)冻结编码器,只微调预测器和事件头,用生存 CDF 输出单调递增的事件概率曲面。

方法详解

整体框架

两阶段——第一阶段(预训练):因果 Transformer 编码器从无标签数据中学习时间动态,预测器学习在给定地平线 \(\Delta t\) 下预测未来表示;第二阶段(下游微调):冻结编码器参数,只微调预测器和一个轻量级事件头,输出离散时间生存 CDF(确保预测概率随 \(\Delta t\) 单调递增)。

关键设计

  1. 地平线条件化 JEPA 预训练:

    • 功能:通过预测地平线变化的未来表示来学习多尺度时间动态,避免值预测中的噪声。
    • 核心思路:因果编码器 \(f_\theta\) 将观察 \(\mathbf{x}_{\leq t}\) 映射到摘要嵌入 \(\mathbf{h}_t\);预测器 \(g_\phi\) 接收 \(\mathbf{h}_t\) 和地平线 \(\Delta t\),预测未来区间表示 \(\hat{\mathbf{h}}_{(t, t + \Delta t]}\)。训练中 \(\Delta t\) 从对数均匀分布 \([1, \Delta t_{\max}]\) 采样,强制编码器学习多尺度模式。目标表示从双向编码器和注意力池化得到 \(\mathbf{h}^*_{(t, t + \Delta t]}\)。损失 \(\mathcal{L} = (1 - \alpha) \|\hat{\mathbf{h}} - \mathbf{h}^*\|_1 + \alpha \mathcal{L}_{\text{SIG}}\),SIGReg(Sketched Isotropic Gaussian Regularisation)约束预测表示向同向高斯分布,替代标准 JEPA 的 EMA 动量机制防止表示坍缩。
    • 设计动机:地平线条件化强制编码器理解长期依赖;SIGReg 相比 EMA 更稳定、超参更少;L1 损失比 L2 更鲁棒。
  2. 冻结编码器 + 预测器微调:

    • 功能:在下游事件预测任务中只微调 198K 参数(vs 端到端 2.16M),同时保留 JEPA 学到的预训练知识。
    • 核心思路:编码器冻结,预测器和线性事件头联合微调。对 \(K\) 个离散地平线 \(\Delta t = 1, \ldots, K\),预测器输出每个区间的条件风险 \(\lambda_{\Delta t}(t) = \sigma(\mathbf{w}^\top \hat{\mathbf{h}}_{(t, t + \Delta t]} + b)\)。离散时间生存 CDF \(p(t, \Delta t) = 1 - \prod_{j=1}^{\Delta t} (1 - \lambda_j(t))\) 保证单调性。微调损失 \(\mathcal{L}_{\text{FT}} = \sum_{\Delta t = 1}^K w^+ \text{BCE}(p(t, \Delta t), y(t, \Delta t))\)\(w^+ = N_{\text{neg}} / N_{\text{pos}}\) 补偿类不平衡。
    • 设计动机:冻结编码器避免灾难性遗忘和过拟合;预测器微调比线性探针更具表达能力,同时远比端到端训练参数少;生存 CDF 的单调约束避免在长地平线反复预测事件概率下降。
  3. 统一的概率曲面 + h-AUROC 评估:

    • 功能:用单一概率曲面 \(p(t, \Delta t)\) 统一所有度量的计算。
    • 核心思路:模型为每个观测时刻 \(t\) 和预测地平线 \(\Delta t\) 输出概率。域特定度量(RUL 的 RMSE、异常检测的 PA-F1)都从同一曲面投影得到。采用 h-AUROC(各地平线 AUROC 的平均)作为跨域度量。
    • 设计动机:统一框架允许在 14 个数据集、11 个领域用同一模型和超参;曲面表示保留完整预测信息。

实验关键数据

主实验

数据集 领域 h-AUROC (HEPA) h-AUROC (PatchTST) h-AUROC (iTransformer) 领先?
C-MAPSS-1 涡轮 0.81 ± 0.03 0.80 0.70
C-MAPSS-3 涡轮 0.84 ± 0.01 0.79 0.76
TEP 化工 1.00 0.99 0.93
Weather 气候 0.89 0.88 0.83
GECCO 水质 0.88 0.65 0.64
MBA 心脏 0.75 0.68 0.84

14 个基准中 HEPA 在 10 个上领先;仅调优 198K 参数(PatchTST 的 11 倍少)。

消融与标签效率

配置 C-MAPSS-1 h-AUROC C-MAPSS-3 h-AUROC 说明
完整模型(100% 标签) 0.786 0.853 完整 HEPA
10% 标签 0.772 0.830 保留 98% / 97% 性能
5% 标签 0.730 0.709 保留 93% / 83% 性能
2% 标签(2-5 个引擎) 0.724 0.635 保留 92% / 74% 性能
1% 标签 0.670 0.513 性能下降明显

理论支撑(Proposition 1:事件信息保留界)

\(I(H_t; E_{t + \Delta t}) \geq I(H^*; E_{t + \Delta t}) - C_\eta L^2 \varepsilon\)\(C_\eta = (2 \underline{\eta} (1 - \overline{\eta}))^{-1}\)。预训练损失越小,下游 h-AUROC 越高(实验在 C-MAPSS-1/3、MBA 三个不同领域验证,Spearman \(\rho = -0.67/-0.64/-0.49\), p < 0.05)。

关键发现

  • 在有延长前兆的生命周期数据集上,HEPA 以极少标签保持高性能——C-MAPSS-1 仅用 2% 标签(2 台引擎)就达 92% 满标签性能。
  • 这验证了 Proposition 1 的理论预测:低预训练损失 \(\varepsilon\) 与高下游性能正相关。

亮点与洞察

  • 地平线条件化的创新应用:标准 JEPA 用于图像时不区分时间尺度,HEPA 通过对数均匀采样 \(\Delta t\) 强制编码器学习多尺度动态——在需要从长期漂移信号中预测稀有事件的应用中特别有效。
  • 预测器微调 vs 线性探针的表达能力权衡:线性探针只用 198 参数但丧失地平线条件表示能力,端到端需调优 2.16M 参数;预测器微调巧妙地用 MLP 重塑地平线条件化输出,用 1/11 参数达到等效性能。
  • 生存 CDF 的单调约束设计:通过将离散风险 \(\lambda_j\) 组合为生存函数 \(\prod_j (1 - \lambda_j)\),确保累积事件概率随地平线严格单调递增——避免模型的内部矛盾。
  • 跨域通用性与领域特定指标的统一:同一模型在涡轮、心脏、异常等完全不同的领域达到竞争或超越的性能,体现了设计的稳健性。

局限与展望

  • 传感器本地化事件的劣势:在 MBA(心律不齐)和 BATADAL(网络攻击)上低于 iTransformer 和 PatchTST,因为这类事件信息浓缩在少数传感器通道而 HEPA 的 patch tokenization 稀释了相关信息。
  • 短窗口异常数据集的性能不稳定:在 GECCO 等短异常窗口数据集上标签效率优势消失。
  • 预训练损失与下游性能的跨域失效:单数据集内验证了理论界,跨数据集的预训练损失与 h-AUROC 无相关(r = -0.05),因为 Lipschitz 常数等在数据集间变化剧烈。

相关工作与启发

  • vs TS2Vec / TNC / TimesURL:对比学习方法通过正负样本对学习,对噪声敏感;HEPA 的 JEPA 直接预测表示避免了对比对的构造复杂性。
  • vs PatchTST / SimMTM:值预测和掩码重构方法学全信号变化包括对下游任务无关的噪声;HEPA 只学可预测动态更高效。
  • vs Chronos-2 / MOMENT:大规模预训练基础模型通过广阔外部语料获得通用性;HEPA 每数据集预训练(< 1 分钟)虽不跨域共享权重,但得益于固定的通用微调食谱,实现了实际可部署性。
  • vs MTS-JEPA / TS-JEPA:MTS-JEPA 针对异常检测添加码本正则化;HEPA 用 SIGReg 替代 EMA,避免了超参调优;在 9 个重现数据集上 HEPA 赢 8 个。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Horizon-conditioned JEPA + 预测器微调的组合应用于时间序列事件预测;理论界 Proposition 1 验证了设计原理。
  • 实验充分度: ⭐⭐⭐⭐⭐ 14 个基准 + 11 个领域 + 5 个 baseline + 消融表 + 理论验证 + 标签效率曲线 + 表示可视化。
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,Method 段既有形式化表述又有直观解释。
  • 价值: ⭐⭐⭐⭐⭐ 统一框架、极少参数调优、高标签效率使其有实际工业部署价值;理论与实验结合验证了何时该方法有效及失效,提供了设计者的实用指导。