ProbFM: Probabilistic Time Series Foundation Model with Uncertainty Decomposition¶

会议: AAAI2026
arXiv: 2601.10591
代码: 待确认
领域: 时间序列
关键词: time series, foundation model, uncertainty quantification, deep evidential regression, financial forecasting

一句话总结¶

首次将 Deep Evidential Regression (DER) 与 Normal-Inverse-Gamma 先验引入时序基础模型架构，实现单次前向传播即可进行 epistemic-aleatoric 不确定性分解，并在加密货币预测中验证了不确定性感知交易策略的实用价值。

背景与动机¶

时序基础模型 (TSFM) 在零样本预测中表现出色，但在金融等高风险场景缺乏有原则的不确定性量化
现有方法的局限：
- 混合模型 (MOIRAI)：预设分布组件，无法区分 epistemic vs aleatoric 不确定性
- Student-t 分布 (Lag-Llama)：强分布假设，可能不适用于多样时序特征
- Conformal Prediction (TimeGPT)：事后校准，未融入学习过程
不同架构使得性能提升来源难以归因（是不确定性方法还是架构优势？）

核心问题¶

如何在 TSFM 中实现有原则的 epistemic-aleatoric 不确定性分解？
如何在不牺牲预测精度的前提下提供完整不确定性量化？
如何公平评估不确定性量化策略本身的贡献（排除架构差异）？

方法详解¶

整体框架¶

ProbFM = Adaptive Patching + Transformer Backbone + DER Head，六个组件：输入处理、Transformer 表征学习、DER 不确定性估计、组合损失、单阶段训练（含 evidence annealing）、单次推理。

关键设计¶

1. Normal-Inverse-Gamma (NIG) 先验

对预测分布参数建模而非直接参数化分布：\(p(\mu, \sigma^2) = \text{NIG}(\mu, \lambda, \alpha, \beta)\)
不确定性显式分解：
- Aleatoric: \(\mathbb{U}_{\text{aleatoric}} = \frac{\beta}{\alpha - 1}\)（数据固有噪声）
- Epistemic: \(\mathbb{U}_{\text{epistemic}} = \frac{\beta}{(\alpha-1)\lambda}\)（模型不确定性，可通过更多数据降低）

2. DER Head 参数投影

Transformer 输出 \(h\) 映射为四个 NIG 参数：\(\mu\) 无约束；\(\lambda, \beta\) 通过 Softplus + \(\epsilon\) 保正；\(\alpha\) 通过 Softplus + 1 + \(\epsilon\) 保证 \(> 1\)

3. 增强损失函数

Evidential loss: \(\mathcal{L}_{\text{EDL}} = \mathcal{L}_{\text{NLL}} + \lambda_{\text{evd}} \mathcal{L}_{\text{reg}}\)
Coverage loss: \(\mathcal{L}_{\text{coverage}} = |\text{PICP}_{\text{target}} - \text{PICP}_{\text{actual}}|\)，直接优化预测区间覆盖率
完整目标：\(\mathcal{L}_{\text{ProbFM}} = \mathcal{L}_{\text{EDL}} + \lambda_{\text{coverage}} \cdot \mathcal{L}_{\text{coverage}} + \lambda_{\text{wd}} \|\theta\|_2^2\)

4. Evidence Annealing

\(\text{evidence\_scale}(t) = \min(1.0, t / T_{\text{anneal}})\)，防止早期训练过度自信
与 Sensoy 等人的 KL 正则化退火不同，直接控制 evidence 累积过程

5. 控制实验设计

所有方法统一使用 1-layer LSTM (32 hidden dims) 作为 backbone
仅改变损失函数和输出头，隔离不确定性量化策略的贡献

实验关键数据¶

方法	RMSE	MAE	特点
MSE Baseline	0.044	0.030	无概率输出
Gaussian NLL	0.044	0.029	仅 total variance
Student-t NLL	0.045	0.030	重尾建模
Quantile Loss	0.044	0.029	分位数区间
Evidential (ProbFM)	0.045	0.030	epistemic+aleatoric 分解

预测精度：DER 与其他方法持平（RMSE 0.045 vs baseline 0.044），不确定性量化不牺牲精度
不确定性感知交易：基于 epistemic/aleatoric 阈值过滤高不确定性预测，提升风险调整收益
Portfolio 优化：基于不确定性的仓位大小调整优于等权基线

亮点¶

首次将 DER + NIG 先验应用于 TSFM 架构，填补了时序基础模型中不确定性分解的空白
控制实验设计（固定 LSTM 架构）严谨隔离了不确定性量化方法的贡献
Coverage loss 直接优化预测区间覆盖率，无需事后校准
单次前向传播即可获得完整不确定性量化，计算效率高
金融应用验证（交易过滤 + portfolio 优化）展示了实际决策价值

局限与展望¶

仅在加密货币日收益数据上验证，缺乏多领域（能源、交通、天气）和多频率实验
控制实验用 1-layer LSTM (32 dim)，模型容量极小，未在真正的 foundation model 规模上验证
仅支持单变量单步预测，多步和多变量扩展（NIW 先验）仅作为 future work 提及
DER 的 evidence collapse 问题虽有 annealing 缓解，但理论保证不充分
与 MOIRAI、Lag-Llama 等真实 TSFM 未进行端到端对比

与相关工作的对比¶

vs MOIRAI：MOIRAI 用 4 组分混合分布，计算需多组分采样；ProbFM 单次前向传播，但缺乏 MOIRAI 的多变量多步能力
vs Lag-Llama：Lag-Llama 用 Student-t 假设单一分布族；ProbFM 通过 NIG 学习分布参数的分布
vs TimeGPT：TimeGPT 的 conformal prediction 事后校准；ProbFM 将不确定性融入训练过程
vs 标准 Bayesian / MC Dropout：ProbFM 单次前向，避免多次采样开销

启发与关联¶

DER 的 epistemic-aleatoric 分解在主动学习中有天然应用：高 epistemic uncertainty 的样本优先标注
Coverage loss 思路可推广到任何概率预测模型的校准
Evidence annealing 策略对其他 evidential learning 任务（分类、目标检测）有参考价值
时序 Foundation Model + 不确定性分解的方向值得在更大规模上探索

评分¶

新颖性: ⭐⭐⭐⭐ (DER 首次引入 TSFM，但 DER 本身非新方法)
实验充分度: ⭐⭐⭐ (控制实验设计好，但数据和模型规模不足)
写作质量: ⭐⭐⭐⭐ (方法论阐述清晰，理论基础扎实)
价值: ⭐⭐⭐ (方向有意义，但实验规模限制了说服力)