Benchmarking Probabilistic Time Series Forecasting Models on Neural Activity¶
会议: NeurIPS 2025
arXiv: 2510.18037
代码: 待确认
领域: 神经科学 / 时间序列预测
关键词: 神经活动预测, 概率预测, 钙成像, 基准评测, 基础模型
一句话总结¶
首次系统评测 12 个概率时间序列预测模型在小鼠皮层钙成像数据上的表现,发现 PatchTST 一致最优(信息性预测窗口达 1.5 秒),零样本基础模型(Chronos)完全失败但微调后竞争力强,揭示神经活动的内在可预测性上限约 1.5 秒。
研究背景与动机¶
领域现状:神经活动预测对闭环脑机接口和神经系统理解至关重要。深度学习时序预测方法在金融/气象等领域取得巨大进展,但从未在神经数据上被系统评估。
现有痛点:(a) 现有时序基准(ETT, Weather 等)与神经数据特性差异大——毫秒级采样、无季节性、高噪声;(b) 神经科学专用方法缺乏概率预测能力,而噪声是神经数据的固有属性;(c) 时序基础模型(Chronos, Moirai)在神经数据上的零样本能力未知。
核心矛盾:神经活动是否有足够的时间结构可供深度学习模型利用?如果有,能预测多远?
本文目标 建立神经活动概率预测的标准基准,评估经典/深度/基础模型的能力和局限。
切入角度:在 5 个小鼠大脑皮层钙成像 session(35Hz,~51K 时间步)上评测 12 个模型 + 2 个 baseline,用加权分位数损失(MWQL)进行概率预测评估。
核心 idea:12 个概率预测模型 × 神经钙成像数据 × 多预测窗口评测 → 发现 PatchTST 最优 + 1.5 秒可预测性上限 + 零样本基础模型失败。
方法详解¶
整体框架¶
5 个钙成像 session(4 脑区/session,35Hz)→ 60%/20%/20% 划分 → 12 个模型 + AR/Naive baseline → 预测窗口 0.5/1/2 秒 → MWQL 概率评估 + 逐步误差分析
模型覆盖三大类:经典方法(AR/ARIMA/AR-HMM/Theta)、深度学习(DeepAR/DLinear/TFT/PatchTST/TiDE/WaveNet)、基础模型(Chronos/Moirai)。
关键设计¶
-
模型选择(4 类 12 个):
- 经典:AR、ARIMA、AR-HMM、Theta
- 深度学习:DeepAR、DLinear、TFT、PatchTST、TiDE、WaveNet
- 基础模型:Chronos(T5 backbone,离散化时序)、Moirai(混合分布)
- 评估重点:直接多步预测 vs 自回归单步预测
-
概率预测评估(MWQL):
- 功能:通过分位数损失评估预测不确定性质量
- 核心思路:\(\text{MWQL} = \frac{1}{H} \sum_{h=1}^{H} \sum_{q} w_q \cdot QL_q(y_{t+h}, \hat{y}_{t+h}^q)\)——同时评估预测准确性和不确定性区间覆盖
- 设计动机:点预测不够——噪声很大的神经数据需要知道预测的可信区间
-
可预测性上限分析:
- 功能:确定预测何时退化为"预测均值+标准差"
- 核心思路:逐步计算误差,当模型误差达到 Average 模型(预测训练集均值)误差的 95% 时认为失去信息性
- 设计动机:揭示神经活动的内在时间结构窗口——超过 1.5 秒,任何模型都没有信息性优势
损失函数 / 训练策略¶
- 非重叠滑动窗口,各模型用默认超参数 + 轻量调优
- Chronos 微调:在目标数据集上 fine-tune T5 backbone
实验关键数据¶
主实验¶
| 模型 | 0.5s MWQL | 1s MWQL | 2s MWQL | 信息性窗口 |
|---|---|---|---|---|
| Naive | baseline | baseline | baseline | — |
| AR | 好 | 好 | 退化 | 1.28s |
| PatchTST | 最优 | 最优 | 退化 | 1.80s |
| Chronos (零样本) | 差 | 差 | 差 | — |
| Chronos (微调) | 竞争力强 | 竞争力强 | 退化 | ~1.5s |
消融/分析¶
| 分析维度 | 发现 |
|---|---|
| 预测窗口 > 1.5s | 所有模型退化为预测训练集均值/标准差 |
| 直接 vs 自回归预测 | PatchTST 的直接多步预测在长窗口上优于自回归 |
| 零样本 vs 微调 | Chronos 零样本完全失败(域差距太大),微调后大幅改善 |
| 不确定性区间 | 预测区间宽度随窗口增大,~35 步后收敛到训练数据标准差 |
| 脑区差异 | 不同脑区可预测性略有差异但模式一致 |
关键发现¶
- PatchTST 一致最优——信息性预测窗口 1.80 秒(vs AR 的 1.28 秒),说明 Transformer 能捕获比线性模型更长的时间依赖
- 1.5 秒是神经活动的近似可预测性上限——这可能反映了皮层动力学的内在时间尺度,而非模型限制
- 零样本基础模型(Chronos, Moirai)在神经数据上表现极差——域差距(金融/气象 vs 神经)太大,预训练知识无法迁移
- 微调后 Chronos 与 PatchTST 竞争力强——说明 T5 backbone 有足够的表达力,只需适配即可
- 概率预测质量与点预测排名一致——模型不确定性估计是可靠的
亮点与洞察¶
- 1.5 秒可预测性上限的发现对脑机接口有直接意义——控制算法不应期望超过这个窗口的预测
- 零样本基础模型失败提醒社区——通用时序基础模型不是万能的,域差距大时必须微调
- PatchTST 的优势说明直接多步预测在高噪声短时间结构数据上优于自回归——避免了误差累积
局限与展望¶
- 不确定性能上限源于模型还是神经动力学的内在限制——需要电生理或光遗传学控制实验来分离
- 仅 4 个脑区/session,未探索跨被试泛化——个体差异可能影响可预测性
- 未与神经科学专用方法比较(如 LFADS、NDT)——只用通用预测模型可能不公平
- 仅钙成像数据,未测试电生理(尖峰序列、LFP)或其他记录方式
- 概率预测评估仅用 MWQL——分位数校准性未评估
- 35Hz 采样率较低——更高时频分辨率数据的可预测性可能不同
相关工作与启发¶
- vs 标准时序基准: ETT/Weather 有季节性和长期趋势,神经数据是快速随机过程——不同的"困难"
- vs LFADS 等神经方法: 神经方法做潜在动力学推断不做概率预测,本文填补了概率预测这一空白
- 启发: 神经数据的内在时间结构约 1.5 秒——这对脑机接口控制算法的延迟设计有直接指导意义
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统的神经活动概率预测基准
- 实验充分度: ⭐⭐⭐⭐ 12 个模型 × 多窗口 × 概率评估
- 写作质量: ⭐⭐⭐⭐ 分析深入,1.5 秒上限的发现有价值
- 价值: ⭐⭐⭐⭐ 为神经科学和脑机接口社区提供了预测基准和可预测性边界的重要参考