Benchmarking Probabilistic Time Series Forecasting Models on Neural Activity¶

会议: NeurIPS 2025
arXiv: 2510.18037
代码: 待确认
领域: 神经科学 / 时间序列预测
关键词: 神经活动预测, 概率预测, 钙成像, 基准评测, 基础模型

一句话总结¶

首次系统评测 12 个概率时间序列预测模型在小鼠皮层钙成像数据上的表现，发现 PatchTST 一致最优（信息性预测窗口达 1.5 秒），零样本基础模型（Chronos）完全失败但微调后竞争力强，揭示神经活动的内在可预测性上限约 1.5 秒。

领域现状：神经活动预测对闭环脑机接口和神经系统理解至关重要。深度学习时序预测方法在金融/气象等领域取得巨大进展，但从未在神经数据上被系统评估。

现有痛点：(a) 现有时序基准（ETT, Weather 等）与神经数据特性差异大——毫秒级采样、无季节性、高噪声；(b) 神经科学专用方法缺乏概率预测能力，而噪声是神经数据的固有属性；(c) 时序基础模型（Chronos, Moirai）在神经数据上的零样本能力未知。

核心矛盾：神经活动是否有足够的时间结构可供深度学习模型利用？如果有，能预测多远？

本文目标 建立神经活动概率预测的标准基准，评估经典/深度/基础模型的能力和局限。

切入角度：在 5 个小鼠大脑皮层钙成像 session（35Hz，~51K 时间步）上评测 12 个模型 + 2 个 baseline，用加权分位数损失（MWQL）进行概率预测评估。

核心 idea：12 个概率预测模型 × 神经钙成像数据 × 多预测窗口评测 → 发现 PatchTST 最优 + 1.5 秒可预测性上限 + 零样本基础模型失败。

5 个钙成像 session（4 脑区/session，35Hz）→ 60%/20%/20% 划分 → 12 个模型 + AR/Naive baseline → 预测窗口 0.5/1/2 秒 → MWQL 概率评估 + 逐步误差分析

模型覆盖三大类：经典方法（AR/ARIMA/AR-HMM/Theta）、深度学习（DeepAR/DLinear/TFT/PatchTST/TiDE/WaveNet）、基础模型（Chronos/Moirai）。

模型选择（4 类 12 个）:
- 经典：AR、ARIMA、AR-HMM、Theta
- 深度学习：DeepAR、DLinear、TFT、PatchTST、TiDE、WaveNet
- 基础模型：Chronos（T5 backbone，离散化时序）、Moirai（混合分布）
- 评估重点：直接多步预测 vs 自回归单步预测
概率预测评估（MWQL）:
- 功能：通过分位数损失评估预测不确定性质量
- 核心思路：\(\text{MWQL} = \frac{1}{H} \sum_{h=1}^{H} \sum_{q} w_q \cdot QL_q(y_{t+h}, \hat{y}_{t+h}^q)\)——同时评估预测准确性和不确定性区间覆盖
- 设计动机：点预测不够——噪声很大的神经数据需要知道预测的可信区间
可预测性上限分析:
- 功能：确定预测何时退化为"预测均值+标准差"
- 核心思路：逐步计算误差，当模型误差达到 Average 模型（预测训练集均值）误差的 95% 时认为失去信息性
- 设计动机：揭示神经活动的内在时间结构窗口——超过 1.5 秒，任何模型都没有信息性优势

模型	0.5s MWQL	1s MWQL	2s MWQL	信息性窗口
Naive	baseline	baseline	baseline	—
AR	好	好	退化	1.28s
PatchTST	最优	最优	退化	1.80s
Chronos (零样本)	差	差	差	—
Chronos (微调)	竞争力强	竞争力强	退化	~1.5s

分析维度	发现
预测窗口 > 1.5s	所有模型退化为预测训练集均值/标准差
直接 vs 自回归预测	PatchTST 的直接多步预测在长窗口上优于自回归
零样本 vs 微调	Chronos 零样本完全失败（域差距太大），微调后大幅改善
不确定性区间	预测区间宽度随窗口增大，~35 步后收敛到训练数据标准差
脑区差异	不同脑区可预测性略有差异但模式一致