跳转至

📈 时间序列

🔬 ICLR2026 · 121 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (7) · 💬 ACL2026 (8) · 🧪 ICML2026 (45) · 🤖 AAAI2026 (31) · 🧠 NeurIPS2025 (54) · 📹 ICCV2025 (4)

🔥 高频主题: 时序预测 ×75 · 扩散模型 ×7 · 异常检测 ×5 · LLM ×5 · 医学影像 ×4

A General Spatio-Temporal Backbone with Scalable Contextual Pattern Bank for Urban Continual Forecasting

STBP 用一个"频域 + 线性图注意力"的通用时空骨干提取稳定可迁移的表征,再外挂一个可增量扩展的"上下文模式库"作为 prompt,骨干冻结、只长模式库,从而在节点持续增长、分布持续漂移的城市流数据上同时做到抗遗忘、强建模和可扩展。

A Spectral-Grassmann Wasserstein metric for operator representations of dynamical systems

这篇论文把动力系统的 Koopman / transfer operator 表示成“特征值 + 谱投影子空间”的离散分布,并在谱空间与 Grassmann 几何上定义 Spectral-Grassmann Optimal Transport (SGOT) 距离,使不同采样频率下的动力系统可比较、可分类、也可做 Fréchet barycenter 插值。

A Study of Posterior Stability in Time-Series Latent Diffusion

本文系统分析了潜在扩散(latent diffusion)在时间序列上的后验坍缩问题——证明坍缩会让模型退化成弱化版 VAE,并提出"后验稳定潜在扩散"框架:把扩散过程重解释为变分推断以去掉危险的 KL 正则、再用扩散过程模拟坍缩来惩罚解码器对潜变量的不敏感。

A Unified Federated Framework for Trajectory Data Preparation via LLMs

FedTDP 把"轨迹数据准备"(去噪、补全、地图匹配等十类任务)统一成一个跨区域、不共享原始数据的联邦学习问题,用一个轻量隐私自编码器保护数据、一个轨迹知识增强器把通用 LLM 改造成懂时空模式的"轨迹清洗大脑"、再用并行优化压通信成本,在 6 个数据集 10 类任务上全面超过 13 个 SOTA。

Adapt Data to Model: Adaptive Transformation Optimization for Domain-shared Time Series Foundation Models

提出TATO框架,通过自动优化数据预处理 pipeline(包括上下文裁切、尺度归一化、异常值校正),让冻结的大型时序模型(LTM)在不微调的情况下适配不同下游领域,平均降低MSE 13.6%,最高65.4%。

Are Global Dependencies Necessary? Scalable Time Series Forecasting via Local Cross-Variate Modeling

针对多变量时序预测里"用全局注意力建模跨变量依赖导致复杂度随变量数二次膨胀"的痛点,本文提出"局部充分性假设"——稠密系统中一个有限的局部邻域就大概率包含足够的预测信号,并据此设计 VPNet:把 patch 嵌入重排成「变量 × patch」二维场,用深度可分离 2D 卷积做局部混合,使复杂度随变量数线性增长,在 8 个基准上同时拿下 SOTA 精度与显著效率优势。

ASTGI: Adaptive Spatio-Temporal Graph Interactions for Irregular Multivariate Time Series Forecasting

ASTGI 把不规则多变量时间序列里的每个离散观测直接编码成一个可学习时空空间里的"点",不做插值/对齐就保住原始采样结构,再为每个点用最近邻搜索动态建一张因果图、按相对时空位置做关系感知消息传播,最终把预测统一成"给一个查询点聚合邻域信息做回归",在 4 个公开数据集上 MSE 较次优方法降约 6%。

Aurora: Towards Universal Generative Multimodal Time Series Forecasting

Aurora 是第一个多模态时间序列基础模型:在「时间序列 + 文本描述 + 内生图像」三模态的跨域语料上预训练,用模态引导注意力把文本/图像里的领域知识注入时序建模,再用「原型引导的流匹配」做生成式概率预测,从而在零样本/少样本的跨域场景下同时拿下确定性和概率性预测 SOTA。

AutoDA-Timeseries: Automated Data Augmentation for Time Series

AutoDA-Timeseries 是首个面向时间序列的通用自动数据增强(AutoDA)框架:它把每条时序的统计特征喂给一个可学习的策略生成器,由堆叠的增强层逐层用 Gumbel-Softmax 可微地挑选变换类型并自适应调节其概率与强度,与下游模型一起单阶段端到端联合优化,在分类、长/短期预测、回归、异常检测五大任务上稳定超越现有强基线。

Battery Fault: A Comprehensive Dataset and Benchmark for Battery Fault Diagnosis

本文构建了首个面向真实运行工况的电动汽车电池系统故障诊断数据集 CH-BatteryGen,用"真实车载数据 + 机理约束生成模型"兼顾真实性与规模,覆盖 1000 辆车、两种主流化学体系、四类故障标签与三级严重度,并配套故障分类与故障分级两个基准任务。

Benchmarking ECG FMs: A Reality Check Across Clinical Tasks

对8个ECG基础模型在12个数据集、26个临床任务上进行"现实检验"式全面基准评测,发现紧凑的结构化状态空间模型(SSM)ECG-CPC在7个任务类别中的5个上超越了大规模Transformer,证明架构设计比模型规模更重要。

Beyond Accuracy: Are Time Series Foundation Models Well-Calibrated?

作者用一套专门衡量"校准而非锐度"的指标系统评测了 5 个时间序列基础模型(TSFM)与 2 个传统基线,发现 TSFM 不仅点预测更准,概率校准也始终优于基线,且不像图像/文本基础模型那样系统性过自信。

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

提出 Brain-Semantoks,一种基于语义分词器和自蒸馏目标的 fMRI 基础模型,将大脑功能网络聚合为鲁棒的语义 token,并通过跨时间视角的一致性学习抽象的脑动态表征,在线性探测设置下即可达到 SOTA 性能。

Bridging Past and Future: Distribution-Aware Alignment for Time Series Forecasting

针对时间序列预测里"用历史的统计规律去硬套未来分布"导致的分布失配,本文提出 TimeAlign——一个即插即用的双分支框架,用一个只在训练时存在的"重建未来"分支提供对齐的目标分布,再通过全局+局部对齐把预测分支的表示拉向未来真实分布,在 8 个基准上把 MSE/MAE 相对次优方法降低 3.27%/5.20%。

Can we generate portable representations for clinical time series data using LLMs?

本文提出 Record2Vec:用冻结的 LLM 把不规则的 ICU 时间序列记录写成简洁的临床交班式自然语言摘要,再用冻结的文本嵌入模型把摘要编码成定长向量,作为标准预测器的输入;在三个医院队列、五类任务上,它不仅院内(in-distribution)有竞争力,更关键的是跨医院迁移时性能掉得更少、少样本更省数据、且不增加人口学隐私泄露。

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

CauKer 把高斯过程的核组合与结构因果模型(SCM)拼到一起,造出既有真实时序结构、又自带类别簇结构的纯合成时序,仅用这些数据预训练分类型时序基础模型(TSFM),就能在 128 个 UCR 数据集上几乎追平用大几十倍真实语料训练的原版模型,并首次展现出干净的数据/模型缩放定律。

Characteristic Root Analysis and Regularization for Linear Time Series Forecasting

本文用经典线性差分方程的特征根理论重新审视线性时序预测模型,证明噪声会让模型学到"虚假根"且抑制噪声需要不成比例的更多数据,进而提出两类把权重矩阵"根重构"的正则化方法——低秩约简(RRR / DWRR)和自适应的 Root Purge 训练损失,在多个标准 benchmark 上把简单线性模型推到 SOTA。

Context parroting: A simple but tough-to-beat baseline for foundation models in scientific machine learning

作者提出一个极简基线 "context parroting"(上下文复读)——直接在历史轨迹里找一段最相似的片段、把它后面的演化复制过来当预测——结果在低维混沌、湍流、耦合振子、心电图等一大批动力系统的零样本预测上,它的精度和长期吸引子重建都胜过 Chronos / TimesFM / Time-MoE / Moirai / DynaMix 等领先时序基础模型,且推理成本低六个数量级,从而暴露出当前基础模型并没有真正"学会物理"。

ConvT3: Structured State Kernels for Convolutional State Space Models

ConvT3 把卷积状态空间模型(ConvSSM)里被迫退化成 \(1\times1\) 的状态核扩展成等价的 \(3\times3\) 卷积,做法是用"可对角化 SSM 矩阵 + 比例约束三对角 Toeplitz 张量"来构造状态张量,使其在保持线性时间并行扫描可训练的同时拥有更强的空间建模能力,在长程视频生成(Moving-MNIST)和物理系统(PDEBench)建模上取得 SOTA,且训练比 ConvS5 更稳定。

CoRA: Boosting Time Series Foundation Models for Multivariate Forecasting through Correlation-aware Adapter

CoRA 是一个轻量级即插即用适配器,让原本"通道独立"建模、忽略通道间相关性的时序基础模型(TSFM)在下游微调时同时学到动态、异质(正负)、部分(只在部分通道间存在)三类相关性,从而在仅用 5% 样本的少样本设置下显著提升 10 个真实数据集上的多变量预测精度,且推理阶段只引入线性复杂度开销。

COSA: Context-aware Output-Space Adapter for Test-Time Adaptation in Time Series Forecasting

COSA 给冻结的时序预测模型挂一个只在输出端工作的轻量线性适配器:用「基模型预测 + 近期真值统计量」算一个残差,再用门控约束校正幅度,部署时只在延迟到来的真值上更新这几个参数,比现有「输入+输出」双适配器方案简单得多,却在 6 个数据集上把 MSE 相对无 TTA 基线降了 13.91~17.03%、相对 SOTA TTA 降了 10.48~13.05%,且推理快 88~90%。

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

提出 CPiRi 框架,通过冻结预训练时序编码器 + 可训练置换等变空间模块 + 通道打乱训练策略,在不牺牲跨通道建模能力的前提下实现通道排序不变性(CPI),在多个交通基准上达到 SOTA。

CTBench: Cryptocurrency Time Series Generation Benchmark

CTBench 是第一个专门面向加密货币市场的时序生成(TSG)基准,用 452 个币种的小时级数据、13 个金融指标和"预测效用 + 统计套利"双任务评测框架,系统横评了 5 大家族 8 个 SOTA 生成模型,揭示出"统计保真度高 ≠ 真能赚钱"这一核心权衡,并给出按市场行情选模型的实操指南。

Decentralized Attention Fails Centralized Signals: Rethinking Transformers for Medical Time Series

提出 TeCh 框架,核心是用 CoTAR(Core Token Aggregation-Redistribution)模块替代 Transformer 中的标准注意力来建模医学时间序列的通道依赖——通过引入全局"核心 token"充当代理,先聚合所有通道信息再重分配回每个通道,复杂度从 \(O(n^2)\) 降至 \(O(n)\),在 APAVA 数据集上精度 86.86%(超 Medformer 12.13%),内存仅 33%、推理时间仅 20%。

DeepFRC: An End-to-End Deep Learning Model for Functional Registration and Classification

DeepFRC 把"曲线配准(对齐)"和"曲线分类"这两件原本分开做的事塞进一个端到端深度网络里联合训练——用 1D-CNN 学微分同胚时间扭曲、用傅里叶基做平滑谱嵌入、用类感知对比损失把对齐和分类拧成一股劲,还首次给这种联合模型证了配准逼近能力和泛化界,在五个真实数据集上对齐质量和分类精度同时超过 SOTA。

DeepPrim: a Physics-Driven 3D Short-term Weather Forecaster via Primitive Equation Learning

DeepPrim 把大气原始方程中的平流、力项和源汇项显式写进 Neural ODE 预测框架,用 3D-BiViT 学习经纬度-气压层耦合动力学,在 6-24 小时全球和区域天气预报上显著优于多数数据驱动基线。

Delta-XAI: A Unified Framework for Explaining Prediction Changes in Online Time Series Monitoring

提出 Delta-XAI 统一框架,通过包装函数将14种现有XAI方法适配到在线时间序列预测变化解释场景,并提出 SWING(Shifted Window Integrated Gradients)方法,利用过去观测值构建积分路径以捕获时序依赖关系,在多种评估指标上持续优于现有方法。

DeNOTS: Stable Deep Neural ODEs for Time Series

DeNOTS 把 Neural CDE 的“深度”从调低求解器 tolerance 转向显式拉长积分时间,并用反相负反馈稳定长时间积分,使模型在不规则时间序列分类、回归与预测任务上同时获得更强表达力、更稳轨迹和更低离散化误差累积。

Detection of Unknown Unknowns in Autonomous Systems

针对无人机/自动驾驶/自动给药等自主系统部署后才暴露的"未知未知"(unknown unknowns, U2)场景,本文指出这类风险不会引起边缘分布漂移、因此现有依赖"分布偏移"的多变量时序异常检测(MTAD)方法集体失效;作者提出 SPIE-AD,通过持续从信号中恢复底层稀疏动力学模型、再用共形推断判定模型是否偏离正常区间,实现真正零样本的 U2 检测,在 8 个 U2 基准与 6 个真实数据集上不靠任何作弊技巧就超过所有基线。

DistDF: Time-series Forecasting Needs Joint-distribution Wasserstein Alignment

针对时序预测中 MSE 损失在标签序列存在自相关时会产生"自相关偏差"的根本问题,DistDF 不再去估计条件似然,而是把预测序列和标签序列的条件分布直接对齐——用可证明上界的"联合分布 Wasserstein 距离"作为代理目标,配合 Gaussian 假设下的 Bures–Wasserstein 闭式解,作为即插即用的正则项叠加在 MSE 上,在多个数据集和多个骨干模型上稳定刷出最优。

ECHO: Toward Contextual Seq2Seq Paradigms in Large EEG Models

ECHO 把脑电(EEG)建模从"编码器学表征 + 轻量分类头打标签"翻转为"以解码器为中心的序列到序列生成",用一串支持样本充当上下文示例,让一个统一模型在不微调的情况下,自动判别任务类型并预测标签,从而在多任务设定下超过各自专精的单任务大型 EEG 模型。

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

构建了基于日本 EDINET 十年年报的金融基准 EDINET-Bench,包含会计欺诈检测、盈利预测和行业分类三项专家级任务,发现即使是 SOTA LLM 也仅略优于逻辑回归。

Efficient Autoregressive Inference for Transformer Probabilistic Models

论文提出一种因果自回归缓冲区(Causal AR Buffer),把“静态上下文一次编码”与“目标间依赖的自回归建模”解耦,在基本不损失预测质量的前提下,将联合采样与联合密度评估从反复重编码的高开销流程改造成可缓存、可并行的高效流程,在多任务上实现最高约 20x 推断加速和约 7x 显存节省。

Enabling Arbitrary Inference in Spatio-Temporal Dynamic Systems: A Physics-Inspired Perspective

PhySTA 把神经算子(连续)与图神经网络(离散交互)拼在一起:用基于磁拉普拉斯的图-时联合傅里叶算子 GT-FNO 学连续动力学,再用多尺度节点-边耦合卷积 AMI 修正离散交互误差,从而在图结构时空系统上实现对未观测区域和任意时空点的高效、可泛化推断。

End-to-End Probabilistic Framework for Learning with Hard Constraints

ProbHardE2E 提出可微概率投影层(DPPL),将硬约束直接作用于分布参数,实现端到端训练,在概率时间序列预测和 PDE 求解两个领域同时支持严格约束满足与不确定性量化。

Enhancing Sparse Event Detection in Healthcare Time-Series via Adaptive Gate of Context–Detail Interaction

提出 GCE-LDI-AGM 三模块粗到细框架,通过自适应门控融合全局上下文与局部细节,配合条件门控缩放(CGS)和位置高斯注入(PGI)两项辅助监督,大幅提升医疗时序极稀疏事件的类别与边界联合检测能力。

EVEREST: A Transformer for Probabilistic Rare-Event Anomaly Detection with Evidential and Tail-Aware Uncertainty

EVEREST 用一个紧凑的 Transformer 做多变量时间序列的稀有事件预测:在共享主干上挂三个只在训练时生效的辅助头(证据 NIG 头管校准、极值 EVT 头管尾部风险、前兆头管提前监督),推理时只留一个分类头、零额外开销;在十年太阳耀斑数据上把 C 级耀斑 24/48/72 小时的 TSS 做到 0.973/0.970/0.966,并能不改架构迁移到工业异常数据集 SKAB(F1=98.16%)。

Extreme Weather Nowcasting via Local Precipitation Pattern Prediction

提出确定性临近预报框架 exPreCast,用局部时空注意力 + 立方双路上采样(CDU) + 时间提取器(TE) 在 SEVIR/MeteoNet 以及新构建的均衡 KMA 雷达数据集上以 1/30 的计算量逼近扩散集成模型的极端降水预报精度。

FeDaL: Federated Dataset Learning for General Time Series Foundation Models

提出 FeDaL 联邦框架,通过客户端域偏差消除(DBE)和服务器全局偏差消除(GBE)从头训练通用时序基础模型,在8类下游任务上以远少于集中式TSFM的参数达到竞争甚至超越的性能。

Flow-based Conformal Prediction for Multi-dimensional Time Series

这篇论文提出 FCP,用带 classifier-free guidance 的 flow 学习由历史上下文条件化的多维预测残差分布,并把高斯源空间中的概率球映射成灵活形状的预测集,在风电、交通和太阳辐射数据上维持目标覆盖率的同时显著缩小集合体积。

Free Energy Mixer

提出 Free Energy Mixer (FEM),通过将注意力的值读取重新定义为自由能(log-sum-exp)优化问题,实现了逐通道的值感知后验选择,克服了标准注意力"无损存储但有损读取"的固有瓶颈,可即插即用替换 softmax/线性注意力/RNN/SSM,在 NLP、视觉和时间序列任务上一致提升。

From Samples to Scenarios: A New Paradigm for Probabilistic Forecasting

提出 Probabilistic Scenarios 范式,用模型直接输出有限个 {场景, 概率} 对取代采样,并用仅含三层平行线性层的 TimePrism 在5个基准数据集上取得9/10 SOTA。

GARLIC: Graph Attention-based Relational Learning of Multivariate Time Series in Intensive Care

GARLIC 把"指数衰减填补 + 时滞信号图消息传递 + 跨维序列注意力"串成一条端到端管线,在 ICU 不规则多元时间序列上既刷新预后预测 SOTA,又用学到的注意力权重和图边直接给出观测级/信号级/边级的内生解释。

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

GCGNet 面向带外生变量的时间序列预测,把生成的完整序列和真实完整序列都转成 patch 级图结构,用图一致性约束生成器,再用稀疏图卷积细化预测,在 12 个真实数据集上取得了多数指标第一,并且在未来外生变量缺失和外生变量被遮蔽时仍保持较强鲁棒性。

GTM: A General Time-series Model for Enhanced Representation Learning

提出 GTM,一个通过频域注意力机制捕获时间粒度感知特征、并通过混合掩码统一重建与自回归预训练目标的通用时间序列基础模型,在预测、补全、异常检测、分类等多任务上均达到 SOTA。

HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming

提出 HiVid 框架,首次利用 LLM 作为人类代理为视频块生成内容重要性权重,通过感知模块(滑动窗口评分)、排序模块(LLM 引导归并排序去除评分偏差)和预测模块(多模态时间序列预测自适应延迟)实现内容感知流媒体传输,

ICDiffAD: Implicit Conditioning Diffusion Model for Time Series Anomaly Detection

针对扩散模型用于时间序列异常检测时"从高斯噪声里随机重构、把正弦重建成余弦"的固有随机性问题,ICDiffAD 用一个基于信噪比(SNR)的噪声调度器和一个按样本估计最优腐蚀强度的隐式条件机制,让逆扩散从"部分腐蚀的输入"而非纯噪声出发,在保持生成灵活性的同时实现输入一致重构,把误报率砍掉 60%。

Improving Extreme Wind Prediction with Frequency-Informed Learning

本文从频域角度证明了"MSE 训练 + 模式偏移 → 高频振幅收缩"是数据驱动模型系统性低估极端风速的根因,并据此提出梯度惩罚损失 + NS 物理嵌入结构 + 频率分离重加权三件套,在不牺牲整体精度的前提下显著提升极端风速预测准确率。

Inferring brain plasticity rule under long-term stimulation with structured recurrent dynamics

这篇论文提出 STEER,把长期神经刺激下的脑网络重构建模为一个刺激条件的慢时间尺度动力学规律,同时用结构化低秩 RNN 解释会话内快速神经活动,从而能从纵向神经记录中推断可解释的可塑性规则,并在 Lorenz、BCM、刺激诱导任务学习和帕金森大鼠 DBS 数据上预测未见刺激方案下的网络演化。

JAPAN: Joint Adaptive Prediction Areas with Normalising-Flows

JAPAN 用归一化流估计(条件)密度、并以对数密度作为共形得分,通过在密度上设阈值来构造几何无关、可不连通、随上下文自适应的预测区域,在保持有限样本覆盖保证的同时把预测区域体积压到比一众残差类基线更紧。

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

发现时间序列配对文本具有与时间序列相似的周期性(Chronological Textual Resonance),提出 TaTS 框架将文本表征转化为辅助变量,以即插即用方式增强任意现有时间序列模型的预测和插补性能。

Latent-to-Data Cascaded Diffusion Models for Unconditional Time Series Generation

提出 L2D-Diff——把无条件时间序列生成拆成"隐空间扩散先建模高层表示分布、再用该表示作为条件引导数据空间扩散精修局部细节"的级联(latent-to-data)双空间框架,从而同时兼顾表示一致性与局部保真度。

Learning Koopman Representations with Controllability Guarantees

把"可控性"作为结构先验直接编进 Koopman 表示学习里——用一个新的可控规范型 (canonical form) 参数化潜空间线性算子,使学到的 Neural ODE 模型天生可控,从而在数据稀缺时仍能拟合准确、并直接用于 MPC 控制。

Learning Linear State-Space Models with Sparse System Matrices

本文给线性状态空间模型(LSSM)的系统矩阵 \(A,B,C,D\) 加上稀疏诱导先验(Student's t 分布),用 EM + 块坐标下降做 MAP 估计,从而绕开"相似变换"导致的不可辨识,学到既准确又能保留变量间真实拓扑结构的稀疏系统矩阵

Learning Mixtures of Linear Dynamical Systems via Hybrid Tensor-EM Method

本文提出一种混合 Tensor-EM 框架学习"线性动态系统混合 (MoLDS)":先用基于同时矩阵对角化 (SMD) 的张量矩方法做全局一致初始化,再用完整的 Kalman 滤波-平滑 EM 做局部精修,兼顾全局可辨识性与统计最优性,并首次把 MoLDS 成功用到非人灵长类的真实神经数据上。

Learning Recursive Multi-Scale Representations for Irregular Multivariate Time Series Forecasting

提出 ReIMTS,通过基于时间段的递归分割(而非重采样)来保留不规则多变量时间序列的原始采样模式,结合不规则感知的表示融合机制实现多尺度建模,作为插件在六种 IMTS 骨干上平均提升 27.1%。

Local Geometry Attention for Time Series Forecasting under Realistic Corruptions

用局部高斯过程把注意力打分从欧氏点积换成「查询自适应的负马氏距离」,让 Transformer 在 spike / level-shift 等真实污染下不被异常点带偏,并配套提出首个统计学接地的时序鲁棒性基准 TSRBench。

Long-range Modeling and Processing of Multimodal Event Sequences

MM-TPP 把时序点过程(TPP)从"时间+类型+文本"扩展到"时间+类型+文本+图像"的全多模态生成框架,并用一种基于时间间隔相似度的自适应序列压缩,把动辄上千事件、上万 token 的长序列塞进固定上下文窗口,从而在预测精度和长文分析报告生成两方面都超过 SOTA TPP 基线。

Lost in the Non-convex Loss Landscape: How to Fine-tune the Large Time Series Model?

把一个随机初始化的"陪练"模型权重和预训练大时序模型线性插值,用前者平滑的损失曲面去"抹平"后者陡峭非凸的损失曲面,从而在不增加任何显存/算力开销的前提下让全量微调真正吃到预训练红利。

MambaSL: Exploring Single-Layer Mamba for Time Series Classification

只用单层 Mamba、靠四个针对 TSC 的假设(H1–H4)对选择性 SSM 与投影层做最小改动,再在全部 30 个 UEA 数据集上重新公平评测 20 个强基线,结果取得统计显著的 SOTA。

MixLinear: Extreme Low Resource Multivariate Time Series Forecasting with 0.1K Parameters

MixLinear 用「时域分段提取局部趋势 + 频域自适应低秩滤波提取全局趋势」的双通道线性架构,把长期时序预测模型压到仅 0.1K(45–176)个参数,在 8 个基准上做到与主流轻量模型相当甚至更好的精度。

MMPD: Diverse Time Series Forecasting via Multi-Mode Patch Diffusion Loss

把训练损失从「假设未来服从单峰高斯」的 MSE 升级成一个由扩散过程参数化的 MMPD 损失——它即插即用地挂在任意 patch-based 时序骨干网络后面,让同一段历史能预测出多个带概率的、形状各异的未来。

Multi-Scale Hypergraph Meets LLMs: Aligning Large Language Models for Time Series Analysis

MSH-LLM 用「可学习超边」给时间序列补语义、用跨模态注意力在多个尺度上把时序特征对齐到 LLM 词原型、再用「混合提示」激活 LLM 的时序推理能力,在 27 个数据集 5 类任务上拿下 SOTA。

Omni-iEEG: A Large-Scale, Comprehensive iEEG Dataset and Benchmark for Epilepsy Research

本文构建了 Omni-iEEG 数据集(302 名患者、178 小时高分辨率颅内脑电记录),定义了基于临床先验的标准化基准任务和评估指标,并展示端到端建模在癫痫手术规划中可匹配或超越传统生物标志物方法。

Online Time Series Prediction Using Feature Adjustment

提出 ADAPT-Z(Automatic Delta Adjustment via Persistent Tracking in Z-space),将在线时序预测的适应目标从模型参数更新转移到特征空间修正,通过轻量 adapter 融合当前特征与历史梯度来应对多步预测中的延迟反馈问题,在13个数据集上一致超越现有在线学习方法。

Panda: A Pretrained Forecast Model for Chaotic Dynamics

本文用进化算法"造"出 2 万个全新的混沌常微分方程作为合成训练集,配合一个带通道注意力和动力学嵌入的 patch Transformer(Panda),仅在低维 ODE 上预训练就能零样本预测未见过的混沌系统乃至高维 PDE,并展现出动力系统专属的神经缩放律。

Perturbed Dynamic Time Warping: A Probabilistic Framework and Generalized Variants

本文用"给对齐代价加随机噪声再取期望最小"的扰动优化视角重新解释了 soft-DTW(证明它恰好是 Gumbel 噪声下的特例),并把噪声推广到广义极值(GEV)分布,得到带可调偏斜度的 nested-soft-DTW(ns-DTW),在时间序列重心计算、聚类和分类上稳定优于 soft-DTW。

PhaseFormer: From Patches to Phases for Efficient and Effective Time Series Forecasting

针对长序列预测中 patch token 因周期模式漂移而导致参数量/算力暴涨的问题,本文换用"相位(phase)视角"——把跨周期同一偏移位置的值聚成 token,证明它比 patch 更平稳、更低维,并据此设计仅约 1k 参数的 PhaseFormer,在七个基准上达到 SOTA 精度的同时把 FLOPs 削减约 99.99%。

PHAT: Modeling Period Heterogeneity for Multivariate Time Series Forecasting

PHAT 指出真实多变量时序里不同变量的周期长度各不相同且会动态变化(周期异质性),它先用 FFT 把变量按主周期分到不同「周期桶」并折叠成相位对齐的二维张量,再用一种带正负分解和周期调制项的「X 形」自注意力建模周期依赖,最后按频率显著性对多个周期分量加权融合,在 14 个真实数据集、18 个 baseline 上拿下约 74% 指标的 SOTA,同时参数量和计算量比 Transformer 类方法低一个数量级以上。

PMDformer: Patch-Mean Decoupling Information Transformer for Long-term Forecasting

PMDformer 指出 patch 之间真正的"形状相似度"会被各 patch 不同的数值尺度(均值)淹没,于是用"减去每个 patch 均值"把趋势和残差形状显式拆开,再用近端变量注意力(只在最近一个 patch 上做跨变量交互)和趋势复原注意力(把均值注回 Value 通道)把局部形状与全局趋势重新缝合,在 8 个 LTSF 基准上以更稳更准的成绩刷过一众 SOTA。

Point-wise Anomaly Detection via Fold-bifurcation ODE

FOLD 把时间序列异常检测重新表述为「追踪系统离临界转变还有多远」,从一个冻结的预测模型里抽取「敏感度+不确定性」应力信号,注入一个受折叠分岔启发的 ODE 演化出风险状态 \(z(t)\),当 \(z(t)\) 越过仅在正常数据上标定的阈值就判异常,全程无需异常标签、无需训练检测器,在 40 个 benchmark、对比 34 个 SOTA 时于严格的点级评测下取得最优平均排名。

pyrregular: A Unified Framework for Irregular Time Series, with Classification Benchmarks

本文提出 pyrregular,用一套基于 xarray + 稀疏 COO 张量的统一容器把"不规则时间序列"的三类不规则性(不均匀采样、部分缺失、参差不齐)系统地组织起来,并配套首个标准化的不规则时间序列分类数据仓库(34 个数据集)与跨社区的统一基准(12 个分类器),结论是简单的通用模型 ROCKET 反而在这类数据上整体最强。

Quadratic Direct Forecast for Training Multi-Step Time-Series Forecast Models

针对多步时序预测里 MSE 把每个未来步当成独立、等权任务的缺陷,本文从最大似然推出一个由条件协方差逆矩阵加权的「二次型学习目标」,并用一套双层优化(QDF)把这个加权矩阵当作可学习参数、面向泛化在留出集上学出来,作为即插即用的损失替换 MSE,在 8 个数据集、多种预测模型上稳定刷到 SOTA。

Random Controlled Differential Equations

把一大批随机参数的受控微分方程(CDE)/粗糙微分方程当作连续时间储备池,只训练最后一层线性读出,就能得到一个快、可扩展、且在无限宽极限下严格收敛到"签名核"的时序分类器——既保留了路径签名方法的归纳偏置,又甩掉了显式签名计算和核矩阵求逆的开销。

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

提出TSRating框架,利用LLM从趋势/频率/幅度/模式四个维度对时间序列数据块做成对质量比较,通过Bradley-Terry模型转换为标量质量分数,并以MAML元学习在9个领域22个子集上训练TSRater模型(MOMENT编码器+MLP),实现高效、统一的跨域时间序列数据质量评估。

Reasoning on Time-Series for Financial Technical Analysis

提出 Verbal Technical Analysis (VTA) 框架,结合 LLM 的语言推理能力与时间序列模型的模式捕捉能力,通过 Time-GRPO 强化学习优化推理链,并以推理属性条件化时序预测,实现了兼具准确性和可解释性的金融时间序列预测。

Relational Feature Caching for Accelerating Diffusion Transformers

提出关系特征缓存(RFC)框架,通过利用DiT模块输入-输出特征之间的强相关性来增强缓存特征预测的精度,包括从输入变化估计输出变化幅度的RFE和用输入误差代理判断是否需要全量计算的RCS,在图像和视频生成任务上显著优于现有的基于时间外推的缓存方法。

Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data

提出 Relational Transformer (RT) 架构,通过 task table prompting、cell tokenization 和 Relational Attention 机制,在多个关系数据库上预训练后可零样本迁移到未见过的数据集和任务,22M 参数模型零样本 AUROC 达到全监督方法的 93%,远超 27B LLM 的 84%。

通过边缘一致流实现不规则时间序列的可靠概率预测

本文提出 MOSES(Mixtures of Separable Flows),用「多元高斯源分布 + 逐变量可分离样条变换」的混合归一化流来对不规则时间序列做概率预测,让模型天然满足"边缘一致性"——子集查询的预测和从联合分布积分出来的边缘完全自洽,从而在边缘预测上大幅超过此前最强的 ProFITi,同时联合预测仍保持接近 SOTA。

Repurposing Foundation Model for Generalizable Medical Time Series Classification

FORMED 把一个在通用时间序列上预训练好的预测基础模型(TimesFM)冻住当特征提取器,外接一个由「通道嵌入 + 标签查询 + 共享解码注意力」组成的新分类头,通过在多个 MedTS 数据集上联合训练把医学领域知识沉淀进共享层,从而只用 0.1% 参数就能适配任意通道数 / 序列长度 / 类别数的新医学时序数据集,在 ADFTD 上 F1 绝对提升最高达 35%。

ResCP: Reservoir Conformal Prediction for Time Series Forecasting

首次将储备计算(Echo State Network)引入保形预测,通过随机初始化ESN编码残差序列的时间动态,利用状态相似性自适应重加权历史残差构建局部预测区间,无需任何训练即在4个真实数据集上实现SOTA的Winkler分数,速度比HopCPT快20-80×。

Routing Channel-Patch Dependencies in Time Series Forecasting with Graph Spectral Decomposition

提出 xCPD 即插即用插件,将多变量时间序列的建模单元从"通道"细化到"通道-patch",通过共享图傅里叶基做谱嵌入→按频率能量响应分组为低/中/高频段→动态 MoE 路由自适应选择频率特定滤波专家,可无缝集成到 CI/CD 任何现有模型上一致提升长短期预测性能,并支持零样本迁移。

SciTS: Scientific Time Series Understanding and Generation with LLMs

提出SciTS基准覆盖12个科学领域43个任务54K+实例(长度从\(10^0\)\(10^7\)、频率达10MHz),系统评估17个模型发现通用LLM比专用时序模型泛化更好但文本/图像编码各有局限,据此设计TimeOmni框架用多Patch专家+路由机制+Patch重编程显式建模时间动态并与LLM联合训练。

Semantic-Enhanced Time-Series Forecasting via Large Language Models

SE-LLM 把时间序列的周期与异常特性注入预训练 LLM 的语义空间来增强 token 表示(TSCC 模块),再用一个内嵌 LSTM 的适配器(Time-Adapter)补齐 LLM 对长短期时序依赖的建模能力,在冻结 LLM、压缩序列长度的前提下做到长/短期与零样本预测全面 SOTA。

SONATA: Synergistic Coreset Informed Adaptive Temporal Tensor Factorization

SONATA 把"表达力强的动态嵌入建模"和"自适应 coreset 样本筛选"统一进一个流式张量分解框架:用 Matérn 核导出的线性动力系统(LDS)刻画实体嵌入的多尺度时序演化,再用「不确定性 + 影响力 + 新颖度 + 信息增量」四准则打分、配合 Bellman 方程动态维护一个紧凑高信息量的 coreset,从而在只扫一遍数据流的前提下,把 CA Traffic 等数据集的 RMSE 相对次优方法压低多达 61.5%。

SRT: Super-Resolution for Time Series via Disentangled Rectified Flow

SRT 把图像超分的思路搬到时间序列上:先把低分辨率序列拆成趋势与周期两路、用隐式时间函数把它们对齐到目标分辨率,再用两个 rectified flow 模型配合跨分辨率注意力补出高频细节,在 9 个数据集上对采样型和聚合型两类超分任务都拿到 SOTA,且推理只需 4 步采样。

ST-HHOL: Spatio-Temporal Hierarchical Hypergraph Online Learning for Crime Prediction

ST-HHOL 用「异质超图建模犯罪模式 + 同质超图建模共现关系」的层次超图刻画稀疏犯罪数据背后的高阶语境因素,再配上「频繁微调适应短期波动 + 周期重训练应对长期漂移」的在线学习策略和一个部分冻结的 GPT-2,在四个真实城市犯罪数据集上把 MAE/MAPE 一致压过所有离线与在线 baseline。

STABLE: Shift-Tolerant Allocation via Black–Litterman Using Conditional Diffusion Estimates

STABLE 用条件扩散模型生成"随市场 regime 变化"的个股收益分布,再把这些分布当作 Black–Litterman 的投资者观点(views)注入均值-方差优化,从而在四大区域股市上把夏普比率提升最多 122.9%、同时压低回撤和波动。

STDDN: 用流体连续性方程引导的人群仿真深度学习框架

STDDN 把人群当成连续流体介质,用流体力学的连续性方程作为强物理约束、Neural ODE 建模宏观密度场演化来反过来正则化微观轨迹预测网络,在四个真实数据集的长程仿真上同时刷新精度并把推理延迟大幅降低(最高减少 90%)。

STORM: Synergistic Cross-Scale Spatio-Temporal Modeling for Weather Forecasting

STORM 把全球气象场显式拆成细到粗的多尺度表征,并通过跨尺度消息传递、轻量时间演化编码和层级对齐解码,在 ERA5 全球与区域天气预报上同时提升短期精度和 7-10 天长期稳定性。

Structure Learning from Time-Series Data with Lag-Agnostic Structural Prior

这篇论文研究如何把“变量 \(j\) 会影响变量 \(i\),但不知道具体滞后几步”的粗粒度因果先验融入时间序列结构学习,并通过过程等价的先验损失与数据驱动初始化,更稳定地恢复细粒度的滞后因果结构。

SuperMAN: Interpretable and Expressive Networks over Temporally Sparse Heterogeneous Data

SuperMAN 把"多类型、采样间隔不规则、异步"的稀疏时序数据建模成"一组隐式图",用一种扩展的图加性网络(ExtGNAN)+ 子集分组机制直接学习,既能给出节点/图/子集三个粒度的可解释贡献分数,又能在有领域先验时用"分组"换取更强表达力,在 Crohn 病发病预测、ICU 住院时长、假新闻检测上都拿到 SOTA。

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

提出首个时间序列预训练模型选择框架SwiftTS,使用双编码器架构独立嵌入数据集patch级时序特征和模型元信息(架构/拓扑/功能),通过patch级交叉注意力计算兼容性分数,结合horizon自适应专家组合和跨域/跨horizon元学习,在14个数据集×8个模型上以平均加权Kendall \(\tau_\omega = 0.442\) 大幅超越所有基线。

T1: One-to-One Channel-Head Binding for Multivariate Time-Series Imputation

提出T1——CNN-Transformer混合架构,核心创新是Channel-Head Binding(CHead Attention):共享Depthwise Conv为每个变量提取C种时序特征(趋势/周期/突变等),然后将每个CNN通道与一个注意力头一对一绑定,使跨变量信息传递在特征级别独立进行。当缺失导致某通道无法提取有效模式时,对应注意力头自动降权,实现无需显式设计的自适应缺失处理。在11个基准数据集上MSE平均降低46%,70%极端缺失下优势更大。

Tackling Time-Series Forecasting Generalization via Mitigating Concept Drift

本文把时间序列预测的分布偏移拆成「时序漂移」和「概念漂移」两类,提出软注意力掩码 SAM 从回看窗与预测窗的外生特征里挖出稳定的不变模式来缓解概念漂移,并用一个模型无关的框架 ShifTS「先治时序漂移、再治概念漂移」,在多数据集多模型上稳定提升预测精度。

TEDM: 用阐明化扩散模型做时间序列预测

TEDM 把图像生成里的 EDM(Elucidated Diffusion Models)框架移植到多变量时间序列预测,关键是让扩散时间轴和物理时间轴重合,并用从数据里经验估计的噪声/尺度调度取代人为预设的调度,从而把采样复杂度从 \(O(SH)\) 降到 \(O(H)\),在多个长序列预测基准上用一个轻量网络刷出 SOTA。

Temporal Generalization: A Reality Check

这篇论文在严格“不看未来数据”的设定下系统评测用历史 checkpoint 插值或外推未来模型参数的做法,发现模型平均和 Taylor 外推通常不如直接使用最近模型,只有简单参数缩放在部分语言任务上较稳,但也不是普适解。

TEN-DM: Topology-Enhanced Diffusion Model for Spatio-Temporal Event Prediction

TEN-DM 把时空点过程同时转成多语义事件图和多尺度时间序列图像,用图表示、zigzag 拓扑特征和 temporal query 注意力共同条件化扩散去噪过程,从而更准确地预测下一次事件的发生时间与空间位置。

Tensor learning with orthogonal, Lorentz, and symplectic symmetries

本文给出了关于正交群 \(O(d)\)、不定正交群(含 Lorentz 群)和辛群 \(Sp(d)\) 对张量对角作用下的等变多项式函数的完整参数化刻画,并将其应用于设计可学习的稀疏向量恢复算法,在多种数据生成假设下超越了已有的 sum-of-squares 谱方法。

The Forecast After the Forecast: A Post-Processing Shift in Time Series

这篇论文提出 δ-Adapter:在冻结时间序列预测骨干模型的前后各加一个受 \(\delta\) 约束的轻量后处理模块,用输入微调、输出残差修正、稀疏特征选择和不确定性校准,在不改模型结构、不重训骨干的情况下稳定提升预测精度与区间覆盖质量。

Time-Gated Multi-Scale Flow Matching for Time-Series Imputation

把多变量时序缺失值插补建模成一条「噪声→数据」的数据条件 ODE,用流匹配学速度场,靠可见性掩码注意力防泄漏、时间门控多尺度速度头调度「先粗后细」的频率内容、Heun+数据一致性投影把观测点钉死在直线桥上,从而在十个基准上以确定性、低算力拿到有竞争力或更优的插补精度。

TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models

TimeOmni-1 提出了首个统一的时间序列推理模型,通过 TSR-Suite(首个推理导向的时序数据集套件)和两阶段训练(SFT注入时序先验 + RL精炼推理),在多项时间序列推理任务上显著超越 GPT-4.1。

TimeRecipe: A Time-Series Forecasting Recipe via Benchmarking Module Level Effectiveness

作者把现代时序预测模型拆成「预处理 / 嵌入 / 前馈建模 / 投影 / 后处理」五大组件的标准架构(Canonical Architecture),用超过 1 万次实验在模块粒度上系统评测每种设计在不同数据/任务下的效果,发现穷举设计空间得到的组合在 90% 以上场景能超过现有 SOTA,并据此训练了一个免训练的 LightGBM 工具包,根据数据特性直接推荐架构配置。

TimeSeriesExamAgent: Creating Time Series Reasoning Benchmarks at Scale

本文提出一套"可扩展造题"方法:先用人工模板 + 合成时间序列搭出域无关的 TimeSeriesExam 选择题基准,再用多智能体框架 TimeSeriesExamAgent 把这套思路推广到任意真实数据集——让生成器 LLM 写"出题模板"(Python 函数)、再经三级验证过滤,最终自动生成与人工基准多样性相当的领域专属推理题;实验发现即便最强 VLM 在这些题上平均准确率也只有 51.5%。

TimeSliver: Symbolic-Linear Decomposition for Explainable Time Series Classification

提出TimeSliver——可解释性驱动的深度学习框架,联合利用原始时序数据和符号抽象(分箱)构建保持原始时间结构的表示,每个元素线性编码对应时间段对最终预测的贡献→赋予每个时间点正/负归因分数,在7个数据集上时间归因准确率超越其他方法11%,同时在26个UEA基准上预测性能持平SOTA。

Towards Generalizable PDE Dynamics Forecasting via Physics-Guided Invariant Learning

提出 iMOOE 框架,通过显式定义 PDE 系统中的"算子不变性 + 组合不变性"两层物理不变性原理,设计与之对齐的混合算子专家网络和频率增强的风险等式目标,在不需要任何测试时适应的条件下实现多种 OOD 情景下的 SOTA 零样本 PDE 动力学预测。

Towards Multimodal Time Series Anomaly Detection with Semantic Alignment and Condensed Interaction

MindTS 把时间序列异常检测从单模态数值数据推进到「时序 + 文本」多模态:先用跨视角融合把内生文本(从序列本身生成的统计描述)和外生文本(外部背景知识)对齐到时序表示,再用基于信息瓶颈的 content condenser 过滤冗余文本、并用压缩后的文本去重建被掩码的时序,从而在 6 个真实多模态数据集上全面超过 17 个单模态/多模态基线。

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework

提出ChannelTokenFormer(CTF),一个统一的Transformer框架同时解决真实世界多变量时序预测的三大挑战:(1) 通道间复杂依赖——channel token跨通道注意力;(2) 各通道异步采样——频域动态patching保持原始分辨率;(3) 测试时块缺失——训练时patch masking模拟+推理时直接移除全缺失patch,在ETT/SolarWind/Weather/EPA/CHS等6个数据集上全面SOTA。

TrajFlow: Nationwide Pseudo GPS Trajectory Generation with Flow Matching Models

TrajFlow 把 Flow Matching 首次引入 GPS 轨迹生成,配合「逐条轨迹规整 + RDP 压缩 + OD 条件归一化」策略,用约 10 步 ODE 积分就在城市、都市圈、全国三种空间尺度上稳定生成伪 GPS 轨迹,在覆盖全日本数百万条真实轨迹的数据上全面超过扩散和其他深度生成基线,尤其在全国尺度优势明显。

TRIDENT: Cross-Domain Trajectory Spatio-Temporal Representation via Distance-Preserving Triplet Learning

TRIDENT 用一套统一架构(GCN 空间嵌入 + Date2Vec 时间嵌入 + 双向交叉注意力编码器 + 非线性 tanh 投影池化)同时建模连续 GPS 轨迹和离散羽毛球落点轨迹,并提出"距离保持的多核三元组损失"让嵌入空间距离对齐原始轨迹空间距离,从而在检索精度、训练效率和跨域泛化上全面超越强基线。

TSPulse: Tiny Pre-Trained Models with Disentangled Representations for Rapid Time Series

提出 TSPulse,仅 1M 参数的超轻量时间序列预训练模型,通过双空间掩码重建和双嵌入解耦策略,在分类(+5-16%)、异常检测(+20%)、插补(+50%)和相似性检索(+25%)四大任务上超越 10-100 倍大的模型。

Tuning the burn-in phase in training recurrent neural networks improves their performance

从理论上证明了 RNN 训练中 burn-in 阶段长度 \(m\) 对截断反向传播时间(TBPTT)训练性能的关键影响,建立了训练遗憾的上界估计,并通过系统辨识和时间序列预测实验验证,合理调节 burn-in 可将预测误差降低超过 60%。

Understanding the Implicit Biases of Design Choices for Time Series Foundation Models

这篇论文不造新模型、不刷榜,而是系统地把时间序列基础模型(TSFM)的三个常见设计旋钮——patch size、嵌入方式(离散量化 vs 连续)、训练损失(CE vs L1/L2)——映射到三类「隐式偏置」(时间偏置、几何偏置、回归到均值偏置),用理论加受控实验说明每个旋钮如何塑造模型的频率/周期偏好、几何结构和不确定性下的预测形态,并以离群点处理为例展示这些偏置如何复杂地相互纠缠。

Understanding Transformers in Time Series Forecasting: A Case Study on MOIRAI

这篇论文从理论上回答"为什么 Transformer(尤其是 MOIRAI)在时序预测上这么强"——证明存在一个 Transformer 能通过 in-context learning 用梯度下降在输入序列上拟合自回归(AR)模型,并进一步证明 MOIRAI 的 any-variate 编码与注意力机制能把任意数目协变量的 AR 回归自动并行装进同一套权重,最后在 Dobrushin 条件下给出预训练的 \(O(1/\sqrt{nT})\) 泛化界。

Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility

本文从「数值秩」的视角剖析时间序列 Transformer:证明时间序列的 patch 嵌入天然落在极低秩子空间,从而 Q/K/V 注意力矩阵可被低秩逼近,并提出 flow-of-ranks 解释「秩随深度增长、浅层最易压缩」的现象;据此把时间序列基础模型 Chronos 压缩到推理时间降 65%、显存降 81% 而精度不掉。

Uni-NTFM: A Unified Foundation Model for EEG Signal Representation Learning

Uni-NTFM 从神经科学第一性原理出发,设计异质特征投影(HFPM)解耦时频编码、分层拓扑嵌入(TE)统一异构电极配置、MoE Transformer 实现功能模块化与稀疏编码,在 28000 小时 EEG 数据上预训练 1.9B 参数模型,9 个下游任务上的线性探测和微调均达到 SOTA。

UniCA: Unified Covariate Adaptation for Time Series Foundation Model

UniCA 把类别、图像、文本等异构协变量先映射成统一的“隐式时间序列”表示,再用前融合与后融合注意力模块接入冻结的时间序列基础模型,在不破坏预训练泛化能力的前提下提升协变量感知预测效果。

Unlocking the Value of Text: Event-Driven Reasoning and Multi-Level Alignment for Time Series Forecasting

提出 VoT,一种通过事件驱动推理(利用 LLM 对外生文本进行结构化推理获取数值预测)和多层对齐(表征级内生文本对齐 + 预测级自适应频率融合)充分挖掘文本信息价值的多模态时间序列预测方法,在 10 个领域的真实数据集上全面超越现有方法。

Weight-Space Linear Recurrent Neural Networks

提出 WARP(Weight-space Adaptive Recurrent Prediction),将线性 RNN 的隐状态显式参数化为辅助 MLP 的权重和偏置,利用输入差分驱动线性递推来更新权重,结合非线性解码实现高效序列建模,在分类、预测和动力系统重建等任务上达到 SOTA。

When Foundation Models Are One-Liners: Limitations and Future Directions for Time Series Anomaly Detection

这篇论文系统验证了 MOMENT、Chronos、TimesFM、Time-MoE、TSPulse 五大时序基础模型(TSFM)在时序异常检测(TSAD)上的真实表现,发现它们在零样本下与「移动窗口方差」「平方差」这两条一行代码就能写完的朴素基线没有显著差别,根因是「异常更难重建/预测」这一核心假设根本不成立,并据此提出三条让 TSFM 真正发挥作用的补救方向。

Zero-shot Forecasting by Simulation Alone

这篇论文提出 SarSim0——一个完全基于稳定 SARIMA 过程的快速时序仿真器,用它在线生成约 10 亿条纯合成序列来预训练通用预测骨干网络,使小模型在严格零样本协议下的预测精度追平甚至超过用真实数据训练的大型基础模型(Chronos、MOIRAI、TimesFM),并在 GiftEval 上出现"学生超过老师"(神经网络超过生成它训练数据的 AutoARIMA)的现象。