SciTS: Scientific Time Series Understanding and Generation with LLMs¶

一句话总结¶

提出SciTS基准覆盖12个科学领域43个任务54K+实例（长度从\(10^0\)到\(10^7\)、频率达10MHz），系统评估17个模型发现通用LLM比专用时序模型泛化更好但文本/图像编码各有局限，据此设计TimeOmni框架用多Patch专家+路由机制+Patch重编程显式建模时间动态并与LLM联合训练。

研究背景与动机¶

领域现状：LLM的科学推理能力近年受到广泛关注，时间序列作为科学数据中最基本的模态之一（物理、天文、生物、工程等），却在当前多模态LLM中被严重忽视。现有方法要么将数值序列编码为文本（产生极长序列），要么转换为图像（损失数值精度），均不能充分支撑科学时序的理解与生成。

现有局限：(1) 现有时序基准主要集中在预测/异常检测等常规任务，缺乏对科学领域（天文、地球科学、神经科学等）的覆盖；(2) 统一时序模型要么只做预测要么只做分析，无法同时处理理解+生成；(3) 科学时序信号异质性极大（天文光变曲线 vs 脑电信号 vs 地震波 vs 雷达通信），现有模型难以适配。

切入角度：构建首个全面的科学时序基准SciTS → 系统评估发现问题 → 设计LLM-native的时序处理框架TimeOmni。

关键挑战：科学时序信号频率跨度从\(10^{-5}\)Hz到\(10^7\)Hz，长度从几个点到百万级别，维度从1到58，这种极端异质性对统一建模提出了严峻挑战。

已有尝试的不足：UniTS虽然整合了QA和预测，但依赖独立的架构设计，不兼容通用LLM训练。Moirai、TimeMoE等专用模型仅支持预测，无法处理填补、事件定位等任务。

本文动机：需要一个既能利用LLM的推理和知识能力，又能显式建模时间动态的统一框架，同时保持与通用LLM训练管线的兼容性。

方法详解¶

整体框架¶

TimeOmni 要解决的核心难题是：让一个通用 LLM 既能"读懂"又能"生成"频率跨 12 个数量级、长度从几个点到百万级的科学时序。它的做法不是把数值硬转成文本或图像，而是把一个"显式时序编码器"嫁接到通用 LLM 上，让数值序列以原始精度被编码、再对齐进 LLM 的语义空间。整条流水线串起三个部件：时序编码器（路由器 + Patch 专家族 + Patch 重编程）、LLM 骨干（Qwen3-8B 配 DoRA 微调）、任务特定输出头（理解任务用 softmax 出文本，生成任务用线性回归头）。

数据怎么流：给定输入信号 \(\mathbf{X} \in \mathbb{R}^{T' \times N}\)，先沿时间维展平成单变量长序列 \(\mathbf{X}' \in \mathbb{R}^{NT' \times 1}\)；路由器按展平后的总长度挑一个合适的 patch 专家，把信号切成 100-200 个 patch；这些 patch 经重编程模块借 LLM 词表对齐到语义空间，得到 \(\mathbf{X}_{\text{enc}} \in \mathbb{R}^{T_{\text{enc}} \times D_{\text{llm}}}\)（\(T_{\text{enc}}\) 落在 100-200）；最后按任务类型与文本提示嵌入按不同顺序拼接，喂给 LLM，再由对应输出头给出文本答案或时序。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IN["输入信号<br/>X ∈ R^(T'×N)"] --> FLAT["多变量展平<br/>沿时间拼成单变量长序列<br/>NT'×1"]
    FLAT --> ROUTE["多Patch专家路由<br/>按总长选patch大小→1D卷积<br/>切成100-200个patch"]
    ROUTE --> REPROG["Patch重编程<br/>与LLM词表做交叉注意力<br/>对齐到语义空间"]
    REPROG --> BR{"任务类型?"}
    BR -->|"理解：信号在前 [X;P]"| LLM["LLM骨干<br/>Qwen3-8B + DoRA微调"]
    BR -->|"生成：指令在前 [P;X]"| LLM
    LLM --> HEAD["双输出头<br/>softmax出文本 / 线性回归出时序"]
    HEAD --> OUT["理解答案 / 生成序列"]

关键设计¶

1. 多Patch专家路由：让任意长度信号都落到 100-200 个 token

科学时序的长度跨度极大，从 \(10^0\) 到 \(10^7\)，固定 patch 大小根本兜不住——patch 太小时长序列的 patch 数会爆炸吃光内存，patch 太大时短序列又会坍缩成单个 patch 丢光信息。TimeOmni 用一个路由器按展平后的总长度 \(T = NT'\) 挑选 patch 大小 \(D_{\text{patch}}\)，约束它落在 \(\frac{T}{200} < D_{\text{patch}} < \frac{T}{100}\) 之间，这样无论原始信号多长，切出来的 patch 数都被压在 100 到 200 之间。被选中的 Patch 专家把信号从 \(\mathbb{R}^{T \times 1}\) 重塑为 \(\mathbb{R}^{\lceil T/D_{\text{patch}} \rceil \times D_{\text{patch}}}\)，再用 1D 卷积映射到 \(\mathbf{X}_{\text{patch}} \in \mathbb{R}^{\lceil T/D_{\text{patch}} \rceil \times D_{\text{enc}}}\)。这种 scale-adaptive patching 把"序列过长"和"信息坍缩"这对矛盾一次性化解，也是后面消融里固定 patch 大小会让极端长度序列性能严重退化的原因。

2. Patch重编程：借 LLM 自己的词表把时序对齐到语义空间

直接把时序嵌入塞进 LLM 会撞上模态不对齐的墙，因为 LLM 从没在数值 patch 上训练过。TimeOmni 的做法（沿用 Time-LLM 的 reprogramming 思路）是拿 LLM 已有的词嵌入 \(\mathbf{E} \in \mathbb{R}^{\text{vocab\_size} \times D_{\text{llm}}}\) 当桥梁，先用线性层把它压缩到 \(\mathbb{R}^{1000 \times D_{\text{llm}}}\) 的一组语义原型，再让 patch 表示以 query 身份、词嵌入以 key/value 身份做多头交叉注意力：

\[\mathbf{X}_{\text{enc}} = \text{Linear}(\text{CrossAttn}(\mathbf{X}_{\text{patch}}, \mathbf{E}, \mathbf{E}))\]

换句话说，每个时序 patch 被重写成 LLM 词表语义的加权组合，落进 LLM 本就熟悉的表示空间。消融里把这个模块换成简单 MLP 后性能一致下降，说明"借词表对齐"确实比硬投影更能消除模态鸿沟。

3. Prompt策略与双输出头：理解先看数据、生成先看指令

理解和生成两类任务的认知流程是反的，所以拼接顺序和输出方式也分开设计。理解任务（分类/异常检测/QA）走 Prompt-as-suffix，把信号放前、问题放后拼成 \([\mathbf{X}_{\text{enc}}; \mathbf{P}]\)，模拟人先观察数据再回答，输出经 softmax 生成文本 token；生成任务（预测/填补/合成）走 Prompt-as-prefix，把指令放前、信号放后拼成 \([\mathbf{P}; \mathbf{X}_{\text{enc}}]\)，先理解任务要求再处理信号，输出经展平加线性层映射回目标时序长度。由于生成长度各异，框架预定义了一组覆盖不同输出长度的回归头，运行时按最近长度匹配选头并做必要截断。

4. 多变量信号处理：展平成单序列，让 patch 专家顺手吃掉跨通道依赖

科学信号维度从 1 到 58 不等，若给每个通道单配编码器会让架构复杂度失控。TimeOmni 索性把 \(\mathbf{X} \in \mathbb{R}^{T' \times N}\) 沿时间维展平为 \(\mathbf{X}' \in \mathbb{R}^{NT' \times 1}\)，统一当一条单变量长序列处理，再交给上面的路由器按展平后的总长度自动选 patch 大小。这样既复用了同一套 scale-adaptive patching，又让卷积 patch 专家在展平序列上自然捕捉跨通道的时间依赖；代价是丢掉一部分通道间的结构信息（如 EEG 的空间拓扑），这一点也在局限里被点名。

实验关键数据¶

理解任务结果（F1%，各学科平均）¶

模型	天文	生物声学	地球科学	经济	气象	制造	神经科学	生理	雷达	城市	平均排名
GPT-4.1-mini	41.4	6.7	67.0	90.4	45.3	31.7	13.5	26.8	17.6	64.4	6.1
Gemini2.5-Flash	40.2	10.3	67.6	87.8	51.8	28.8	12.7	31.8	17.2	64.6	5.5
GPT-5-mini (多模态)	42.3	10.7	67.6	83.8	45.3	38.4	13.9	25.0	16.5	64.8	6.0
UniTS	38.2	8.1	0.0	27.1	9.8	48.5	25.9	22.9	10.6	67.4	7.9
ChaTS	11.3	—	64.8	79.2	51.2	—	22.7	30.9	13.9	65.4	9.2
TimeOmni	73.2	58.1	82.5	96.4	61.3	82.0	60.1	45.9	68.9	64.8	1.9

生成任务结果（swMAPE，越低越好）¶

模型	天文	地球科学	气象	经济	神经科学	能源	生理	城市	数学	平均排名
GPT-4.1-mini	100.9	65.0	85.0	112.2	61.4	2.0e3	610.6	670.0	1.2e3	6.7
Gemini2.5-Flash	116.6	63.0	107.5	4.5	38.7	307.6	60.5	391.4	477.5	4.6
Moirai-Large	—	—	51.7	1.8	—	—	—	—	360.1	8.3
UniTS	3.3e6	—	42.0	—	147.3	—	216.3	—	—	9.8
TimeOmni	2.8	2.2	37.5	5.3	46.6	66.4	91.7	402.7	656.5	4.1

关键发现¶

通用LLM泛化优于专用TS模型：在SciTS的12个科学领域上，通用LLM（如GPT-4.1-mini、Gemini2.5-Flash）展现了比专用时序模型（Moirai、TimeMoE等）更强的跨领域泛化能力。专用模型在训练分布外的科学信号上表现急剧退化。
文本vs图像编码的任务依赖性：理解任务中图像输入优于文本输入（高层理解不依赖精确数值，且图像压缩长序列更有效）；生成任务中文本输入优于图像输入（数值精确性至关重要）。这揭示了两种编码方式的互补性和各自局限。
SciTS极具挑战性：生物声学和雷达领域F1值普遍低于10%，高频长序列（百万级采样点）导致大量模型context溢出或指令遵循失败。开源LLM约10%的任务完全无法处理。
TimeOmni实现全覆盖+全成功：TimeOmni是唯一一个在所有43个任务上都能成功处理所有实例的模型，同时在理解（平均排名1.9）和生成（平均排名4.1）任务上均达到最优或接近最优。
消融实验验证关键设计：(1) Patch重编程替换为MLP→性能一致下降；(2) 固定patch大小→极端长度序列性能严重退化；(3) 微调Qwen2.5VL和TimeMoE无法弥补架构局限→问题源于架构而非训练数据。

亮点与洞察¶

SciTS填补重要空白：首个覆盖12个科学领域的时序基准，包含7种任务类型和极端异质信号（频率跨12个数量级），为LLM处理科学时序提供了标准化评估平台。
"通用 > 专用"的反直觉发现：专用时序模型在非周期性科学信号上反而不如通用LLM，说明LLM的通用推理与世界知识比领域特化设计更重要。
Patch路由机制的理论优雅性：通过约束\(T/200 < D_{\text{patch}} < T/100\)，将任意长度信号统一映射到100-200个token，既避免了序列过长问题，又保证了信息密度，设计简洁而有效。
框架兼容性设计：TimeOmni可无缝集成到通用LLM训练管线，与其他模态（文本/图像/音频）联合训练，这为构建真正的科学多模态LLM奠定基础。

局限性¶

所有基线模型均在零样本设置下评估，未进行领域特定微调，可能低估了部分模型的真实能力。
TimeOmni基于Qwen3-8B微调，模型规模相对较小，scaling效果未充分探索。
SciTS数据主要来自开源数据集和模拟数据，与真实科学研究中的原始实验数据可能存在分布差异。
多变量信号简单展平可能丢失通道间的结构信息（如EEG的空间拓扑关系）。
闭源LLM的"thinking"模式未被评估（初步实验表明无改善但成本高昂）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个全面科学TS基准+LLM-native TS框架，填补重要空白
实验充分度: ⭐⭐⭐⭐⭐ 17模型×43任务×12领域的大规模系统评估+消融实验
写作质量: ⭐⭐⭐⭐ 基准设计严谨，图表信息量大，motivation清晰
价值: ⭐⭐⭐⭐⭐ 对LLM科学应用有重要推动，基准和框架均开源

SciTS: Scientific Time Series Understanding and Generation with LLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

理解任务结果（F1%，各学科平均）¶

生成任务结果（swMAPE，越低越好）¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

vs Chronos/Moirai/TimeMoE（专用时序模型）¶

vs UniTS/ChaTS（统一时序模型）¶

vs 多模态LLM（GPT-5-mini/InternVL/QwenVL）¶

评分¶

SciTS: Scientific Time Series Understanding and Generation with LLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

理解任务结果（F1%，各学科平均）¶

生成任务结果（swMAPE，越低越好）¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

vs Chronos/Moirai/TimeMoE（专用时序模型）¶

vs UniTS/ChaTS（统一时序模型）¶

vs 多模态LLM（GPT-5-mini/InternVL/QwenVL）¶

评分¶

相关论文¶