Semantic-Enhanced Time-Series Forecasting via Large Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GZ9uSxY3Yn
代码: https://github.com/LH325/SE-LLM
领域: 时间序列预测 / LLM4TS
关键词: 时间序列预测, 大语言模型, 语义增强, 异常建模, 适配器微调

一句话总结¶

SE-LLM 把时间序列的周期与异常特性注入预训练 LLM 的语义空间来增强 token 表示（TSCC 模块），再用一个内嵌 LSTM 的适配器（Time-Adapter）补齐 LLM 对长短期时序依赖的建模能力，在冻结 LLM、压缩序列长度的前提下做到长/短期与零样本预测全面 SOTA。

研究背景与动机¶

领域现状：用 LLM 做时间序列预测是近两年的热门方向。主流做法是把时序数据投影成 embedding，再和 LLM 预训练词表的语义空间做对齐，或者把时序转成文本 prompt 喂给冻结的 LLM（如 Time-LLM、S2IP-LLM、LLM4TS），借 LLM 的泛化能力捕捉时序依赖。

现有痛点：这些方法绝大多数停留在 token 级别的模态对齐——把时序 embedding 和语义空间对齐后当成隐式 prompt 引导 LLM。但 token 级对齐忽略了时序内部的时间依赖和通道依赖，难以刻画动态变化的时序模式；引入文本描述又会带来噪声和额外算力开销。

核心矛盾：语言知识的结构和时序数据的模式之间存在本质的模态鸿沟。LLM 的 Transformer 擅长捕捉长程依赖，却天然弱于建模时序里短期异常/突变；而把所有参数都微调又会破坏 LLM 预训练得到的通用语义能力，导致跨域不稳定。

本文目标：在不微调 LLM 主干的前提下，(1) 让 token embedding 真正携带时序模式（含周期与异常）而非只做表面对齐；(2) 补齐 LLM 对长短期时序依赖的建模短板。

切入角度：作者观察到，由 token 和时间步共同构成的语义空间里其实蕴含可被利用的结构先验。如果能把时序的异常/去异常模式显式拆出来注入语义空间，token 对 LLM 就有了更高的可解释性，等于给 LLM 喂了一个带时序语义的隐式 prompt。

核心 idea：用「语义增强」替代「token 对齐」——通过跨模态对齐 + 异常建模 VAE + 门控融合把时序模式灌进语义空间（TSCC），再用一个 LSTM 适配器把这些语义转成 LLM 的时序建模能力（Time-Adapter）。

方法详解¶

整体框架¶

SE-LLM 的输入是一段批量时序矩阵（batch \(B\)、长度 \(L\)）。先用滑动窗口把时间维切成 \(N\) 个长度为 \(K\) 的片段，得到 \(\tilde{T}\in\mathbb{R}^{B\times N\times K}\)，这一步把 LLM 实际处理的序列长度从 \(L\) 降到 \(N\)，自注意力复杂度从 \(O(L^2)\) 降到 \(O(N^2)\)，是「冻结 LLM + 省算力」的基础。

切段后兵分两路：一路经 Time Encoder 投影成 TS Embedding \(H=F_2(\sigma(F_1(\tilde{T})))\in\mathbb{R}^{B\times N\times C}\)；另一路把预训练词表矩阵 \(W\in\mathbb{R}^{V\times C}\) 线性映射成语义空间 \(S\in\mathbb{R}^{K_s\times C}\)，作为通用语言先验。两者一起送进 TSCC 模块得到增强语义，再把增强语义注入冻结 LLM 的多头注意力——此处的 key/value 被 Time-Adapter 改写以补足时序依赖。最后 Decoder 把 LLM 输出解码成预测 \(O=F_2(\sigma(F_1(Y)))\)。整条管线只有 TSCC、Time-Adapter、编解码器是可训练的，LLM 全程冻结。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入时序<br/>滑动窗口切段 N×K"] --> B["TS Embedding<br/>Time Encoder 投影"]
    A2["预训练词表<br/>线性投影→语义空间 S"] --> C
    B --> C["时序-语义交叉关联<br/>TSCC：对齐+异常建模+门控融合"]
    C --> D["增强语义注入<br/>冻结 LLM 多头注意力"]
    D --> E["时序适配器<br/>Time-Adapter 改写 K/V"]
    E --> F["Decoder 解码<br/>输出预测"]

关键设计¶

1. TSCC 模块：把时序的异常/去异常模式灌进语义空间

这是针对「token 级对齐忽略时序动态」痛点的核心组件，内部有四步串联。第一步跨模态对齐：用 Cross Attention 把 TS Embedding \(H\) 和语义空间 \(S\) 对齐成联合空间（Joint Space）\(C=\text{CrossAttn}(H,S)\in\mathbb{R}^{B\times N\times C}\)，让时序特征自适应地融进语义先验。第二步异常建模（AM-VAE）：时序里的非平稳异常噪声会让预测偏差变大，作者用一个变分自编码器估计联合表示 \(C\) 的隐分布——编码器预测均值 \(\mu\) 与对数方差，经重参数化采样 \(z=\mu+\epsilon\odot\sigma\)，解码出异常语义 \(D_C=F_d(z)\)，再用 \(D_A=C-D_C\) 得到去异常语义。注意它不是直接预测未来观测，而是在语义隐空间里重建出和异常相关的分量，把异常显式拆出来。

第三步结构先验注入：先对时序和语义特征做 \(L_2\) 归一化算相似度 \(M=\text{Norm}_2(\text{Mean}_N(H))\times\text{Norm}_2(S)^T\)（接近余弦相似度），按样本级相似度选出 top-K 语义原型聚合成结构先验，分别条件化 \(D_A\) 和 \(D_C\)。第四步通道依赖增强 + 门控融合：把 TS Embedding 与 \(D_A\)/\(D_C\) 拼接后过 MLP 得到通道注意力 \(\text{Attn}_a=\text{MLP}([H,D_A])\)，再门控融合把时序模式注回联合空间 \(G_A=F_{llm}(\text{Attn}_a\odot H+(1-\text{Attn}_a)\odot D_A)\)（\(D_C\) 同理得 \(G_C\)）。最终 \(Y=\text{LLM}(G_A+G_C)\)——去异常语义与异常语义都被时序模式增强后融合，喂给 LLM 分析。这样得到的 token 对 LLM 而言可解释性更高，等于一个携带周期与异常信息的隐式 prompt。

2. Time-Adapter：用 LSTM 替换低秩矩阵补齐 LLM 的长短期时序建模

针对「Transformer 强于长程依赖、弱于短期异常」的痛点，作者在 LoRA 的框架上做改造：把 LoRA 原本的低秩矩阵换成双线性层 + 两个串联 LSTM。四步顺序执行——低秩投影降维、第一个 LSTM 把压缩特征升维捕捉长期依赖、第二个 LSTM 经反向投影（高维到低维）隔离局部短期动态、最后一个线性层把这些时序依赖整合进自注意力的 key \(k\) 和 value \(v\) 矩阵。和直接上 LoRA 的区别在于：普通适配器只增强 LLM 对语义结构的理解，并不为时序模式设计；Time-Adapter 用 LSTM 路径显式建模长短期依赖，并精准嵌在多头注意力的 K/V 上，让冻结的 LLM 真正获得处理时序的能力。实验里它在长期预测上明显优于 LoRA，证明 LoRA 缺乏对时序的泛化增益。

损失函数 / 训练策略¶

LLM 主干全程冻结，只训练 TSCC、Time-Adapter 与编解码器；AM-VAE 用重参数化技巧采样，配合常规预测损失端到端优化。滑动窗口把序列长度从 \(L\) 压到 \(N\)，显著降低自注意力与 FFN 的算力消耗，使整个框架在冻结大模型的同时保持轻量。

实验关键数据¶

主实验¶

长期预测（输入长度 672，预测 {96,192,336,720}），MSE/MAE 越低越好：

数据集	指标	SE-LLM	最强基线	说明
ETTh1	MSE/MAE	0.381 / 0.415	0.396 / 0.419 (Time-CMA)	全面领先
Traffic	MAE	0.261	0.274 (iTransformer)	MAE 相对降约 4.7%
ECL	MSE/MAE	0.161 / 0.255	0.161 / 0.258	周期消费模式下最稳
Solar	MSE/MAE	0.192 / 0.242	0.207 / 0.246 (AutoTimes)	季节/趋势显著场景领先

短期预测（M4，全子集平均）：SE-LLM 的 SMAPE 11.778 / MASE 1.578 / OWA 0.847，较次优分别约降 0.42% / 0.13% / 0.35%。零样本（M3↔M4 频率迁移）：M3→M4 SMAPE 13.024、M4→M3 12.560，均优于 AutoTimes（13.036 / 12.750），M4→M3 相对提升约 1.4%。

消融实验¶

TSCC 各组件消融（ETTh1，平均 MSE/MAE）：

配置	MSE / MAE	说明
Full model	0.381 / 0.415	四模块齐全最优
w/o AM-VAE	0.393 / 0.423	去掉异常建模，掉点明显
w/o Cross Attn	0.396 / 0.425	改成线性拼接，跨模态对齐变弱
w/o Gated Fusion	0.399 / 0.432	丢掉通道依赖建模，掉点最多
w/o Semantic Space	0.402 / 0.431	换成可学习参数矩阵，失去显式语义引导

逐模块叠加消融（Qwen2.5-0.5B，ECL/Traffic）：Baseline→+TSCC→+Time-Adapter，ECL 的 MSE 从 0.167→0.166→0.161，Traffic 从 0.405→0.389→0.386，两个创新模块逐步带来增益。

关键发现¶

门控融合（通道依赖）贡献最大，去掉后掉点最猛（MSE 0.381→0.399），说明在跨模态融合后显式补回通道维信息至关重要。
AM-VAE 的收益不均匀：对分布漂移强、不规则动态明显的数据集帮助大；对相对平稳的时序，显式建模随机变化收益较弱——作者诚实地指出了这一点。
Time-Adapter > LoRA：在长期预测上 LoRA 缺乏泛化增益，而 Time-Adapter 用 LSTM 路径显式建模长短期依赖才真正让 LLM 适配预测任务。
TSCC + Time-Adapter 作为即插即用插件接进 Time-LLM / AutoTimes / TimeCMA 后均能提升，验证了通用性。

亮点与洞察¶

把「异常」当成可建模的语义分量：用 VAE 在语义隐空间重建 \(D_C\)、再相减得到 \(D_A\)，把时序里最难刻画的突变显式拆出来注入 LLM，比单纯 token 对齐多了一层时序语义，思路很巧。
改造 LoRA 而非另起炉灶：保留 LoRA 的低秩注入位置（K/V），但把低秩矩阵换成 LSTM，既复用了高效微调的工程范式，又精准补上 Transformer 的时序短板，可迁移到其他「需要时序归纳偏置」的 LLM 微调场景。
冻结 + 切段降复杂度：滑动窗口把 \(O(L^2)\) 降到 \(O(N^2)\)，在不训练 LLM 的同时保证轻量，是效率与效果兼顾的实用设计。

局限与展望¶

作者承认 AM-VAE 的异常建模收益依赖数据特性，平稳序列上提升有限，缺乏一个自适应判断「何时该启用异常建模」的机制。
top-K 语义原型选择在不同数据/架构上可能引入噪声或幅度扰动，需要额外归一化才能稳定，超参（K、片段长度 K）的敏感性正文披露不充分。
用 Qwen2.5-0.5B / GPT2 这类小模型验证，扩展到更大 LLM 时语义空间增强与算力收益的 trade-off 是否还成立有待观察。
异常建模与定性分析主要靠 STL 残差与 t-SNE 可视化佐证，缺少对「重建语义=真实异常」的定量度量。

评分¶

新颖性: ⭐⭐⭐⭐ 「异常语义分解 + LSTM 化适配器」组合切入 LLM4TS 的真实短板，角度新颖。
实验充分度: ⭐⭐⭐⭐ 长/短/零样本 + 多 LLM 主干 + 插件迁移消融齐全，但超参敏感性披露偏弱。
写作质量: ⭐⭐⭐⭐ 框架图与算法描述清晰，部分公式记号略密。
价值: ⭐⭐⭐⭐ 即插即用模块对 LLM4TS 社区有直接复用价值。