跳转至

TriTS: Time Series Forecasting from a Multimodal Perspective

会议: CVPR 2026 (A2A-MML Workshop)
arXiv: 2604.16748
代码: 无
领域: 时间序列 / 多模态
关键词: 长期时序预测, 跨模态解耦, Visual Mamba, 小波分解, 门控融合

一句话总结

TriTS 把一维时间序列同时投影到时域、频域、2D-视觉三个正交空间,用流式线性分支锚定数值、多分辨率小波分支解耦趋势与噪声、Visual Mamba 分支以线性复杂度捕捉跨周期全局纹理,再用尺度感知门控动态融合三者,在 7 个长期预测基准上达到 SOTA 且参数量和推理延迟远低于现有视觉类预测器。

研究背景与动机

领域现状:长期时序预测(LTSF)的范式正从纯一维时域分析(RNN、Transformer、线性模型)走向"跨模态表征"。频域方法(FEDformer 等)抽取周期模式;视觉派(VisionTS、VisionTS++)把一维信号折叠成 2D"时序图像",借预训练视觉基础模型(MAE)的结构感知力,在零样本/少样本上表现亮眼。

现有痛点:现有跨模态桥接方式有两个硬伤。其一,视觉分支几乎都用标准 ViT,自注意力对序列长度是 \(O(N^2)\) 复杂度,处理超长历史窗口时显存和推理延迟爆炸。其二,频域方法依赖 FFT,用的是全局基函数,难以精确定位非平稳信号里的瞬时突变和局部异常,还会被周期谐波(fundamental + 高阶谐波)干扰、产生频率泄漏。

核心矛盾:真实时序里全局趋势、复杂季节性、非平稳局部突变高度纠缠,任何单一模态都无法同时兼顾这几类特征——视觉模型擅长全局结构却缺数值保真度,频域擅长周期却抓不住全局语义,线性模型稳但抓不住非线性动态。

本文目标:在不付出 ViT 二次复杂度代价的前提下,把一维信号桥接到 2D 视觉空间;同时用更精细的时频定位替代 FFT;并让三种模态按数据特性动态配比。

切入角度:作者认为"表征瓶颈"本质来自单视角,应当把信号显式拆解到三个互补的正交空间,各管一摊(数值锚定 / 时频解耦 / 全局纹理),再融合。

核心 idea:用 time + frequency + 2D-vision 三分支解耦表征,视觉分支用线性复杂度的 Visual Mamba 取代 ViT、频域分支用多分辨率小波混合取代 FFT,最后尺度感知门控自适应融合。

方法详解

整体框架

输入是经 RevIN 归一化的多元历史序列 \(\tilde{\mathbf{X}}\in\mathbb{R}^{L\times C}\)\(L\) 回看窗口、\(C\) 通道数),输出未来序列 \(\hat{\mathbf{Y}}\in\mathbb{R}^{T\times C}\)。归一化后的同一份输入并行喂进三条互补分支:时域流式线性分支产出 \(\mathbf{H}_{\text{time}}\) 作"线性锚"保证数值稳定;频域多分辨率小波分支产出 \(\mathbf{H}_{\text{freq}}\) 显式解耦趋势/噪声;视觉 Visual Mamba 分支先把序列按主周期折成 2D"时序图像"再产出 \(\mathbf{H}_{\text{vis}}\) 捕捉跨周期全局纹理。三路表征最后送进尺度感知门控融合,按时间步生成置信权重加权求和得到最终预测。整条管线是"一进三出再聚合"的并行结构。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["历史序列 X<br/>RevIN 归一化"] --> B["时域流式线性分支<br/>EMA 趋势 + 线性层"]
    A --> C["多分辨率小波混合 MR-WM<br/>DWT 分解 + 独立分支 + 双阶段 Mixer"]
    A --> D["Visual Mamba 视觉分支<br/>周期重塑 + 双向 SSM"]
    B --> E["尺度感知门控融合<br/>Softmax 时间步权重加权"]
    C --> E
    D --> E
    E --> F["未来序列 Y"]

关键设计

1. 时域流式线性分支:用 EMA 趋势替代 SMA,给整个框架提供无偏低频锚

纯线性层简单有效,但对输入里的高频噪声过于敏感;而常见的简单移动平均(SMA)做趋势提取又会过度平滑,且需要序列边界 padding、引入边界偏差。受 xPatch 启发,TriTS 改用指数移动平均(EMA)作趋势算子:\(\mathbf{X}_{\text{trend},t}=\alpha\tilde{\mathbf{X}}_t+(1-\alpha)\mathbf{X}_{\text{trend},t-1}\),权重随时间指数衰减,对近期变化更敏感,且天然保持序列长度、无需 padding。提取的趋势项再过一个流式线性层 \(\mathbf{H}_{\text{time}}=\mathbf{X}_{\text{trend}}\mathbf{W}_{\text{time}}+\mathbf{b}_{\text{time}}\)(不加激活函数以免破坏线性关系)。这条分支不追求建模复杂动态,而是充当数值上的"压舱石"——消融显示去掉它会让训练直接发散(见下文)。

2. 多分辨率小波混合 MR-WM:用独立分辨率分支解耦趋势与噪声,根治 FFT 的谐波干扰

针对 FFT 全局基函数难定位非平稳突变的问题,频域分支改用基于 Mallat 算法的多级离散小波变换(DWT,固定 \(m=3\) 级)。每级把上一级的近似系数拆成新的近似系数 \(\mathbf{X}_{A_i}\) 与细节系数 \(\mathbf{X}_{D_i}\),只保留顶层近似系数 \(\mathbf{X}_{A_m}\)(长期宏观趋势)和各级细节系数集 \(\{\mathbf{X}_{D_1},\dots,\mathbf{X}_{D_m}\}\)(各尺度局部变化),得到 \(\mathcal{W}(\tilde{\mathbf{X}})=\{\mathbf{X}_{A_m},\mathbf{X}_{D_m},\dots,\mathbf{X}_{D_1}\}\)\(m+1\) 个分量。关键在于为这 \(m+1\) 个分量构建完全独立的分辨率分支,各自有独立的 RevIN、Patching、Mixer 参数空间——这种"分辨率隔离"严防高频噪声在特征提取时污染低频趋势;同时因为基频和高阶谐波被分到了不同小波子带,独立分支天然解耦了它们,绕开了全局 FFT 的谐波干扰与频率泄漏。各分支独立预测后经逆小波变换(IDWT)结构化重建为 \(\mathbf{H}_{\text{freq}}\)

每个分辨率分支内部用双阶段 Mixer(Patch + Embedding)捕捉依赖:先把小波系数切成 Patch,Patch Mixer 沿 Patch 维聚合局部时序上下文(\(\mathbf{Z}_k^{\text{patch}}=\text{MLP}_{\text{patch}}(\text{Permute}(\mathbf{Z}_k^{\text{in}}))\)),再由 Embedding Mixer 沿通道维用共享 MLP 抽全局语义并残差连接(\(\mathbf{H}_{f,k}=\text{MLP}_{\text{emb}}(\text{Permute}(\mathbf{Z}_k^{\text{patch}}))+\mathbf{Z}_k^{\text{patch}}\)),整体保持 \(O(L)\) 复杂度。

3. Visual Mamba 视觉分支:周期重塑 + 双向 SSM,以线性复杂度替代 ViT 抓全局纹理

这是绕开 VisionTS 中 ViT \(O(L^2)\) 瓶颈的核心。首先用自相关函数确定主周期 \(P\),把归一化序列按 \(P\) 折叠成"时序图像" \(\mathbf{I}\in\mathbb{R}^{S\times P\times C}\)\(S=L/P\))——周期内高频变化映射成行纹理,周期间演化映射成列结构;再切成非重叠 Patch \(\mathbf{x}_p\in\mathbb{R}^{N\times(P^2\cdot C)}\) 投影到隐空间。然后用 Visual Mamba(Vim)的双向选择性状态空间模型替代自注意力:连续 SSM 为 \(h'(t)=\mathbf{A}h(t)+\mathbf{B}x(t),\ y(t)=\mathbf{C}h(t)\),经零阶保持(ZOH)离散化为 \(\overline{\mathbf{A}}=\exp(\mathbf{\Delta}\mathbf{A})\) 等;Mamba 的选择性机制让 \(\mathbf{B},\mathbf{C},\mathbf{\Delta}\) 都由输入动态生成,从而按上下文自适应"记住/遗忘"历史。由于视觉感知没有严格因果性(像素依赖是双向的),单向扫描会信息不对称,因此 Vim 编码器做双向扫描——前向 \(\mathbf{Y}_{\text{fwd}}=\text{SSM}_{\text{scan}}(\mathbf{H}_{l-1},\dots)\)、后向对翻转序列 \(\mathbf{Y}_{\text{bwd}}=\text{SSM}_{\text{scan}}(\text{Flip}(\mathbf{H}_{l-1}),\dots)\),门控融合后映回时域得 \(\mathbf{H}_{\text{vis}}\)。整条分支把长序列建模复杂度严格限制在 \(O(N)\),既要视觉模型的全局感受野又要长序列的效率。

4. 尺度感知门控融合:按时间步动态配比三模态,而非简单平均

三模态各有所长(时域无损数值锚、频域解析周期与噪声、视觉抓全局结构纹理),但它们的重要性在不同数据上会动态漂移,简单平均不够。作者设计轻量门控网络生成时间步级的置信权重 \([\mathbf{G}_{\text{time}},\mathbf{G}_{\text{freq}},\mathbf{G}_{\text{vis}}]=\text{Softmax}(\text{MLP}([\mathbf{H}_{\text{time}};\mathbf{H}_{\text{freq}};\mathbf{H}_{\text{vis}}]))\),最终表征为加权和 \(\mathbf{H}_{\text{fuse}}=\mathbf{G}_{\text{time}}\odot\mathbf{H}_{\text{time}}+\mathbf{G}_{\text{freq}}\odot\mathbf{H}_{\text{freq}}+\mathbf{G}_{\text{vis}}\odot\mathbf{H}_{\text{vis}}\)。可视化(图 2)显示 ETTh1 上视觉权重明显偏高(强长期全局依赖),而 Weather 上频域权重抬升(强局部周期性),证明门控确实在按数据特性自适应配比。

损失函数 / 训练策略

RevIN 归一化输入、Zero-Mean 标准化数据;视觉分支用 ImageNet-1k 预训练的 Vim-Tiny 骨干;小波分解固定 \(m=3\) 级,Patch size 从 \(\{8,12,16\}\) 按数据集经验调;Adam 优化器、batch size 128、Early Stopping(patience=5);预测长度 \(T\in\{96,192,336,720\}\);评测指标为 MSE/MAE。

实验关键数据

7 个真实基准(ETTh1/h2/m1/m2、Weather、ECL、Traffic),对比 8 个 SOTA:VisionTS、VisionTS++(视觉派)、WPMixer、FDNet(小波派)、iTransformer、PatchTST(Transformer 派)、TimeMixer、DLinear(线性派)。

主实验(lookback=96,MSE/MAE,越低越好,AVG 为 4 个预测长度平均)

数据集 指标 TriTS VisionTS++ VisionTS WPMixer iTransformer DLinear
ETTh1 AVG MSE 0.411 0.423 0.432 0.433 0.457 0.461
ETTh2 AVG MSE 0.366 0.379 0.397 0.378 0.383 0.563
ETTm1 AVG MSE 0.379 0.392 0.401 0.380 0.407 0.404
ETTm2 AVG MSE 0.270 0.294 0.297 0.279 0.291 0.354
Weather AVG MSE 0.221 0.224 0.229 0.245 0.261 0.265
ECL AVG MSE 0.158 0.164 0.161 0.181 0.180 0.225
Traffic AVG MSE 0.399 0.413 0.413 0.486 0.423 0.625

TriTS 在多数数据集和预测长度上取得最优。相比纯视觉的 VisionTS/VisionTS++,时域流式分支+频域小波分支补足了视觉模型的数值保真度短板,在波动剧烈的 ETT 系列上尤其明显;相比纯小波的 WPMixer/FDNet,Visual Mamba 分支补上了它们缺失的全局视觉感知,在 \(L=720\) 超长预测上优势突出(如 ETTh1-720:TriTS 0.449 vs WPMixer 0.464)。

消融实验(lookback=96 AVG MSE)

配置 ETTh1 ETTm1 Weather ECL 说明
TriTS (Full) 0.411 0.379 0.221 0.158 完整模型
w/o Time Branch 1.213 0.558 0.281 0.829 训练严重不稳/发散
w/o Freq Branch 0.447 0.402 0.301 0.196 频域贡献,Weather 掉最多
w/o Vision Branch 0.474 0.423 0.251 0.164 ETT 上掉点明显
w/o Gating Fusion 0.442 0.388 0.224 0.166 改简单平均后退化

关键发现

  • 时域分支是地基:去掉它 ETTh1 的 MSE 从 0.411 飙到 1.213、ECL 从 0.158 到 0.829,模型出现严重不稳/梯度过拟合——它提供的数值稳定性是整个框架的前提,而非锦上添花。
  • 模态贡献随数据而异:ETTh1 上视觉分支更关键(强长期依赖,去掉它涨到 0.474),Weather 上频域分支更关键(强局部周期,去掉它涨到 0.301),印证了门控按数据自适应配比的必要性。
  • 门控融合优于简单平均:去掉门控(等价简单平均)在所有数据集均退化,说明时间步级动态加权确实有用。
  • 效率优势:用 Vim-Tiny 替代 VisionTS 的 MAE-Base、用线性复杂度 Vim 替代二次复杂度 ViT,TriTS 在处理长序列(look-back=pred=720)时训练时间和显存显著低于 VisionTS,同时精度更高。

亮点与洞察

  • "三正交空间解耦"的视角很干净:把纠缠信号显式拆成数值锚(时域)/ 时频解耦(频域)/ 全局纹理(视觉)三个互补正交视角,各管一摊再门控聚合,比硬塞进单一大模型更可解释,门控权重还能反推数据特性。
  • 小波独立分支天然解谐波:把基频和高阶谐波分到不同小波子带、再用独立参数分支处理,是用结构先验直接消除 FFT 频率泄漏的巧招——比在频谱上加可学习滤波器更物理。
  • Vim 把"视觉折叠 + 线性复杂度"两件好事合到一起:周期重塑保留了 TimesNet/VisionTS 那套"行=周期内、列=周期间"的 2D 结构感知,又用双向 SSM 把代价从 \(O(N^2)\) 砍到 \(O(N)\),是视觉派时序预测降本的实用路线。
  • 可迁移思路:时间步级门控融合可直接搬到任何多分支/多模态时序模型;"用小波子带隔离做去谐波"可迁移到任何带强周期性的频域建模任务。

局限性 / 可改进方向

  • 主周期依赖自相关确定、固定单周期:作者也承认未来要探索自适应周期检测——当序列含多个共存周期或周期漂移时,单一固定 \(P\) 的折叠会失真。
  • 三分支并行带来结构复杂度:虽然单分支都高效,但三条分支 + 门控的工程实现与调参(每数据集还要单独调 patch size)成本不低,论文未给完整参数量/FLOPs 数值表,效率结论主要靠图 3 定性展示。
  • 仅在规整多元基准上验证:未覆盖不规则采样、缺失值、协变量等更复杂场景(作者列为未来工作)。
  • Workshop 短文:实验规模与分析深度相对正会论文偏轻,部分对比(如 Table 3 调参后结果)TriTS 并非在所有数据集都最优(如 ECL/ETTm2 上 VisionTS++/TimeMixer 略胜)。

相关工作与启发

  • vs VisionTS / VisionTS++:都把时序折成 2D 图像借视觉骨干,但它们用 ViT/MAE(\(O(N^2)\)、大模型),TriTS 用 Vim-Tiny(\(O(N)\)、小模型)且额外挂时域、频域分支补数值保真度,因此在波动大的 ETT 上更准、长序列更省。
  • vs WPMixer / FDNet:同样用多分辨率小波解耦趋势/噪声,但它们纯频域、缺全局视觉感知,TriTS 的 Vim 分支补上这一块,长序列预测更强。
  • vs PatchTST / iTransformer:Transformer 派靠 patch / 倒置通道注意力建模长程依赖但受二次复杂度所限;TriTS 用 SSM + 小波 + 线性的组合在效率和精度上整体占优。
  • vs DLinear / TimeMixer:纯线性模型高效但抓不住复杂非线性与全局语义;TriTS 保留流式线性分支当锚的同时,用另外两条分支补足复杂特征。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次把 Visual Mamba 引入时序预测、三正交模态解耦 + 门控融合的组合较新,但各组件(Vim、小波混合、EMA 趋势)多来自已有工作的拼装。
  • 实验充分度: ⭐⭐⭐ 7 数据集 + 8 baseline + 消融 + 权重可视化较完整,但效率分析只有定性图、无参数量/FLOPs 表,且为 Workshop 短文规模。
  • 写作质量: ⭐⭐⭐⭐ 动机清晰、公式规范、三分支叙述条理分明。
  • 价值: ⭐⭐⭐⭐ "视觉折叠用线性复杂度 Vim + 小波去谐波 + 门控融合"是一套实用且可复用的长期时序预测降本提精方案。