Routing Channel-Patch Dependencies in Time Series Forecasting with Graph Spectral Decomposition¶
会议: ICLR 2026
arXiv: 2603.13702
代码: GitHub
领域: 时间序列预测
关键词: 通道依赖, 图谱分解, 频率感知, MoE路由, 即插即用
一句话总结¶
提出 xCPD 即插即用插件,将多变量时间序列的建模单元从"通道"细化到"通道-patch",通过共享图傅里叶基做谱嵌入→按频率能量响应分组为低/中/高频段→动态 MoE 路由自适应选择频率特定滤波专家,可无缝集成到 CI/CD 任何现有模型上一致提升长短期预测性能,并支持零样本迁移。
研究背景与动机¶
领域现状:多变量时序预测(MTSF)是 AI 核心任务,广泛应用于交通、金融、能源、气象等领域。近年来围绕模型架构(Linear/CNN/Transformer/MLP/GNN)和通道策略(CI/CD/CP)两条主线推进,通道策略已成为性能瓶颈。
三大通道范式的局限:(1) CI(Channel-Independent)如 DLinear/PatchTST,每通道独立建模,鲁棒但完全忽略通道间关系;(2) CD(Channel-Dependent)如 TSMixer/TimesNet,聚合所有通道,可能引入无关信息导致过平滑;(3) CP(Channel-Partiality)如 DUET/CCM/TimeFilter,试图平衡二者但仍有根本性不足。
CP 方法的粗粒度瓶颈:现有 CP 方法在通道级操作(整个通道作为关系单元),无法建模 patch 级别的局部交互。例如通道 A 在段 T₁ 呈光滑季节性趋势、在段 T₂ 出现尖锐异常,但通道级模型只生成一个平均权重,无法区分两段应有的不同交互模式。
频率耦合问题:CD/CP 模型在时域计算注意力权重,低频趋势、中频波动、高频噪声混在同一嵌入中。两通道间的高注意力分数可能同时反映有意义的低频季节依赖和无关的高频噪声关联,模型无法区分→产生虚假相关。
核心切入角度:将建模单位从"通道"细化到"通道-patch"(patch 作为图节点),在图谱域(而非时域)做依赖建模→按频率能量分组→MoE 按频段路由不同滤波专家→实现频率解耦的细粒度通道-patch 依赖建模。
实际价值:xCPD 设计为后处理插件(post-processing plugin),不需要重训练基础模型,线性计算复杂度,可直接嵌入现有预测 pipeline,适合大规模实时场景。
方法详解¶
整体框架¶
xCPD 包含三个核心模块:(A) Spectral Channel-Patch Embedding(谱通道-patch嵌入)→ (B) Channel-Patch Grouping(通道-patch 分组)→ (C) Channel-Patch Routing with MoE(通道-patch 路由)。输入为基础模型的预测输出 \(\hat{X}^{\text{model}} \in \mathbb{R}^{C \times T'}\),经过 xCPD 后输出精修预测 \(\hat{X}^{\text{predict}}\)。整体流程为:patching → 线性嵌入 → 构建通道-patch 图 → 共享图傅里叶变换 → 按谱能量分组 → MoE 路由选择频率专家 → 自适应图学习 → 门控残差修正输出。
关键设计1:谱通道-patch嵌入(Spectral Channel-Patch Embedding)¶
- 功能:将基础模型输出分 patch、线性嵌入后构建通道-patch 图,通过共享图傅里叶基将节点嵌入投影到谱域。
- 核心思路:将预测输出 \(\hat{X}^{\text{model}}\) 分成 \(N = \lceil T'/P \rceil\) 个不重叠 patch,线性映射到 \(d\) 维嵌入 \(X^{\text{emb}} \in \mathbb{R}^{n \times d}\)(其中 \(n = C \times N\))。用余弦相似度构建邻接矩阵 \(A_{ij}^t = \cos(X_i^{\text{emb},t}, X_j^{\text{emb},t})\),计算归一化图拉普拉斯 \(L = I - D^{-1/2}AD^{-1/2}\),特征分解得共享傅里叶基 \(U\),谱嵌入为 \(X^{\text{spc}} = U^\top X^{\text{emb}}\)。
- 设计动机:(1) 用余弦相似度构建图→对变量尺度不变,适合多变量场景;(2) 直接对每批做特征分解会导致不同批次傅里叶基不一致→无法比较,因此引入共享图傅里叶基(Theorem 4.1)从平均拉普拉斯学习,保证所有时间步映射到一致谱域。理论保证 \(\|U^t - UR^t\|_F \leq C\|L^t - L_{\text{avg}}\|_F\),即共享基与各批次基线性近似。
关键设计2:谱通道-patch分组(Spectral Channel-Patch Grouping)¶
- 功能:根据每个节点在低/中/高频段的谱能量响应强度,将通道-patch 节点分为三个频率组,并构建 ego-graph 子图实现频率感知的消息传递。
- 核心思路:可学习边界 \(\tau_1, \tau_2\) 定义三段频率,用 sigmoid 软分区计算每个频率 \(j\) 属于低/中/高频的权重 \(\alpha_j^{\text{low/mid/high}}\)。定义谱能量响应 \(S_{i,j} = \|U_{i,j} \cdot X_{j,:}^{\text{spc}}\|_2^2\)(Theorem 4.2 保证能量守恒 \(\sum_j S_{i,j} = \|X_{i,:}^{\text{emb}}\|_2^2\)),再通过 softmax 将节点分到最大能量的频段组。最后对每个节点构建 ego-graph,用 \(k\)-NN 选邻居,组内按频率标签构建子图。
- 设计动机:(1) 频率边界可学习→自适应不同数据的频率结构;(2) 谱能量响应直接量化节点对各频率的响应强度→精准分组;(3) ego-graph 减少噪声→仅保留中心节点相关的依赖;(4) 频率子图使同频段节点间消息传递→避免趋势节点和噪声节点混合交互。
关键设计3:动态MoE路由(Spectral Channel-Patch Routing with DyMoE)¶
- 功能:为每个 ego-graph 动态选择可变数量的频率特定滤波专家(低频/中频/高频 filter),生成稀疏邻接矩阵后做图学习。
- 核心思路:三个频率 filter 分别从低/中/高频谱分量构建邻接矩阵。路由网络计算 \(\psi(x_i) = \text{Linear}_c(x_i) + \epsilon \cdot \text{Softplus}(\text{Linear}_n(x_i))\)(包含确定性和随机噪声分量),按累积概率阈值 \(\tau\) 选择最少数量的专家使累积概率 \(\geq \tau\)(式7),不同于固定 top-K。选定专家后按式(8) 合并各 filter 输出的边集构建稀疏邻接矩阵,再通过 \(L\) 层图学习(式9-10)聚合邻域信息。最终通过门控双路残差修正输出:\(\hat{X}^{\text{predict}} = \hat{X}^{\text{model}} + \sigma(g_{\text{GNN}}) \odot \delta_{\text{GNN}} + \sigma(g_{\text{Lin}}) \odot \delta_{\text{Lin}}\)。
- 设计动机:(1) 三个频率专家分别捕获平滑趋势(低频)、局部波动(中频)、突变/异常(高频)→频率解耦建模;(2) DyMoE 动态分配专家数→不同输入获得不同组合,比固定 top-K 灵活;(3) 门控残差设计→门值趋近零时退化为原始 backbone 预测,安全无损;(4) 训练目标添加熵损失 \(\mathcal{L}_{\text{Entropy}}\) 和平衡损失 \(\mathcal{L}_{\text{Balance}}\) 防止专家坍缩。
关键设计4:门控双路残差修正与优化¶
- 功能:结合 GNN 路径(跨通道谱依赖)和 Linear 路径(CI 精修),通过可学习门控决定各路径贡献。
- 核心思路:\(\delta_{\text{GNN}} = W_{\text{proj}} H^{(L)}\) 捕获跨变量谱依赖,\(\delta_{\text{Lin}} = f_{\text{lin}}(\hat{X}^{\text{model}})\) 保留通道独立精修。门控参数 \(g_{\text{GNN}}, g_{\text{Lin}} \in \mathbb{R}^C\) 逐通道控制。总损失 \(\mathcal{L} = \mathcal{L}_{\text{MSE}} + \mu\mathcal{L}_{\text{Entropy}} + \beta\mathcal{L}_{\text{Balance}}\)。
- 设计动机:双路设计同时利用 CD(GNN 路径)和 CI(Linear 路径)的优势→自适应平衡;逐通道门控允许不同变量选择不同依赖程度。
实验关键数据¶
表1:长期预测主实验(9 数据集,4 backbone,MSE↓)¶
| 设置 | TSMixer → +xCPD | DLinear → +xCPD | PatchTST → +xCPD | TimesNet → +xCPD |
|---|---|---|---|---|
| ETTh1 avg | 0.412 → 0.401 | 0.456 → 0.445 | 0.469 → 0.455 | 0.458 → 0.447 |
| Weather avg | 0.234 → 0.221 | 0.265 → 0.253 | 0.259 → 0.248 | 0.259 → 0.249 |
| Electricity avg | 0.167 → 0.158 | 0.212 → 0.197 | 0.205 → 0.194 | 0.192 → 0.175 |
| Traffic avg | 0.408 → 0.394 | 0.625 → 0.606 | 0.482 → 0.467 | 0.620 → 0.558 |
xCPD 在 144 个实验设定中几乎全面提升,高维数据集(Electricity 321变量、Traffic 862变量)提升最显著。
表2:与 LIFT、CCM 基线对比(TSMixer/DLinear backbone)¶
| 数据集 | TSMixer+LIFT | TSMixer+CCM | TSMixer+xCPD | DLinear+LIFT | DLinear+CCM | DLinear+xCPD |
|---|---|---|---|---|---|---|
| ETTh2 | 0.351 | 0.351 | 0.345 | 0.553 | 0.552 | 0.507 |
| Weather | 0.231 | 0.225 | 0.221 | 0.262 | 0.262 | 0.253 |
| Traffic | 0.405 | 0.396 | 0.394 | 0.620 | 0.614 | 0.606 |
在所有 9 个数据集上 xCPD 均优于 LIFT 和 CCM。
表3:通用设定下与5种CP基线对比¶
| 数据集+架构 | +PRReg | +LIFT | +PCD | +CCM | +xCPD |
|---|---|---|---|---|---|
| ETTm1 Transformer | 0.349 | 0.356 | 0.404 | 0.300 | 0.289 |
| Exchange Linear | 0.048 | 0.050 | — | 0.045 | 0.042 |
| Weather Transformer | 0.180 | 0.178 | 0.198 | 0.164 | 0.161 |
xCPD 在所有 10 个设定中取得最优。
关键发现¶
- 高维数据获益最多:通道数越多(Electricity 321 变量、Traffic 862 变量),xCPD 提升越显著——谱域频率解耦在高维场景中更有效地抑制无关通道噪声。
- CI 模型从 xCPD 获益更大:零样本实验中 CI 模型(DLinear 12.0%、PatchTST 15.2%)的提升显著高于 CD 模型(TSMixer 6.7%、TimesNet 11.1%),说明 xCPD 为 CI 模型注入了所缺乏的跨通道交互能力。
- 长预测窗口优势更大:在零样本设定中,性能增益随预测窗口增长而增大,表明频率知识迁移对长程依赖更为有效。
- 线性计算复杂度:时间复杂度 \(\mathcal{O}(nkd + Lnkd)\)、空间复杂度 \(\mathcal{O}(nd + nk)\),仅带来 9%–11% 的训练时间开销,远低于 CCM 的二次复杂度。
- 消融实验:移除共享傅里叶基、频率分区、节点分组、滤波器中任一组件均导致性能下降;将 DyMoE 替换为 Top-K/Random-K/RegionTop-K/TimeFilter 也均不如完整 xCPD,验证了各组件的必要性。
亮点与洞察¶
- 图谱域做依赖建模:xCPD 是首个完全在图谱域(而非时域)建模通道交互的方法。在谱域中低/中/高频分量天然解耦,避免了时域注意力中频率耦合导致的虚假相关——这是区别于 LIFT/CCM/PCD/TimeFilter 等所有先前 CP 方法的核心创新。
- 通道→通道-patch 的粒度提升:同一通道的不同时间段可能与不同通道有不同的交互模式,patch 级别建模首次捕获了这种段级异质性。
- DyMoE 动态专家分配:不同于固定 Top-K,DyMoE 按累积概率阈值自适应选择 1–3 个专家,使平滑段走低频专家、突变段走高频专家→输入感知的精细化建模。
- 可视化验证理论:Figure 3 展示了谱能量与时域模式的对应——低频能量高的节点确实对应平滑趋势、高频能量高的节点对应快速波动,验证了 Theorem 4.2 的能量守恒保证。
- 即插即用+零样本迁移:作为后处理插件无需重训 backbone,且学到的频率滤波知识可跨数据集迁移(零样本 48 个设定全面提升)。
局限性¶
- 零样本迁移仅覆盖 ETT 系列:跨域迁移(如 Weather→Traffic)未被验证,频率结构差异大的域间迁移效果存疑。
- 图构建的二次成本:虽然整体线性复杂度,但余弦相似度邻接矩阵计算仍为 \(O(n^2d)\),当通道数和 patch 数同时很大时可能成为瓶颈。
- 频率分三组的先验假设:固定分为低/中/高三个频段,对于某些数据可能需要更细或更粗的分区,缺乏自适应确定分组数的机制。
- 仅验证长短期预测任务:未在其他时序任务(分类、异常检测、缺失值填补)上验证通用性。
- 共享图傅里叶基的近似误差:Theorem 4.1 中近似界依赖于 \(L_{\text{avg}}\) 的特征间隙,当数据分布剧烈变化时间隙可能很小→近似质量下降。
相关工作对比¶
| 维度 | xCPD (本文) | CCM (Chen et al., NeurIPS 2024) | TimeFilter (Hu et al., 2025) |
|---|---|---|---|
| 建模粒度 | 通道-patch 级 | 通道级(通道聚类) | patch 级但时域 |
| 建模域 | 图谱域 | 时域 | 时域 |
| 自适应性 | 频率特定 MoE 路由 | 基于相似度的聚类 | 时空注意力滤波 |
| 频率解耦 | ✓ 谱能量分组 | ✗ 频率耦合 | ✗ 频率耦合 |
| 插件性 | ✓ 后处理,不需重训 | ✓ 但二次复杂度 | 需集成到特定架构 |
| 零样本 | ✓ 频率知识可迁移 | 未验证 | 未验证 |
评分¶
- 新颖性: ⭐⭐⭐⭐ 谱域通道-patch依赖建模+DyMoE是新视角,三个维度(粒度/域/自适应)同时创新
- 实验充分度: ⭐⭐⭐⭐⭐ 9数据集×4 backbone×144设定+短期/零样本/效率/消融/可视化,极为全面
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,理论推导严谨(两个定理),图表丰富
- 价值: ⭐⭐⭐⭐ 作为通用即插即用插件对时序预测社区有直接实用价值,线性复杂度适合部署