ICLR 2026 时间序列时序预测扩散损失多模态预测 Patch-based Backbone 变分高斯混合概率预测

MMPD: Diverse Time Series Forecasting via Multi-Mode Patch Diffusion Loss¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=NEUgHT8dvH
代码: https://github.com/Thinklab-SJTU/MMPD
领域: 时间序列预测 / 扩散模型 / 损失函数设计
关键词: 时序预测, 扩散损失, 多模态预测, Patch-based Backbone, 变分高斯混合, 概率预测

一句话总结¶

把训练损失从「假设未来服从单峰高斯」的 MSE 升级成一个由扩散过程参数化的 MMPD 损失——它即插即用地挂在任意 patch-based 时序骨干网络后面，让同一段历史能预测出多个带概率的、形状各异的未来。

研究背景与动机¶

领域现状：时序预测这些年在骨干网络上百花齐放——稀疏注意力、趋势-季节分解、频域增强、patch 化、跨通道建模层出不穷，但绝大多数模型训练时仍然死守 MSE（或 MAE）这类回归损失。

现有痛点：论文从概率视角点破了 MSE 的本质局限。当假设 $p_\theta(y|x)=\mathcal{N}(y; f_\theta(x), \sigma^2 I)$、最大化对数似然时，目标恰好退化为 MSE。也就是说用 MSE 训练，等价于隐式假设未来服从一个均值可预测、方差固定的独立高斯。这带来四重限制：① 单峰高斯无法描述"同一历史导向多个可能未来"的场景；② 假设各预测步独立，但真实序列步间高度相关；③ 方差恒定，但真实不确定度往往随时间演化；④ 高斯对称，但真实分布常不对称（如降雨非负）。

核心矛盾：再精巧的骨干网络，只要损失函数把未来分布钉死成一个简单参数形式，模型表达力就被天花板锁死。先前改损失的尝试（DTW 难扩展到长程；负二项/Student-T/参数混合分布）都仍是人工预定义的分布族，建模复杂分布的能力受限。

本文目标：设计一个 backbone-agnostic、能捕捉任意复杂未来分布、并天然支持"多模态多未来"预测的可学习损失。

核心 idea：把投影头并入损失 —— 将预测网络拆成骨干 $h_\psi$ 和投影器 $g_\phi$，把轻量投影器视为"可训练损失"的一部分 $\min_{\phi,\psi}\text{Loss}_\phi(H, y)$，这一视角和对抗损失中"可学习判别器引导生成器"如出一辙。在此框架下，用扩散过程来参数化这个损失，就能逃出高斯的牢笼。

方法详解¶

整体框架¶

任意 patch-based 骨干把过去序列切 patch、输出对应未来各 patch 的隐 token $H=\{h_j\}_{j=1}^l$。MMPD 不改骨干，只把这些 token 当作条件喂给一个扩散过程：训练时用扩散去噪目标（外加一个锚点项兼顾确定性预测）来优化骨干；推理时跑反向扩散采样，并在采样过程中实时拟合一个演化的变分 GMM，最终吐出若干带概率的多模态预测。

flowchart LR
    X[过去序列 x<br/>切 patch] --> BB[Patch-based 骨干 h_ψ]
    BB --> H[未来隐 token H = h_j]
    H -->|条件| PCM[Patch Consistent MLP<br/>去噪网络 ε_φ]
    PCM --> Train[训练: 扩散损失 + 锚点确定性项]
    PCM --> Infer[推理: 反向扩散采样]
    Infer --> GMM[演化变分 GMM<br/>变分 EM]
    GMM --> Out[多模态预测<br/>y*_m 及概率 w_m]

关键设计¶

1. 把投影头改写成扩散损失：从概率视角重定义 loss。 这是全文的地基。作者先证明 MSE 等价于假设未来是固定方差独立高斯，再把网络解耦成 $f_\theta(x)=g_\phi(h_\psi(x))$，指出骨干占了绝大多数参数、是优化的核心，而轻量投影器 $g_\phi$ 完全可以"算进损失里"，形成一个复合可训练损失 $\min_{\phi,\psi}\text{Loss}_\phi(H,y)$。MSE 在此框架下只是特例 $\text{MSE}_\phi(H,y)=\frac{1}{\tau}\|y-g_\phi(H)\|_2^2$。一旦把投影器看成"引导骨干优化的辅助模块"，就能把它换成一个条件扩散过程——用未来 token 当条件、用扩散去噪目标当损失，从而隐式建模任意复杂的 $p_\theta(y|x)$，彻底摆脱手工预定义分布族。

2. Patch Consistent MLP：让轻量去噪器保持 patch 间一致。 直接的做法是把噪声序列 $y_k$ 切成 patch、用一个 MLP 在 token $h_j$ 条件下独立去噪每个 patch（如视觉 token 的做法）。但独立 MLP 只建模了每个 patch 的边缘分布 $p(p_j|x)$ 而非所有未来 patch 的联合分布，导致采样时 patch 之间出现不连续跳变。作者在 AdaLN-MLP（DiT 块的去噪 MLP）基础上扩展出 Patch Consistent MLP：去噪第 $j$ 个 patch 时，条件向量融合四部分—— $$c^k_j = \text{token}_j + \text{step}_k + \text{prev}^k_j + \text{next}^k_j$$ 其中 $\text{prev}^k_j, \text{next}^k_j$ 是对当前 patch 左右各 $r$ 个相邻噪声 patch 的线性投影。正是这个"看邻居"的设计（外加极少的新增参数 $W^{(\text{prev})}, W^{(\text{next})}$）保证了去噪后各 patch 的连续性。消融显示 $r=0$（退化为独立 MLP）的 Top-3 MSE 甚至比 MSE 还差，$r=1$ 就显著改善。

3. 锚点技巧：把确定性预测无缝塞进扩散框架。 很多场景仍需要一个确定性预测（MSE 的传统角色），但反复跑扩散采样再取均值/中位数太贵。作者观察到扩散目标 $y_k=\sqrt{\bar\alpha_k}y_0+\sqrt{1-\bar\alpha_k}\epsilon$ 中，若在某步 $k^*$ 让 $y_{k^*}=0$，则噪声恰好退化为缩放的负真值 $\epsilon=-\frac{\sqrt{\bar\alpha_{k^*}}}{\sqrt{1-\bar\alpha_{k^*}}}y_0$。于是把 $(0,\{h_j\},k^*)$ 当作"确定性预测的锚点输入"，写出联合目标： $$L=\lambda\|\epsilon-\epsilon_\phi(y_k,\{h_j\},k)\|_2^2+(1-\lambda)\Big\|\tfrac{\sqrt{\bar\alpha_{k^*}}}{\sqrt{1-\bar\alpha_{k^*}}}y_0+\epsilon_\phi(0,\{h_j\},k^*)\Big\|_2^2$$ 默认 $\lambda=0.99$，$k^*$ 取使 $\bar\alpha_{k^*}\approx0.5$。训练后确定性预测直接由 $-\frac{\sqrt{1-\bar\alpha_{k^*}}}{\sqrt{\bar\alpha_{k^*}}}\epsilon_\phi(0,\{h_j\},k^*)$ 一步得到，绕过昂贵的扩散迭代，且不引入任何新结构（复用去噪器）。这一项本质上只是扩散目标在锚点处的特例，与扩散项不冲突。

4. 演化变分 GMM：从隐式分布里抽出可解释的多模态。 扩散得到的 $p_\theta(y|x)$ 是没有解析形式的隐式分布，传统做法只能采样后算中位数和置信区间，但样本本身呈现多峰，简单统计量描述不了。作者假设真分布是多模态形式 $q(y_0|x)=\sum_{m=1}^M w_m\delta(y_0-y^*_m)$，把它代入前向扩散，则第 $k$ 步的分布是一个高斯混合 $q(y_k|x)=\sum_m w_m\mathcal{N}(y_k;\sqrt{\bar\alpha_k}y^*_m,(1-\bar\alpha_k)I)$。据此设计一个沿反向扩散同步演化的变分 GMM：每一步 $k$ 用新生成的样本 $\{y^k_n\}$ 做变分 EM（E 步更新指派后验 $p(Z_k)$，M 步更新各模估计 $\mu^k_m$ 与权重/精度后验 $p(w_k),p(\Lambda_k)$），并用前向过程的先验注入引导更新。反向扩散结束时，GMM 直接给出 $M$ 个模态预测及其概率——模态的数量和结构都是从数据自适应推断的，而非像参数混合分布那样预定义。

实验关键数据¶

数据集：ETTh1/ETTm1/ETTh2/ETTm2、WTH、ECL、Traffic，外加新构造的 Dynamic（17 路无明显周期的复杂动力系统信号）。评估用 Top-K MSE/MAE（$K=3$，取 Top-3 概率最高模态里的最小误差）衡量多模态预测，并用 MSE / CRPS 衡量确定性与概率预测。

主实验（不同损失对比，表 1）¶

主骨干为 patch-based decoder-only Transformer，只换损失。

损失类型	代表方法	能否多模态	概要表现
确定性	MSE / MAE	否	确定性强，无多模态
参数分布	Gaussian / Student-T	否	Student-T 是 CRPS 最强基线
参数混合	Mix	部分	能多模态但模数/形式预定义
本文	MMPD	是	Top-3 MSE/MAE 全面领先

仅 Mix 和 MMPD 能捕捉多模态，而 MMPD 的 Top-3 MSE/MAE 持续优于 Mix（Mix 的混合成分数量与形式是预定义的，MMPD 直接从数据学）。
确定性预测（MSE 指标）上 MMPD 与最强对手 MSE 损失相当、个别数据集更优；概率预测（CRPS）上与最强基线 Student-T 持平。

跨骨干泛化（表 2）¶

在 Crossformer（跨通道 Transformer）、SegRNN（patch-based RNN）、MaskAE（纯 Transformer 掩码自编码）三种骨干上对比 MSE / Mix / MMPD：MMPD 的多模态能力在三种骨干上都显著超过 MSE 和 Mix，确定性 MSE 与 MSE 损失相当。值得注意的是 Mix 因含 log-normal 分量易产生离群值，导致 CRPS 出现无穷大问题（在 RNN 类 SegRNN 上尤其严重），而 MMPD 的 CRPS 无论上游是 RNN 还是 Transformer 都保持稳定。

消融与关键发现¶

相邻范围 $r$（Patch Consistent MLP）：$r=0$（独立 MLP）多模态预测很差、Top-3 MSE 甚至超过 MSE；$r=1$ 即显著降低 Top-3 MSE/MAE，再增大 $r$ 仅小幅提升——验证"看邻居保一致"是关键。
平衡权重 $\lambda$：确定性项 $\lambda$ 在很宽范围内表现稳健，默认 0.99。
多模态推理 vs 后处理：演化变分 GMM 的 Top-3 MSE/MAE（0.301/0.207）优于 Random、Post-KMeans、Post-Spectral、Post-GMM 等后处理方案——边采样边演化的 GMM 比"先采样后聚类"更准。
锚点 $k^*$：预测精度对 $k^*$ 在较宽区间内鲁棒。

亮点与洞察¶

重新定义"损失"的视角很提神：把投影头并入损失、把损失看成"可学习的、引导骨干优化的辅助模块"，从而能用扩散这种强分布建模器当损失，逻辑链条干净，且把 MSE/MAE/对抗损失都统一进同一框架。
即插即用、骨干无关：不改任何骨干结构，patch-based 模型直接换损失即可获得多模态能力，对监督模型和基础模型都适用，工程落地成本低。
锚点技巧很巧：用扩散目标在 $y_{k^*}=0$ 处的特例一步拿到确定性预测，既不另加网络、又不与扩散冲突、还省掉采样开销。
多模态是"推断"出来而非"预设"出来的：模数和结构由变分 GMM 自适应推断，比 Mix 这类预定义混合分布更灵活，也更贴合"同一历史多个未来"的真实诉求（如交易场景的风险感知决策）。

局限与展望¶

推理成本：尽管确定性预测被锚点技巧加速，但要拿到多模态预测仍需跑反向扩散采样 + 逐步变分 EM，相比一次前向的 MSE 推理开销明显更高。
超参与先验：最大模数 $M$、相邻范围 $r$、先验超参 $\rho,u$、$\lambda$、$k^*$ 等需要设定，虽展示了鲁棒性，但跨域迁移时的默认值是否普适仍待观察。
聚焦单变量：损失按通道独立计算再平均，跨通道的联合多模态依赖未被显式建模。
评估范式：Top-K MSE 这类多模态指标尚不如 MSE 标准化，与下游真实收益（如交易决策）的对齐仍需更多验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「把投影头并入损失 + 用扩散参数化损失」的视角重构很漂亮，多模态自适应推断 + 锚点确定性技巧都有原创性。
实验充分度: ⭐⭐⭐⭐ 8 数据集 + 4 骨干 + 多类损失基线 + 完整消融，覆盖确定性/概率/多模态三类指标；唯多变量联合与推理开销分析可再充实。
写作质量: ⭐⭐⭐⭐⭐ 从概率视角推导 MSE 局限、层层引出扩散损失，叙事清晰、图示直观、动机与方法衔接自然。
价值: ⭐⭐⭐⭐ 即插即用、骨干无关，对需要多未来/风险感知预测的场景（交易、动力系统）有直接价值，且为"损失即可学习模块"提供了可复用范式。