SRT: Super-Resolution for Time Series via Disentangled Rectified Flow¶

会议: ICLR2026
OpenReview: I94Eg6cu7P
代码: 待确认
领域: 时间序列
关键词: 时间序列超分、Rectified Flow、序列解耦、隐式神经表示、零样本

一句话总结¶

SRT 把图像超分的思路搬到时间序列上：先把低分辨率序列拆成趋势与周期两路、用隐式时间函数把它们对齐到目标分辨率，再用两个 rectified flow 模型配合跨分辨率注意力补出高频细节，在 9 个数据集上对采样型和聚合型两类超分任务都拿到 SOTA，且推理只需 4 步采样。

研究背景与动机¶

领域现状：细粒度、高时间分辨率的时间序列对下游分析至关重要——医疗里高分辨率心电能捕捉低频记录里被抹掉的细微心律失常，工业 IoT 的千赫兹振动信号能提前发现机械故障，气候建模也依赖时间上稠密的数据。但采集高分辨率数据常受设备电量、通信带宽、存储与算力等约束，导致现实中大量数据是被粗采样或被聚合过的。

现有痛点：一个自然的想法是把图像超分（image super-resolution）的成熟工具——GAN、扩散、flow matching——直接搬过来，从低分辨率序列重建高分辨率序列（作者称之为 TSSR，time series super-resolution）。但直接迁移效果往往不理想，因为图像和时间序列的先验本质不同、需要放缩的数据维度与轴也不一样，图像超分依赖的视觉先验在时序上并不成立。

核心矛盾：另一条看似相近的路是时序补全（imputation），它同样要"基于观测上下文推断缺失点"。但两者的缺失本质不同：补全处理的是一条本就高分辨率序列里随机缺的点，可以靠局部平滑、全局一致这类假设；而 TSSR 要从一条被系统性降采样的输入里凭空合成本不存在的高频成分（尖峰、瞬态抖动），平滑假设直接失效。更棘手的是，作者进一步区分出两类 TSSR：采样型 SSR（低分辨率值就是高分辨率某点的抽样，$l_i^{(k)}=h_i^{(p_k)}$）和聚合型 ASR（低分辨率值是一个窗口内的平均，$l_i^{(k)}=\frac{1}{\alpha}\sum_{j=p_k}^{p_{k+1}} h_i^{(j)}$）。ASR 因为原始高频分布被完全平均掉、只剩统计摘要，本质上更病态、更欠定。

本文目标：在一个统一框架里同时解决 SSR 和这个更难的 ASR，既要点对点准、又要整体形状像、还要把高频细节补真。

切入角度：作者的关键观察是——时间序列天然可以按趋势/周期解耦，两种成分的时序动态截然不同（趋势反映整体走向，周期反映短期规律波动），把它们分开建模既好拟合又能提升可解释性；同时低分辨率输入里其实埋着大量可用线索，应该显式拿来引导高频细节的生成，而不是让模型盲生成。

核心 idea：用序列解耦把 rectified flow 超分过程拆成趋势、周期两条并行流，再用从低分辨率序列里抽出的对齐条件去约束生成空间，让高分辨率细节"有据可补"。

方法详解¶

整体框架¶

SRT 不直接生成高分辨率序列 $h$，而是生成"细节残差" $d$——即把低分辨率输入做线性插值得到 $l^*$ 后，高分辨率真值相对 $l^*$ 丢失的那部分细节。整条管线是：把输入低分辨率序列用 Autoformer 式分解拆成趋势 $\tau$ 与周期 $s$ 两个分量（$d=s+\tau$，$\tau=\text{AvgPool}(\text{Padding}(d))$）；两路分量各自先经隐式时间函数（ITF）从长度 $L$ 对齐到目标长度，产出高分辨率条件 $c_s,c_\tau$；再用两个结构相同但独立的 rectified flow 速度预测器 $V_s,V_\tau$，以这些条件和原始低分辨率序列为引导，分别生成趋势/周期残差；最后把两路残差求和、加回线性插值的 $l^*$ 得到最终高分辨率结果 $\hat h=l^*+\hat s+\hat\tau$。SRT-large 则是把这套架构放大并大规模预训练，换取零样本超分能力。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["低分辨率序列 l"] --> B["趋势/周期解耦生成<br/>d 拆成 τ 与 s 两路"]
    B --> C["隐式时间函数 ITF<br/>把两路对齐到目标分辨率<br/>产出条件 c_s / c_τ"]
    C --> D["速度预测器 + 跨分辨率注意力<br/>双路 rectified flow 4 步采样<br/>生成趋势/周期残差"]
    D --> E["残差求和 + 加回插值<br/>ĥ = l* + ŝ + τ̂"]
    E --> F["SRT-large 零样本扩展<br/>放大 + 多域预训练"]

关键设计¶

1. 趋势/周期解耦的双路 rectified flow：把一个病态生成问题拆成两个好建模的子问题

直接对整条残差 $d$ 做生成，混在一起的整体走向和短期波动会互相干扰、难以拟合。SRT 先用 Autoformer 的滑动平均分解把残差拆成趋势 $\tau$ 和周期 $s$，再用两条 rectified flow 各管一路。rectified flow 学的是从先验分布 $\pi_0$ 到目标 $\pi_1$ 的近乎直线的 ODE 传输路径：给定 $s_t=ts_1+(1-t)s_0$ 的线性插值路径，速度预测器 $V_s,V_\tau$ 被优化去拟合端点差，目标是 $$\min \int_0^1 \mathbb{E}\big[(s_1-s_0-V_s(s_t,t,c_s,l))^2+(\tau_1-\tau_0-V_\tau(\tau_t,t,c_\tau,l))^2\big]\,dt.$$ 因为学到的传输路径近乎笔直，生成时只需 4 步 Euler 采样（$\hat s_{k_{i+1}}=\hat s_{k_i}+(k_{i+1}-k_i)V_s(\cdot)$，初值取标准高斯）就能高保真到达目标，而换成 DDPM 即便 200 步效果仍更差。这种解耦不只让拟合更容易，还提升可解释性——降雨从日聚合还原到小时时，趋势路反映高分辨率降水的整体移动趋势，周期路揭示短期规律涨落，两者贡献被显式隔离。

2. 隐式时间函数 ITF：用隐式神经表示把低分辨率条件"插值"到目标时间轴

两路分量要给 rectified flow 当条件，必须先从长度 $L$ 对齐到高分辨率时间轴 $H'$，但简单线性插值补不出有用的高频结构。ITF 借鉴隐式神经表示思路，把分量当成时间的连续函数、用一个可学习插值器跨越粒度鸿沟，分三步走。时间富集（temporal enrichment）：以半径 $r$ 取一组膨胀窗口偏移 $\delta\in\{\pm 2^i\}\cup\{0\}$，把窗口内各通道拼接进每个时间步，用膨胀窗口换取大感受野以捕捉长程依赖。值预测（value prediction）：给定原轴候选步 $j_c^{(o)}$ 及其富集值，用一个小网络 $g(\cdot;\phi)$ 预测目标轴第 $k^{(t)}$ 步的值，输入里带上两轴坐标差 $k^{(t)}-T(j_c^{(o)})$。模式平滑（pattern smoothness）：对趋势按局部性聚合——以与目标步的距离倒数 $w_{\Delta j}=1/|k^{(t)}-T((j_n+\Delta j)^{(o)})|$ 为权对邻近候选加权平均；对周期则额外把"隔一个主周期 $f$（FFT 取得）"的两个距离 $d_{-1},d_1$ 也纳入，权重取 $1/\min\{d_{-1},d_0,d_1\}$，让平滑既照顾局部又照顾周期性复现。此外 ITF 不一次跳到 $H$，而是按"每次放缩不超过 3 倍"的 schema 级联调用（如周→日的 $[3L,H]$ 用两级 ITF），避免一步放太大失真。

3. 速度预测器与跨分辨率注意力 CRA：让生成同时看齐 ITF 条件和原始低分辨率值

速度预测器是 decoder-only Transformer，在原始设计上加了 RoPE、Pre-LN，核心是为速度预测专门设计的跨分辨率注意力（CRA）。CRA 由两层级联交叉注意力组成：第一层对 ITF 对齐后的高分辨率条件做交叉注意力（周期用 $c_s$、趋势用 $c_\tau$，$\hat x=\text{CrossAttn}(\text{LN}(x),c_s,c_s)$），先让生成吃进解耦后的高分辨率协变量信息。第二层再用原始低分辨率序列做调制，且按任务分流：SSR 时用目标掩码 $m$ 门控，只在已有低分辨率时间步上算注意力（$y=m\cdot\text{CrossAttn}(\text{LN}(\hat x),l,l)$），因为分解会让 $\{d_t|t\in p\}$ 偏离 0、需要在已知点上把生成结果拽回去对齐；ASR 时则把 $l$ 广播到所有高分辨率步得到 $l'$ 再算交叉注意力，让模型学会每段的聚合约束。两层级联让模型先条件于高分辨率协变量、再用更高层上下文线索做调制，这也是消融里贡献最稳的部件之一。

4. SRT-large：放大 + 多域预训练换零样本超分

标准 SRT 需要目标域的高分辨率训练样本，但很多 TSSR 场景里高分辨率数据根本拿不到。SRT-large 把注意力头数、FFN 隐藏维和 decoder block 数都放大到约 3000 万参数，在零售、网络搜索趋势、电力、交通等多域大规模数据上预训练。为适配不同数据集的维度差异，它做成通道独立的单变量预训练模型（思路同 Lag-Llama / TimesFM / Sundial）。结构上去掉了 dropout，并把 ITF 里的 MLP 拿掉、只保留时间富集与模式平滑——因为放大后的 decoder 泛化能力足够强，原本属于 ITF 的值预测步被搬进 decoder 内部，直接处理更粗的条件序列。即便在零样本设定下，SRT-large 也能在多样数据集上取得 SOTA，且在不同放缩倍数下比基线更稳定。

损失函数 / 训练策略¶

训练目标即上面 rectified flow 的速度匹配损失：两路速度预测器同时优化，各自拟合"目标态减初态"的端点差。推理用 4 步 Euler 采样从高斯初值滚到目标态，两路残差相加后加回线性插值输入。SRT-large 额外做多域大规模预训练并移除 dropout。

实验关键数据¶

主实验¶

在 9 个公开数据集（ETTh1/h2/m1/m2、weather、PEMS-SF、MotorImagery、SCP1、SCP2）上、对 SSR 与 ASR 两类任务评测，指标用 MSE（点误差）和 DTW 距离（整体误差），对比 8 个来自图像超分、补全、时序生成的基线。

任务	数据集	指标(MSE/DTW)	SRT	次优基线
SSR	ETTm1	MSE/DTW	0.026 / 0.057	IDM 0.036 / CSDI 0.063
SSR	PEMS-SF	MSE/DTW	0.097 / 0.070	IDM 0.108 / IDM·CSDI 0.072
ASR	weather	MSE/DTW	0.035 / 0.068	ResShift 0.047 / ResShift 0.075
ASR	PEMS-SF	MSE/DTW	0.125 / 0.073	IDM 0.126 / CSDI 0.074

SRT 在绝大多数设置上同时拿下 MSE 与 DTW 第一，仅在 weather 的 SSR 任务上以 DTW 距离丢掉次优位置。综合三数据集×两任务×两指标的平均排名，SRT 为 1.25，远超第二名 CSDI（3.25），且生成只需 0.04 s（与 FlowTS 并列最快），而同样快的 FlowTS 平均排名仅 6.58——SRT 兼顾精度与效率。

消融实验¶

在 SSR 任务上报告各变体相对完整 SRT 的性能差距（数值越正表示掉得越多）。

配置	weather (MSE/DTW)	说明
Full SRT	基准	完整模型
w/o ITF	+0.021 / +0.018	去掉整个 ITF，对齐条件没了
w/o pattern smoothness	+0.013 / +0.009	去掉 ITF 内平滑
w/o CRA（两层都去）	+0.029 / +0.052	跨分辨率注意力失效，DTW 掉最多
w/o RoPE	+0.005 / +0.007	去掉旋转位置编码
w/o disentanglement（d 与 l 都不解耦）	+0.048 / +0.047	掉点最严重

关键发现¶

解耦贡献最大：同时去掉对残差 $d$ 和对输入 $l$ 的解耦，weather 上 MSE/DTW 掉 +0.048/+0.047，是所有变体里最严重的，印证"趋势/周期分开建模"是 SRT 的根基。
CRA 第二层在难数据上尤为关键：weather 上去掉 CRA 第二层 DTW 掉 +0.026、两层都去掉 +0.052，说明用低分辨率值做调制对整体形状重建很重要。
速度预测器设计有效：把自研速度预测器换成 MLP/TCN/UNet/LSTM/vanilla Transformer（参数量相当），性能普遍明显下降，vanilla Transformer 在 ETTm1 上 MSE 掉 +0.085，说明 RoPE+Pre-LN+CRA 的组合不是简单堆模块。
rectified flow 省步数：4 步采样即可，换 DDPM 200 步仍更差，直线传输路径是高速高保真的来源。

亮点与洞察¶

把"图像超分"问题重新定义到时序上：作者没有生搬硬套，而是先厘清 TSSR 与 imputation 的本质差异、再细分出 SSR/ASR 两类病态程度不同的子问题，并给出统一框架——问题定义本身就是贡献。
解耦既提精度又提可解释性：趋势/周期双路不只是工程拆分，降雨日→小时的例子里两路各自有清晰物理含义，这种"可解释的分而治之"思路可迁移到任何有趋势+周期结构的生成任务。
ITF 把"对齐"做成可学习连续函数：用隐式神经表示 + 膨胀窗口 + 周期感知平滑替代死板插值，且按"每步≤3 倍"级联放缩，是处理任意倍率超分的一个稳妥范式。
CRA 的任务自适应门控：同一注意力结构靠掩码门控（SSR）与广播（ASR）切换两种约束，优雅地用一套网络覆盖两类病态程度不同的任务。
放大即可零样本：SRT-large 证明把通道独立 + 多域预训练这套基础模型范式用到超分上同样奏效，且放大后能把 ITF 的值预测内化进 decoder。

局限与展望¶

ITF 的级联 schema、膨胀窗口半径 $r$、主周期 $f$ 的 FFT 估计都引入超参，论文未充分讨论其在非平稳/多周期序列上的鲁棒性。
ASR 本质病态，论文虽给出聚合约束注意力，但极端高倍聚合下能否真实还原高频分布（而非生成貌似合理的均值回填）仍需更细的保真度分析。
评测以 MSE/DTW 为主，对"高频细节真不真"主要靠可视化定性，缺少频域/谱保真的定量指标。
SRT-large 30M 参数与多域预训练成本不低，零样本能力对预训练数据域覆盖的依赖程度值得进一步考察。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统化定义 TSSR（含 SSR/ASR 区分），解耦 rectified flow + ITF + CRA 组合是面向时序的原创设计
实验充分度: ⭐⭐⭐⭐ 9 数据集×2 任务×2 指标 + 多维消融 + 速度预测器选型，扎实；但频域保真量化偏弱
写作质量: ⭐⭐⭐⭐ 问题定义清晰、方法分层讲透；ITF 部分公式较密、初读门槛偏高
价值: ⭐⭐⭐⭐⭐ 给一个被忽视的实际问题（时序超分）立了基准与统一框架，SRT-large 还提供零样本落地路径