MambaSL: Exploring Single-Layer Mamba for Time Series Classification¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=YDl4vqQqGP
代码: 待确认（论文承诺公开全部 checkpoint）
领域: 时间序列分类 / 状态空间模型
关键词: Mamba, 选择性 SSM, 时间序列分类, UEA, 单层架构

一句话总结¶

只用单层 Mamba、靠四个针对 TSC 的假设（H1–H4）对选择性 SSM 与投影层做最小改动，再在全部 30 个 UEA 数据集上重新公平评测 20 个强基线，结果取得统计显著的 SOTA。

研究背景与动机¶

领域现状：SSM（尤其 Mamba）在语言、视频、时间序列预测（TSF）里已证明能替代 Transformer，但在时间序列分类（TSC）里几乎没人单独研究它的本征能力，主流仍是 CNN 和 Transformer。
现有痛点：(1) 唯一一篇把 Mamba 用于 TSC 的工作 TSCMamba 把 ROCKET、CWT 等特征工程混进来，掩盖了 Mamba 自身的贡献；(2) 此前有人把 vanilla Mamba 评为最弱的 TSC backbone，但只是因为没人调过它，而非架构本身差。
核心矛盾：TSC 基准测试本身也不可靠——评测常只用 UEA 子集（漏掉长序列/高维难数据）、把 TSF 模型不重新调参就拿来当基线（低估它们）、复现性差（TS2Vec/GPT4TS 复测掉了 >9%p）。这让"Mamba 到底行不行"无从判断。
本文目标：从架构和评测协议两条线还 Mamba 一个公道——既证明单层 Mamba 能做强 TSC backbone，也建立一套覆盖全 30 个 UEA、统一搜参、公开 checkpoint 的可复现基准。
核心 idea：不堆深度、不加特征工程，而是把 Mamba 选择性 SSM 的时变性拆成可调旋钮，并配合放大感受野、去残差、自适应池化四处针对性改动，让单层 Mamba 自己把 TSC 做到 SOTA。

方法详解¶

整体框架¶

MambaSL 保留 TSC 经典三段式管线——输入投影 \(\Phi_I\)、特征提取器 \(\Phi_{FE}\)、输出投影 \(\Phi_{CLF}\)——但对每一段都按假设做最小改动：输入投影按序列长度放大卷积感受野（H1），特征提取器用模块化的选择性 SSM（H2）且去掉残差（H3），输出投影换成多头自适应池化（H4）。整套结构只有一层 Mamba block。

flowchart LR
    X[多变量序列 x_1:L] --> PE[位置编码]
    PE --> H1["输入投影 ΦI<br/>H1: k=max(3,⌊0.02L⌋)<br/>Conv1D 放大感受野"]
    H1 --> MB["单层 MambaBlock<br/>H2: 模块化 Δ/B/C 时变开关<br/>H3: 去残差(去掉 D·x 项)"]
    MB --> POOL["输出投影 ΦCLF<br/>H4: 多头自适应池化"]
    POOL --> L[logits l → softmax → ŷ]

关键设计¶

1. H1 — 按序列长度自适应放大输入投影感受野：常见时间序列模型把 \(\Phi_I\) 实现成固定核 \(k=3\) 的 1-D 卷积，但 Mamba 的门控单元会用这个投影来调制 SSM 输出，输入上下文太少就会成为瓶颈。作者据此让卷积核随序列长度成比例增大：\(k = \max(k_{\min}, \lfloor \lambda L \rfloor)\)，取 \(k_{\min}=3\)、\(\lambda=0.02\)、stride=1（固定步长以隔离核尺寸的单一效应）。这样密集采样的长序列能拿到正比于其长度的局部上下文，喂给后面的门控更充分。

2. H2 — 把时变性拆成可调开关的模块化选择性 SSM：这是全文最核心的洞察。原始选择性 SSM 让 \(\Delta_t, B_t, C_t\) 全部输入相关（时变 TV），但作者先厘清三者角色不同——\(\Delta\) 控制时间更新速率（类似 DTW 对齐不同局部速度）、\(B\) 是输入到状态的通道路由、\(C\) 是状态到输出的读出，其中 \(B/C\) 时变会引入跨通道混合，而很多时间序列其实接近线性时不变（LTI）。于是用三个二元开关 \(\theta_\Delta,\theta_B,\theta_C \in \{0,1\}\) 决定每个参数走 TI 还是 TV：\(\Delta_t^{(j)\star}=(1-\theta_\Delta)\Delta^{(j)}+\theta_\Delta\,\phi_\Delta(\tilde x_t)^{(j)}\)，\(B/C\) 同理。这给出 \(2^3=8\) 种配置，从全 LTI 到完整选择性 SSM 任选，让"时变 vs 时不变"成为按数据集可调的超参——实验里发现简单（偏 LTI）配置反而常常更好，这与 Gu & Dao 在语言建模里"全时变最优"的结论恰好相反。

3. H3 — 去掉残差连接，强迫模型只靠状态演化：残差在深网络里帮优化，但在浅网络里收益微乎其微（InceptionTime 在 85 个 UCR 数据集上证明残差几乎没差别）。在单层设定下，残差/skip 反而可能绕过 SSM、削弱 Mamba 的表征学习。作者把特征输出里的跳接项 \(D^{(j)}\tilde x_t^{(j)}\) 去掉，变成 \(f_t^{(j)} = C_t s_t^{(j)}\)，让 logits 完全建立在隐状态之上——等于把"学好状态向量 \(s_t^{(j)}\)"摆到 TSC 的核心位置。（注意 Mamba 官方实现默认是开 \(D\) 的，作者把它改成可调。）

4. H4 — 多头自适应池化，按时刻自适应加权：平均/最大池化要么对所有时刻一视同仁、要么只信单个最强时刻，忽略了数据特定的时间重要性——这对递归模型尤其致命（如手写序列标签 g 早期可能先像 a 后期才对齐 g）。作者用 \(N_h\) 个独立门控头，每头对每个时刻打分 \(g_{t,h}=w_h^\top f_t + b_h\)，取跨头最大值 \(g_t=\max_h g_{t,h}\)，再 softmax 归一化得权重 \(\alpha_t = \exp(g_t)/\sum_i \exp(g_i)\)，最后加权聚合 per-time logit：\(l=\sum_{t=1}^L \alpha_t l_t\)。该式是池化的泛化——\(\alpha_t\) 均匀就退化为平均、尖锐就近似最大池化；相比注意力池化更轻量，多头探索多样模式、自适应最大池化挑最自信信号。

实验关键数据¶

评测覆盖全部 30 个 UEA 多变量数据集（序列长 8–17,984，维度 2–1,345，样本 12–25,000），对每个模型搜约 200 组超参选最优，共比较 20 个基线。

主实验¶

模型类别	代表方法	全 30 数据集平均准确率 (%)
Mamba-based	MambaSL（本文）	79.82
Mamba-based	TSCMamba	78.40
Shape-based	InterpGN	77.70
非 DL	HC2	76.87
CNN-based	ModernTCN	76.94
Transformer	iTransformer	74.80
基线 vanilla Mamba	—	74.24

MambaSL 在 10 数据集子集和全 30 数据集上都拿下最佳平均准确率和平均 rank，比第二名 TSCMamba 高 1.41%p；Wilcoxon 符号秩检验确认对除 HC2（p=0.56，但 HC2 总排名仅第 8）外所有模型统计显著（p<0.05）。

消融实验（四假设逐一移除，全 30 平均准确率 / 平均 rank）¶

配置	avg.acc	avg.rank	显著性 p
MambaSL（全开）	79.80	2.43	—
w/o H1（k=3）	80.22	2.53	0.217
w/o H2（仅 TV）	77.08	5.93	0.000
w/o H3（用残差 D）	79.16	3.50	0.071
w/o H4（全连接）	77.72	4.87	0.003
only H2	77.94	—	0.011
vanilla Mamba	74.24	—	0.000

时变性细化消融（Table 2）：8 种 \(\theta_\Delta/\theta_B/\theta_C\) 配置里没有一种压倒性最优，但全 LTI（全 ✗）整体优于全 TV（全 ✓）。

关键发现¶

H2 是收益主力：去掉模块化时变（只保留全时变）准确率从 79.8 掉到 77.08，rank 从 2.43 暴跌到 5.93，是四个假设里影响最大的。
"少即是多"：偏 LTI 的简单配置反而更好，直接挑战了 Mamba 原论文"全时变最优"的语言建模结论——TSC 任务的时不变性需要被显式建模。
协议的价值：仅靠重新调参，TSF-origin 模型（DLinear/PatchTST/iTransformer 等）平均涨 3.04%p，说明此前 TSC 文献严重低估了这些基线。
UMAP 可视化显示 MambaSL 落在 DL 与非 DL 簇之间，兼具两类方法的优势。

亮点与洞察¶

"做减法"的范本：不加任何特征工程、不堆深度，单层 Mamba 靠四处针对性微调就拿 SOTA，干净地剥离出 Mamba 在 TSC 的本征能力。
把"时变性"变成可解释旋钮：明确拆开 \(\Delta\)（时间步速）vs \(B/C\)（空间路由）的角色，并用开关让时变/时不变按数据集可调，这一概念框架本身就有诊断价值。
顺手修了基准：全 30 UEA + 统一搜参 + 公开 checkpoint，附带揭示了 TSC 文献长期低估 TSF-origin 基线的系统性问题，可复现性贡献独立成立。

局限与展望¶

单数据集仍需调超参：8 种时变配置、卷积核、池化都要按数据集搜，没有一个普适最优配置，部署时搜参成本不低。
只在 UEA 上验证：未触及更大规模或单变量 UCR 全集、长程预测等其他时间序列任务，单层结论能否外推存疑。
"全 LTI 更好"的边界未明：作者承认 ZOH 离散化让 \(\Delta\) 与 \(B/C\) 仍有耦合，时变/时不变的真实分界还需更细的理论分析。
在 AF/ER/PEMS 等固定长度小测试集上，全连接读出反而更优，说明自适应池化的优势依赖数据规模与多样性。

评分¶

新颖性: ⭐⭐⭐⭐ — 不在于发明新模块，而在于"模块化时变性 + 单层做减法"这一反直觉视角，并实证推翻 Mamba 原论文的全时变结论。
实验充分度: ⭐⭐⭐⭐⭐ — 全 30 UEA、20 基线、每模型约 200 组搜参、Wilcoxon 检验 + 逐假设消融 + 时变性细化 + UMAP 可视化 + 公开 checkpoint，扎实且可复现。
写作质量: ⭐⭐⭐⭐ — 假设驱动（H1–H4）的叙事清晰，\(\Delta/B/C\) 角色厘清部分尤其有教学价值；公式与图配合到位。
价值: ⭐⭐⭐⭐ — 既给出强 TSC backbone，又顺手修了基准可复现性，对 TSC 社区有双重实用价值。