跳转至

The Expressive Limits of Diagonal SSMs for State-Tracking

会议: ICLR 2026
arXiv: 2603.01959
领域: 序列建模 / 理论
关键词: 状态空间模型, 表达能力, 群状态追踪, 对角SSM, 可解群, Mamba

一句话总结

建立了输入依赖复数对角(DCD)SSM 在群状态追踪任务上的完整表达能力刻画:单层不能追踪任何非阿贝尔群,\(k\) 层能追踪群 \(G\) 当且仅当 \(G\) 存在长度为 \(k\) 的子正规链且因子均为阿贝尔群——精确定义了深度对表达能力的严格提升,同时实验揭示表达能力与可学习性之间的显著 gap。

研究背景与动机

领域现状:状态空间模型(SSM),如 Mamba、S4D 等,已作为 Transformer 的高效替代品在长序列建模任务上取得了强大的经验性能。它们通过线性递归和对角化状态转移矩阵实现了 \(O(\log T)\) 的并行化。然而,SSM 的理论表达能力理解仍然有限,特别是在状态追踪(state-tracking)这类任务上。

现有痛点: 1. SSM最初被期望在状态追踪上优于Transformer(因为有显式状态表示),但实验表明SSM同样失败 2. Merrill et al. 证明SSM属于 \(\mathsf{TC}^0\) 复杂性类,推测不能追踪非可解群(如 \(S_5\)),但这依赖于复杂性理论中的未解猜想 3. Sarrof et al. 证明 Mamba(非负对角矩阵)不能解决奇偶问题(最简单的非平凡群 \(C_2\)),但对角 SSM 的精确能力边界仍然未知 4. 单层 vs 多层的表达能力差异在理论上不清楚——深度是否带来严格益处?

核心矛盾:对角化是 SSM 高效并行化的基础,但也限制了状态转移矩阵的表达能力。如何在保持效率的同时理解其表达极限?

本文方案:从代数群论的视角出发,精确刻画 \(k\) 层 DCD SSM 能追踪哪些群——给出不依赖任何猜想的充要条件。

方法详解

整体框架

本文不提新模型,而是把"输入依赖复数对角(DCD)SSM 到底能追踪哪些群"这个问题彻底算清楚。研究对象的状态递归为 \(h_t = A(x_t) h_{t-1} + b(x_t)\),其中 \(A(x_t) \in \mathbb{C}^{d \times d}\) 是对角矩阵、\(b(x_t) \in \mathbb{C}^d\) 是输入向量,输出经解码器 \(y_t = \text{dec}(h_t, x_t)\) 给出,并假设 \(A\)\(b\)\(\text{dec}\) 都是通用函数逼近器;任务是群状态追踪——给定群 \(G\) 与序列 \(x_1,\ldots,x_T \in G\),逐步输出累积乘积 \(y_t = x_1 x_2 \cdots x_t\)。全文围绕两个层次展开:先卡死单层的能力上界,再用子正规链把层数和可追踪群一一对应,最后把结论对照到 Mamba 等现有变体上。

关键设计

1. 单层不可能性:对角的交换性把单层锁死在阿贝尔群

第一个核心结论(Theorem 1)是,单层 DCD SSM 在有限精度下能追踪 \(G\) 当且仅当 \(G\) 是阿贝尔群——非阿贝尔群单层根本无望。证明的关键在于对角矩阵彼此可交换,而群乘积的非交换性无法被可交换的状态更新还原,三个引理依次把"逃逸通道"堵死。Lemma 1 先消除无用坐标:若某坐标在某输入下收缩(\(|\lambda(x)_j| < 1\))、扩张(\(|\lambda(x)_j| > 1\))或漂移(\(|\lambda(x)_j| = 1\)\(b(x)_j \neq 0\)),都可以构造等价 SSM 把它钉成定值而不损失追踪力,于是只剩纯旋转坐标值得分析。Lemma 2 指出旋转中心若不一致会出事:中性旋转 \(h \mapsto \lambda(h - c_1) + c_1\) 与共轭旋转 \(h \mapsto \lambda^*(h - c_2) + c_2\)\(c_1 \neq c_2\) 时复合出非零平移,状态随之发散、有限精度下追踪失败。Lemma 3 因此要求所有坐标共享同一旋转中心,再叠加对角阵的交换性,状态更新必然可交换,群只能是阿贝尔群。

2. 多层充要条件:层数 = 子正规链长度

第二个核心结论(Theorem 2)把深度量化了:\(k\) 层 DCD SSM 能追踪 \(G\) 当且仅当 \(G\) 存在长度为 \(k\) 的子正规链

\[\{e\} = G_0 \trianglelefteq G_1 \trianglelefteq \cdots \trianglelefteq G_k = G\]

且每个商因子 \(G_{i+1}/G_i\) 都是阿贝尔群。这正是可解群的定义,但被精细化成"需要恰好 \(k\) 层"——非可解群(如 \(A_5\))任意深度都追不到,可解群则有明确的最小层数。充分性是构造性的:以 \(S_3 = C_3 \rtimes C_2\) 为例,第一层先追踪 \(C_2\) 奇偶位(\(\Lambda((0,\beta)) = 0\)\(\Lambda((1,\beta)) = \pi\)),第二层把第一层的奇偶状态当条件,让 \(C_3\) 的模 3 旋转方向随奇偶翻转(\(\Lambda^{(2)}((1,\alpha,\beta)) = \tfrac{2\pi}{3}\beta\)\(\Lambda^{(2)}((-1,\alpha,\beta)) = -\tfrac{2\pi}{3}\beta\)),两层叠起来正好复原非交换乘积。每一层处理一个阿贝尔商,链有多长就需要多少层,深度的收益由此有了严格的群论刻度。

3. 对照现有变体:负/复特征值是解锁追踪力的开关

把上述刻画套回主流 SSM,就能一眼看出谁卡在哪。差别全在转移矩阵的特征值能落到哪:Mamba 的 \(A(x) = \exp(\Delta(x) \odot \Lambda)\) 取值在 \((0,1]\),连负数都没有,最简单的 \(C_2\)(奇偶)都解不了;Negative Mamba 用 \(2\exp(\Delta(x) \odot \Lambda) - I\) 把范围拓到 \((-1,1]\),单层只够 \(C_2\);而 AUSSM 用 \(\exp(i\Delta(x) \odot \Lambda(x))\) 让特征值跑遍单位圆 \(|z|=1\),单层即可覆盖所有阿贝尔群。这条对照直接给出设计指引:限制特征值非负是 Mamba 表达力的根本瓶颈,放开到复单位圆才谈得上追踪非平凡群。

模型 转移矩阵 \(A(x)\) 特征值范围 能追踪的群
S4/S4D \(\Lambda\)(固定对角) \(\mathbb{C}\) 无(时间不变)
Mamba \(\exp(\Delta(x) \odot \Lambda)\) \((0, 1]\)(非负实数) 无群(不含负值)
Negative Mamba \(2\exp(\Delta(x) \odot \Lambda) - I\) \((-1, 1]\) \(C_2\)(单层)
AUSSM \(\exp(i\Delta(x) \odot \Lambda(x))\) 单位圆 $ z

实验关键数据

主实验:状态追踪任务(最长泛化序列长度,训练长度≤60)

阿贝尔 可解 Mamba Neg Mamba Simple AUSSM AUSSM RNN
\(C_2\) 1000 160 1000 1000
\(C_6\) 240 940 1000
\(C_{24}\) 240 260 1000
\(C_{60}\) 300 240
\(S_3\) 1000
\(A_4\) 1000
\(A_5\)

✘ 表示模型无法泛化到长度≥100的序列。报告的是准确率>90%的最长序列长度。

消融实验:单层 vs 双层

模型 单层 双层 理论预期
\(C_2\) AUSSM 1000 200 均可
\(C_2 \times C_4\) Neg Mamba 360 双层可
\(S_3\) AUSSM 双层可(gap!)
\(A_4\) AUSSM 双层可(gap!)

核心发现

  • 阿贝尔群:AUSSM 和 Simple AUSSM 的单层理论掌控所有阿贝尔群,实验中梯度优化成功找到泛化解
  • 非阿贝尔群:双层 AUSSM 理论上可追踪 \(S_3\)\(A_4\),但实验中标准训练从未成功——表达能力 ≠ 可学习性
  • 初始化敏感性:将 AUSSM 初始化到 \(S_3\) 解析解附近后,训练成功并泛化到4倍长度——解存在但 loss landscape 中难以找到
  • RNN 无理论限制:RNN 可追踪所有可解群,但在大群(\(C_{60}\))上也遇到优化困难

亮点与洞察

  • 精确的代数刻画:给出充要条件而非"大概能/不能"——\(k\) 层严格对应子正规链长度为 \(k\) 的群
  • 深度的严格益处\(k\) 层严格 > \((k-1)\) 层——非阿贝尔群需要深度,且需要的层数有精确的群论含义
  • 表达 ≠ 学习的重要区分:理论可表达但 SGD 学不到——提醒社区不能仅看理论表达力,优化瓶颈同样关键
  • 对 Mamba 设计的直接指导:Mamba 的非负特征值约束是根本限制;允许负值/复值特征值是解锁更强追踪能力的必要条件

局限与展望

  • 结果限于对角 SSM,分块对角(如 \(2 \times 2\))可能将表达力扩展到 \(\mathsf{NC}^1\)
  • 可学习性 gap 的根本原因未解——loss landscape 的几何结构(平坦区域/鞍点/孤立极小值)需要进一步研究
  • 目前仅讨论群状态追踪,实际序列任务更复杂——理论结论对实际任务的预测力有待验证
  • 未探索混合架构(如 AUSSM+Mamba 交替层)在非阿贝尔群上的可学习性
  • 扩展到半群和幺半群的讨论仅为初步,完整理论有待建立

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐