跳转至

Learning Linear State-Space Models with Sparse System Matrices

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0lct7PrPgS
代码: https://github.com/ArthinYS/Learning-Sparse-LSSM
领域: 时间序列 / 动力系统辨识
关键词: 线性状态空间模型, 稀疏系统矩阵, 稀疏贝叶斯学习, EM 算法, 相似变换, 系统辨识

一句话总结

本文给线性状态空间模型(LSSM)的系统矩阵 \(A,B,C,D\) 加上稀疏诱导先验(Student's t 分布),用 EM + 块坐标下降做 MAP 估计,从而绕开"相似变换"导致的不可辨识,学到既准确又能保留变量间真实拓扑结构的稀疏系统矩阵

研究背景与动机

领域现状:线性状态空间模型 \(x_t=Ax_{t-1}+Bu_t+\varepsilon_t,\ y_t=Cx_t+Du_t+\omega_t\) 是机器人、系统生物学、工业过程、NLP 等领域建模时间序列的基础工具,因为它有完整的可控性/可观性/稳定性理论,便于做分析与控制。而现实系统的耦合往往很稀疏——一个基因只调控少数其他基因、通信系统为省能耗采用稀疏拓扑——所以真实的 \(A,B,C,D\) 通常是稀疏矩阵。

现有痛点:经典 LSSM 学习算法(最小二乘 PEM、Ho-Kalman、子空间 4SID、极大似然 EM)都无法在系统矩阵上施加稀疏约束。根因是相似变换(similarity transformation):对任意非奇异矩阵 \(\Phi\)\((\Phi A\Phi^{-1},\Phi B,C\Phi^{-1},D)\) 与原系统产生完全相同的输入输出数据,所以这些算法只能学到"差一个相似变换"的解。这个变换不仅改变数值,更会破坏系统矩阵的拓扑结构,让学到的矩阵无法反映变量间真实的相互作用机制。

核心矛盾:稀疏约束想要"最少参数解释数据"(奥卡姆剃刀),但相似变换让解空间充满了等价但稠密的实现;同时状态 \(x_t\) 不可观测、观测又被过程噪声和测量噪声双重污染,使得直接做稀疏估计变得棘手。

本文目标:学到保留固有拓扑结构的稀疏系统矩阵,让学习结果可用于探究系统的交互规律,并在预测精度上超越经典算法。

核心 idea【稀疏先验锁定相似变换】——给系统矩阵施加稀疏诱导先验后,能保持稀疏度(\(\ell_0\) 范数不变)的非奇异矩阵 \(\Phi\) 被限制为广义置换矩阵(generalized permutation matrix),从而把相似变换的歧义压缩到只剩"排列 + 缩放",拓扑结构因此得以保留。

方法详解

整体框架

把隐藏状态 \(X=\{x_t\}\) 当作隐变量,对系统矩阵施加 Student's t 稀疏先验,按贝叶斯规则写出联合后验,再用 EM 做 MAP 估计:E 步用 RTS 平滑器闭式更新状态分布,M 步用块坐标下降逐块解析更新系统矩阵、噪声协方差和先验超参数,交替迭代直到收敛,并用全局收敛定理保证收敛到后验的局部极大/鞍点。

flowchart LR
    A[噪声观测 y_t,u_t] --> B[Student's t 稀疏先验<br/>p Θ]
    B --> C[联合后验 p Θ|Y<br/>= 边际似然 × 先验]
    C --> D[EM 迭代]
    D --> E[E步: RTS 平滑器<br/>闭式更新隐状态分布]
    E --> F[M步: 块坐标下降<br/>逐行解析更新 A,B,C,D]
    F --> G[更新噪声 R,Q<br/>+ 超参数 Γ]
    G -->|未收敛| E
    G -->|收敛| H[稀疏系统矩阵<br/>保留拓扑结构]

关键设计

1. Student's t 分层稀疏先验:把稀疏性写进概率模型
作者对 \(A,B,C,D\) 的每个元素施加 Student's t 分布先验来促进稀疏,因为相比其他先验它在零点处更尖锐。实现上用分层方式:先给元素一个零均值高斯先验 \(p(A_{ij}\mid\Gamma_{a,ij})=\frac{1}{\sqrt{2\pi\Gamma_{a,ij}}}\exp(-A_{ij}^2/2\Gamma_{a,ij})\),再对未知方差 \(\Gamma_{a,ij}\) 套一个 Inverse-Gamma 超先验(超参数 \(a_0,b_0\) 取极小值如 \(10^{-6}\) 以获得无信息先验)。边际化掉 \(\Gamma\) 后等效得到 Student's t,这就是稀疏贝叶斯学习(SBL)的标准构造——让不重要的元素的方差自动收缩到零,从而把对应参数压成零。噪声 \(R,Q\) 则用均匀分布先验得到平坦先验。

2. EM + RTS 平滑器:把不可观测状态闭式补全
由于状态 \(x_t\) 未观测,直接最大化后验 \(p(\Theta\mid Y)\propto p(Y\mid\Theta)p(\Theta)\) 不可行。作者把 \(x_t\) 作隐变量引入 EM,转而迭代最大化期望对数后验 \(H(\Theta\mid\Theta^k)=\mathbb{E}_{X^k}[\log(p(Y,X\mid\Theta)p(\Theta))]\),这与最大化原后验等价。E 步的关键是用 Rauch–Tung–Striebel(RTS)平滑器给出 \(p(x_t\mid Y,\Theta^k)=\mathcal{N}(m_t^k,P_t^k)\) 的闭式解:先正向跑 Kalman 滤波得到 \(\mu_t,\Sigma_t\),再反向递推 \(m_t^k=\mu_t^k+G_t^k(m_{t+1}^k-\mu_{t+1}^k)\)。此外还需相邻状态的滞后一阶协方差 \(P_{t,t-1}^k\)(lag-one covariance smoother)来组装损失函数 \(H=H_1(A,B,R)+H_2(C,D,Q)+H_3(\cdot,\Gamma)\)

3. 块坐标下降逐行解析更新:处理高耦合的非凸目标
\(H(\Theta\mid\Theta^k)\) 非凸且变量高度耦合,无法一次性求闭式。作者用块坐标下降,把系统矩阵按行逐个解析更新。以 \(A\) 的第 \(r\) 行为例,令导数为零得 \(A_r^{k+1}=\big(\sum_t (m_{t,r}^k-B_r^k u_t)(m_{t-1}^k)'+P_{t,t-1,r}^k\big)\big(\sum_t(P_{t-1}^k+m_{t-1}^k(m_{t-1}^k)')+R_{rr}^k\Gamma_{a,r}^{kd}\big)^{-1}\),其中 \(\Gamma_{a,r}^{kd}\) 这一项正是稀疏先验注入的对角正则,起到自动收缩作用;\(B,C,D\) 同理逐行更新。噪声协方差 \(R_{rr},Q_{rr}\) 和超参数 \(\Gamma\) 也各自有解析更新式,如 \(\Gamma_{a,ij}^{k+1}=\frac{(A_{ij}^{k+1})^2+2b_0}{2a_0+3}\)——参数越小,其方差更新得越小,下轮越被压向零,形成稀疏的正反馈。

4. 稀疏约束把相似变换锁成广义置换矩阵:可辨识性的理论解释
这是全文的理论支柱。作者先定义"本质可辨识性":若任意满足稀疏度不变(\(\|\Phi A\Phi^{-1}\|_0=\|A\|_0\) 等)的非奇异 \(\Phi\) 都必须是广义置换矩阵,则系统可辨识。直觉是:经典算法的解差一个任意 \(\Phi\),会任意改变拓扑;但一旦要求保持稀疏度,\(\Phi\) 的自由度被极大压缩——对可辨识系统只剩"缩放 + 排列"。作者用一个 3 维例子显式验证:对给定稀疏的 \(A,B,C,D\),合法的 \(\Phi\) 只能是 6 种广义置换矩阵之一。于是稀疏先验学到的矩阵与真值的差异仅来自状态变量的缩放定义,拓扑结构被完整保留。基于全局收敛定理(Luenberger 1984),作者还证明算法生成的序列 \(\{\Theta^k\}\) 收敛到后验的局部极大或鞍点。

实验关键数据

对比对象:LSM PEM、LSM HK、4SID、MLE(经典 LSSM 学习算法)。评价指标为均值相对误差 MRE \(=\frac{1}{T}\sum_t\frac{\|y_t-\hat y_t\|_2^2}{\|y_t\|_2^2}\)(越小越好),数据按 2:1 划分训练/测试。

主实验表格(真实工业过程系统 MRE,括号为运行时间)

数据集 Ours LSM PEM LSM HK 4SID MLE
Evaporation 蒸发系统 14.93% (249.14 s) 17.90% (9.35 s) Inf (18.45 s) 43.77% (3.92 s) 20.14% (152.34 s)
Glass furnace 玻璃熔炉 23.63% (45.62 s) 62.62% (0.52 s) 31.21% (6.20 s) 24.32% (0.29 s) 30.21% (33.36 s)
Steam generator 蒸汽发生器 20.70% (441.88 s) 22.70% (4.94 s) 39.80% (84.52 s) 29.26% (0.58 s) 22.23% (299.10 s)

本文方法在全部三个真实数据集上取得最低 MRE,但运行时间也最长(闭式更新需大量矩阵求逆)。其中 LSM HK 在蒸发系统上 MRE 为 Inf(学到的模型不稳定,预测发散),说明经典算法在强稀疏系统上甚至会彻底失效,而本文方法保持稳健。

合成系统实验(拓扑结构恢复)

在 10 维合成系统(\(A\) 为反对角、非零元 0.8,\(B=C=D=2I_{10}\),每个矩阵 100 个待估参数,极度稀疏)上:经典算法学到的矩阵因相似变换在数值和拓扑上都与真值完全不同;只有本文方法保留了变量间拓扑结构,且通过对比学到的 \(B,C\) 与真值可反推出 \(\Phi\approx 2I_{10}\),与第 4.1 节理论分析一致,同时取得所有算法中最低的 MRE。

消融与鲁棒性实验(附录)

作者补充了多组验证以确认结果不是偶然: - 多初值鲁棒性(附录 H.1):在不同初始 \(A,B,C,D\) 下重复实验,算法仍能稳定收敛到保留拓扑的稀疏解。 - 20 次独立试验(附录 H.2):报告所有算法恢复系统矩阵拓扑结构的成功率与平均 MRE,本文方法在两项指标上均稳定领先。 - 更复杂结构(附录 I):在非对角(non-diagonal)与非可逆(non-invertible)系统矩阵情形下同样有效,说明稀疏先验锁定相似变换的机制不依赖矩阵的特殊结构。 - 阈值截断(附录 G):迭代数值优化很难得到精确零,作者用预设阈值把小于阈值的参数截断为零以加速收敛,并对所有对比算法施加同样阈值以保证公平。

关键发现

  • 拓扑保真是核心卖点:经典算法只能学到"差一个相似变换"的稠密等价解,本文方法学到的稀疏矩阵能反推出 \(\Phi\) 是广义置换矩阵,差异仅是状态缩放,拓扑结构完整。
  • 精度与可解释性双赢,但代价是算力:在准确度领先的同时运行时间显著高于经典方法。
  • 对不同初值鲁棒,非对角/非可逆等更复杂情形(附录 I)同样有效。

亮点与洞察

  • 把"为什么稀疏能解可辨识性"讲清楚了:相似变换的歧义本质是 \(\Phi\) 的自由度太大,稀疏约束把 \(\Phi\) 锁成广义置换矩阵,这个观察简洁有力,是全文最优雅的部分。
  • 全程闭式 + 收敛保证:E 步 RTS 平滑、M 步块坐标下降都有解析更新式,再配上全局收敛定理,理论完整度高,工程可复现性好。
  • 把成熟的 SBL 思想迁移到 LSSM 的隐状态 + 双噪声场景:以往 SBL 多假设状态可测,本文在状态不可观、过程/测量噪声双重污染下完成稀疏估计,填补了一个实际空白。
  • 奥卡姆剃刀落到了实处:不是泛泛地说"参数少更好",而是给出了"最少参数 ⇔ 拓扑可辨识 ⇔ 可探究交互规律"这条因果链,让稀疏性从工程 trick 升格为可解释性的来源。

局限与展望

  • 计算开销大:闭式更新涉及大量矩阵求逆,运行时间在所有方法中最长,难以处理大规模问题。作者提出未来用随机 EM(mini-batch)降低成本。
  • 数值收缩风险:相似变换可能把很多参数压到极小值,带来数值误差(作者指出这是所有 LSSM 算法的通病)。
  • 只能学到"差缩放"的真值:当前仅保证拓扑结构一致,数值上仍差一个缩放;作者希望未来加额外约束让学到的矩阵与真值完全一致。
  • 仅限可辨识系统:拓扑保真的保证建立在系统"本质可辨识"的前提上,对不满足该条件的系统结论可能不成立。
  • 仅限线性系统,对强非线性系统只是局部线性近似。

相关工作与启发

本文处在四条线的交汇:(1) 最小二乘/PEM——对噪声敏感且无法刻画稀疏;(2) 子空间辨识 4SID——靠 Hankel 矩阵投影,难得到精确系统矩阵;(3) 极大似然 EM(Shumway-Stoffer、Ghahramani-Hinton、Martens 的 ASOS)——无法处理稀疏;(4) 稀疏诱导方法(Lasso、reweighted \(\ell_1\)、稀疏贝叶斯学习 SBL)——但以往假设状态可测。本文的贡献正是把 SBL 的稀疏诱导先验嫁接到 EM 学 LSSM 的框架里,并用可辨识性理论解释为何稀疏能破解相似变换的歧义。启发:当一个辨识问题存在"等价类导致的不可辨识"时,引入一个对该等价类不变的结构约束(这里是稀疏度/\(\ell_0\)),往往能把等价类压缩到只剩平凡歧义——这是一个可迁移到其他系统辨识、因果发现、网络重构问题的范式。

评分

  • 新颖性: ⭐⭐⭐⭐ — 稀疏先验把相似变换锁成广义置换矩阵、从而保留拓扑结构的洞察新颖且优雅,虽然 SBL/EM 各组件都成熟,但组合 + 理论解释有原创价值。
  • 实验充分度: ⭐⭐⭐ — 合成 + 3 个真实工业数据集、多初值/多次试验、非对角非可逆情形都有覆盖,但数据规模偏小、对比方法均为经典算法,缺少与现代深度 SSM(如 S4/Mamba 类)的比较。
  • 写作质量: ⭐⭐⭐⭐ — 公式推导完整、动机与理论论证清晰,可辨识性的例子讲解到位,行文严谨。
  • 价值: ⭐⭐⭐⭐ — 对需要可解释系统矩阵的工业过程、系统生物学、网络重构等场景实用价值高,拓扑保真的特性是经典方法给不了的;主要短板是算力难扩展到大规模。