ICLR 2026 时间序列线性状态空间模型稀疏系统矩阵稀疏贝叶斯学习 EM 算法相似变换系统辨识

Learning Linear State-Space Models with Sparse System Matrices¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0lct7PrPgS
代码: https://github.com/ArthinYS/Learning-Sparse-LSSM
领域: 时间序列 / 动力系统辨识
关键词: 线性状态空间模型, 稀疏系统矩阵, 稀疏贝叶斯学习, EM 算法, 相似变换, 系统辨识

一句话总结¶

本文给线性状态空间模型（LSSM）的系统矩阵 \(A,B,C,D\) 加上稀疏诱导先验（Student's t 分布），用 EM + 块坐标下降做 MAP 估计，从而绕开"相似变换"导致的不可辨识，学到既准确又能保留变量间真实拓扑结构的稀疏系统矩阵。

研究背景与动机¶

领域现状：线性状态空间模型 \(x_t=Ax_{t-1}+Bu_t+\varepsilon_t,\ y_t=Cx_t+Du_t+\omega_t\) 是机器人、系统生物学、工业过程、NLP 等领域建模时间序列的基础工具，因为它有完整的可控性/可观性/稳定性理论，便于做分析与控制。而现实系统的耦合往往很稀疏——一个基因只调控少数其他基因、通信系统为省能耗采用稀疏拓扑——所以真实的 \(A,B,C,D\) 通常是稀疏矩阵。

现有痛点：经典 LSSM 学习算法（最小二乘 PEM、Ho-Kalman、子空间 4SID、极大似然 EM）都无法在系统矩阵上施加稀疏约束。根因是相似变换（similarity transformation）：对任意非奇异矩阵 \(\Phi\)，\((\Phi A\Phi^{-1},\Phi B,C\Phi^{-1},D)\) 与原系统产生完全相同的输入输出数据，所以这些算法只能学到"差一个相似变换"的解。这个变换不仅改变数值，更会破坏系统矩阵的拓扑结构，让学到的矩阵无法反映变量间真实的相互作用机制。

核心矛盾：稀疏约束想要"最少参数解释数据"（奥卡姆剃刀），但相似变换让解空间充满了等价但稠密的实现；同时状态 \(x_t\) 不可观测、观测又被过程噪声和测量噪声双重污染，使得直接做稀疏估计变得棘手。

本文目标：学到保留固有拓扑结构的稀疏系统矩阵，让学习结果可用于探究系统的交互规律，并在预测精度上超越经典算法。

核心 idea：【稀疏先验锁定相似变换】——给系统矩阵施加稀疏诱导先验后，能保持稀疏度（\(\ell_0\) 范数不变）的非奇异矩阵 \(\Phi\) 被限制为广义置换矩阵（generalized permutation matrix），从而把相似变换的歧义压缩到只剩"排列 + 缩放"，拓扑结构因此得以保留。

方法详解¶

整体框架¶

把隐藏状态 \(X=\{x_t\}\) 当作隐变量，对系统矩阵施加 Student's t 稀疏先验，按贝叶斯规则写出联合后验，再用 EM 做 MAP 估计：E 步用 RTS 平滑器闭式更新状态分布，M 步用块坐标下降逐块解析更新系统矩阵、噪声协方差和先验超参数，交替迭代直到收敛，并用全局收敛定理保证收敛到后验的局部极大/鞍点。

flowchart LR
    A[噪声观测 y_t,u_t] --> B[Student's t 稀疏先验<br/>p Θ]
    B --> C[联合后验 p Θ|Y<br/>= 边际似然 × 先验]
    C --> D[EM 迭代]
    D --> E[E步: RTS 平滑器<br/>闭式更新隐状态分布]
    E --> F[M步: 块坐标下降<br/>逐行解析更新 A,B,C,D]
    F --> G[更新噪声 R,Q<br/>+ 超参数 Γ]
    G -->|未收敛| E
    G -->|收敛| H[稀疏系统矩阵<br/>保留拓扑结构]

关键设计¶

1. Student's t 分层稀疏先验：把稀疏性写进概率模型
作者对 \(A,B,C,D\) 的每个元素施加 Student's t 分布先验来促进稀疏，因为相比其他先验它在零点处更尖锐。实现上用分层方式：先给元素一个零均值高斯先验 \(p(A_{ij}\mid\Gamma_{a,ij})=\frac{1}{\sqrt{2\pi\Gamma_{a,ij}}}\exp(-A_{ij}^2/2\Gamma_{a,ij})\)，再对未知方差 \(\Gamma_{a,ij}\) 套一个 Inverse-Gamma 超先验（超参数 \(a_0,b_0\) 取极小值如 \(10^{-6}\) 以获得无信息先验）。边际化掉 \(\Gamma\) 后等效得到 Student's t，这就是稀疏贝叶斯学习（SBL）的标准构造——让不重要的元素的方差自动收缩到零，从而把对应参数压成零。噪声 \(R,Q\) 则用均匀分布先验得到平坦先验。

2. EM + RTS 平滑器：把不可观测状态闭式补全
由于状态 \(x_t\) 未观测，直接最大化后验 \(p(\Theta\mid Y)\propto p(Y\mid\Theta)p(\Theta)\) 不可行。作者把 \(x_t\) 作隐变量引入 EM，转而迭代最大化期望对数后验 \(H(\Theta\mid\Theta^k)=\mathbb{E}_{X^k}[\log(p(Y,X\mid\Theta)p(\Theta))]\)，这与最大化原后验等价。E 步的关键是用 Rauch–Tung–Striebel（RTS）平滑器给出 \(p(x_t\mid Y,\Theta^k)=\mathcal{N}(m_t^k,P_t^k)\) 的闭式解：先正向跑 Kalman 滤波得到 \(\mu_t,\Sigma_t\)，再反向递推 \(m_t^k=\mu_t^k+G_t^k(m_{t+1}^k-\mu_{t+1}^k)\)。此外还需相邻状态的滞后一阶协方差 \(P_{t,t-1}^k\)（lag-one covariance smoother）来组装损失函数 \(H=H_1(A,B,R)+H_2(C,D,Q)+H_3(\cdot,\Gamma)\)。

3. 块坐标下降逐行解析更新：处理高耦合的非凸目标
\(H(\Theta\mid\Theta^k)\) 非凸且变量高度耦合，无法一次性求闭式。作者用块坐标下降，把系统矩阵按行逐个解析更新。以 \(A\) 的第 \(r\) 行为例，令导数为零得 \(A_r^{k+1}=\big(\sum_t (m_{t,r}^k-B_r^k u_t)(m_{t-1}^k)'+P_{t,t-1,r}^k\big)\big(\sum_t(P_{t-1}^k+m_{t-1}^k(m_{t-1}^k)')+R_{rr}^k\Gamma_{a,r}^{kd}\big)^{-1}\)，其中 \(\Gamma_{a,r}^{kd}\) 这一项正是稀疏先验注入的对角正则，起到自动收缩作用；\(B,C,D\) 同理逐行更新。噪声协方差 \(R_{rr},Q_{rr}\) 和超参数 \(\Gamma\) 也各自有解析更新式，如 \(\Gamma_{a,ij}^{k+1}=\frac{(A_{ij}^{k+1})^2+2b_0}{2a_0+3}\)——参数越小，其方差更新得越小，下轮越被压向零，形成稀疏的正反馈。

4. 稀疏约束把相似变换锁成广义置换矩阵：可辨识性的理论解释
这是全文的理论支柱。作者先定义"本质可辨识性"：若任意满足稀疏度不变（\(\|\Phi A\Phi^{-1}\|_0=\|A\|_0\) 等）的非奇异 \(\Phi\) 都必须是广义置换矩阵，则系统可辨识。直觉是：经典算法的解差一个任意 \(\Phi\)，会任意改变拓扑；但一旦要求保持稀疏度，\(\Phi\) 的自由度被极大压缩——对可辨识系统只剩"缩放 + 排列"。作者用一个 3 维例子显式验证：对给定稀疏的 \(A,B,C,D\)，合法的 \(\Phi\) 只能是 6 种广义置换矩阵之一。于是稀疏先验学到的矩阵与真值的差异仅来自状态变量的缩放定义，拓扑结构被完整保留。基于全局收敛定理（Luenberger 1984），作者还证明算法生成的序列 \(\{\Theta^k\}\) 收敛到后验的局部极大或鞍点。

实验关键数据¶

对比对象：LSM PEM、LSM HK、4SID、MLE（经典 LSSM 学习算法）。评价指标为均值相对误差 MRE \(=\frac{1}{T}\sum_t\frac{\|y_t-\hat y_t\|_2^2}{\|y_t\|_2^2}\)（越小越好），数据按 2:1 划分训练/测试。

主实验表格（真实工业过程系统 MRE，括号为运行时间）¶

数据集	Ours	LSM PEM	LSM HK	4SID	MLE
Evaporation 蒸发系统	14.93% (249.14 s)	17.90% (9.35 s)	Inf (18.45 s)	43.77% (3.92 s)	20.14% (152.34 s)
Glass furnace 玻璃熔炉	23.63% (45.62 s)	62.62% (0.52 s)	31.21% (6.20 s)	24.32% (0.29 s)	30.21% (33.36 s)
Steam generator 蒸汽发生器	20.70% (441.88 s)	22.70% (4.94 s)	39.80% (84.52 s)	29.26% (0.58 s)	22.23% (299.10 s)

本文方法在全部三个真实数据集上取得最低 MRE，但运行时间也最长（闭式更新需大量矩阵求逆）。其中 LSM HK 在蒸发系统上 MRE 为 Inf（学到的模型不稳定，预测发散），说明经典算法在强稀疏系统上甚至会彻底失效，而本文方法保持稳健。

合成系统实验（拓扑结构恢复）¶

在 10 维合成系统（\(A\) 为反对角、非零元 0.8，\(B=C=D=2I_{10}\)，每个矩阵 100 个待估参数，极度稀疏）上：经典算法学到的矩阵因相似变换在数值和拓扑上都与真值完全不同；只有本文方法保留了变量间拓扑结构，且通过对比学到的 \(B,C\) 与真值可反推出 \(\Phi\approx 2I_{10}\)，与第 4.1 节理论分析一致，同时取得所有算法中最低的 MRE。

消融与鲁棒性实验（附录）¶

作者补充了多组验证以确认结果不是偶然： - 多初值鲁棒性（附录 H.1）：在不同初始 \(A,B,C,D\) 下重复实验，算法仍能稳定收敛到保留拓扑的稀疏解。 - 20 次独立试验（附录 H.2）：报告所有算法恢复系统矩阵拓扑结构的成功率与平均 MRE，本文方法在两项指标上均稳定领先。 - 更复杂结构（附录 I）：在非对角（non-diagonal）与非可逆（non-invertible）系统矩阵情形下同样有效，说明稀疏先验锁定相似变换的机制不依赖矩阵的特殊结构。 - 阈值截断（附录 G）：迭代数值优化很难得到精确零，作者用预设阈值把小于阈值的参数截断为零以加速收敛，并对所有对比算法施加同样阈值以保证公平。

关键发现¶

拓扑保真是核心卖点：经典算法只能学到"差一个相似变换"的稠密等价解，本文方法学到的稀疏矩阵能反推出 \(\Phi\) 是广义置换矩阵，差异仅是状态缩放，拓扑结构完整。
精度与可解释性双赢，但代价是算力：在准确度领先的同时运行时间显著高于经典方法。
对不同初值鲁棒，非对角/非可逆等更复杂情形（附录 I）同样有效。

亮点与洞察¶

把"为什么稀疏能解可辨识性"讲清楚了：相似变换的歧义本质是 \(\Phi\) 的自由度太大，稀疏约束把 \(\Phi\) 锁成广义置换矩阵，这个观察简洁有力，是全文最优雅的部分。
全程闭式 + 收敛保证：E 步 RTS 平滑、M 步块坐标下降都有解析更新式，再配上全局收敛定理，理论完整度高，工程可复现性好。
把成熟的 SBL 思想迁移到 LSSM 的隐状态 + 双噪声场景：以往 SBL 多假设状态可测，本文在状态不可观、过程/测量噪声双重污染下完成稀疏估计，填补了一个实际空白。
奥卡姆剃刀落到了实处：不是泛泛地说"参数少更好"，而是给出了"最少参数 ⇔ 拓扑可辨识 ⇔ 可探究交互规律"这条因果链，让稀疏性从工程 trick 升格为可解释性的来源。

局限与展望¶

计算开销大：闭式更新涉及大量矩阵求逆，运行时间在所有方法中最长，难以处理大规模问题。作者提出未来用随机 EM（mini-batch）降低成本。
数值收缩风险：相似变换可能把很多参数压到极小值，带来数值误差（作者指出这是所有 LSSM 算法的通病）。
只能学到"差缩放"的真值：当前仅保证拓扑结构一致，数值上仍差一个缩放；作者希望未来加额外约束让学到的矩阵与真值完全一致。
仅限可辨识系统：拓扑保真的保证建立在系统"本质可辨识"的前提上，对不满足该条件的系统结论可能不成立。
仅限线性系统，对强非线性系统只是局部线性近似。

评分¶

新颖性: ⭐⭐⭐⭐ — 稀疏先验把相似变换锁成广义置换矩阵、从而保留拓扑结构的洞察新颖且优雅，虽然 SBL/EM 各组件都成熟，但组合 + 理论解释有原创价值。
实验充分度: ⭐⭐⭐ — 合成 + 3 个真实工业数据集、多初值/多次试验、非对角非可逆情形都有覆盖，但数据规模偏小、对比方法均为经典算法，缺少与现代深度 SSM（如 S4/Mamba 类）的比较。
写作质量: ⭐⭐⭐⭐ — 公式推导完整、动机与理论论证清晰，可辨识性的例子讲解到位，行文严谨。
价值: ⭐⭐⭐⭐ — 对需要可解释系统矩阵的工业过程、系统生物学、网络重构等场景实用价值高，拓扑保真的特性是经典方法给不了的；主要短板是算力难扩展到大规模。