跳转至

Learning Koopman Representations with Controllability Guarantees

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=jITPFROpWN
代码: https://github.com/KYMiao/Controllable-Koopman
领域: 时间序列 / 动力系统学习 (系统辨识与控制)
关键词: Koopman 算子, 可控性, Neural ODE, 系统辨识, 模型预测控制 (MPC), 数据效率

一句话总结

把"可控性"作为结构先验直接编进 Koopman 表示学习里——用一个新的可控规范型 (canonical form) 参数化潜空间线性算子,使学到的 Neural ODE 模型天生可控,从而在数据稀缺时仍能拟合准确、并直接用于 MPC 控制。

研究背景与动机

  • 领域现状:从数据学非线性动力学模型是控制设计的核心。深度方法 (神经状态空间模型、RNN、Neural ODE) 表达力强、能拟合复杂轨迹;Koopman 方法则把非线性动力学在"提升空间 (lifted space)"近似成线性,让 MPC 等线性控制工具能直接套用。
  • 现有痛点:纯预测导向的模型虽然轨迹拟合好,却不适合控制——非线性结构挡住了 MPC,且对闭环性质 (稳定性、安全性) 没有保证;而几乎所有辨识方法都只盯着轨迹拟合,把结构性质留到训练后再事后检查。
  • 核心矛盾:控制最关键的先验之一是可控性 (controllability)——它保证存在能把系统从任意初态驱到任意目标态的控制策略。但在训练中编码可控性极难:验证非线性系统可控性要在无穷多 Lie bracket 上查复杂秩条件。已有工作要么只把 Kalman 秩条件当 loss 加上去 (既不保证也不反映可控性),要么只停在纯理论分析没给出可计算方法。
  • 本文目标:让学到的模型既能准预测,又由构造 (by construction) 保证可控,把可控性当成缩小搜索空间的归纳偏置,而非事后补丁。
  • 核心 idea[可控性即先验] 不在原状态空间直接学动力学,而是在 Koopman 潜空间学线性表示;证明"潜空间线性模型可控 ⟹ 原非线性系统可控",再用一个可控规范型参数化把这条性质硬编码进网络权重,配合 Gramian 正则塑形"可控程度",最终以端到端 Neural ODE 训练。

方法详解

整体框架

把待学系统写成 Koopman 形式的 Neural ODE:编码器 \(\phi_\theta\) 把状态 \(x\) 提升到潜变量 \(z=[x,\ \psi_\theta(x)]\) (前 \(n\) 维用恒等提升保留原状态),潜空间服从线性动力学 \(\dot z = A_\theta z + B_\theta u\),再用固定输出阵 \(C=[I_n\ \ 0]\) 解码回 \(\hat x = Cz\)。整条管线 (编码器 + 可控 Koopman 算子 + 可微 ODE 求解器) 端到端联合训练,关键在于 \(A_\theta,B_\theta\) 不是自由学的,而是经规范型构造确保整个模型由构造可控。

flowchart LR
    X["状态 x(t)"] --> E["编码器 φθ<br/>恒等提升 + 学到的观测量"]
    E --> Z["潜变量 z = [x, ψθ(x)]"]
    Z --> K["可控 Koopman 算子<br/>ż = Aθz + Bθu<br/>(规范型参数化)"]
    U["控制输入 u(t)"] --> K
    K --> ODE["可微 ODE 求解器<br/>沿 [t0,tf] 积分"]
    ODE --> DEC["输出阵 C=[I 0]<br/>x̂ = Cz"]
    DEC --> L["预测损失 + Gramian 正则"]
    L -.反传穿过求解器.-> E

关键设计

1. 把"输出可控"等价转成"可查的状态-输出可控":让可控性变得可验证。 论文先区分两类可控性:状态-输出可控 (SOC,能从任意潜初态驱动输出到任意目标,可用 Kalman 秩条件查) 与输出-输出可控 (OOC,能从任意输出态驱到任意输出态,OOC 才真正对应原非线性系统的可控)。关键的 Lemma 1 证明:在恒等提升下,限制潜集合 \(Z:=\phi(\mathbb R^n)\) 后,OOC 与 SOC 等价——于是难验证的 OOC 可以通过易查的 SOC 来判定。Theorem 1 进一步给出可查判据:系统 OOC 当且仅当可控性矩阵 \(\mathcal C = C[B_\theta\ \ A_\theta B_\theta\ \cdots\ A_\theta^{N-1}B_\theta]\) 满秩。这一步把"模型可控"从理论概念落成一个可在网络里施加的代数条件。

2. 可控规范型参数化:让可控性"由构造成立"而非靠损失约束。 直接把 \(-\min\mathrm{eig}(\mathcal C)\) 加进 loss 只是软约束、没有保证。Theorem 2 给出硬构造:先写出一个规范可控对 \((A^c_\theta, B^c_\theta)\)——其中 \(A^c_\theta\)\(n-1\) 行只含 0/1 且 1 都落在超对角线上、其余元素自由学,\(B^c_\theta\)\(n-1\) 行为 0、第 \(n\) 行为 1、其余自由学;再经一个可学的相似变换 \(P_\theta=\mathrm{diag}(P_1,P_2)\) 得到实际算子

\[A_\theta = P_\theta A^c_\theta P_\theta^{-1}, \qquad B_\theta = P_\theta B^c_\theta.\]

相似变换不改变可控性,所以无论 \(P_\theta\) 和那些自由元素怎么训练,\((A_\theta,B_\theta)\) 始终 OOC——可控性被永久"焊死"在参数化里。同时 \(P_\theta\) 提供表达力:没有它,输入对恒等坐标的影响会被严重限制。单输入 (\(m=1\)) 直接适用,多输入则经 Brunovský 分解扩展。

3. Gramian 正则塑形"可控程度":从二值可控走向良条件可控。 仅可控还不够——把系统从某些方向驱动可能需要极大输入能量。论文用有限时域输出 Gramian \(W^y_T=\int_0^T (Ce^{A_\theta\tau}B_\theta)(Ce^{A_\theta\tau}B_\theta)^\top d\tau\) 度量输入对物理状态的激励:\(\lambda_{\min}\) 太小意味着存在"难驱动"方向,条件数 \(\kappa\) 太大意味着可控性不均衡、优化病态。于是加正则

\[R_{\mathrm{gram}}(A_\theta,B_\theta)=\frac{1}{\lambda_{\min}(W^y_T)+\gamma}\ \kappa(W^y_T),\]

鼓励抬高最小特征值、压低条件数,得到各方向均衡、良条件的模型,降低下游控制能耗。

4. 端到端损失与 MPC 部署:长时域预测损失 + 凸 QP 控制。 训练目标为 \(\min_\theta L_{\mathrm{pred}}(\theta)+\lambda_{\mathrm{gram}}R_{\mathrm{gram}}\),其中预测损失 \(L_{\mathrm{pred}}=\frac{1}{t_f-t_0}\int_{t_0}^{t_f} w(t)\|\hat x(t)-x(t)\|_2^2 dt\)整段 rollout 上评估 (而非只看单步),权重 \(w(t)\) 带衰减以强调早期误差又兼顾全程;梯度穿过 ODE 求解器实现端到端训练。由于连续时间形式,模型支持不规则/多采样率数据,且能在与训练不同的控制频率下直接使用、无需重训。部署时把连续模型零阶保持离散化为 \((A^d_\theta,B^d_\theta)\),MPC 完全建在线性 surrogate 上,成为凸二次规划,求解快且有收敛保证。

实验关键数据

主实验 (预测精度 vs 数据量)

在 Mountain Car / Pendulum / Cartpole 三个非线性基准上,用不同数据比例 (1%~100%) 训练,比较 MLP、DKO (Deep Koopman Operator) 与本文方法的预测 MSE:

环境 方法 1% 5% 10% 30%
Mountain Car DKO 0.0200 0.00022 0.00016
Mountain Car Ours 0.0032 0.00019 0.00011
Pendulum DKO 1.5347 0.1079 0.0390 0.0086
Pendulum Ours 0.3747 0.0318 0.0114 0.0061
Cartpole DKO 0.1306 0.01452 0.007585 0.00064
Cartpole Ours 0.0095 0.0024 0.001153 0.000571

数据 <30% 时本文显著领先;数据充足时与 DKO 相当 (说明二者表达力都够),但关键区别是本文由构造保证可控而 DKO 只能事后评估且无保证。训练曲线显示本文收敛更快、稳定在更低 loss。

控制性能 (嵌入 MPC 的输入能耗)

环境 任务 数据 DKO 代价 本文代价 相对↓
Mountain Car 上山 1% Fail 186.59
Mountain Car 上山 5% 297.51 165.21 44.5%
Pendulum 摆起保持 5% Fail 100.25
Pendulum 摆起保持 10% 239.2 43.50 81.8%
Cartpole 平衡 30% Fail 19.61

数据稀缺时 DKO 因模型不准/不可控常使 MPC 不可行 (Fail),本文则能完成任务且输入能耗显著更低。

多输入扩展

扩到 Reacher (MuJoCo)、7-DoF Franka 机械臂及六维基因调控网络 (GRN,3 控制输入):GRN 上本文测试 MSE \(1.0\times10^{-4}\) vs DKO \(3.0\times10^{-4}\);控制任务输入代价 80.96 vs DKO 89.98,验证规范型与训练流程可超越单输入设定。

关键发现

  • 可控性不仅是下游保证,更是强归纳偏置:提升数据效率、加速收敛、稳定预测
  • 离散 MLP 难以捕捉连续动力学,rollout 误差快速累积。
  • 多输入设定优化更难稳定、数据稀缺时性能退化更快——是规范型扩展的主要挑战。

亮点与洞察

  • "先验即剪枝"的清晰叙事:把可控性当作约束搜索空间的结构先验 (Figure 1 直观展示限制到可控模型集大幅缩小参数空间),把一个看似只服务下游控制的性质,转化成提升数据效率的训练杠杆。
  • 理论闭环漂亮:OOC↔SOC 等价 (Lemma 1) → 可查秩判据 (Theorem 1) → 可控规范型硬构造 (Theorem 2),一条链把"难验证的非线性可控性"落成"可微参数化",而非软 loss 妥协。
  • 相似变换是点睛之笔:用 \(P_\theta\) 在保证可控不变的同时恢复表达力,解决了规范型"够可控但不够灵活"的张力。
  • 连续时间带来工程红利:天然支持不规则/多采样率数据,且训练频率与控制频率解耦、无需重训——这是很多离散 Koopman 方法做不到的。

局限与展望

  • 多输入仍是软肋:作者自陈多输入可控性在初始化与参数化上更复杂,实践中"如何把控制输入分配给状态变量"往往不清楚,数据稀缺时性能退化更快。
  • 实验规模偏经典控制基准:以 Pendulum/Cartpole/Mountain Car 为主,机械臂/GRN 放在附录,缺少高维真实世界系统的大规模验证。
  • 可控性 ≠ 稳定性/安全性:本文只硬编码可控性,稳定性、安全约束等其他关键闭环性质仍需另行处理 (相关工作 Fan et al. 2024 走的是稳定性 LMI 路线)。
  • Gramian 正则需调参\(\lambda_{\mathrm{gram}}\)\(\gamma\)、Gramian 时域 \(T\) 等引入额外超参,其对不同系统的敏感度未充分讨论。

相关工作与启发

  • Koopman 表示学习:DMD 及其扩展依赖预设基函数;近年用自编码器/神经网络学观测量 (Lusch 2018, Yeung 2019),但多数只盯多步预测、少有结构性质。本文是少数把可控性"由构造"嵌入的工作。
  • 可控性先例:Han et al. 2020 把 Kalman 秩条件当 loss (无保证),Choi et al. 2024 只在精确表示假设下做理论分析 (无可计算方法)——本文补上了可计算的硬约束。
  • 其他结构先验:Fan et al. 2024 用 LMI 参数化嵌入可稳定性,Guo et al. 2025 用神经网络非线性嵌入控制输入但需事后 Lie bracket 检查。本文展示了"规范型参数化"这条更干净的硬编码路线。
  • 启发:把领域内"难验证但重要"的结构性质 (可控/可观/稳定/守恒) 转写成等价的可微参数化、焊进网络权重,是把控制理论先验注入深度模型的通用范式,值得迁移到稳定性、无源性等其他性质。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次给出可用于 Koopman 表示的 OOC 可控规范型并把可控性"由构造"嵌入端到端学习,理论与方法都新。
  • 实验充分度: ⭐⭐⭐⭐ 在多基准 + 数据效率 + MPC 控制 + 多输入扩展上系统验证,但仍以经典控制环境为主、缺大规模真实系统。
  • 写作质量: ⭐⭐⭐⭐⭐ 动机—理论—方法—实验逻辑清晰,定义/定理层层递进,图示 (先验剪枝、可控性关系图、pipeline) 到位。
  • 价值: ⭐⭐⭐⭐⭐ 在数据稀缺下同时保证预测精度与可控性、直接接入凸 MPC,对学习型控制 (learning for control) 有实打实的工程与理论价值。