From Embedding to Control: Representations for Stochastic Multi-Object Systems¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=SZzpGvBRv5
代码: 随补充材料发布(论文未给独立仓库链接)
领域: 机器人控制 / 多体系统建模 / 表示学习
关键词: 可控嵌入, 再生核希尔伯特空间, 平均场近似, 图神经网络, 随机动力学, 线性控制
一句话总结¶
本文提出 Graph Controllable Embeddings (GCE),把随机多体系统的条件分布嵌入到再生核希尔伯特空间(RKHS)中使非线性动力学变线性,再结合图神经网络与平均场近似自适应建模非均匀交互,从而用简单的线性 LQR 控制器实现对随机、变拓扑多体系统的高效控制与少样本泛化。
研究背景与动机¶
- 领域现状:在机器人、电网、自治体系统里,被控对象往往是多个相互作用的物体,状态/动作都是连续空间的非线性随机动力学。主流"可控嵌入"思路是把状态抬升到一个潜空间,使动力学近似线性,从而能套用成熟的线性控制(如 LQR)。其中全局线性化以 Koopman 理论为代表,局部线性化常借助 VAE 学低维流形。
- 现有痛点:(1)Koopman 算子原本为确定性动力学设计,扩展到随机设定并不平凡;(2)多数 Koopman/VAE 方法把系统当成单一整体,忽略物体之间的关系拓扑,参数量随物体数二次增长、易过拟合、难泛化;(3)GNN 类方法虽天然建模交互,但目标是预测而非控制,学到的嵌入不具备线性/局部线性结构,后续要么再做局部线性化、要么硬上非线性控制,复杂且效果差。
- 核心矛盾:现有把图表示和可控嵌入拼起来的工作(如 Compositional Koopman)在随机设定下缺乏理论保证、普遍假设邻居均匀交互(概率意义上被错误指定)、且没有充分验证大规模/随机图的可扩展性与泛化。要在随机多体系统上既建得准又控得好,必须同时解决"随机性建模 + 非均匀交互 + 可扩展泛化"三件事。
- 本文目标:构造一个有理论保证的可控嵌入框架,使随机多体动力学在嵌入空间里变线性,支持简单线性控制,并能随物体数量与拓扑无缝扩展、对未见拓扑少样本泛化。
- 核心 idea:用希尔伯特空间嵌入直接表示受控随机动力学的条件分布——把概率分布嵌入 RKHS 后,条件期望可由一个线性"条件嵌入算子"闭式表达,从而既保留非线性表达力、又让动力学在 RKHS 里线性演化;再用平均场近似 + GNN 自适应权重把多体交互压成可低复杂度估计的形式。
方法详解¶
整体框架¶
GCE 把"建模"和"控制"统一在 RKHS 嵌入里:先用消息传递 GNN 把每个物体的历史/观测映射成 RKHS 特征,再用条件嵌入算子把"历史特征 + 动作特征"线性地推到下一步观测特征,其中物体间的非均匀影响由平均场近似下的自适应 Boltzmann–Gibbs 权重聚合;最后在线性化后的特征空间里直接解二次型代价,用 LQR 合成最优动作序列。
flowchart LR
A[t步多体观测 o_t<br/>图 G=V,E] --> B[GNN 编码器<br/>映射到 RKHS 特征 ψ]
B --> C[平均场近似<br/>自适应权重 α 聚合邻居历史特征]
C --> D[条件嵌入算子<br/>历史块 C_O|H + 动作块 C_O|A]
D --> E[预测 t+1 步观测特征]
E --> F[GNN 解码器 pullback<br/>回到观测空间]
D --> G[RKHS 内 LQR 控制<br/>解二次型代价]
G -->|最优动作序列 a_t| A
关键设计¶
1. 条件分布的希尔伯特空间嵌入:把随机动力学线性化的根基。 GCE 不去显式估计概率密度,而是把未来观测 \(O_t\) 在给定动作 \(a_t\)、历史 \(h_t\) 下的条件分布,用特征映射的条件期望来表示:\(\mathbb{E}[\psi^O_t \mid a_t, h_t] = \mathcal{C}_{O|AH}[\psi^h_t \otimes \psi^a_t]\)。其中 \(\psi\) 是把变量映入 RKHS 的特征图,\(\mathcal{C}_{O|AH}\) 是一个线性的条件嵌入算子。由于核是特征核(characteristic),这个嵌入能唯一确定条件分布,避开了密度估计;更关键的是——原本非线性的随机演化,在 RKHS 里变成"算子线性作用于特征",于是多步 rollout、控制规划都能在线性空间里递归完成。论文给出 Theorem 1,证明经验估计的算子在样本量趋于无穷时一致收敛,诱导出的条件分布也随之收敛,为整个框架提供了存在性与一致性的理论背书。
2. 历史-动作特征解耦:让序列动作优化变得可解。 直接用张量积 \(\psi^h_t \otimes \psi^a_t\) 维度极高、估计样本量大,且历史和动作纠缠在一起导致序列动作没法逐步优化。借鉴指数族联合分布的分解,本文把张量积近似成拼接后的线性叠加:\(\mathcal{C}_{O^i|A^jH^j}[\psi^{h,j}_t \otimes \psi^{a,j}_t] \approx \mathcal{C}_{O^i|H^j}\psi^{h,j}_t + \mathcal{C}_{O^i|A^j}\psi^{a,j}_t\)。这一步用拼接代替张量积,牺牲掉高阶交互项,换来两个好处:计算复杂度大幅下降,并且动作表示从历史里解耦出来,使得"找一段最优动作序列"重新变成一个可处理的线性优化问题——这正是后面能直接套 LQR 的前提。
3. 自适应平均场近似:打破均匀邻居假设又把复杂度压到线性。 即便解耦后,逐对估计所有 \(\mathcal{C}_{O^i|A^jH^j}\) 仍是 \(O(N^2)\)。本文用平均场近似,把"所有邻居的集体影响"聚合成一个加权和,但保留各邻居权重不等。邻居 \(j\) 对 \(i\) 的交互权重由 Boltzmann–Gibbs 形式给出:\(\alpha^{i,j}_t = \frac{\exp(f(\psi^{h,i}_t,\psi^{h,j}_t))}{\sum_{k\in E(i)}\exp(f(\psi^{h,i}_t,\psi^{h,k}_t))}\),其中 \(f\) 是成对的负势能函数(可用 Gaussian/Laplace/vMF 核或 MLP 参数化),分母是配分函数。于是历史项被近似为对聚合特征施加一个共享算子:\(\sum_{j\in E(i)}\mathcal{C}_{O^i|H^j}\psi^{h,j}_t \approx \mathcal{C}_{O^i|H}\big(\sum_{j\in E(i)}\alpha^{i,j}_t\psi^{h,j}_t\big)\),把每物体的历史侧计算降到常数时间、整体降到 \(O(N)\)。动作侧 \(\mathcal{C}_{O^i|A^j}\) 则保持不变以便动作优化。最终每个物体的观测特征期望写成 Eq.9:共享历史算子作用于自适应加权聚合 + 稀疏动作块之和。论文进一步比较 Tensor/Dense/Hom/Hom+Mean 四种嵌入形式(见 Table 1),证明 Hom+Mean 在样本复杂度、计算时间、自适应权重、随机图泛化上取得最佳平衡,并用随机矩阵理论证明其所需样本量只随"有效算子维度"而非图边数增长。
4. RKHS 内的端到端训练与 LQR 控制:线性结构直接变可控器。 编码器用消息传递 GNN 把观测映成 RKHS 特征,动作用固定线性投影成特征以利优化。训练靠两个损失:前向损失 \(L_{\mathrm{fwd}}\) 在特征空间用 Hilbert-Schmidt 范数约束"预测特征"逼近"真实观测特征"(所有 \(\hat{\mathcal{C}}_{O^i|H}\) 共享参数,支持 \(M\) 步自回归开环预测),重构损失 \(L_{\mathrm{rec}}\) 用同一 GNN 作解码器把特征 pullback 回观测空间。控制阶段直接在特征空间解一个 \(M\) 步二次型代价 \(\min_{\{V^a_t\}}\mathbb{E}[\sum_t \|\hat\psi^O_t-\psi^o_*\|^2_{Q_1}+\|\psi^a_t\|^2_{Q_2}]\),用凸优化求解最优动作序列——因为嵌入空间是线性的,这一步就是标准 LQR,无需任何额外非线性控制器。
实验关键数据¶
四个控制环境:Rope(顶端可控的质点链)、Soft(互联物体组成的软体机器人)、Swim(软体机器人在流体中游动)、Power-Grid(随机拓扑、100-150 节点的电压稳定)。指标为控制代价与控制误差 \(\|V^o_M-V^o_*\|/\|V^o_*\|\),200 次平均。Baseline 含无关系结构的可控嵌入(VAE、PCC)与图表示法(KPM、CKO、GraphODE),其中 CKO 是图嵌入控制的当前 SOTA。
主实验表格(Swim:In-Distribution / Few-Shot 控制代价与误差)¶
| 方法 | ID 代价 | ID 误差 | Few-Shot 代价 | Few-Shot 误差 |
|---|---|---|---|---|
| VAE | 573.1 | 0.73 | 835.4 | 0.92 |
| PCC | 513.3 | 0.68 | 732.8 | 0.80 |
| GraphODE | 417.8 | 0.52 | 693.5 | 0.58 |
| KPM | 385.5 | 0.44 | 523.4 | 0.61 |
| CKO (SOTA) | 389.1 | 0.42 | 421.0 | 0.44 |
| Ours (vMF) | 392.7 | 0.45 | 452.3 | 0.43 |
| Ours (Laplace) | 403.1 | 0.46 | 435.7 | 0.45 |
| Ours (Gaussian) | 383.7 | 0.41 | 404.3 | 0.41 |
Gaussian 变体在 ID 与 Few-Shot 上均最优;相比 CKO,少样本泛化的优势更明显(误差 0.44→0.41,代价 421→404)。
消融实验表格¶
不同噪声下 Power-Grid(随机图 100-150 物体,控制误差,NaN=失稳)
| 方法 | 无噪 | 2% | 5% | 10% | 20% |
|---|---|---|---|---|---|
| GraphODE | 0.58 | 0.62 | NaN | NaN | NaN |
| KPM | 0.42 | 0.50 | NaN | NaN | NaN |
| CKO | 0.47 | 0.48 | 0.51 | 0.65 | 0.85 |
| Ours (Gaussian) | 0.21 | 0.27 | 0.39 | 0.63 | 0.83 |
不同嵌入形式的样本效率(Rope,控制误差 vs 训练轨迹数)
| 方法 | 1 | 4 | 8 | 16 | 32 |
|---|---|---|---|---|---|
| Dense | 0.79 | 0.41 | 0.36 | 0.28 | 0.26 |
| Hom | 0.74 | 0.32 | 0.30 | 0.30 | 0.30 |
| Hom + Mean | 0.51 | 0.29 | 0.26 | 0.25 | 0.23 |
关键发现¶
- 专为多体设计的可控嵌入是必要的:VAE/PCC 能拟合单条轨迹但给不出可控的结构化特征;GraphODE 虽含关系结构却无显式可控设计、依赖自动微分的局部线性化,效果次优。
- 理论预测被实验验证:CKO 本质是 GCE 里 Hom 子类(均匀权重被错误指定),预测误差累积更快;KPM 的多项式特征不是特征核,无法忠实嵌入分布,在高噪声下崩溃(呼应 Theorem 1)。
- 平均场的非均匀加权显著提升泛化:Hom+Mean 在少样本(1 条轨迹)时误差 0.51,远好于 Dense(0.79)/Hom(0.74),且始终保持更低控制代价。
- Gaussian 核最稳:相比强调方向对齐的 vMF、衰减慢的 Laplace,Gaussian 提供更平滑稳定的平均场近似;神经网络参数化的能量函数在 RKHS 中反而不稳定。带宽 \(\sigma=2\)、特征维度 32 为最佳(\(\sigma\) 可解释为温度因子)。
亮点与洞察¶
- 把"随机多体控制"翻译成"RKHS 里的线性代数":核心洞见是用条件分布的希尔伯特空间嵌入,一举绕开密度估计、把随机非线性动力学化为线性算子作用,让控制重新落回 LQR 这种最成熟的工具上。
- 理论与工程闭环漂亮:从 Theorem 1 的一致性,到张量积解耦、平均场近似的样本复杂度证明,再到四种嵌入形式的系统对比(Table 1),每一步近似都有概率解释与复杂度分析,而非纯经验拼接。
- 统一视角解释了 baseline 为何失败:CKO=Hom(权重错误指定)、KPM 特征非 characteristic,把已有方法纳入同一框架并精确指出其失效根因,这种"用自己的理论解剖竞品"的写法很有说服力。
- 可扩展性是真亮点:把 \(O(N^2)\) 压到 \(O(N)\)、样本量只随有效算子维度增长,使其能在 100-150 节点随机拓扑电网上运行,并对未见拓扑少样本泛化。
局限与展望¶
- 只建模成对关系:当前框架局限于 pair-wise 交互,作者明确指出向超图(hypergraph)等更丰富关系结构、以及用注意力机制建模交互权重的扩展尚未探索。
- 能量函数参数化受限:神经网络化的 \(f\) 在 RKHS 中不稳定,目前依赖解析核(Gaussian 等),限制了表达力上限。
- 同质性假设:共享算子 \(\mathcal{C}_{O|H}\) 依赖"所有节点遵循同一交互律"的同质性设定,对于异质性很强的真实系统可能需要放宽。
- 高噪声下优势收窄:在 Power-Grid 10%/20% 噪声时与 CKO 差距缩小,极端噪声鲁棒性仍有提升空间。
相关工作与启发¶
- Koopman 谱系:本文是对 Compositional Koopman(Li et al. 2020,确定性多体)的随机化、理论化升级,把"全局线性化"从确定性扩到随机设定,并指出经典 Koopman 在随机/多体上的两大局限。
- 核嵌入谱系:条件分布的 RKHS 嵌入(Song/Fukumizu/Sriperumbudur 等)是方法论基石,本文把它从静态推断推向"受控动力学的序列控制"。
- GNN 物理模拟谱系:继承 Battaglia/Sanchez-Gonzalez 等数据驱动多体模拟,但把目标从"预测"转向"可控",这一转向是与该谱系最本质的区别。
- 启发:对做具身/多体控制的研究者,"先把动力学线性化再控制"+"平均场聚合非均匀交互"是一条值得借鉴的组合范式;其用 characteristic kernel 保证分布唯一性的论证,也提示了选择特征空间时的理论标准。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 把条件分布 RKHS 嵌入 + 平均场近似 + GNN 系统性地组合用于随机多体可控嵌入,并给出统一理论框架,思路新颖且整合度高。
- 实验充分度: ⭐⭐⭐⭐ — 四个差异化环境、ID/Few-Shot/多噪声/样本效率/带宽多维消融,且 Power-Grid 验证大规模随机拓扑,较为扎实;可惜缺真实机器人硬件验证。
- 写作质量: ⭐⭐⭐⭐ — 理论-方法-实验逻辑清晰,用自身框架解释 baseline 失效很有说服力;但 RKHS/算子记号密集,对非核方法背景读者门槛偏高。
- 价值: ⭐⭐⭐⭐ — 为随机多体系统控制提供了可扩展、有保证的表示学习范式,对机器人、电网等关系型控制问题有实用与理论双重价值。