ICLR 2026 机器人可控嵌入再生核希尔伯特空间平均场近似图神经网络随机动力学线性控制

From Embedding to Control: Representations for Stochastic Multi-Object Systems¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=SZzpGvBRv5
代码: 随补充材料发布（论文未给独立仓库链接）
领域: 机器人控制 / 多体系统建模 / 表示学习
关键词: 可控嵌入, 再生核希尔伯特空间, 平均场近似, 图神经网络, 随机动力学, 线性控制

一句话总结¶

本文提出 Graph Controllable Embeddings (GCE)，把随机多体系统的条件分布嵌入到再生核希尔伯特空间（RKHS）中使非线性动力学变线性，再结合图神经网络与平均场近似自适应建模非均匀交互，从而用简单的线性 LQR 控制器实现对随机、变拓扑多体系统的高效控制与少样本泛化。

研究背景与动机¶

领域现状：在机器人、电网、自治体系统里，被控对象往往是多个相互作用的物体，状态/动作都是连续空间的非线性随机动力学。主流"可控嵌入"思路是把状态抬升到一个潜空间，使动力学近似线性，从而能套用成熟的线性控制（如 LQR）。其中全局线性化以 Koopman 理论为代表，局部线性化常借助 VAE 学低维流形。
现有痛点：（1）Koopman 算子原本为确定性动力学设计，扩展到随机设定并不平凡；（2）多数 Koopman/VAE 方法把系统当成单一整体，忽略物体之间的关系拓扑，参数量随物体数二次增长、易过拟合、难泛化；（3）GNN 类方法虽天然建模交互，但目标是预测而非控制，学到的嵌入不具备线性/局部线性结构，后续要么再做局部线性化、要么硬上非线性控制，复杂且效果差。
核心矛盾：现有把图表示和可控嵌入拼起来的工作（如 Compositional Koopman）在随机设定下缺乏理论保证、普遍假设邻居均匀交互（概率意义上被错误指定）、且没有充分验证大规模/随机图的可扩展性与泛化。要在随机多体系统上既建得准又控得好，必须同时解决"随机性建模 + 非均匀交互 + 可扩展泛化"三件事。
本文目标：构造一个有理论保证的可控嵌入框架，使随机多体动力学在嵌入空间里变线性，支持简单线性控制，并能随物体数量与拓扑无缝扩展、对未见拓扑少样本泛化。
核心 idea：用希尔伯特空间嵌入直接表示受控随机动力学的条件分布——把概率分布嵌入 RKHS 后，条件期望可由一个线性"条件嵌入算子"闭式表达，从而既保留非线性表达力、又让动力学在 RKHS 里线性演化；再用平均场近似 + GNN 自适应权重把多体交互压成可低复杂度估计的形式。

方法详解¶

整体框架¶

GCE 把"建模"和"控制"统一在 RKHS 嵌入里：先用消息传递 GNN 把每个物体的历史/观测映射成 RKHS 特征，再用条件嵌入算子把"历史特征 + 动作特征"线性地推到下一步观测特征，其中物体间的非均匀影响由平均场近似下的自适应 Boltzmann–Gibbs 权重聚合；最后在线性化后的特征空间里直接解二次型代价，用 LQR 合成最优动作序列。

flowchart LR
    A[t步多体观测 o_t<br/>图 G=V,E] --> B[GNN 编码器<br/>映射到 RKHS 特征 ψ]
    B --> C[平均场近似<br/>自适应权重 α 聚合邻居历史特征]
    C --> D[条件嵌入算子<br/>历史块 C_O|H + 动作块 C_O|A]
    D --> E[预测 t+1 步观测特征]
    E --> F[GNN 解码器 pullback<br/>回到观测空间]
    D --> G[RKHS 内 LQR 控制<br/>解二次型代价]
    G -->|最优动作序列 a_t| A

关键设计¶

1. 条件分布的希尔伯特空间嵌入：把随机动力学线性化的根基。 GCE 不去显式估计概率密度，而是把未来观测 \(O_t\) 在给定动作 \(a_t\)、历史 \(h_t\) 下的条件分布，用特征映射的条件期望来表示：\(\mathbb{E}[\psi^O_t \mid a_t, h_t] = \mathcal{C}_{O|AH}[\psi^h_t \otimes \psi^a_t]\)。其中 \(\psi\) 是把变量映入 RKHS 的特征图，\(\mathcal{C}_{O|AH}\) 是一个线性的条件嵌入算子。由于核是特征核（characteristic），这个嵌入能唯一确定条件分布，避开了密度估计；更关键的是——原本非线性的随机演化，在 RKHS 里变成"算子线性作用于特征"，于是多步 rollout、控制规划都能在线性空间里递归完成。论文给出 Theorem 1，证明经验估计的算子在样本量趋于无穷时一致收敛，诱导出的条件分布也随之收敛，为整个框架提供了存在性与一致性的理论背书。

2. 历史-动作特征解耦：让序列动作优化变得可解。 直接用张量积 \(\psi^h_t \otimes \psi^a_t\) 维度极高、估计样本量大，且历史和动作纠缠在一起导致序列动作没法逐步优化。借鉴指数族联合分布的分解，本文把张量积近似成拼接后的线性叠加：\(\mathcal{C}_{O^i|A^jH^j}[\psi^{h,j}_t \otimes \psi^{a,j}_t] \approx \mathcal{C}_{O^i|H^j}\psi^{h,j}_t + \mathcal{C}_{O^i|A^j}\psi^{a,j}_t\)。这一步用拼接代替张量积，牺牲掉高阶交互项，换来两个好处：计算复杂度大幅下降，并且动作表示从历史里解耦出来，使得"找一段最优动作序列"重新变成一个可处理的线性优化问题——这正是后面能直接套 LQR 的前提。

3. 自适应平均场近似：打破均匀邻居假设又把复杂度压到线性。 即便解耦后，逐对估计所有 \(\mathcal{C}_{O^i|A^jH^j}\) 仍是 \(O(N^2)\)。本文用平均场近似，把"所有邻居的集体影响"聚合成一个加权和，但保留各邻居权重不等。邻居 \(j\) 对 \(i\) 的交互权重由 Boltzmann–Gibbs 形式给出：\(\alpha^{i,j}_t = \frac{\exp(f(\psi^{h,i}_t,\psi^{h,j}_t))}{\sum_{k\in E(i)}\exp(f(\psi^{h,i}_t,\psi^{h,k}_t))}\)，其中 \(f\) 是成对的负势能函数（可用 Gaussian/Laplace/vMF 核或 MLP 参数化），分母是配分函数。于是历史项被近似为对聚合特征施加一个共享算子：\(\sum_{j\in E(i)}\mathcal{C}_{O^i|H^j}\psi^{h,j}_t \approx \mathcal{C}_{O^i|H}\big(\sum_{j\in E(i)}\alpha^{i,j}_t\psi^{h,j}_t\big)\)，把每物体的历史侧计算降到常数时间、整体降到 \(O(N)\)。动作侧 \(\mathcal{C}_{O^i|A^j}\) 则保持不变以便动作优化。最终每个物体的观测特征期望写成 Eq.9：共享历史算子作用于自适应加权聚合 + 稀疏动作块之和。论文进一步比较 Tensor/Dense/Hom/Hom+Mean 四种嵌入形式（见 Table 1），证明 Hom+Mean 在样本复杂度、计算时间、自适应权重、随机图泛化上取得最佳平衡，并用随机矩阵理论证明其所需样本量只随"有效算子维度"而非图边数增长。

4. RKHS 内的端到端训练与 LQR 控制：线性结构直接变可控器。 编码器用消息传递 GNN 把观测映成 RKHS 特征，动作用固定线性投影成特征以利优化。训练靠两个损失：前向损失 \(L_{\mathrm{fwd}}\) 在特征空间用 Hilbert-Schmidt 范数约束"预测特征"逼近"真实观测特征"（所有 \(\hat{\mathcal{C}}_{O^i|H}\) 共享参数，支持 \(M\) 步自回归开环预测），重构损失 \(L_{\mathrm{rec}}\) 用同一 GNN 作解码器把特征 pullback 回观测空间。控制阶段直接在特征空间解一个 \(M\) 步二次型代价 \(\min_{\{V^a_t\}}\mathbb{E}[\sum_t \|\hat\psi^O_t-\psi^o_*\|^2_{Q_1}+\|\psi^a_t\|^2_{Q_2}]\)，用凸优化求解最优动作序列——因为嵌入空间是线性的，这一步就是标准 LQR，无需任何额外非线性控制器。

实验关键数据¶

四个控制环境：Rope（顶端可控的质点链）、Soft（互联物体组成的软体机器人）、Swim（软体机器人在流体中游动）、Power-Grid（随机拓扑、100-150 节点的电压稳定）。指标为控制代价与控制误差 \(\|V^o_M-V^o_*\|/\|V^o_*\|\)，200 次平均。Baseline 含无关系结构的可控嵌入（VAE、PCC）与图表示法（KPM、CKO、GraphODE），其中 CKO 是图嵌入控制的当前 SOTA。

主实验表格（Swim：In-Distribution / Few-Shot 控制代价与误差）¶

方法	ID 代价	ID 误差	Few-Shot 代价	Few-Shot 误差
VAE	573.1	0.73	835.4	0.92
PCC	513.3	0.68	732.8	0.80
GraphODE	417.8	0.52	693.5	0.58
KPM	385.5	0.44	523.4	0.61
CKO (SOTA)	389.1	0.42	421.0	0.44
Ours (vMF)	392.7	0.45	452.3	0.43
Ours (Laplace)	403.1	0.46	435.7	0.45
Ours (Gaussian)	383.7	0.41	404.3	0.41

Gaussian 变体在 ID 与 Few-Shot 上均最优；相比 CKO，少样本泛化的优势更明显（误差 0.44→0.41，代价 421→404）。

消融实验表格¶

不同噪声下 Power-Grid（随机图 100-150 物体，控制误差，NaN=失稳）

方法	无噪	2%	5%	10%	20%
GraphODE	0.58	0.62	NaN	NaN	NaN
KPM	0.42	0.50	NaN	NaN	NaN
CKO	0.47	0.48	0.51	0.65	0.85
Ours (Gaussian)	0.21	0.27	0.39	0.63	0.83

不同嵌入形式的样本效率（Rope，控制误差 vs 训练轨迹数）

方法	1	4	8	16	32
Dense	0.79	0.41	0.36	0.28	0.26
Hom	0.74	0.32	0.30	0.30	0.30
Hom + Mean	0.51	0.29	0.26	0.25	0.23

关键发现¶

专为多体设计的可控嵌入是必要的：VAE/PCC 能拟合单条轨迹但给不出可控的结构化特征；GraphODE 虽含关系结构却无显式可控设计、依赖自动微分的局部线性化，效果次优。
理论预测被实验验证：CKO 本质是 GCE 里 Hom 子类（均匀权重被错误指定），预测误差累积更快；KPM 的多项式特征不是特征核，无法忠实嵌入分布，在高噪声下崩溃（呼应 Theorem 1）。
平均场的非均匀加权显著提升泛化：Hom+Mean 在少样本（1 条轨迹）时误差 0.51，远好于 Dense(0.79)/Hom(0.74)，且始终保持更低控制代价。
Gaussian 核最稳：相比强调方向对齐的 vMF、衰减慢的 Laplace，Gaussian 提供更平滑稳定的平均场近似；神经网络参数化的能量函数在 RKHS 中反而不稳定。带宽 \(\sigma=2\)、特征维度 32 为最佳（\(\sigma\) 可解释为温度因子）。

亮点与洞察¶

把"随机多体控制"翻译成"RKHS 里的线性代数"：核心洞见是用条件分布的希尔伯特空间嵌入，一举绕开密度估计、把随机非线性动力学化为线性算子作用，让控制重新落回 LQR 这种最成熟的工具上。
理论与工程闭环漂亮：从 Theorem 1 的一致性，到张量积解耦、平均场近似的样本复杂度证明，再到四种嵌入形式的系统对比（Table 1），每一步近似都有概率解释与复杂度分析，而非纯经验拼接。
统一视角解释了 baseline 为何失败：CKO=Hom（权重错误指定）、KPM 特征非 characteristic，把已有方法纳入同一框架并精确指出其失效根因，这种"用自己的理论解剖竞品"的写法很有说服力。
可扩展性是真亮点：把 \(O(N^2)\) 压到 \(O(N)\)、样本量只随有效算子维度增长，使其能在 100-150 节点随机拓扑电网上运行，并对未见拓扑少样本泛化。

局限与展望¶

只建模成对关系：当前框架局限于 pair-wise 交互，作者明确指出向超图（hypergraph）等更丰富关系结构、以及用注意力机制建模交互权重的扩展尚未探索。
能量函数参数化受限：神经网络化的 \(f\) 在 RKHS 中不稳定，目前依赖解析核（Gaussian 等），限制了表达力上限。
同质性假设：共享算子 \(\mathcal{C}_{O|H}\) 依赖"所有节点遵循同一交互律"的同质性设定，对于异质性很强的真实系统可能需要放宽。
高噪声下优势收窄：在 Power-Grid 10%/20% 噪声时与 CKO 差距缩小，极端噪声鲁棒性仍有提升空间。

评分¶

新颖性: ⭐⭐⭐⭐ — 把条件分布 RKHS 嵌入 + 平均场近似 + GNN 系统性地组合用于随机多体可控嵌入，并给出统一理论框架，思路新颖且整合度高。
实验充分度: ⭐⭐⭐⭐ — 四个差异化环境、ID/Few-Shot/多噪声/样本效率/带宽多维消融，且 Power-Grid 验证大规模随机拓扑，较为扎实；可惜缺真实机器人硬件验证。
写作质量: ⭐⭐⭐⭐ — 理论-方法-实验逻辑清晰，用自身框架解释 baseline 失效很有说服力；但 RKHS/算子记号密集，对非核方法背景读者门槛偏高。
价值: ⭐⭐⭐⭐ — 为随机多体系统控制提供了可扩展、有保证的表示学习范式，对机器人、电网等关系型控制问题有实用与理论双重价值。