ICLR 2026 强化学习形态-控制协同设计 Stackelberg 博弈隐式微分 PPO 双层优化具身智能

Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=sJ0vOOkclw
代码: https://yanningdai.github.io/stackelberg-ppo-co-design
领域: reinforcement learning
关键词: 形态-控制协同设计, Stackelberg 博弈, 隐式微分, PPO, 双层优化, 具身智能

一句话总结¶

把"机器人形态设计 + 控制策略"的协同优化重新建模成一个分阶段 Stackelberg 博弈（形态是 leader、控制是 follower），并推导出能穿过"不可微形态编辑接口"的 Stackelberg 策略梯度，封装成 Stackelberg PPO，让形态更新主动预判控制策略将如何适应，从而稳定训练、平均比最强基线高 20.66%。

研究背景与动机¶

领域现状：形态-控制协同设计（morphology-control co-design）要同时优化智能体的身体结构（拓扑、几何、关节布局、驱动极限）和控制策略。两者必须互补——刚性腿没有合适步态走不动，再好的运动策略也救不了缺关节的身体。这是一个天然的双层（bi-level）结构：控制要动态适应形态才能发挥其真实性能。
现有痛点：主流方法（Transform2Act、BodyGen 等）虽然嘴上承认双层结构，但为了实现简单退化成单层共享目标，优化形态时把控制策略当成固定不变。于是形态更新只用到了"直接梯度"，丢掉了"控制会如何重新适应"这一项，导致形态更新方向与控制的最优响应错位，训练不稳、样本效率低、最终性能打折。
核心矛盾：形态空间是离散、组合爆炸的，形态编辑（加肢体/删关节）是不可微的离散操作；而要把"控制的适应动态"反传回形态优化，就必须穿过这个不可微接口——直接反向传播（如 Stackelberg MADDPG 的做法）在这里根本走不通。
本文目标：让 leader（形态）在更新时显式"预判" follower（控制）的最佳响应，但又不能依赖对不可微接口求导。
核心 idea：game-theoretic 重构——把协同设计建成 Phase-Separated Stackelberg Markov Game（leader 先编辑 T 步形态、follower 再接管控制剩余 horizon），用 log-derivative 技巧绕开不可微接口，推出一个可被采样估计的 Stackelberg surrogate 梯度，再借 PPO 的似然比裁剪来稳住大幅策略偏移。

方法详解¶

整体框架¶

整个系统是一个"两阶段、不可微接口"的 leader-follower 博弈。Leader（形态策略 \(\pi^L_{\theta_L}\)）先用 \(T\) 步离散编辑动作从初始结构 \(s^L_0\) 长出终态形态 \(s^L_T\)；follower（控制策略 \(\pi^F_{\theta_F}\)）以 \(s^L_T\) 为条件接管，在其定义的动作/状态空间里控制机器人完成任务。关键在于 leader 的目标 \(J^L\) 不仅含自身的结构编辑奖励 \(R^L\)（材料成本/设计复杂度），还把 follower 的长期回报算进去，因此 leader 梯度必须包含"通过影响 follower 来改善自己"的间接项。本文的核心工作就是把这个间接项在分阶段、不可微的设定下推导出来并稳定地估计。

flowchart LR
    S0["初始形态 s^L_0"] -->|"Leader: T步离散编辑<br/>(不可微 P_L)"| ST["终态形态 s^L_T"]
    ST -->|"条件化"| F["Follower 控制策略<br/>π^F(·|s^F; s^L_T)"]
    F -->|"长期回报 R^F"| J["Leader 目标 J^L<br/>= ΣR^L + ΣR^F"]
    J -.->|"Stackelberg 间接梯度<br/>(log-derivative 绕过不可微)"| S0

关键设计¶

1. 非对称目标 + Phase-Separated Stackelberg 建模：把"控制会适应"写进 leader 的账本。 不同于现有工作的单层共享目标 \(\max_{\theta_L,\theta_F} J_{\text{shared}}\)，本文给 leader 和 follower 设非对称目标：leader 目标 \(J^L(\theta_L,\theta_F)=\mathbb{E}[\sum_{t=0}^{T-1}\gamma^t R^L + \sum_{t=T}^{\infty}\gamma^{t-T}R^F]\) 同时为结构编辑和下游控制性能负责；follower 目标 \(J^F\) 只管在固定形态下最大化长期控制回报。在此之上把交互定义成 Phase-Separated SMG——区别于经典 SMG 的 leader/follower 交替行动，这里是 leader 先连续走 \(T\) 步、follower 再接管，二者只通过终态 \(s^L_T\) 耦合。Leader 要解的是标准 Stackelberg 双层目标 \(\max_{\theta_L} J^L(\theta_L, \theta_F^*(\theta_L))\)，其梯度 \(\nabla_{\theta_L}J^L = \underbrace{\nabla_{\theta_L}J^L}_{\text{直接}} + \underbrace{(\nabla_{\theta_L}\theta_F^*)^\top \nabla_{\theta_F}J^L}_{\text{经 follower 的间接}}\)，正是被现有方法丢掉的那一项。

2. 用 log-derivative 推导可采样的 Stackelberg 梯度，绕开不可微接口。 间接项里最难的是交叉导数 \(\nabla_{\theta_L}\nabla_{\theta_F}J^F\)——经典做法需要对 leader 动作直接求导，但在这里 leader 和 follower 之间隔着不可微的形态转移 \(P_L\)，反向传播无路可走。本文借鉴随机策略梯度的 log-derivative（似然比）技巧，构造一个 surrogate \(L^F_{L,F}\)（Theorem 1），把交叉导数表示成只依赖采样轨迹的、重要性加权的优势估计的期望，从而完全绕过 \(P_L\) 的不可微性，并证明该 surrogate 在 behavior 策略附近与真实 Stackelberg 梯度局部等价。其余的一阶导数 \(\nabla_{\theta_L}J^L\)、\(\nabla_{\theta_F}J^L\)（Proposition 1）也用同款似然比 + 优势函数的形式给出，使得整条 Stackelberg 梯度都能从轨迹采样无偏估计。

3. Fisher 近似 Hessian + 恒等正则，治住不稳定的逆 Hessian。 间接梯度还需要 \((\nabla^2_{\theta_F}J^F)^{-1}\) 这个逆 Hessian，但优势项让原始 Hessian 通常不定（indefinite），求逆数值上极不稳。本文用 Fisher 信息矩阵替代——\(F(\theta_F)=\nabla^2_{\theta_F}L^F_{KL}\)，它半正定，可由新旧策略间 KL 散度估计（natural policy gradient / TRPO 同款思路）；再加一个小的恒等正则 \((\nabla^2_{\theta_F}L^F_{KL}+\lambda I)^{-1}\)，\(\lambda\) 起插值作用：\(\lambda\to\infty\) 退化成普通策略梯度（丢掉 Stackelberg 项），\(\lambda\to 0\) 是纯 Stackelberg 梯度，中间取值兼顾稳定与策略预判。

4. PPO 似然比裁剪稳住大幅形态偏移，conjugate gradient 高效求解。 由于 surrogate 只在 behavior 策略附近与真梯度局部等价，策略一旦更新过大近似就失效。本文把 PPO 的 likelihood-ratio clipping 嫁接到 Stackelberg surrogate 上（作者强调这不是简单复用，而是建立在新推导 surrogate 的局部近似理论之上），约束策略偏移、保证优化稳定。最终 leader 的 Stackelberg 梯度按 \(\nabla_{\theta_L}\hat{J}^L = \nabla_{\theta_L}\hat{L}^L_L - \nabla_{\theta_L}\nabla_{\theta_F}\hat{L}^F_{L,F}\,(\nabla^2_{\theta_F}\hat{L}^F_{KL}+\lambda I)^{-1}\nabla_{\theta_F}\hat{L}^L_F\) 计算：先用 conjugate gradient（只需 Hessian-向量积，经 Pearlmutter 法无需显式构造 Hessian）求逆 Hessian 乘向量，再做一次 Jacobian-向量积，全程不显式构造大矩阵，工程上可落地。

实验关键数据¶

环境：MuJoCo 形态-控制协同设计任务，含平地任务（Crawler/Cheetah/Swimmer/Glider/Walker）、复杂地形（TerrainCrosser），新增爬台阶任务（Stepper-Regular/Hard）和接触密集 3D 操作任务（Pusher）。形态为带深度/分支/自由度约束的树结构。每方法 7 个随机种子。基线在 BodyGen 之上实现，唯一改动是换成 Stackelberg 策略梯度。

主实验¶

对比维度	结果
相对最强基线平均提升	+20.66%
复杂 3D 大设计空间任务（Crawler/Stepper-Regular/Stepper-Hard/Pusher）平均提升	+32.02%
对比进化类方法（ESS/NGE）	样本效率显著更高（省去逐个候选形态的昂贵 rollout）
对比无 Stackelberg 的 vanilla 梯度（BodyGen）	样本效率与最终性能均更优

对比方法：ESS（进化结构搜索）、NGE（神经图进化）、Transform2Act（并发 RL 协同设计）、BodyGen（主基线，Transformer + 图感知位置编码）。

消融实验（均在 Stepper-Regular 上）¶

消融项	设置	关键结论
正则参数 \(\lambda\)	\(\{0,0.5,1,5,10,\infty\}\)	\(\lambda\in[0.5,10]\) 鲁棒；\(\lambda=0\) 或 \(\infty\) 两端退化 → 正则必要
Hessian 计算	Fisher 近似 vs 解析二阶	Fisher ≈6000 vs 解析 ≈2500，性能近翻倍（半正定避免数值不稳）
PPO 裁剪阈值 \(\epsilon\)	sweep + no-clip	\(\epsilon\le 0.4\) 稳定低 KL；去裁剪 → KL 暴涨、性能崩

Leader horizon \(T\) 对比（Stepper-Regular，Stackelberg PPO vs BodyGen）：

\(T\)	Stackelberg PPO	BodyGen
3	6188.99±681.06	3663.06±571.30
5	7215.20±449.02	4685.94±645.23
7	8260.74±148.58	6879.60±175.41
9	6739.51±631.35	3375.11±486.54
11	6874.34±604.42	3216.77±657.61

关键发现¶

\(T=7\) 附近最佳：更长 horizon 允许更丰富的形态编辑，但过大（\(T=11\)）反而难优化、轻微退化——不过仍优于过短的 \(T=3\)。
增大 \(T\) 不会让 leader 梯度方差比 BodyGen 更高，说明 Stackelberg 更新在宽 horizon 范围内都稳。
优势在大设计空间的复杂 3D 任务上最突出（+32%），正是形态-控制需要紧密协调的场景。

亮点与洞察¶

把"协同设计的双层本质"真正用进梯度里：现有方法口头双层、实际单层；本文是据作者所知首次把隐式 Stackelberg 微分用到 PPO 下的形态-控制协同设计。
不可微接口的优雅绕行：用 log-derivative 把交叉导数转成可采样的似然比期望，避免了对离散形态转移求导这条死路——这是方法能成立的关键招。
\(\lambda\) 的插值视角很漂亮：一个标量把"纯 Stackelberg 预判"和"普通策略梯度"连续连接，既给了理论解释也给了实用旋钮。
理论与稳定性双保险：surrogate 局部等价有证明，Fisher + 恒等正则 + PPO 裁剪三重稳定化，工程可落地（CG + Pearlmutter 避免显式大矩阵）。

局限与展望¶

Sim-to-real 缺口：实验全在 MuJoCo 仿真，未建模的硬件约束与材料动力学使真机部署仍是开放难题，作者明确列为首要未来方向。
horizon 敏感：\(T\) 过大优化变难、性能下滑，意味着 leader 编辑序列长度需要调；对更大/可变拓扑空间的可扩展性待验证。
超参数较多：\(\lambda\)、\(\epsilon\)、\(T\) 都需调，虽各自有鲁棒区间，但叠加起来的搜索成本未充分讨论。
奖励设计偏简单：为公平比较各任务奖励都强调前向速度，更复杂/多目标任务下 Stackelberg 预判是否仍稳健未知。
作者畅想走向"自演化人工生命体"，但这属远景叙事而非本文证据支撑。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把分阶段不可微的协同设计严格建成 Stackelberg 博弈并推出可采样的隐式梯度，是该问题下首次，理论贡献扎实。
实验充分度: ⭐⭐⭐⭐ 9 个任务 + 4 基线 + 7 种子 + 4 组消融（λ/Hessian/ε/T），覆盖较全；但仅限仿真、无真机，且主结果以学习曲线为主、缺更系统的数值汇总表。
写作质量: ⭐⭐⭐⭐ 动机—建模—推导—算法层层递进，公式与定理清晰；但方法部分数学密度高，对不熟悉隐式微分的读者门槛较陡。
价值: ⭐⭐⭐⭐ 为协同设计提供了一个原理性更强的优化框架，且方法对更广的"离散上层 + 连续下层"双层 RL 问题有迁移潜力。