跳转至

Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=sJ0vOOkclw
代码: https://yanningdai.github.io/stackelberg-ppo-co-design
领域: reinforcement learning
关键词: 形态-控制协同设计, Stackelberg 博弈, 隐式微分, PPO, 双层优化, 具身智能

一句话总结

把"机器人形态设计 + 控制策略"的协同优化重新建模成一个分阶段 Stackelberg 博弈(形态是 leader、控制是 follower),并推导出能穿过"不可微形态编辑接口"的 Stackelberg 策略梯度,封装成 Stackelberg PPO,让形态更新主动预判控制策略将如何适应,从而稳定训练、平均比最强基线高 20.66%。

研究背景与动机

  • 领域现状:形态-控制协同设计(morphology-control co-design)要同时优化智能体的身体结构(拓扑、几何、关节布局、驱动极限)和控制策略。两者必须互补——刚性腿没有合适步态走不动,再好的运动策略也救不了缺关节的身体。这是一个天然的双层(bi-level)结构:控制要动态适应形态才能发挥其真实性能。
  • 现有痛点:主流方法(Transform2Act、BodyGen 等)虽然嘴上承认双层结构,但为了实现简单退化成单层共享目标,优化形态时把控制策略当成固定不变。于是形态更新只用到了"直接梯度",丢掉了"控制会如何重新适应"这一项,导致形态更新方向与控制的最优响应错位,训练不稳、样本效率低、最终性能打折。
  • 核心矛盾:形态空间是离散、组合爆炸的,形态编辑(加肢体/删关节)是不可微的离散操作;而要把"控制的适应动态"反传回形态优化,就必须穿过这个不可微接口——直接反向传播(如 Stackelberg MADDPG 的做法)在这里根本走不通。
  • 本文目标:让 leader(形态)在更新时显式"预判" follower(控制)的最佳响应,但又不能依赖对不可微接口求导。
  • 核心 ideagame-theoretic 重构——把协同设计建成 Phase-Separated Stackelberg Markov Game(leader 先编辑 T 步形态、follower 再接管控制剩余 horizon),用 log-derivative 技巧绕开不可微接口,推出一个可被采样估计的 Stackelberg surrogate 梯度,再借 PPO 的似然比裁剪来稳住大幅策略偏移。

方法详解

整体框架

整个系统是一个"两阶段、不可微接口"的 leader-follower 博弈。Leader(形态策略 \(\pi^L_{\theta_L}\))先用 \(T\) 步离散编辑动作从初始结构 \(s^L_0\) 长出终态形态 \(s^L_T\);follower(控制策略 \(\pi^F_{\theta_F}\))以 \(s^L_T\) 为条件接管,在其定义的动作/状态空间里控制机器人完成任务。关键在于 leader 的目标 \(J^L\) 不仅含自身的结构编辑奖励 \(R^L\)(材料成本/设计复杂度),还把 follower 的长期回报算进去,因此 leader 梯度必须包含"通过影响 follower 来改善自己"的间接项。本文的核心工作就是把这个间接项在分阶段、不可微的设定下推导出来并稳定地估计。

flowchart LR
    S0["初始形态 s^L_0"] -->|"Leader: T步离散编辑<br/>(不可微 P_L)"| ST["终态形态 s^L_T"]
    ST -->|"条件化"| F["Follower 控制策略<br/>π^F(·|s^F; s^L_T)"]
    F -->|"长期回报 R^F"| J["Leader 目标 J^L<br/>= ΣR^L + ΣR^F"]
    J -.->|"Stackelberg 间接梯度<br/>(log-derivative 绕过不可微)"| S0

关键设计

1. 非对称目标 + Phase-Separated Stackelberg 建模:把"控制会适应"写进 leader 的账本。 不同于现有工作的单层共享目标 \(\max_{\theta_L,\theta_F} J_{\text{shared}}\),本文给 leader 和 follower 设非对称目标:leader 目标 \(J^L(\theta_L,\theta_F)=\mathbb{E}[\sum_{t=0}^{T-1}\gamma^t R^L + \sum_{t=T}^{\infty}\gamma^{t-T}R^F]\) 同时为结构编辑和下游控制性能负责;follower 目标 \(J^F\) 只管在固定形态下最大化长期控制回报。在此之上把交互定义成 Phase-Separated SMG——区别于经典 SMG 的 leader/follower 交替行动,这里是 leader 先连续走 \(T\) 步、follower 再接管,二者只通过终态 \(s^L_T\) 耦合。Leader 要解的是标准 Stackelberg 双层目标 \(\max_{\theta_L} J^L(\theta_L, \theta_F^*(\theta_L))\),其梯度 \(\nabla_{\theta_L}J^L = \underbrace{\nabla_{\theta_L}J^L}_{\text{直接}} + \underbrace{(\nabla_{\theta_L}\theta_F^*)^\top \nabla_{\theta_F}J^L}_{\text{经 follower 的间接}}\),正是被现有方法丢掉的那一项。

2. 用 log-derivative 推导可采样的 Stackelberg 梯度,绕开不可微接口。 间接项里最难的是交叉导数 \(\nabla_{\theta_L}\nabla_{\theta_F}J^F\)——经典做法需要对 leader 动作直接求导,但在这里 leader 和 follower 之间隔着不可微的形态转移 \(P_L\),反向传播无路可走。本文借鉴随机策略梯度的 log-derivative(似然比)技巧,构造一个 surrogate \(L^F_{L,F}\)(Theorem 1),把交叉导数表示成只依赖采样轨迹的、重要性加权的优势估计的期望,从而完全绕过 \(P_L\) 的不可微性,并证明该 surrogate 在 behavior 策略附近与真实 Stackelberg 梯度局部等价。其余的一阶导数 \(\nabla_{\theta_L}J^L\)\(\nabla_{\theta_F}J^L\)(Proposition 1)也用同款似然比 + 优势函数的形式给出,使得整条 Stackelberg 梯度都能从轨迹采样无偏估计。

3. Fisher 近似 Hessian + 恒等正则,治住不稳定的逆 Hessian。 间接梯度还需要 \((\nabla^2_{\theta_F}J^F)^{-1}\) 这个逆 Hessian,但优势项让原始 Hessian 通常不定(indefinite),求逆数值上极不稳。本文用 Fisher 信息矩阵替代——\(F(\theta_F)=\nabla^2_{\theta_F}L^F_{KL}\),它半正定,可由新旧策略间 KL 散度估计(natural policy gradient / TRPO 同款思路);再加一个小的恒等正则 \((\nabla^2_{\theta_F}L^F_{KL}+\lambda I)^{-1}\)\(\lambda\) 起插值作用:\(\lambda\to\infty\) 退化成普通策略梯度(丢掉 Stackelberg 项),\(\lambda\to 0\) 是纯 Stackelberg 梯度,中间取值兼顾稳定与策略预判。

4. PPO 似然比裁剪稳住大幅形态偏移,conjugate gradient 高效求解。 由于 surrogate 只在 behavior 策略附近与真梯度局部等价,策略一旦更新过大近似就失效。本文把 PPO 的 likelihood-ratio clipping 嫁接到 Stackelberg surrogate 上(作者强调这不是简单复用,而是建立在新推导 surrogate 的局部近似理论之上),约束策略偏移、保证优化稳定。最终 leader 的 Stackelberg 梯度按 \(\nabla_{\theta_L}\hat{J}^L = \nabla_{\theta_L}\hat{L}^L_L - \nabla_{\theta_L}\nabla_{\theta_F}\hat{L}^F_{L,F}\,(\nabla^2_{\theta_F}\hat{L}^F_{KL}+\lambda I)^{-1}\nabla_{\theta_F}\hat{L}^L_F\) 计算:先用 conjugate gradient(只需 Hessian-向量积,经 Pearlmutter 法无需显式构造 Hessian)求逆 Hessian 乘向量,再做一次 Jacobian-向量积,全程不显式构造大矩阵,工程上可落地。

实验关键数据

环境:MuJoCo 形态-控制协同设计任务,含平地任务(Crawler/Cheetah/Swimmer/Glider/Walker)、复杂地形(TerrainCrosser),新增爬台阶任务(Stepper-Regular/Hard)和接触密集 3D 操作任务(Pusher)。形态为带深度/分支/自由度约束的树结构。每方法 7 个随机种子。基线在 BodyGen 之上实现,唯一改动是换成 Stackelberg 策略梯度。

主实验

对比维度 结果
相对最强基线平均提升 +20.66%
复杂 3D 大设计空间任务(Crawler/Stepper-Regular/Stepper-Hard/Pusher)平均提升 +32.02%
对比进化类方法(ESS/NGE) 样本效率显著更高(省去逐个候选形态的昂贵 rollout)
对比无 Stackelberg 的 vanilla 梯度(BodyGen) 样本效率与最终性能均更优

对比方法:ESS(进化结构搜索)、NGE(神经图进化)、Transform2Act(并发 RL 协同设计)、BodyGen(主基线,Transformer + 图感知位置编码)。

消融实验(均在 Stepper-Regular 上)

消融项 设置 关键结论
正则参数 \(\lambda\) \(\{0,0.5,1,5,10,\infty\}\) \(\lambda\in[0.5,10]\) 鲁棒;\(\lambda=0\)\(\infty\) 两端退化 → 正则必要
Hessian 计算 Fisher 近似 vs 解析二阶 Fisher ≈6000 vs 解析 ≈2500,性能近翻倍(半正定避免数值不稳)
PPO 裁剪阈值 \(\epsilon\) sweep + no-clip \(\epsilon\le 0.4\) 稳定低 KL;去裁剪 → KL 暴涨、性能崩

Leader horizon \(T\) 对比(Stepper-Regular,Stackelberg PPO vs BodyGen):

\(T\) Stackelberg PPO BodyGen
3 6188.99±681.06 3663.06±571.30
5 7215.20±449.02 4685.94±645.23
7 8260.74±148.58 6879.60±175.41
9 6739.51±631.35 3375.11±486.54
11 6874.34±604.42 3216.77±657.61

关键发现

  • \(T=7\) 附近最佳:更长 horizon 允许更丰富的形态编辑,但过大(\(T=11\))反而难优化、轻微退化——不过仍优于过短的 \(T=3\)
  • 增大 \(T\) 不会让 leader 梯度方差比 BodyGen 更高,说明 Stackelberg 更新在宽 horizon 范围内都稳。
  • 优势在大设计空间的复杂 3D 任务上最突出(+32%),正是形态-控制需要紧密协调的场景。

亮点与洞察

  • 把"协同设计的双层本质"真正用进梯度里:现有方法口头双层、实际单层;本文是据作者所知首次把隐式 Stackelberg 微分用到 PPO 下的形态-控制协同设计。
  • 不可微接口的优雅绕行:用 log-derivative 把交叉导数转成可采样的似然比期望,避免了对离散形态转移求导这条死路——这是方法能成立的关键招。
  • \(\lambda\) 的插值视角很漂亮:一个标量把"纯 Stackelberg 预判"和"普通策略梯度"连续连接,既给了理论解释也给了实用旋钮。
  • 理论与稳定性双保险:surrogate 局部等价有证明,Fisher + 恒等正则 + PPO 裁剪三重稳定化,工程可落地(CG + Pearlmutter 避免显式大矩阵)。

局限与展望

  • Sim-to-real 缺口:实验全在 MuJoCo 仿真,未建模的硬件约束与材料动力学使真机部署仍是开放难题,作者明确列为首要未来方向。
  • horizon 敏感\(T\) 过大优化变难、性能下滑,意味着 leader 编辑序列长度需要调;对更大/可变拓扑空间的可扩展性待验证。
  • 超参数较多\(\lambda\)\(\epsilon\)\(T\) 都需调,虽各自有鲁棒区间,但叠加起来的搜索成本未充分讨论。
  • 奖励设计偏简单:为公平比较各任务奖励都强调前向速度,更复杂/多目标任务下 Stackelberg 预判是否仍稳健未知。
  • 作者畅想走向"自演化人工生命体",但这属远景叙事而非本文证据支撑。

相关工作与启发

  • 形态-控制协同设计谱系:从早期把协同设计当离散不可微搜索的进化策略(Sims 1994、Cheney 2018),到引入结构先验/参数共享复用经验(NGE、Dong 2023),再到把结构生成当 MDP 序列编辑的 RL 方法(Transform2Act、BodyGen)。本文指出后者虽用 RL 但仍因离散编辑阻断了跨接口的梯度传播,于是建立了一条"让控制适应直接影响形态更新"的梯度通道。
  • Stackelberg 博弈与 RL:经典从静态 normal-form 博弈,到把 leader-follower 结构嵌入序列决策(Stackelberg DDPG、Stackelberg MADDPG)。已有隐式微分工作多在 DDPG 式显式动作耦合 + 交替更新下做;本文两点不同——leader 动作(形态编辑)无法直接传给 follower、且双方都用非交替的 PPO 更新——把隐式 Stackelberg 梯度扩展到这个更一般的 regime。
  • 启发:任何"上层离散决策 + 下层连续适应"的双层问题(如神经架构搜索 + 训练、任务分配 + 调度)都可借鉴这套"log-derivative 绕不可微接口 + Fisher 稳逆 Hessian + PPO 裁剪"的组合拳。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把分阶段不可微的协同设计严格建成 Stackelberg 博弈并推出可采样的隐式梯度,是该问题下首次,理论贡献扎实。
  • 实验充分度: ⭐⭐⭐⭐ 9 个任务 + 4 基线 + 7 种子 + 4 组消融(λ/Hessian/ε/T),覆盖较全;但仅限仿真、无真机,且主结果以学习曲线为主、缺更系统的数值汇总表。
  • 写作质量: ⭐⭐⭐⭐ 动机—建模—推导—算法层层递进,公式与定理清晰;但方法部分数学密度高,对不熟悉隐式微分的读者门槛较陡。
  • 价值: ⭐⭐⭐⭐ 为协同设计提供了一个原理性更强的优化框架,且方法对更广的"离散上层 + 连续下层"双层 RL 问题有迁移潜力。