ICLR 2026 机器人人形机器人语言引导运动 retargeting-free 扩散策略运动隐变量 MoE 教师策略

From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=k3Cyx3Uets
代码: 项目主页（论文中提及 Project Page，未给开源仓库）
领域: 机器人 / 具身智能（语言驱动人形全身控制）
关键词: 人形机器人、语言引导运动、retargeting-free、扩散策略、运动隐变量、MoE 教师策略

一句话总结¶

RoboGhost 提出一个免重定向（retargeting-free）的语言驱动人形控制框架：让文本生成的"运动隐变量"直接作为条件去驱动一个扩散策略从噪声中去噪出可执行动作，绕开"解码运动→重定向到机器人→物理跟踪"这条易累积误差、高延迟的多阶段流水线，把从文本到部署的耗时从 17.85s 砍到 5.84s。

研究背景与动机¶

领域现状：用自然语言指挥人形机器人很直观——先用 text-to-motion（T2M）模型生成语义合理的人体运动，再部署到真机。但落地通常要走一条层级化流水线：从语言解码出人体运动 → 重定向（retarget）到机器人形态 → 用基于物理的控制器跟踪这条轨迹。

现有痛点：这条看似可用的流水线有系统性缺陷。(1) 误差在解码、重定向、跟踪三段间累积，语义保真度和物理可行性都被磨损；(2) 多个串行阶段带来高延迟，难以做实时交互；(3) 语言与控制耦合松散——每段各自孤立优化而非端到端。近期改进（改解码器或改控制器）都是局部修补，整条流水线依旧脆弱低效。

核心矛盾：要语义精确就得显式解码出运动并精细重定向，但重定向本身既慢又引入误差、还受运动生成器能力上限制约；想要快和鲁棒就得牺牲这条"精确"链路。

本文目标：找到一条从语言到动作的更直接路径，干掉脆弱的中间环节，同时保住语义意图、做到快速反应式控制。

核心 idea：把运动隐变量当作"一等公民"的条件信号——不再把它解码成显式运动，而是直接拿隐变量去条件化一个扩散人形策略，让策略从噪声里去噪出可直接执行的动作。作者把框架命名为 RoboGhost，强调这些隐变量像"幽灵"一样不可见却强力驱动机器人行为。

方法详解¶

整体框架¶

RoboGhost 是两阶段设计。阶段一用一个连续自回归运动生成器 \(G\)，把文本提示 \(T\) 编码成紧凑的运动隐变量 \(l_{ref}=G(T)\)（注意：到此为止不解码成显式运动）。阶段二训练策略：先用 PPO + 特权信息训一个 MoE 教师策略（oracle），再蒸馏出一个扩散学生策略 \(\pi_s\)，它以 \(l_{ref}\)、本体感知状态、历史观测为条件，从高斯噪声去噪出可执行动作。部署时只跑"文本→隐变量→扩散学生策略→动作"，彻底免重定向、免特权信息、免显式参考运动。

flowchart LR
    T[文本提示 T] --> G[连续自回归<br/>运动生成器]
    G --> L[运动隐变量 l_ref]
    L --> S[扩散学生策略 πs]
    O[本体感知 + 历史观测] --> S
    N[高斯噪声] --> S
    S --> A[可执行动作 a]
    A --> R[Unitree G1 人形]
    Teacher[MoE 教师策略<br/>PPO + 特权信息] -.DAgger 蒸馏.-> S

关键设计¶

1. 运动隐变量直驱、绕开重定向（retargeting-free latent driving）：这是全文的灵魂。传统流水线把 \(l_{ref}\) 解码成显式运动序列再重定向到机器人形态，每一步都丢精度、加延迟。RoboGhost 直接把 \(l_{ref}\) 连同本体状态 \(p_o\) 和历史观测 \(o_{t-H:t}\) 一起喂给策略，输出 \(a=\epsilon_\theta(\epsilon\mid l_{ref}, p_o, o_{t-H:t})\)。这样既跳过了易错的解码与重定向，又缓解了"运动生成器能力有限导致显式运动质量差"的问题——因为策略并不盲目照搬生成器输出，而是由一个可训练的隐变量编码器把粗糙的隐变量"翻译"成可执行、稳定的指令，即便隐变量本身不够物理真实也能产出鲁棒动作。

2. 扩散学生策略从噪声去噪出动作：学生策略不像传统蒸馏那样用显式参考运动，而是把运动隐变量作为条件做扩散去噪。训练走 DAgger 式流程——在仿真里 rollout 学生策略、向教师查询最优动作 \(\hat{a}_t\)，并在教师动作上逐步注入高斯噪声构成前向加噪马尔可夫过程 \(q(x_t\mid x_{t-1})=\mathcal{N}(x_t;\sqrt{1-\alpha_t}\,x_{t-1}, \alpha_t I)\)。为可解性采用 \(x_0\)-prediction，用 MSE 损失 \(L=\lVert a-\hat{a}_t\rVert_2^2\) 监督，其中 \(a=\frac{x_t-\sqrt{1-\bar{\alpha}_t}\,\epsilon_\theta(x_t,t)}{\sqrt{\bar{\alpha}_t}}\)。推理时为了流畅与低延迟，用 DDIM 加速采样并采用 MLP 形式的扩散模型，通过 AdaLN 把隐变量条件注入去噪过程。扩散策略天然能刻画多样的动作分布，因此面对噪声扰动和"不完美隐变量"都比 MLP 策略更鲁棒（实验显示其可容忍噪声尺度高达 0.33，而 MLP 仅 0.12）。

3. MoE 教师策略提供高泛化监督信号：文本天然开放，泛化才是关键。教师策略先在高多样性数据集 \(D_0\) 上训初始策略 \(\pi_0\)，再用下半身误差度量 \(e(s)=\alpha\cdot E_{key}(s)+\beta\cdot E_{dof}(s)\) 评估每条序列、过滤掉 \(e(s)>0.6\) 的难收敛样本，在剩余数据上训通用教师。教师网络引入 Mixture-of-Experts：多个专家网络与一个门控网络各自接收机器人状态观测和参考运动，最终动作是各专家输出按门控概率的加权 \(a=\sum_{i=1}^n p_i\cdot a_i\)。MoE 增强了策略的表达力与泛化能力，从而给学生策略提供更精确的监督。

4. 因果自适应采样（causal adaptive sampling）：长时程运动各片段难度异质，均匀采样会过采样简单段、欠采样困难段，导致高方差、低样本效率。作者把序列切成 \(K\) 个等长区间，并把"失败"归因到其因果前驱——假设在 \(k_t\) 区间终止的失败往往源于前 \(s\) 步的失误/碰撞。于是用指数衰减核 \(\alpha(u)=\gamma^u\)（\(\gamma\in(0,1)\)）给临近终止的时间步加权：\(\Delta p_i=\alpha(t-i)\cdot p,\ i\in[t-s,t]\)（区间外为 0），更新 \(p'_i\leftarrow p_i+\Delta p_i\) 并归一化后用多项分布采样起始区间，再在区间内均匀选起始帧。这样把训练算力集中到高难度片段，提升样本效率、让教师能掌握更长更敏捷的动作。

实验关键数据¶

主实验表格¶

运动跟踪（MotionMillion 的 HumanML / Kungfu 子集，IsaacGym & MuJoCo，成功率为主指标）：

方法	IsaacGym Succ↑	Empjpe↓	Empkpe↓	MuJoCo Succ↑	Empjpe↓
Baseline (MLP 师生) - HumanML	0.92	0.23	0.19	0.64	0.34
Ours-DDPM - HumanML	0.97	0.12	0.09	0.74	0.24
Ours-SiT - HumanML	0.98	0.14	0.08	0.72	0.26
Baseline - Kungfu	0.66	0.43	0.37	0.51	0.58
Ours-DDPM - Kungfu	0.72	0.34	0.31	0.57	0.54

文本到运动生成（HumanML3D）：Ours-SiT 取得 R@1=0.641、FID=11.743，与 MoMask、MotionStreamer 等强基线相当甚至更优。

消融实验表格¶

免重定向 vs 显式重定向（Q1，HumanML/Kungfu）：

方法	IsaacGym Succ↑	Empjpe↓	MuJoCo Succ↑	全流程耗时(s)↓
Ours-Explicit (含 PHC-1000 重定向+解码)	0.93	0.21	0.66	17.85
Ours-Implicit (本文)	0.97	0.12	0.74	5.84

扩散 vs MLP 策略（Q2，未见子集泛化）：扩散策略 Succ=0.68 vs MLP 0.54，Empjpe 0.42 vs 0.48；扩散在未见运动上的泛化与鲁棒性明显占优。

扩散骨干（Q3）：DiT 仅在生成指标上微涨（FID 14.28 vs 11.71 反不如 MLP），跟踪成功率无提升却延迟更高（耗时 14.28s vs 5.84s），故默认用 16 层 MLP。

关键发现¶

隐变量直驱是核心增益来源：免重定向把全流程从 17.85s 压到 5.84s（约 3×），同时成功率不降反升（0.93→0.97），证明重定向不仅慢还在拖累精度。
扩散策略的鲁棒性碾压 MLP：在 0.2 噪声尺度下 MLP 策略把噪声映射成抖动动作导致机器人摔倒，扩散策略仍稳定跟踪；可容忍最大噪声尺度 0.33（MLP 仅 0.12）。
真机验证：在 Unitree G1 上完成 backflip、跳跃、舞蹈等高动态动作的平滑、语义对齐执行，且跨 IsaacGym→MuJoCo→真机无需手工调参。

亮点与洞察¶

范式转变：把"语义→隐变量→显式运动→重定向→跟踪"压缩成"语义→隐变量→直接去噪动作"，第一次提出由运动隐变量驱动的扩散人形策略。隐变量作为条件而非中间产物，既保语义又免误差累积。
"不盲从生成器"很关键：可训练隐变量编码器让策略把不完美的隐变量当"软提议"而非"硬指令"，从根上解耦了"运动生成质量"与"控制质量"，这也是它在未见子集上仍鲁棒的原因。
因果归因式采样很有巧思：把失败往前回溯 \(s\) 步加权重采样，是对长时程稀疏失败信号的合理利用，对训敏捷动作很实用。
天然可扩展到多模态：框架对条件来源不敏感，文本之外还可接图像、音频、音乐，给视觉-语言-动作（VLA）人形系统提供了参考架构。

局限与展望¶

仍依赖重定向数据集训教师：阶段二教师策略训练用的是 retargeted dataset 与特权信息，"免重定向"只发生在部署/学生侧，训练管线本身没完全摆脱重定向。
Kungfu 等高动态场景成功率仍偏低（MuJoCo 上 0.55~0.57），sim-to-real 在极端敏捷动作上余量有限。
隐变量可解释性弱：作者自比"幽灵"，隐变量驱动虽有效但缺乏对失败的可解释诊断手段，调试与安全保证较难。
依赖预训练 T2M 生成器质量：虽对不完美隐变量有鲁棒性，但生成器对某些语义/分布外指令的覆盖仍是上界约束。
展望：把多模态条件（图像/音频/音乐）真正训通、引入闭环反馈与安全约束、在更大动作库与真机长时程任务上验证。

评分¶

新颖性: ⭐⭐⭐⭐ 首个由运动隐变量直驱的扩散人形策略，"免重定向"这一刀切得干净，范式层面有贡献（隐变量当一等条件）。
实验充分度: ⭐⭐⭐⭐ 覆盖生成+跟踪、两子集、两仿真器、真机 G1、噪声鲁棒性与多项消融，Q1-Q4 设计清晰；但缺与更多语言引导 WBC 方法的同台对比、真机数据偏定性。
写作质量: ⭐⭐⭐⭐ 动机-矛盾-方法逻辑顺畅，图表组织合理，公式与流程交代清楚；个别记号（如归一化式 \(\sum_i p'_1=1\)）有小笔误。
价值: ⭐⭐⭐⭐ 把语言到人形控制的延迟砍到约 1/3 且性能更好，对实时、可部署的人形 VLA 系统有直接工程价值与可扩展性。