Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking¶

会议: CVPR 2026
arXiv: 2606.03985
代码: https://github.com/GalaxyGeneralRobotics/Humanoid-GPT/ (有)
领域: 人形机器人 / 全身控制 / 运动跟踪 / Scaling Law
关键词: 人形机器人, 运动跟踪, 零样本泛化, GPT 因果 Transformer, 数据 scaling

一句话总结¶

把人形机器人全身运动跟踪重新表述为 GPT 式的因果序列建模问题：先在约 20 亿帧重定向运动语料上聚类训练数百个 PPO 专家，再用 DAgger 把它们蒸馏进一个带因果掩码的 Transformer，从而在真实 Unitree-G1 上同时实现高动态敏捷性和对未见动作的零样本跟踪，并给出了运动跟踪任务的 scaling law。

研究背景与动机¶

领域现状：在语言和视觉里，泛化能力最可靠的来路是"做大"——更大的数据、更大的模型、精心设计的训练目标，scaling 往往还会解锁新能力。但人形运动跟踪没走上这条路：当前主流的跟踪器大多是在小规模运动语料上训练的浅层 MLP，连常用数据集（AMASS、LAFAN1 等）也只有约 \(10^4\) 条轨迹、约 720 万帧。

现有痛点：规模严重不匹配导致一个顽固的失效模式——敏捷性与泛化性此消彼长。在域内敏捷动作上表现好的跟踪器（如 BeyondMimic、ASAP）往往无法零样本泛化到未见动作；泛化稍好的（如 TWIST、UniTracker）又在高动态复杂动作上欠拟合、跟踪精度发软。

核心矛盾：作者主张这个 trade-off 不是本质的，而是规模不足 + 训练设计不匹配的症状。但单纯往同一条流水线里塞更多片段也不够——当数据量涨几个数量级时，有三件事变得致命：① 该用什么数据、怎么清洗海量噪声数据；② 什么模型结构既符合在线跟踪（因果）约束、又能随规模持续变好；③ 什么训练配方在数据从百万涨到十亿帧时依然稳定。

本文目标：构建一个通用的、在线的人形运动跟踪器，让它同时具备敏捷性和零样本泛化，并把"为什么 scale 有用"讲成可量化的规律。

切入角度：在线跟踪本质上是因果的（测试时拿不到未来观测），而浅层 MLP 与非因果建模都会很早饱和——所以应该换成天然因果、且随数据/模型规模干净扩展的 GPT 式 Transformer。

核心 idea：把运动跟踪当作序列建模——用 GPT 因果注意力预测每个关节的 PD 目标，把数百个 RL 专家的知识蒸馏进一个生成式 Transformer，并用一套可平衡的多样性采样把十亿级语料的长尾喂均匀。

方法详解¶

整体框架¶

Humanoid-GPT 是一个三阶段流水线：(a) 数据治理与处理 → (b) 在聚类上训练 PPO 运动专家 → (c) 用并行 DAgger 把所有专家蒸馏进单个 Transformer 通才策略。输入是一段参考运动（可以是未见的、在线重定向的人体动作），经重定向映射到 Unitree-G1 的 29 自由度关节空间；输出是机器人每个关节的 PD 控制目标，从而以全零样本方式实时复现参考动作。

之所以分两段（先专家、后蒸馏），是因为单个 PPO 专家只能在自己那一簇运动上做到物理可信，遇到分布外目标就急剧退化；而把上百个专家的行为统一蒸馏进一个因果 Transformer，既能跨域消除断层、又能随数据和模型规模持续涨点——这正是 MLP 学不到的地方。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始动作语料<br/>(AMASS/LAFAN1/<br/>MotionMillion/PHUMA+自采)"] --> B["十亿级数据治理<br/>重定向+过滤+时间扭曲增广"]
    B --> C["谐波运动嵌入 HME<br/>度量多样性→聚成~300 簇"]
    C --> D["聚类 PPO 专家<br/>关键点级奖励训练数百专家"]
    D --> E["因果 Transformer 蒸馏<br/>并行 DAgger 序列监督"]
    E --> F["零样本在线全身跟踪<br/>真实 G1 部署"]

关键设计¶

1. 十亿级运动语料治理：把噪声数据扩到 200 倍并保持稳定

痛点直接对应"数据从百万涨到十亿后流水线会崩"。作者聚合了所有公开的动捕来源（AMASS、LAFAN1、Motion-X++、PHUMA、MotionMillion）再加上大规模自采内部数据，用现成的重定向框架把每条人体序列映射到 G1 的 29-DoF 关节空间，并显式过滤掉带物体交互的序列（坐椅子、游泳、爬楼梯）以保证在平地场景里可执行。为增强对运动速度的鲁棒性，对每条序列做均匀加速/减速的时间扭曲增广，把数据扩到约原来的 5 倍，最终得到约 20 亿帧 / token 的 G1 重定向语料，比以往跟踪器训练集大 \(200\times\) 以上。关键在于：这个规模逼着系统重新设计奖励分量、重调敏感超参才能稳住训练，而正是在这个规模上，作者第一次给出系统证据——视频估计的运动也能实质性改善跟踪（小数据时这类噪声源往往帮倒忙）

2. 谐波运动嵌入 HME：用周期特征量化多样性、把长尾喂均匀

更多数据不等于更好泛化——大语料里常见风格会主导、稀有但重要的行为消失在长尾。HME 是一种直接从原始运动学习的表示：先在不同数据划分上训练若干 Periodic Autoencoder，提取每个关节的周期幅度与频率，再对每条序列聚合这些关节级谐波特征的均值与标准差，得到紧凑且有描述力的 HME 向量；最后用 K-Means（以两两距离为相似度）把全语料聚成约 300 个簇，每簇约 1k–2k 条序列，簇内一致、整体覆盖广。HME 还提供了可量化的多样性指标：给定嵌入矩阵 \(X\in\mathbb{R}^{N\times D}\) 与协方差 \(\Sigma\)，定义几何平均标准差 \(\text{gstd}=\exp\!\big(\frac{1}{D}\sum_{j=1}^{D}\log\sigma_j\big)\) 与对数体积 \(\text{log-volume}=\tfrac{1}{2}\log\det(\Sigma+\epsilon I)\)。作者的核心洞察是：多样性与平衡缺一不可——有多样性无平衡仍会过拟合高频模式，有平衡无多样性又会封顶能力上限，HME 让训练能做分布平衡的多样性感知采样

3. 聚类 PPO 专家 + 关键点级奖励：在每簇上学物理可信的运动先验

蒸馏的"老师"从哪来？在每个 HME 簇上训练一个 PPO 策略 \(\pi:\mathcal{G}\times\mathcal{S}\mapsto\mathcal{A}\)，把参考关节和本体感知观测映射为低层电机动作，再经 PD 控制器转成力矩。奖励在身体关键点级别计算（手臂、髋、脚、骨盆等），把位置/朝向/速度残差用指数软惩罚汇总：\(R_{\text{kpt}}(t)=R_{\text{pos}}(t)+R_{\text{rot}}(t)+R_{\text{vel}}(t)+R_{\text{penal}}(t)\)，其中位置项 \(R_{\text{pos}}(t)=\sum_{k\in\mathcal{K}}w_k\exp(-\alpha_{\text{pos}}\|e^{\text{pos}}_{k,t}\|_1)\)，旋转与速度项同理（用 \(\mathrm{SO}(3)\) log map 误差 \(\theta_{k,t}\) 与速度残差 \(e^{\text{vel}}_{k,t}\)），\(R_{\text{penal}}\) 含自接触、平滑度等惩罚。训练后只保留高保真、长时程稳定的专家，构成异质运动域上的先验库。之所以用关键点级而非纯关节角奖励，是为了把"全局精确"和"局部稳定"同时约束住

4. 因果 Transformer 蒸馏：用并行 DAgger 把序列监督榨干

把分散的专家融成一个通才。蒸馏阶段采用 DAgger 框架，但重新表述为序列建模：每个时刻 \(t\) 把本体状态 \(s_t\) 与目标参考姿态 \(q_t^{\text{ref}}\) 拼成 token \(e_t\)，把长度 \(H\) 的 token 序列 \(\{e_{t-H+1},\dots,e_t\}\) 喂进带时间因果掩码的 Transformer \(G_\theta\)。一次前向后，所有输出位置的动作都被对应老师在该历史上的输出监督：\(\hat{a}_{t-H+1:t}=\bigcup_{t_i\in\mathcal{T}}\operatorname{concat}_{k\in[-H+1,0]} t_i(s_{t-k}^{priv.},g_{t-k})\)，损失用 SmoothL1：\(l=\mathcal{L}(G_\theta(e_{t-H+1:t}),\hat{a}_{t-H+1:t})\)。这样一次前向就在多个时间步上吃到 DAgger 反馈，把 Transformer 的并行序列监督优势榨干；推理时维护一个最长 \(H\) 的历史 token 队列、取末位输出作当前控制目标。一个额外收益是：不同位置的 token 关注到的历史长度不同，模型隐式学到位置无关的时间预测，即使在 episode 开头历史稀缺时也能输出稳定可信的控制——这正是因果设计契合在线部署约束的地方

损失函数 / 训练策略¶

专家阶段用 PPO 优化关键点级奖励（公式 1），评估用 root pose error、velocity error 和稳定跟踪时长，只保留收敛到物理一致的专家。蒸馏阶段用 DAgger + SmoothL1 损失（公式 2），在长度 \(H\) 的因果窗口上做并行多步监督。部署侧把整模型导出 ONNX、用 TensorRT 编译计算图，并以 C++ 流式管线压低通信延迟，最终在单张 RTX 4090 上端到端推理延迟 < 1.5ms，约为 TWIST 的 5 倍快。

实验关键数据¶

主实验¶

在 MuJoCo 仿真、AMASS-test（训练时未见子集）上评估骨干架构与 scaling 效应。指标：跟踪成功率 SR（不摔倒比例）、平均每关节位置误差 MPJPE(rad)、平均每关节速度误差 MPJVE(rad/s)、根速度误差 RootVelErr(m/s)、平均每关键点位置误差 MPKPE(mm)。

骨干	训练 token	参数(M)	SR ↑	MPJPE ↓	MPJVE ↓	RootVelErr ↓	MPKPE ↓
MLP (3 层)	2M	0.25	76.89	0.1191	0.6081	0.2304	100.49
TCN (8 层)	2M	0.65	81.48	0.0885	0.5716	0.2266	79.75
Humanoid-GPT-S	2M	5.7	83.26	0.0853	0.5492	0.2049	62.65
Humanoid-GPT-S	20M	5.7	86.02	0.0802	0.5210	0.1868	46.49
Humanoid-GPT-B	200M	22.1	88.27	0.0793	0.5076	0.1820	44.78
Humanoid-GPT-B	2B	22.1	90.43	0.0768	0.4891	0.1756	41.49
Humanoid-GPT-L	2B	80.4	92.58	0.0735	0.4820	0.1785	40.99

最大的 Humanoid-GPT-L（2B token、80.4M 参数）在几乎所有指标上最优，SR 达 92.58%。MLP/TCN 也能从 scaling 受益，但暴露两个缺陷：数据 scaling 早饱和（TCN-L 在 2B token 才 89.05% SR，200M→2B 收益微弱）；小数据上大模型反而过拟合（仅 2M token 时 MLP-L 75.25% < MLP-S 76.89%，TCN-L 79.85% < TCN-S 81.48%）。即便最佳基线 TCN-L 的 MPKPE 56.15mm 仍比 Humanoid-GPT-S 的 43.25mm 落后约 30%。

真实世界评估¶

在真实 Unitree-G1 上跟踪四段训练时完全未见的高动态舞蹈动作（逐帧记录目标与执行关节配置算 MPJPE/MPJVE）：

骨干	Can Do Can Go! MPJPE	Gokuraku Joudo MPJPE	HuoYuanJia MPJPE	PokerFace MPJPE
GMT	0.1087	0.1098	0.0921	0.0994
TWIST	0.1253	0.1162	0.1079	0.1047
Any2Track	0.1039	0.1136	0.0956	0.0928
Humanoid-GPT-S	0.1024	0.1180	0.0825	0.0903
Humanoid-GPT-B	0.0974	0.1075	0.0858	0.0856

真实世界表现与仿真高度吻合，验证了强零样本 sim-to-real 迁移；在线遥操作（实时 MoCap 流重定向到 G1）也无需任何额外标定即可跟随蹲、迈步、转身、倾身等动作。

关键发现¶

架构是 scaling 的关键：Transformer 随数据/模型规模稳定持续涨点，而同等参数的 MLP 很早饱和——这是 Humanoid-GPT 把跟踪重表述为序列建模的最直接收益。
多样性与平衡缺一不可：作者用 HME 的 gstd / log-volume 量化数据集多样性，其 curated 大语料相比 AMASS 在 log-volume 上高约 4–5，更广的潜空间覆盖直接转化为更强的零样本先验。
数据 scaling 的边际递减信号：200M→2B token 之间增益略有减小，提示当前模型容量下进入"数据受限"区间，需继续放大模型才能吃满更多数据。
工程可落地：ONNX+TensorRT+C++ 流式管线把端到端延迟压到 <1.5ms（RTX 4090），约 5× 快于 TWIST，证明放大模型不必牺牲实时性。

亮点与洞察¶

把 trade-off 归因为"规模不足"而非"本质冲突"：以往工作默认敏捷性和泛化性必须取舍，本文用 200× 数据 + 因果 Transformer 证明二者可同时拿到，是观念层面的 reframe。
HME 把"多样性"做成了可度量、可采样的量：用周期自编码器抽谐波特征再聚类，既给出聚类依据、又给出 gstd/log-volume 这种可比指标，比泛泛说"我们数据更多样"实在得多，这套思路可迁移到任何需要平衡长尾的序列数据集。
并行 DAgger 序列监督：一次前向在 \(H\) 个时间步上同时吃老师反馈，把 Transformer 的并行性和 DAgger 的在线纠偏结合，蒸馏数百专家时效率优势明显。
位置无关的时间预测是因果设计的隐式红利：不同位置 token 关注不同长度历史，让模型在 episode 开头历史稀缺时仍稳定输出——这是把在线部署约束"设计进架构"的漂亮一笔。

局限与展望¶

仅单一硬件平台：所有实验都在 29-DoF Unitree-G1 上，跨形态（不同自由度/不同人形）的泛化未验证。
过滤掉了物体交互：为保证平地可执行，治理阶段显式剔除了坐椅、爬楼、游泳等交互动作，意味着当前系统不覆盖接触丰富的操作类任务。
数据受限信号已出现：200M→2B 增益递减，单纯堆数据回报在收窄；作者也承认需配合更大模型。
缺多模态输入：当前只吃本体状态 + 参考姿态，作者展望引入接触、视觉、语言等模态，并与长时程规划或 VLA 式指令耦合，走向更通用的具身基础模型。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把人形运动跟踪 reframe 为 GPT 式序列建模并配 200× 数据 + scaling law，HME 多样性度量是实打实的新工具。
实验充分度: ⭐⭐⭐⭐ 仿真有完整 scaling 表、真实 G1 有零样本舞蹈与在线遥操作验证，但局限于单一硬件、缺接触类任务。
写作质量: ⭐⭐⭐⭐⭐ 三问题驱动、动机—方法—实验逻辑清晰，scaling 论证扎实。
价值: ⭐⭐⭐⭐⭐ 给全身控制指出一条可量化的 scaling 路线图，真实硬件零样本 + <1.5ms 延迟具备很强落地意义。