Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control¶
会议: ICLR 2026
arXiv: 2601.21363
代码: https://lift-humanoid.github.io
领域: 强化学习
关键词: 人形机器人控制, 大规模预训练, 高效微调, SAC, 物理先验世界模型, 仿真到现实
一句话总结¶
LIFT提出预训练-微调三阶段框架:(i) 大规模并行SAC预训练实现零样本部署;(ii) 基于拉格朗日动力学的物理先验世界模型离线预训练;(iii) 确定性动作执行+世界模型内随机探索的高效微调,在Booster T1和Unitree G1人形机器人上验证了从仿真到真实世界的全流程。
研究背景与动机¶
领域现状:PPO因大规模并行GPU仿真的鲁棒收敛成为人形机器人控制的主流方法,可实现零样本部署。但on-policy方法的低样本效率限制了安全适应新环境的能力。
现有痛点:(1) 直接用off-policy方法做大规模并行训练关注不足;(2) 微调时随机探索可能损坏执行器或导致不安全状态,对支撑面小的人形机器人尤其危险;(3) 从头训练model-based方法耗时极长且容易陷入局部最优。
核心矛盾:大规模预训练需要on-policy方法的稳定性和并行效率,而高效微调需要off-policy方法的样本效率和model-based方法的数据高效性。
本文目标:如何统一预训练和微调阶段的算法选择,同时保证安全性和效率?
切入角度:以SAC为统一backbone,预训练阶段用高UTD大批量并行训练,微调阶段将随机探索限制在世界模型内,环境中只执行确定性动作。
核心 idea:SAC贯穿预训练-微调全流程,物理先验世界模型桥接仿真与真实,确定性执行+模型内探索实现安全高效微调。
方法详解¶
整体框架¶
LIFT分三阶段:(i) 基于JAX的大规模SAC预训练(1024并行环境,高UTD=10),在MuJoCo Playground中快速收敛;(ii) 用预训练数据离线训练物理先验世界模型;(iii) 在新环境中用确定性策略收集数据,在世界模型内用随机策略探索生成合成轨迹,交替微调策略和世界模型。
关键设计¶
1. 大规模 SAC 预训练:让 off-policy 方法也能吃满 GPU 并行
PPO 之所以成为人形控制主流,靠的是大规模并行仿真带来的稳定收敛;但它 on-policy、样本效率低,微调阶段难以安全适应新环境。LIFT 想用 SAC 这种 off-policy 方法顶上来,难点在于把 SAC 也跑到与 PPO 可比的 wall-clock 效率。做法是用 JAX 把整个 SAC 全编译,固定 tensor 形状以触发高效的 OP fusion,从而在 1024 个并行环境里做大批量更新(batch=1024)和高 UTD(update-to-data ratio = 10)而不引入额外通信开销。网络上采用 asymmetric actor-critic——actor 只接收本体感知状态 \(s_t\)(部署时可得),critic 接收带特权信息的状态 \(s_t^p\)(仿真中可得)。选 SAC 而不是 PPO 还有一层考虑:它的 off-policy 性质天然能和后面的 model-based 微调拼接,而其状态依赖的随机策略在世界模型 rollout 里能提供更丰富的探索多样性。
2. 物理先验世界模型:把已知的刚体动力学交还给方程,只让网络学未知项
纯神经网络世界模型在有限数据下泛化差,常常给出物理上不合理的预测,进而让 critic 损失爆炸。LIFT 改用混合模型:骨架交给拉格朗日方程
其中惯性矩阵 \(M\)、科里奥利项 \(C\)、重力项 \(G\)、驱动映射 \(B\) 都由机器人几何/惯性参数确定,是已知量;只把难以建模的接触力和耗散项 \(J^\top F^e_t + \tau^d_t\) 留给残差网络 \(\tau_\phi(s_t,a_t)\) 去逼近。训练用带方差的高斯负对数似然,对特权状态的一步预测误差按预测方差加权:
这样世界模型继承了刚体动力学的归纳偏置,在数据稀少时也能给出物理自洽的 rollout,避免污染 critic。
3. 安全微调策略:环境里只走确定性动作,随机探索全部关进世界模型
人形机器人支撑面小,单支撑相位对扰动极度敏感,直接在真机或新环境里做随机探索很可能损坏执行器甚至摔倒。LIFT 把探索与执行解耦:在真实环境中只执行策略的确定性动作(action mean)来收集数据,所有随机探索都搬到世界模型内部进行——从 replay buffer 采样初始状态,在世界模型里自回归展开 \(H_{wm}=20\) 步合成轨迹,用这些轨迹训练 actor-critic。rollout 还带安全重置:一旦基座高度、速度、姿态角或关节状态越过预设阈值就立即终止该条轨迹。策略和世界模型交替更新,使得真机侧始终保持安全的确定性行为,而样本效率由模型内探索补足。
损失函数 / 训练策略¶
- 预训练:标准SAC目标 + Optuna超参搜索(约10小时),Booster T1训练时间从7小时降至30分钟
- 世界模型:高斯负对数似然损失,端到端梯度通过归一化、坐标变换、PD控制器和Euler积分反传
- 微调:多epoch自回归训练增强样本效率,长度2-4的自回归损失稳定学习
实验关键数据¶
预训练实验(6个人形任务)¶
- LIFT在所有flat terrain任务上达到与PPO/FastTD3可比的peak return
- 在rough terrain上更快稳定在peak性能
- 单GPU(RTX 4090)30分钟内完成Booster T1预训练
微调实验(Brax环境,8个seed)¶
| 场景 | LIFT | SAC | PPO | FastTD3 | SSRL |
|---|---|---|---|---|---|
| In-Distribution (0.6 m/s) | ✓ 收敛 | 发散 | 初始还行后崩溃 | 强振荡后崩溃 | 有收敛迹象但不达标 |
| Long-Tail (1.0 m/s) | ✓ 收敛 | 发散 | 崩溃 | 崩溃 | 不收敛 |
| OOD (1.5 m/s) | ✓ 收敛 | 发散 | 崩溃 | 崩溃 | 不收敛 |
微调仅需 \(4 \times 10^4\) 环境步(约800秒在线交互时间)。
消融实验¶
| 配置 | 结果 |
|---|---|
| 完整LIFT(SAC预训练+WM预训练) | 4×10⁴步内收敛到目标速度 |
| 去掉WM预训练 | 仍能收敛但明显慢 |
| 去掉SAC+WM预训练(=SSRL) | 只学会站立,几乎零前进速度 |
| MBPO ensemble替代物理先验WM | 不收敛,critic损失爆炸 |
真实世界微调¶
- 从80-590秒真实数据收集后,机器人展现更直立的姿态、更平滑的步态和更稳定的前进速度
- 限制:依赖Vicon动捕估计基座高度,IMU积分有漂移
亮点与洞察¶
- 统一backbone的优势:SAC贯穿预训练到微调避免了算法切换导致的目标不一致和遗忘
- 物理先验的关键性:消融实验定量证明纯神经网络世界模型在有限数据下完全无法工作,物理先验提供了必要的泛化归纳偏置
- 安全探索范式:确定性执行+模型内随机探索是一个可推广的范式,对任何需要安全微调的机器人系统都有参考价值
- 工程贡献:从SSRL代码中发现并修正了状态映射错误,增加基座高度到特权状态——对人形机器人是关键的
局限与展望¶
- 当前仅使用本体感知观测,不支持视觉输入
- 真实世界微调依赖外部运动捕捉系统和IMU积分
- 微调pipeline是同步的(数据收集→训练),异步pipeline可显著提高效率
- 动作修正可能unbounded(vs ASAP的delta-action方法)
相关工作与启发¶
- vs PPO: PPO在确定性数据收集+有限数据下逐渐退化崩溃,不适合微调场景
- vs SSRL: LIFT本质是SSRL的预训练增强版,验证了从头训练model-based在人形上不可行
- vs FastTD3: FastTD3虽实现了大规模off-policy训练,但缺乏微调验证和sim-to-real
- vs DreamerV3: Dreamer使用latent world model+learned reward,在确定性数据收集下不稳定
评分¶
- 新颖性: ⭐⭐⭐⭐ 预训练-微调框架结合物理先验世界模型,针对人形机器人的系统性解决方案
- 实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实、多平台(T1/G1)、多场景(in/out分布)、详细消融
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,消融设计合理,但文章较长
- 价值: ⭐⭐⭐⭐⭐ 提供了完整的开源pipeline,对人形机器人学习社区有直接实用价值