Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control¶

会议: ICLR 2026
arXiv: 2601.21363
代码: https://lift-humanoid.github.io
领域: 强化学习
关键词: 人形机器人控制, 大规模预训练, 高效微调, SAC, 物理先验世界模型, 仿真到现实

一句话总结¶

LIFT提出预训练-微调三阶段框架：(i) 大规模并行SAC预训练实现零样本部署；(ii) 基于拉格朗日动力学的物理先验世界模型离线预训练；(iii) 确定性动作执行+世界模型内随机探索的高效微调，在Booster T1和Unitree G1人形机器人上验证了从仿真到真实世界的全流程。

研究背景与动机¶

领域现状：PPO因大规模并行GPU仿真的鲁棒收敛成为人形机器人控制的主流方法，可实现零样本部署。但on-policy方法的低样本效率限制了安全适应新环境的能力。

现有痛点：(1) 直接用off-policy方法做大规模并行训练关注不足；(2) 微调时随机探索可能损坏执行器或导致不安全状态，对支撑面小的人形机器人尤其危险；(3) 从头训练model-based方法耗时极长且容易陷入局部最优。

核心矛盾：大规模预训练需要on-policy方法的稳定性和并行效率，而高效微调需要off-policy方法的样本效率和model-based方法的数据高效性。

本文目标：如何统一预训练和微调阶段的算法选择，同时保证安全性和效率？

切入角度：以SAC为统一backbone，预训练阶段用高UTD大批量并行训练，微调阶段将随机探索限制在世界模型内，环境中只执行确定性动作。

核心 idea：SAC贯穿预训练-微调全流程，物理先验世界模型桥接仿真与真实，确定性执行+模型内探索实现安全高效微调。

方法详解¶

整体框架¶

LIFT分三阶段：(i) 基于JAX的大规模SAC预训练（1024并行环境，高UTD=10），在MuJoCo Playground中快速收敛；(ii) 用预训练数据离线训练物理先验世界模型；(iii) 在新环境中用确定性策略收集数据，在世界模型内用随机策略探索生成合成轨迹，交替微调策略和世界模型。

关键设计¶

大规模SAC预训练:
- 功能：在GPU上并行训练SAC，实现与PPO可比的wall-clock效率
- 核心思路：JAX实现的全编译SAC，固定tensor形状实现高效OP fusion，大批量更新（batch=1024）和高UTD（=10）在1024并行环境中无额外通信开销
- 使用asymmetric actor-critic——actor接收本体感知状态 \(s_t\)，critic接收特权状态 \(s_t^p\)
- 设计动机：SAC的off-policy特性使其比PPO更自然地与model-based方法集成，状态依赖的随机策略在世界模型rollout中提供更好的探索多样性
物理先验世界模型:
- 功能：结合刚体动力学先验和学习残差的混合模型
- 核心思路：基于拉格朗日方程 \(M(q_t)\ddot{q_t} + C(q_t,\dot{q_t}) + G(q_t) = B\tau_t + J^\top F^e_t + \tau^d_t\)，其中 \(M,C,G,B\) 已知（取决于机器人几何/惯性参数），用残差网络 \(\tau_\phi(s_t,a_t) \approx J^\top F^e_t + \tau^d_t\) 学习未知的接触力和耗散项
- 损失函数：\(\mathcal{L}_\phi = \frac{1}{B}\sum_{b=1}^{B}((\hat{s}^p_{b,t+\Delta t} - s^p_{b,t+\Delta t})^2 \odot \exp(-\log\sigma^2_{b,t}) + \log\sigma^2_{b,t})\)
- 设计动机：纯神经网络世界模型在有限数据下泛化能力差，会产生物理不合理的预测导致critic损失爆炸
安全微调策略:
- 功能：在新环境中安全高效地微调策略
- 核心思路：环境中执行确定性动作（action mean），随机探索仅在世界模型rollout中进行。从replay buffer采样初始状态，在世界模型中展开 \(H_{wm}=20\) 步轨迹用于训练actor-critic
- 安全重置：当基座高度、速度、姿态角或关节状态超出预设阈值时立即终止rollout
- 设计动机：人形机器人支撑面小，单支撑相对扰动极度敏感，随机探索可能导致摔倒

损失函数 / 训练策略¶

预训练：标准SAC目标 + Optuna超参搜索（约10小时），Booster T1训练时间从7小时降至30分钟
世界模型：高斯负对数似然损失，端到端梯度通过归一化、坐标变换、PD控制器和Euler积分反传
微调：多epoch自回归训练增强样本效率，长度2-4的自回归损失稳定学习

实验关键数据¶

预训练实验（6个人形任务）¶

LIFT在所有flat terrain任务上达到与PPO/FastTD3可比的peak return
在rough terrain上更快稳定在peak性能
单GPU（RTX 4090）30分钟内完成Booster T1预训练

微调实验（Brax环境，8个seed）¶

场景	LIFT	SAC	PPO	FastTD3	SSRL
In-Distribution (0.6 m/s)	✓ 收敛	发散	初始还行后崩溃	强振荡后崩溃	有收敛迹象但不达标
Long-Tail (1.0 m/s)	✓ 收敛	发散	崩溃	崩溃	不收敛
OOD (1.5 m/s)	✓ 收敛	发散	崩溃	崩溃	不收敛

微调仅需 \(4 \times 10^4\) 环境步（约800秒在线交互时间）。

消融实验¶

配置	结果
完整LIFT（SAC预训练+WM预训练）	4×10⁴步内收敛到目标速度
去掉WM预训练	仍能收敛但明显慢
去掉SAC+WM预训练（=SSRL）	只学会站立，几乎零前进速度
MBPO ensemble替代物理先验WM	不收敛，critic损失爆炸

真实世界微调¶

从80-590秒真实数据收集后，机器人展现更直立的姿态、更平滑的步态和更稳定的前进速度
限制：依赖Vicon动捕估计基座高度，IMU积分有漂移

亮点与洞察¶

统一backbone的优势：SAC贯穿预训练到微调避免了算法切换导致的目标不一致和遗忘
物理先验的关键性：消融实验定量证明纯神经网络世界模型在有限数据下完全无法工作，物理先验提供了必要的泛化归纳偏置
安全探索范式：确定性执行+模型内随机探索是一个可推广的范式，对任何需要安全微调的机器人系统都有参考价值
工程贡献：从SSRL代码中发现并修正了状态映射错误，增加基座高度到特权状态——对人形机器人是关键的

局限与展望¶

当前仅使用本体感知观测，不支持视觉输入
真实世界微调依赖外部运动捕捉系统和IMU积分
微调pipeline是同步的（数据收集→训练），异步pipeline可显著提高效率
动作修正可能unbounded（vs ASAP的delta-action方法）

评分¶

新颖性: ⭐⭐⭐⭐ 预训练-微调框架结合物理先验世界模型，针对人形机器人的系统性解决方案
实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实、多平台（T1/G1）、多场景（in/out分布）、详细消融
写作质量: ⭐⭐⭐⭐ 问题动机清晰，消融设计合理，但文章较长
价值: ⭐⭐⭐⭐⭐ 提供了完整的开源pipeline，对人形机器人学习社区有直接实用价值