ICLR 2026 强化学习多任务强化学习世界模型在线 RL TD-MPC2 连续控制语言条件策略

Learning Massively Multitask World Models for Continuous Control¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=MPabX9LEds
代码: https://www.nicklashansen.com/NewtWM
领域: reinforcement learning
关键词: 多任务强化学习, 世界模型, 在线 RL, TD-MPC2, 连续控制, 语言条件策略

一句话总结¶

作者提出了首个面向"大规模多任务在线 RL"的基准 MMBench（200 个任务、10 个领域）和一个语言条件世界模型 Newt（基于 TD-MPC2），通过"先用示范预训练、再在所有任务上联合在线交互优化"的范式，证明单个智能体确实能用在线 RL 同时学会数百个连续控制任务。

研究背景与动机¶

领域现状：通用控制需要智能体跨任务、跨形态地行动，而当下主流做法是用监督学习在海量近专家轨迹（多由人类遥操作采集）上训一个大策略。视频游戏和推理领域已经验证了"大规模预训练 + 轻量 RL"的基础模型配方，但连续控制社区却长期被单任务或纯离线设定主导。

现有痛点：纯模仿学习有两个硬伤——(i) 训练数据量被遥操作采集能力卡死，(ii) 策略性能上限被示范质量封顶。而在线 RL 这条"持续自我提升"的路在连续控制里几乎没人敢碰，社区普遍相信"在线 RL 在这个领域无法 scale"。

核心矛盾：要做通用控制就得跨数百个任务在线学习，但大规模在线多任务 RL 同时面临探索困难、观测/动作空间异构、奖励尺度差异巨大、任务难以区分、训练时间不可接受这五重挑战，没有现成算法能全扛下来。

本文目标：直接挑战"在线 RL 不 scale"的成见，回答一个问题——单个策略能否用在线 RL 一次性训好数百个控制任务？

核心 idea：[基准] 先造一个 200 任务的 MMBench，每个任务都配语言指令、示范和可选图像观测；[方法] 再把单任务模型基 RL 算法 TD-MPC2 扩展成语言条件的多任务世界模型 Newt，用"示范预训练 + 全任务联合在线优化"的基础模型配方把它学出来。

方法详解¶

整体框架¶

Newt 是一个基于 TD-MPC2 的语言条件、可选图像条件的多任务世界模型：它在学到的潜空间里做轨迹优化（规划）来选动作，整个流程分两阶段——先在示范数据上模型级预训练获得任务感知的表征与动作先验，再在全部 200 个任务上联合在线交互持续优化。智能体不断与多任务环境交互采数据、再在采到的数据上更新世界模型，世界模型吃状态向量、语言指令和可选 RGB 图像，通过规划输出动作。

flowchart LR
    A[多任务环境<br/>200 tasks] -->|采集 s,a,r| B[Replay Buffer<br/>在线 + 示范]
    B --> C[Newt 世界模型]
    subgraph C [Newt 世界模型]
        D[CLIP 编码语言 g] --> E[状态编码器 h]
        F[DINOv2 编码图像 x] --> E
        E -->|潜状态 z| G[潜动力学 d]
        G --> H[奖励 R / 值 Q / 策略先验 p]
    end
    C -->|规划选动作| A
    I[示范数据] -.模型级预训练.-> C

关键设计¶

1. 自预测多任务世界模型：把异构任务塞进一个无解码器架构 TD-MPC2 用联合嵌入预测（自预测动力学）、奖励预测和 TD-learning 来训世界模型，而非像生成式世界模型那样解码原始未来观测。这种无解码器设计不仅省掉解码器算力，更关键的是"以控制为中心"——它直接学着在给定动作序列下准确预测回报。Newt 把它扩展成六个组件：语言编码 \(g=\text{CLIP}_{\text{text}}(s_{\text{lang}})\)、图像编码 \(x=\text{DINOv2}(s_{\text{img}})\)、状态编码 \(z=h(s_{\text{state}},x,g)\)、潜动力学 \(z'=d(z,a,g)\)、奖励 \(\hat r=R(z,a,g)\)、终值 \(\hat q=Q(z,a,g)\) 和策略先验 \(\hat a=p(z,g)\)，多输入组件统一靠拼接后送进首层 MLP。世界模型按 \(L(\theta)=\mathbb{E}_{\tau\sim B}\sum_t \lambda^t(\lVert z'_t-\text{sg}(h(\cdot))\rVert_2^2+\ell_{CE}(\hat r_t,r_t)+\ell_{CE}(\hat q_t,q_t))\) 联合优化，其中 stop-grad 防表征坍缩，\(\lambda\) 让时间上更远的样本权重指数衰减。针对多任务下奖励/值分布差异巨大的难题，奖励和值都用离散回归（交叉熵）而非 MSE，并在对数变换空间建模，让单个预测头就能覆盖极宽的数值范围；又因各任务回合长度差异大，采用逐任务折扣因子 \(\gamma\)。

2. 把示范榨干：四条路径同时灌入动作先验 大规模多任务在线 RL 的探索瓶颈极重，作者给每个任务配 10–40 条示范（由单任务 TD-MPC2 采集），并用四种方式把它们用到极致。其一是模型级预训练——在线交互前先用示范把式(1)的所有可学组件一起优化 \(L(\theta)+L_p(\theta)\)，且暂时关掉策略目标里的 Q 值项以充分吃下强动作监督，区别于以往只预训编码器/策略的做法。其二是约束规划——预训练切到在线 RL 时值函数还不准、规划反而比直接用预训练策略差，于是初期把规划器偏置向预训练策略、并在前 12% 训练里线性退火到零。其三是示范过采样——示范和在线交互各用独立 replay buffer、按 50%:50% 等比例采样，让示范在训练数据里被人为过表示、始终可用。其四是RL 策略更新里的动作监督——策略目标 \(L_p(\theta)=\mathbb{E}\sum_t\lambda^t(\lVert p(z_t,g)-a_t\rVert_2^2-Q(z_t,p(z_t,g),g)-H(p(\cdot|z_t,g)))\) 里那个模型级 BC 项，在 Q 值估计不准时直接给出动作监督、正则化策略目标，同时把规划选出的动作蒸馏进表达力较弱的策略先验。

3. 用工程把"在线 RL 不 scale"打回去：异步环境 + 分布式加速 大规模在线 RL 之所以被认为不可行，很大程度是算力和工程问题。作者把模型更新、环境交互、replay buffer 分布到多进程多 GPU，用 torch.compile 编译训练和推理代码，并为 200 个分散在多种机器人模拟器、2D 游戏引擎、模拟器里的环境提供 docker 镜像和环境 wrapper，支持异步步进/渲染、批量帧堆叠与图像编码、缓存语言嵌入、任务完成自动重置。这套加速管线把墙钟时间压到单卡 RTX 3090 约 11.2 天就能在 200 任务上跑完 100M 步，让算力有限的研究者也能复现，本质上是用工程证明"在线 RL 在连续控制里是能 scale 的"。

实验关键数据¶

主实验（200 任务 / 100M 环境步 / 状态观测）¶

方法	类型	相对表现
BC（语言条件多任务）	模仿	弱基线，性能被示范质量封顶
200× 单任务 BC	模仿	单任务上限参考
PPO（调参+语言条件）	on-policy RL	明显低于 Newt
FastTD3（n-step=8）	off-policy RL	明显低于 Newt
TD-MPC2（多任务在线，匹配参数量）	模型基 RL	低于 Newt（无语言/预训练/示范/BC）
Newt（本文）	模型基 RL	数据效率与总分均最高

Newt 的优势主要来自 DMControl、DMControl Ext.、ManiSkill、MiniArcade 四个领域；但在 MuJoCo、Box2D、Atari 上所有 RL 方法都偏弱（作者推测是这些领域任务彼此太独特、共享结构少，如 Atari 各游戏除动作空间外几乎无共性）。

消融实验（20M 参数 / 200 任务）¶

设计维度	关键结论
模型规模（2M→80M）	多任务下扩大模型有明显收益（单任务里几乎无效），但存在上限
批大小（128→1024）	扩大 batch 同样有益，疑似存在"计算最优(模型,batch)规模"
语言条件（None/CLIP/Task ID）	CLIP 把归一化分从 0.371 → 0.438，RoboDesk 这类纯观测无法区分任务的领域受益最大；且 CLIP 在训练任务上能匹配 Task ID，还额外支持对未见任务泛化
示范用法（去 demos/去预训练/去 BC vs 全用）	预训练、过采样、BC 任一单独用都有帮助，四者合用数据效率与渐近性能最佳

关键发现¶

少样本迁移：预训练 Newt 在 20 个未见任务/形态上零样本得分 0.192（从头训仅 0.013），100k 步微调后达 0.868（基线仅 0.480），展现非平凡迁移能力。
开环控制：在 8 个任务上规划至 48 步（训练 horizon 仅 3，长 16×）仍能执行无环境反馈的开环计划，多数任务性能逼近闭环，说明世界模型学到了有意义的环境表征。
语言反噬泛化：未见语言指令有时会抑制零样本泛化——把待操作物体名词换成"cube"（不准但见过）在 6 个 push 任务上零样本成功率 +20.7%，而 pick-and-place 任务趋势相反。
视觉 RL：加 RGB 微调 30M 步后总分 0.442（state 为 0.438），RoboDesk +0.125、Meta-World +0.069，但 DMControl −0.029，视觉增益尚不稳定。

亮点与洞察¶

方法论级别的"祛魅"：本文最大价值不是某个单点 trick，而是系统性地证伪了"在线 RL 在连续控制不 scale"这一社区成见，把基础模型配方（大规模预训练 + 轻量 RL）首次落到了 200 任务的连续控制上。
基准 + 方法 + 资源三位一体：MMBench（220 任务，含 41 个新任务和全新的 MiniArcade）、Newt、以及 200+ checkpoint / 4000+ 示范 / 完整训练评测代码一并开源，对社区是即用型基础设施。
示范的四种用法拆得很细：把"加进 buffer"这件看似简单的事拆成预训练、约束规划、过采样、BC 监督四条互补路径，并通过消融证明合用最优，这种工程化的拆解很有借鉴价值。
无解码器世界模型 + 离散回归是应对多任务奖励/值尺度异构的关键——单预测头用对数空间交叉熵覆盖宽数值范围，避免了 MSE 在跨任务时的尺度灾难。

局限与展望¶

领域间收益极不均衡：MuJoCo、Box2D、Atari 上 Newt 常常只和 BC 基线持平，作者承认"在所有任务上一致提升"仍是开放难题，根因可能是这些领域任务共享结构太少。
语言泛化脆弱：未见指令会显著拖累零样本表现，说明语言条件目前更多是"区分训练任务"而非真正的语义泛化，鲁棒的指令泛化还需工作。
视觉增益不稳定：加 RGB 平均仅 +0.004，部分领域甚至倒退，高分辨率视觉的价值尚未被充分释放。
规模仍受限：消融显示进一步增加任务数需要按比例更大的模型和 batch，当前 20M 参数离"真正的控制基础模型"还有距离，作者也把更大规模 scaling 留作未来方向。

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模多任务在线 RL 基准 + 把基础模型配方落到连续控制，方向开创性强；单点算法多为已有技巧的系统整合。
实验充分度: ⭐⭐⭐⭐⭐ 200 任务 10 领域、5 个强基线、全维度消融、迁移/开环/视觉多角度分析，并开源 200+ checkpoint，扎实且可复现。
写作质量: ⭐⭐⭐⭐ 动机清晰、方法分层有条理、坦诚承认局限；附录依赖较重，正文部分细节需翻附录。
价值: ⭐⭐⭐⭐⭐ 基准 + 方法 + 海量资源一并开源，为"控制基础模型"提供了即用型基础设施和有力的可行性证据，社区影响力潜力大。