跳转至

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

会议: ICLR 2026
OpenReview: 6T3wJQhvc3
代码: 见补充材料(项目页 sites.google.com/view/task-tokens)
领域: 强化学习
关键词: 行为基础模型、参数高效适配、人形控制、Task Token、PPO

一句话总结

针对"目标条件型行为基础模型"(GC-BFM,如 MaskedMimic)调下游任务时要么靠繁琐的 prompt 工程、要么全量微调会损坏先验的困境,本文提出 Task Tokens:冻结整个 BFM,只用强化学习训练一个轻量"任务编码器",让它产出一个塞进 transformer token 序列的可学习 token,从而把 BFM 适配到新任务上——每个任务只需约 200K 可训练参数(比基线少 ×125)、收敛快 ×6,且在改变重力/摩擦的 OOD 场景下比全量微调更鲁棒、动作更像人。

研究背景与动机

领域现状:模仿学习近年催生了一批基于 transformer 的行为基础模型(Behavior Foundation Models, BFMs),能为人形智能体生成多样、类人的动作。本文聚焦其中一类——目标条件型 BFM(GC-BFM),代表作是 MaskedMimic:它把"沿路径走""用右手够向物体"这类高层目标 token 化,喂进 transformer 作为条件,再生成动作。它最大的卖点是零样本泛化——给个新目标就能直接生成鲁棒动作,不用再训练。

现有痛点:可一旦要解决具体的复杂任务,GC-BFM 就尴尬了。两条现成路子都不好走:(1) prompt 工程——人工设计高层目标 token,动作虽稳但对很多任务很不直观,难以精确指定;(2) 奖励设计 / 全量微调——用环境奖励直接优化,但在长程复杂任务里奖励容易写错,且全量微调会破坏 BFM 预训练学到的丰富动作先验,导致动作不自然、还会灾难性遗忘。

核心矛盾:论文用一个很形象的例子点破——让角色"走到物体旁并击打它"。用奖励设计,角色常常倒着走到目标(奖励高但难看);用高层目标 prompt,又很难精确指定"击打"这种动作。模型生成鲁棒自然动作的能力特定任务所需的精确控制之间,存在一道根本的鸿沟。

本文目标:找到一个统一、灵活、可扩展的范式,把 BFM 适配到大量复杂下游任务上,同时保住原始动作的鲁棒性与多模态能力

切入角度:BFM 本身就是 transformer、本就以处理 token 序列为工作方式——那为什么不顺着它的输入接口,再加一个可学习的 token 进去?这样既不动模型参数,又能注入任务信息。再借鉴 NLP 里 LoRA / Adapter / Prefix-Tuning 这类参数高效适配思想:用一个轻量可训练模块、借冻结大模型回传的梯度来引导其行为。

核心 idea冻结 BFM,只训练一个产出"任务 token"的小编码器,用 RL 把任务奖励的优化压进这一个 token 里,从而在不碰基础模型的前提下完成任务适配。

方法详解

整体框架

方法要解决的是"如何在不动 BFM 的前提下把它适配到新任务"。Task Tokens 的做法是搭一个混合控制范式:BFM 的输入 token 序列里同时含三类来源——① 先验 token(Prior Token):可选,由用户通过文本/关节条件给出的高层行为先验,用 BFM 自带的预训练编码器生成;② 任务 token(Task Token):由本文新训的 Task Encoder 处理当前任务目标观测 \(g_t^i\) 后产出;③ 状态 token(State Token):当前环境状态 \(s_t^i\),同样走 BFM 自带编码器。这三类 token 拼成一句"token 句子"喂进冻结的 GC-BFM,由它整合后输出类人且任务最优的动作 \(a_t^i\)

训练时关键的一步是:用 PPO 计算策略梯度目标,但梯度是穿过冻结的 BFM 回流到 Task Encoder——只更新这个小编码器,BFM 参数一动不动。这样既拿到了 BFM 提供的有意义梯度信号,又保证生成动作始终落在 BFM 定义的"动作流形"上,鲁棒性和多模态能力得以保留。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    G["任务目标观测 g_t<br/>+ 本体感受信息"] --> TE["Task Encoder<br/>前馈网络(可训练)"]
    TE --> TT["Task Token<br/>τ ∈ R^512"]
    P["用户先验<br/>文本/关节条件"] -->|BFM自带编码器| PT["混合控制范式<br/>Prior Token(可选)"]
    S["环境状态 s_t"] -->|BFM自带编码器| ST["State Token"]
    TT --> SEQ["token 序列拼接"]
    PT --> SEQ
    ST --> SEQ
    SEQ --> BFM["冻结 BFM + 梯度穿透训练<br/>MaskedMimic(参数冻结)"]
    BFM --> A["类人 + 任务最优动作 a_t"]
    A -.->|"PPO 梯度穿过冻结 BFM"| TE

关键设计

1. Task Token:把任务信息压进 transformer 序列里的一个可学习 token

痛点是 GC-BFM 适配新任务时,要么人工拼 prompt、要么改模型本体。本文注意到 MaskedMimic 的 transformer 架构天然以 token 序列为输入、可以注意任意 token 组合,于是直接顺着这个接口插入一个专门为该任务学的 token:它把目标行为的独特需求和约束编码成一个简洁但信息量足的信号,引导基础模型产出任务相关的输出,同时不破坏其通用动作先验。这个设计的通用性在于——只要 BFM 能往输入里塞额外 token,Task Tokens 就能用,不依赖 MaskedMimic 的具体结构。一个任务对应一个 token,多任务就是多训几个小编码器,扩展开销极小。

2. Task Encoder:把任务目标观测映射成 token,并用本体感受信息对齐预训练表示

Task Token 不是凭空学一个静态向量,而是由 Task Encoder 在线产出:它接收当前任务目标观测 \(g_t^i\)(以智能体自身为参考系的 egocentric 表示),输出一个 \(\tau_t^i \in \mathbb{R}^{512}\) 的 token。观测随任务而变——比如 Steering 任务里 \(g_t^i\) 含目标移动方向 \(\in\mathbb{R}^2\)、朝向 \(\in\mathbb{R}^2\)、期望速度 \(\in\mathbb{R}\),合起来 \(\in\mathbb{R}^5\)。一个容易被忽略但关键的细节:因为 MaskedMimic 是被训练去"到达未来姿态目标"的,所以 Task Encoder 也额外喂入本体感受信息(proprioception),让编码器的输出和 BFM 的预训练表示对齐,才能给出有意义的目标信号(消融见原文 Section E)。编码器实现为一个简单的前馈网络,其输出 token 与其它编码器的 token 拼接,相当于在这句"token 句子"里加了引导任务的"专用词"。

3. 冻结 BFM + 梯度穿透训练:用 PPO 只更新编码器,保住先验不被破坏

这是全文最核心的设计取舍。训练用 PPO:BFM 基于含 task token 的组合输入预测动作概率,PPO 目标针对任务奖励和 BFM 的动作概率来算,梯度穿过冻结的 BFM 回流、只更新 Task Encoder 参数。作者明确指出这是有意为之——虽然全量微调可能在任务回报上更高,但会损害 BFM 的先验知识、让动作变得不自然不鲁棒。靠这一冻结策略,生成动作始终贴着 BFM 的动作流形,鲁棒性和多模态能力都保住了。直接收益是极致的参数效率:每个任务只需约 200K 可训练参数,而常规方法要约 20M(PULSE 9.3M、MaskedMimic 全量微调 25M),分别是 ×46.5 和 ×125 的差距。

4. 混合控制范式:用户高层先验 + 学习的奖励驱动优化协同

由于 BFM 输入天然能容纳多个 token,Task Token 可以和人工构造的先验 token 并肩使用,从而把"用目标好描述的部分"交给先验、"用奖励好描述的部分"交给 task token,二者互补。论文给了两个例子:Direction 任务只奖励朝正确方向移动、不管朝向,策略常学成倒着走——这时加一个"头部目标高度+朝向"的先验 token,就能收敛到直立向前走;Strike 任务里先用朝向先验让角色面向目标行进,临近时再用文本目标"a person performs a kick"引导它用脚踢击。关键在于:因为 BFM 是冻结的,这些预训练的多模态 prompt 能力被完整保留,学到的 token 与人工指定的行为能连贯整合;而全量微调会触发灾难性遗忘、丧失这种多模态 prompt 能力,PULSE 则压根不支持多模态 prompt。

损失函数 / 训练策略

训练目标即标准 PPO 的策略梯度目标 \(\pi^* = \arg\max_{\pi}\mathbb{E}_\pi[\sum_t \gamma^t r_t]\),奖励 \(r_t\) 为任务专属的稠密奖励。梯度只回传到 Task Encoder(约 200K 参数),BFM 全程冻结。每个下游任务训练一个独立的 Task Encoder。

实验关键数据

主实验

在 Isaac Gym 中用 69 自由度的 SMPL 人形做了五个任务:Reach(右手够目标)、Direction(朝随机方向走)、Steering(边走边朝向随机方向)、Strike(够到并击倒目标)、Long Jump(从目标点尽远跳,基于 SMPL-Olympics)。指标为成功率(5 个随机种子均值±标准差;J.C. only 是零样本无方差)。

方法 Reach Direction Steering Long Jump Strike
Task Tokens (ours) 94.88 ± 1.99 99.26 ± 0.79 88.69 ± 4.04 99.75 ± 0.57 76.61 ± 3.49
MaskedMimic (J.C. only, 零样本) 24.77 2.19 3.83 - -
MaskedMimic Fine-Tune 93.70 ± 4.59 99.10 ± 1.29 87.44 ± 6.79 47.36 ± 54.78 83.07 ± 5.71
PULSE 83.96 ± 2.20 97.60 ± 0.62 40.72 ± 7.64 99.37 ± 1.40 83.18 ± 2.67
AMP 57.14 ± 4.80 5.14 ± 0.68 4.28 ± 1.42 76.59 ± 43.42 52.21 ± 47.58
PPO (Pure RL) 89.90 ± 3.25 97.74 ± 1.40 32.64 ± 40.21 61.91 ± 52.26 81.36 ± 1.41

Task Tokens 在多数任务上拿到最高成功率(Strike 上略低于 PULSE/Fine-Tune/PureRL)。在效率上:Strike 任务 Task Tokens 约 50M 步收敛,PULSE 要约 300M 步(×6 慢);可训练参数 ~200K,PULSE 9.3M、Fine-Tune 25M(分别 ×46.5、×125)。值得注意的是 Long Jump / Strike 这类任务上 Fine-Tune 与 PPO 的标准差极大(如 Fine-Tune Long Jump 47.36 ± 54.78),说明它们训练很不稳定。

分析实验:动作自然度人类研究

约 100 名匿名参与者对视频三元组投票选"更像人"的动作,下表为 Task Tokens 相对各方法的胜率(越高表示越被认为像人)。

对比方法 Direction Steering Reach Strike Long Jump
MaskedMimic (J.C. only) 95% ± 2% 75% ± 6% 53% ± 5% - -
MaskedMimic Fine-Tune 99% ± 1% 90% ± 4% 85% ± 6% 85% ± 5% 94% ± 2%
MaskedMimic F.T. + J.C. 96% ± 3% 89% ± 5% 82% ± 6% - -
PULSE 15% ± 5% 46% ± 6% 36% ± 9% 24% ± 5% 39% ± 5%
AMP 92% ± 3% 84% ± 4% 70% ± 6% 68% ± 6% 94% ± 3%
PPO 99% ± 2% 93% ± 4% 89% ± 5% 82% ± 4% 94% ± 3%

Task Tokens 在动作自然度上全面碾压全量微调和纯 RL(胜率多在 80%~99%),印证了"冻结 BFM 保住动作流形"的价值;但输给 PULSE(胜率多 < 50%)——作者归因于 PULSE 把高层表示约束得更贴近先验,而 MaskedMimic 没有这种约束,未来可考虑给 Task Tokens 加类似约束。

关键发现

  • OOD 鲁棒性是最大亮点:改变地面摩擦(如 ×0.4)和重力(如 ×1.5)这类训练时没见过的扰动,Task Tokens(带/不带 J.C.)都比所有基线明显更鲁棒;尤其在极低摩擦、极大重力下优势显著。反观全量微调反而损害了 BFM 自带的鲁棒性——高重力下表现比"最小干预"的 Task Tokens 更差。
  • 冻结 vs 微调的取舍贯穿全文:微调虽然个别任务(Strike)回报略高,但代价是动作不自然、OOD 变脆、且会灾难性遗忘多模态 prompt 能力。
  • 本体感受信息对齐很关键:给 Task Encoder 喂本体感受信息让其输出与 BFM 预训练表示对齐,是 token 能产生有意义目标的前提(原文 Section E 消融)。

亮点与洞察

  • "把适配做成加一个 token"是非常优雅的迁移:把 NLP 的 Prefix-Tuning/Adapter 思路精准映射到 token 化的行为基础模型上——transformer 既然吃 token 序列,那就只往序列里加一个学出来的 token,零改动模型结构。这个抽象可迁移到任何"以 token 序列为条件"的基础模型适配。
  • 冻结基础模型反而带来更强的 OOD 鲁棒性,这是反直觉但很有说服力的点:少干预 = 留住预训练流形 = 泛化更好,给"基础模型该不该微调"提供了一个干净的反例。
  • 混合控制范式把 prompt 工程和奖励设计统一了:好描述的用先验 token、好奖励的用 task token,还顺手治好了"倒着走"这类奖励错配的经典毛病。
  • 参数效率的量级差距(×125)让"一个 BFM + 一堆小编码器"覆盖大量任务在工程上变得现实。

局限与展望

  • 强依赖底层 BFM 的表达力与覆盖范围:BFM 没覆盖到的能力,Task Tokens 也补不出来;如何识别/弥补 BFM 的知识盲区是开放问题。
  • 目前只在仿真环境验证,且主要是动画级别的人形控制;真正迁到实体机器人要面对 sim-to-real,作者列为关键的下一步。
  • 每个任务单独训一个编码器,没探索共享/组合/持续学习的多任务 Task Encoder,扩到终身学习场景仍是挑战。
  • 奖励函数和观测空间的设计仍需领域专家,未来可探索(半)自动化以降低门槛。
  • 动作自然度仍输给 PULSE:作者承认缺一个把表示约束在先验附近的机制,可考虑引入判别式(如 AMP 风格)人类似然先验。

相关工作与启发

  • vs MaskedMimic(J.C. only,零样本):本文的 BFM 底座就是它。零样本在复杂任务上成功率极低(Steering 仅 3.83%),Task Tokens 在不动它一个参数的前提下把成功率拉满,等于给零样本 BFM 装了个"任务适配插件"。
  • vs MaskedMimic Fine-Tune(全量微调):同样用任务奖励,但微调全模型——任务回报偶尔更高,却破坏动作自然度、OOD 鲁棒性和多模态能力,还灾难性遗忘。Task Tokens 用 ×125 更少参数拿到相当的任务表现且保住了这些性质。
  • vs PULSE(分层 RL + 动作潜空间):PULSE 把动捕技能压成潜空间、再用分层控制器选潜变量。它动作最像人(人类研究胜过 Task Tokens),但收敛慢 ×6、参数多 ×46.5、且不支持多模态 prompt。本文借鉴其"约束贴近先验"的思想作为未来改进方向。
  • vs AMP(判别器约束动作质量):用判别器保证动作真实感同时优化任务,但在 Direction/Steering 这类任务上成功率很低(5% 量级),稳定性也差。
  • 启发:把"参数高效适配 + 冻结大模型 + 梯度穿透"这套组合迁到任何 token 条件型基础模型上(视觉、机器人 VLA、决策 transformer),都可能用"加一个学出来的 token"来低成本、保先验地做下游适配。

评分

  • 新颖性: ⭐⭐⭐⭐ 把 NLP 参数高效适配优雅迁到行为基础模型,"加一个 task token"的切入干净有效,但底层是已有思路的跨域移植。
  • 实验充分度: ⭐⭐⭐⭐ 五任务 + 多基线 + OOD 扰动 + 人类研究 + 多模态 prompt 案例,较全面;消融数字主要在附录,正文略少。
  • 写作质量: ⭐⭐⭐⭐ "倒着走""whirlwind"等例子把动机讲得很具象,逻辑清晰好读。
  • 价值: ⭐⭐⭐⭐ 为"复用并适配行为基础模型"给出参数高效、保鲁棒的实用范式,对人形动画/具身控制有直接价值;目前限于仿真。