跳转至

Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=FkeURAdA0h
论文: Project Page
领域: 自监督表示学习 / 行为克隆 / 强化学习
关键词: 后继表示, 自预测表示, BYOL, 组合泛化, 目标条件行为克隆

一句话总结

针对目标条件行为克隆(GCBC)无法"拼接"novel 状态-目标对的组合泛化缺陷,本文提出 BYOL-γ:一个用几何分布采样未来状态、从而逼近后继度量(successor measure)的自预测表示学习目标,作为 BC 的辅助损失既不需要 TD 学习也不需要负样本,在 OGBench 拼接任务上平均成功率超过所有对比方法。

研究背景与动机

领域现状:在机器人和决策领域,大规模行为克隆(BC)已成为训练通用策略的主流路线——把海量离线演示数据喂给监督模型,让策略模仿数据中的行为。目标条件行为克隆(GCBC)进一步把"当前状态 + 未来目标"作为输入,用最大似然学习 \(\pi_\Theta(a\,|\,s, g)\)

现有痛点:BC 类方法在训练分布内任务上表现不错,但对组合泛化几乎无能为力。组合泛化被形式化为"拼接(stitching)"能力——数据集里有 \(s_0 \to s_h\)\(s_b \to s_f\) 两条在中间点 \(w\) 相交的轨迹,但没有任何一条完整覆盖 \(s_0 \to s_f\);一个会拼接的策略应当能把两段子轨迹接起来到达 \(s_f\),而 GCBC 做不到。机器人数据采集昂贵,靠简单堆数据补全所有组合并不现实,因此必须从算法层面解决。

核心矛盾:BC 在构造上没有编码"数据来自马尔可夫决策过程(MDP)"这个归纳偏置。相比之下,用时序差分(TD)训练的 RL 策略通过动态规划在时间上传播信息,天然具备拼接能力;但离线 TD 学习的 bootstrap 不稳定、难以规模化。于是问题落在:能不能在保留 BC 监督式可扩展性的同时,把 MDP 的时序结构"灌"进策略?

切入角度:作者观察到,组合泛化的关键在于状态表示的长程时序一致性——如果在时间上相关的状态被编码到相近的隐空间表示,那么对 novel 状态-目标对的分布外间隙就会缩小。形式化地,对于从 \(s_w\) 可达的目标 \(s_f \sim M^\beta(s_w, s_f)\),我们希望表示满足不变性 \(\phi(s_f) \approx \phi(s_w)\):这样策略在 \(\phi(s_f)\) 条件下会先走到 \(s_w\)(分布内),再完成剩余路段。这正好是后继表示 / 后继度量(SR/SM)所刻画的"状态间时序距离"。

核心 idea:用一个逼近后继度量的自预测表示作为 BC 的辅助损失。具体地,把 BYOL(Bootstrap Your Own Latent)的未来预测目标从"下一步状态"改成"按几何分布 \(k \sim \text{geom}(1-\gamma)\) 采样的未来状态",得到 BYOL-γ——它在理论上逼近 SR,却不依赖 TD、也不需要负样本。

方法详解

整体框架

本文要解决的是:让 GCBC 策略获得拼接 / 组合泛化能力。整体做法是在标准 BC 训练之外,挂一个自预测表示学习辅助损失,引导编码器 \(\phi\) 学到反映环境时序结构(后继度量)的状态表示,再把这个表示喂给策略头去预测动作。

整条 pipeline:从离线轨迹数据集(由一组未知策略 \(\{\beta_j\}\) 混合采集)中采样状态 \(s_t\),经编码器 \(\phi\) 得到表示 \(z_t = \phi(s_t)\);预测器 \(\psi\) 不去预测下一步,而是预测一个按几何分布采样的未来状态 \(s_{t+k}\) 的表示(BYOL-γ 目标),并辅以双向预测和动作条件;这个辅助损失与 BC 损失联合优化,BC 损失同时约束 \(\phi\) 防止表示塌缩。最终策略 \(\pi_\Theta(a\,|\,s,g) = \text{MLP}_\theta(\text{concat}(\phi(s), \phi(g)))\) 输出动作。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["离线轨迹数据集<br/>混合策略采集"] --> B["编码器 φ<br/>状态→表示 z"]
    B --> C["BYOL-γ 几何未来预测<br/>k~geom(1-γ) 逼近后继度量"]
    C --> D["双向 + 动作条件预测器<br/>ψf(φ,a) 与 ψb"]
    D --> E["表征损失与 BC 联合训练<br/>α·L_aux + L_BC 防塌缩"]
    E --> F["目标条件策略 π(a|s,g)<br/>输出动作"]

关键设计

1. BYOL-γ:用几何采样的未来预测逼近后继度量

痛点直接来自标准 BYOL:在 RL 里,BYOL 通过预测下一步隐表示来学表示,它只捕捉一步转移 \(P^\pi\) 的谱信息,刻画不了被多条轨迹隔开的远距离状态关系,所以拼接能力有限。本文的修改极简却关键:把预测目标的偏移量 \(k\) 从固定的 1 改成从几何分布采样 \(k \sim \text{geom}(1-\gamma)\),于是预测目标变成归一化后继度量 \(\tilde M^\pi\) 的经验样本:

\[L_{\text{BYOL-}\gamma}(\phi,\psi) = \mathbb{E}_{s_t \sim p(s),\, k \sim \text{geom}(1-\gamma),\, s_{t+k} \sim p^\pi}\big[f(\psi(\phi(s_t)),\, \bar\phi(s_{t+k}))\big]\]

其中 \(\bar\phi\) 是停梯度 / EMA 目标,\(f\) 是衡量两个表示差异的能量函数。当 \(\gamma=0\)\(s_{t+k}=s_{t+1}\),退化回一步 BYOL。后继表示定义为 \(M^\pi(s,s') = \mathbb{E}[\sum_{t\ge0}\gamma^t \mathbb{1}(s_{t+1}=s')\,|\,s_0=s,\pi]\),归一化版 \(\tilde M^\pi = (1-\gamma)M^\pi\)。论文用 Theorem 4.1 证明:在有限 MDP、线性表示、正交初始化等假设下,最小化 \(L_{\text{BYOL-}\gamma}\) 对应于后继表示的谱分解 \(\tilde M^\pi \approx \Phi\Psi\Phi^T\),即学到了后继特征。

为什么这样有效:与对比学习(CL)相比,BYOL-γ 最显著的区别是去掉了负样本的分母项。作者在统一框架(见下)里指出,在实际的混合策略数据上,CL(如 TRA)会对不同轨迹采样的状态产生"悲观"——不同轨迹的状态只会被当作负样本相互推开,这种悲观体现在其逼近量的分母 \(p^\beta(s_+)\) 上;而 BYOL-γ 不用负样本,给出 \(\sum_j p(\beta_j|s)\tilde M^{\beta_j}(s, s_+)\) 的乐观逼近,对远距离状态相似度估计更忠实,且每个 batch 只算 \(O(B)\) 个损失项(CL 需 \(O(B^2)\) 负样本,TD-SR 需 \(O(B^2)\) bootstrap 项)。

2. 双向预测与动作条件预测器

仅有前向预测会丢失部分时序结构。本文在基础目标上加了两个变体:一是双向预测,额外引入后向预测器 \(\psi_b\) 从未来表示反推过去表示;二是动作条件前向预测器 \(\psi_f(\phi(s_t), a_t)\),可解释为一个时序延展的隐空间动力学模型,捕捉 \(\tilde M^\pi(s, a, s_+)\) 的信息。完整目标为:

\[L_{\text{BYOL-}\gamma} = \mathbb{E}_{s_t,\, s_+ \sim \tilde M^\pi}\big[f(\psi_f(\phi(s_t), a_t),\, \bar\phi(s_+)) + f(\bar\phi(s_t),\, \psi_b(\phi(s_+)))\big]\]

能量函数 \(f\) 默认取 DINO 式的归一化表示交叉熵 \(f_{CE}(a,b) = \text{softmax}(b)\cdot\log\text{softmax}(a)\);归一化 \(\ell_2\) 损失 \(f_{\ell_2} = \|a/\|a\| - b/\|b\|\|_2^2\) 也能用(消融里略差)。动作条件让表示编码"在某动作下能到哪",对组合泛化尤其重要——消融显示去掉动作条件平均影响不大但逐环境波动较大。

3. 表征损失与 BC 联合训练防止塌缩

自预测目标(尤其 BYOL 类)有一个老问题:表示容易塌缩到平凡解。本文的处理是把表示学习与策略学习绑在一起联合优化,参数记为 \(\Theta = (\theta, \phi, \psi)\)

\[\mathbb{E}_{\beta_j \sim p(\beta_j),\, \tau \sim \beta_j}\big[L_{BC}(\Theta) + \alpha L_{\text{aux}}(\phi, \psi)\big]\]

关键在于梯度的"分工":\(L_{BC}\) 更新策略头 \(\theta\) 及其输入编码器 \(\phi\)\(L_{\text{aux}}\) 更新 \(\psi, \phi\)不更新 \(\theta\)。由于 \(\phi\) 同时受两个损失影响,BC 损失保证表示对动作预测是"充分的",从而防止塌缩;而辅助损失则防止过拟合、提升泛化。这种共享编码器 + 双损失的设计,让"表示要能预测未来"与"表示要能预测动作"两个约束彼此牵制,是该方法稳定工作的前提。权重 \(\alpha\) 对具身形态和环境大小(medium vs large)敏感,论文对每个方法在 4 个 \(\alpha\) 值上扫参并报告各环境最优。

损失函数 / 训练策略

总损失即上式 \(L_{BC} + \alpha L_{\text{aux}}\)。统一框架(Table 1)把四种辅助表示目标放在一起对比:在单策略数据 \(\tau\sim\beta\) 下,TRA(CL)、TD-SR、BYOL-γ 都逼近 \(\tilde M^\beta\) 相关量,BYOL 只逼近一步转移 \(p^\beta(s_{t+1}|s_t)\);在更现实的混合策略数据 \(\tau\sim\{\beta_j\}\) 下,TD-SR 仍逼近混合策略的 SM,而蒙特卡洛方法(TRA、BYOL-γ)逼近的是"SR 的混合" \(\sum_j p(\beta_j|s)\tilde M^{\beta_j}\)——BYOL-γ 的优势是无负样本带来的悲观。训练沿用 OGBench 的设置,BYOL-γ 与 TD-SR 用动作条件,TRA 用其原始无动作条件参数化。

实验关键数据

主实验

在 OGBench 导航 stitch 数据集上(训练轨迹最多跨 4 个迷宫格,评测需拼接更长路径),各方法 5 个评测任务 × 50 episode 的成功率(非视觉 10 seeds,视觉 4 seeds):

数据集 BYOL-γ (ours) TD-SR TRA BYOL GCBC 最强离线RL
antmaze-medium-stitch 58 64 54 59 45 59 (QRL)
antmaze-large-stitch 19 23 11 17 3 18
humanoidmaze-medium-stitch 51 42 45 23 29 36 (CRL)
humanoidmaze-large-stitch 13 11 5 3 6 4
visual-antmaze-medium-stitch 68 49 52 57 67 69 (CRL)
visual-scene-play 17 14 16 13 12 25 (GCIVL)
average-all 35 32 27 26 26 25 (CRL)

BYOL-γ 平均成功率 35 居首,超过 TD-SR(32)、TRA(27)、GCBC(26) 与所有离线 RL。一个值得注意的现象是:在视觉环境(average-visual 37)上,TRA 和 TD-SR 反而会损害性能(低于 GCBC),而 BYOL-γ 不出现退化——这是相对其他方法的显著优势,作者归因于其更简单的训练流程在大状态空间上更鲁棒。

消融实验

配置 average-all 说明
BYOL-γ (full) 33 完整模型(取 Table 2 前 4 seed)
−a(去动作条件) 33 平均持平,逐环境波动
\(f_{\ell_2}\)(换损失) 31 略降
−ψ_b(去后向预测) 33 平均持平
γ=0(一步预测) 24 掉点最多,humanoidmaze 尤其严重

关键发现

  • 几何未来预测(γ>0)是核心\(\gamma=0\) 退化为一步 BYOL 后平均从 33 跌到 24,humanoidmaze 上从 54/14 跌到 18/3,证明"预测远期未来 / 逼近后继度量"才是组合泛化的关键,而非 BYOL 框架本身。
  • 动作条件与后向预测是锦上添花:去掉二者平均成功率几乎不变,但逐环境有波动,说明它们提供稳定性而非主要增益。
  • 表示质量与策略成功率排序一致:表示空间与最短路距离的相关性排序,与各方法的平均成功率排序吻合,验证了"学好后继度量结构 → 泛化更强"这条因果链。
  • 长程泛化最稳:在 antmaze-giant 等需拼接约 8 条轨迹的极难任务上,所有方法在阈值(>4 格)后都会掉,但 BYOL-γ 掉得最慢。

亮点与洞察

  • 极简改动撬动大效果:仅把 BYOL 的预测偏移从固定 1 步改成几何采样 \(k\sim\text{geom}(1-\gamma)\),就把"一步转移谱信息"升级为"后继度量",既不引入 TD 的不稳定,也不引入对比学习的负样本开销(\(O(B)\) vs \(O(B^2)\))。
  • 统一视角有教学价值:Table 1 把 CL / TD-SR / BYOL / BYOL-γ 统一到"逼近后继度量的不同方式"框架下,并精确指出 CL 在混合策略数据上的"悲观"来源(负样本把不同轨迹状态推开),这个分析本身就是可复用的认知。
  • 可迁移性:"用自预测表示给监督式策略灌入 MDP 时序结构"这一思路,可迁移到任何缺乏时序归纳偏置的监督式决策模型;几何采样目标也能直接套到其他 JEPA / 世界模型的辅助损失上。
  • 论文还把方法扩展到分层设置(HBYOL-γ,附录 C),在视觉迷宫上取得进一步提升。

局限与展望

  • 作者承认在最难的导航环境(如 giant)上仍存在明显泛化间隙,没有任何方法能到达最远目标。
  • 视觉环境上相对 BC 的提升不如状态环境显著,作者推测需在更大规模视觉数据上才能充分发挥表示学习的价值。
  • 权重 \(\alpha\) 对具身和环境大小敏感,需逐环境扫参(4 个值取最优),实际部署时调参成本不可忽略——这也意味着表中"最优"是 oracle 选择,存疑应以原文设置为准。
  • 理论保证(Theorem 4.1)建立在有限 MDP、线性表示、正交初始化、对称转移等较强假设上,与实际连续高维视觉任务有距离。

相关工作与启发

  • vs TRA (Myers et al., 2025b):TRA 用对比学习作为 BC 辅助目标逼近后继度量的 MC 近似;本文同样走 MC 路线但用自预测代替对比,去掉负样本,因而避免了 TRA 在混合策略数据上对远距离状态的悲观,视觉环境上不退化。
  • vs TD-SR(Forward-Backward 风格):TD-SR 用 TD 学习显式逼近混合策略的后继度量、能跨策略"拼接",但 bootstrap 带来不稳定和 \(O(B^2)\) 开销;BYOL-γ 不用 TD 却能达到相当甚至更好的效果,在大状态空间(humanoidmaze、视觉环境)上更优。
  • vs 标准 BYOL:标准 BYOL 只预测一步、捕捉一步转移谱信息;BYOL-γ 通过几何采样捕捉时序延展信息,是其在后继度量意义下的推广(γ=0 时二者等价)。
  • vs 离线 RL(IQL/IVL/QRL/CRL):离线 RL 靠 TD/Q 学习获得拼接但难规模化;本文证明带表示学习的 GCBC 普遍优于这些离线 RL 基线,给出一条更可扩展的监督式路线。

评分

  • 新颖性: ⭐⭐⭐⭐ 几何采样把 BYOL 与后继度量打通,统一框架视角清晰,改动虽小但洞察扎实。
  • 实验充分度: ⭐⭐⭐⭐ OGBench 多环境 + 视觉/状态 + 增长 horizon + 充分消融,唯 α 取每环境最优略乐观。
  • 写作质量: ⭐⭐⭐⭐ 理论与直觉交织、Table 1 统一框架讲得透,部分推导需翻附录。
  • 价值: ⭐⭐⭐⭐ 为大规模 BC 注入时序归纳偏置提供了简单可扩展的配方,对机器人通用策略有实际意义。