Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets¶

会议: ICLR 2026
arXiv: 2602.18025
代码: 待确认
领域: 强化学习 / 机器人
关键词: cross-embodiment learning, offline RL, gradient conflict, robot foundation model, morphology grouping

一句话总结¶

系统研究跨形态离线 RL 预训练范式，发现次优数据比例和机器人多样性增加时梯度冲突导致负迁移，提出基于形态图距离的 Embodiment Grouping（EG）策略将机器人按形态聚类后分组更新 actor，在 16 种机器人平台的 locomotion benchmark 上显著缓解负迁移（70% 次优数据集上 IQL+EG 比 IQL 提升 34%）。

研究背景与动机¶

领域现状：机器人基础模型（如 RT-2, Octo, π0）通过跨形态学习从多种机器人的数据中学习通用控制先验。但这些模型几乎完全基于模仿学习，需要高质量专家演示——采集成本高。

现有痛点：(a) 模仿学习只能复制数据集中的行为，无法超越数据质量上限；(b) 离线 RL 可以利用次优数据通过 trajectory stitching 学到更好的策略，但尚未与跨形态学习系统性结合；(c) 天真地在异构机器人数据上做联合训练，不同形态的梯度可能相互冲突，导致某些机器人性能退化。

核心矛盾：跨形态学习可以增加数据规模→有利。但形态差异大的机器人的策略梯度可能冲突→有害。当数据中次优轨迹比例高时，冲突加剧。

本文目标 系统分析跨形态离线 RL 的优势与问题，设计方法缓解异构形态间的梯度冲突。

切入角度：将每个机器人表示为形态图（关节/末端为节点），用 Fused Gromov-Wasserstein 距离计算机器人间的相似度。发现形态相似度与梯度余弦相似度高度相关（Pearson r=0.63），因此按形态距离聚类后分组更新 actor。

核心 idea：形态相似的机器人有相似的策略梯度方向，按形态聚类后分组更新 actor 可以有效缓解跨形态离线 RL 中的梯度冲突。

方法详解¶

整体框架¶

16 种机器人的离线数据集 → URMA 架构（统一不同维度的状态/动作空间）→ 全局 critic 更新（用全部数据）→ 分组 actor 更新（按形态聚类，每组只用本组数据更新 actor）→ 学到的跨形态策略可在下游快速微调到新机器人。

关键设计¶

跨形态离线 RL 的系统性分析:
- 功能：对比 BC 与 IQL 在不同数据质量下的表现，分析正/负迁移
- 核心发现：(a) 专家数据上 BC ≈ IQL；次优数据上 IQL 显著优于 BC（符合离线 RL 的 trajectory stitching 优势）。(b) 跨形态预训练加速下游微调收敛。(c) 但在 70% 次优数据集上，bipedal 机器人出现严重负迁移（Unitree H1 从 54.47→6.00，G1 从 78.93→0.86）
- 设计动机：揭示跨形态离线 RL 不是无条件有效的——需要针对梯度冲突做处理
梯度冲突分析:
- 功能：量化不同形态机器人间的策略梯度方向冲突
- 核心思路：计算每对机器人的 actor 梯度余弦相似度 \(C[\tau_i, \tau_j] = \frac{\langle g_{\tau_i}, g_{\tau_j} \rangle}{\|g_{\tau_i}\| \|g_{\tau_j}\|}\)，统计 C<0 的比例
- 关键发现：次优数据比例↑ → 负余弦比例↑；机器人种类↑ → 负余弦比例↑；迁移增益与平均梯度余弦高度相关（r=0.815）
- 设计动机：当形态差异大的机器人梯度方向相反时，联合更新会相互抵消甚至破坏有用的更新
形态图距离与梯度对齐的关联:
- 功能：将机器人表示为图并计算 FGW 距离，验证其与梯度方向的关联
- 核心思路：节点 = 躯干/关节/足部，边 = 机械连接，节点特征 = 相对位置 + 控制参数。FGW 距离同时考虑图结构和节点特征
- 关键发现：形态相似度与梯度余弦相似度的 Pearson 相关 r=0.63（\(p = 1.26 \times 10^{-14}\)）——形态像的机器人梯度方向也像
Embodiment Grouping (EG):
- 功能：按形态距离层次聚类将 16 种机器人分成 M 组，训练时全局更新 critic，但 actor 按组顺序更新
- 核心思路：Algorithm 1 — (1) 采样全局 mini-batch；(2) 全局 critic/value 更新；(3) 随机排列组顺序；(4) 对每组 \(\mathcal{G}_m\)，提取属于该组的样本 \(\mathcal{B}_m\)，计算 actor loss 并更新 \(\theta_\pi\)
- 设计动机：同组机器人梯度方向一致，组内更新不会冲突；组间顺序更新避免梯度抵消
- 与 PCGrad 的区别：PCGrad 动态投影冲突梯度，计算开销大且效果有限；EG 用静态分组，简单高效

损失函数 / 训练策略¶

基于 IQL 框架： - Critic: expectile regression 拟合 \(V_\psi(s)\)，然后 TD 更新 \(Q_\theta(s,a)\) - Actor: advantage-weighted regression \(\mathcal{L}_\tau^\pi(\theta) = -\mathbb{E}_{(s,a) \sim \mathcal{D}_\tau}[w(s,a) \log \pi_\theta(a|s)]\)，其中 \(w(s,a) = \exp(\beta(Q(s,a) - V(s)))\) - EG 只改变 actor 更新方式（分组），不修改损失函数

实验关键数据¶

主实验¶

方法	Expert Forward	70% Suboptimal Forward	70% Suboptimal Backward	均值
BC	63.31	30.52	41.42	49.17
IQL	63.39	36.62	38.69	52.05
IQL+PCGrad	63.37	39.63	41.04	53.48
IQL+SEL	63.37	44.59	44.45	55.07
IQL+EG	63.52	51.19	49.60	57.29

在次优数据占比 70% 的设置下，IQL+EG 比 IQL 提升 34%，比 PCGrad 提升 16%，比 SEL 提升 16%。

消融实验¶

分组策略	70% Suboptimal Forward	相对 IQL 提升
IQL (baseline)	37.57	0%
Random grouping	38.73	+3.08%
Heuristic (bipeds/quads)	34.45	-8.31%
EG (ours)	51.98	+38.34%

关键发现¶

EG 的优势不仅来自更多 actor 更新步数：计算归一化实验中（匹配优化器步数和数据量），EG 仍比 IQL 高 7.78 分
直觉分组不工作：按腿数（biped/quadruped/hexapod）的启发式分组反而降低性能——粗糙的形态分类无法捕获影响梯度方向的因素（执行器位置、连杆长度、质量分布等）
随机分组几乎无效（+3.08%），说明合理的分组策略是关键
M=2~4 组就足够：更多组数性能略微提升但训练时间显著增加
跨算法通用：EG 在 BC、TD3+BC、IQL 上都有效

亮点与洞察¶

形态距离预测梯度冲突：这是一个深刻的发现——机器人的物理结构相似度直接关联到策略学习中的梯度方向对齐程度。这意味着可以在训练前就预测哪些机器人数据可以安全地联合训练
简单分组优于复杂冲突解决方法：静态的形态聚类分组（EG）比 PCGrad 的动态梯度投影和 SEL 的动态任务分组效果更好——预先利用领域知识（形态结构）比运行时推断任务关系更可靠
跨形态离线 RL 互补性强：跨形态提供数据多样性 + 离线 RL 利用次优数据——两者结合使得机器人基础模型不再需要大量高质量专家演示

局限与展望¶

仅在 MuJoCo 仿真的 locomotion 任务上验证，未扩展到真实机器人或 manipulation 任务
FGW 图距离的计算需要预先定义机器人图结构，对于未知形态的新机器人可能需要手动建模
分组是静态的，训练过程中梯度冲突模式可能动态变化——自适应分组策略可能更好
数据集规模相对小（每个机器人 1M 步），未验证在更大规模下的扩展性
Critic 仍然全局更新——如果 critic 也存在形态间冲突，分组更新 critic 也可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性研究跨形态离线 RL 的工作，形态距离与梯度冲突的关联是新发现
实验充分度: ⭐⭐⭐⭐⭐ 16 种机器人、6 种数据集、8 种方法对比、全面消融
写作质量: ⭐⭐⭐⭐⭐ 从发现问题→分析原因→验证假设→设计方案的逻辑链清晰完整
价值: ⭐⭐⭐⭐ 为机器人基础模型的数据扩展提供了新方向，EG 策略简单实用