EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data¶
会议: NeurIPS 2025
arXiv: 2509.19626
代码: ego-bridge.github.io
领域: 强化学习
关键词: cross-embodiment, 域适应, 最优传输, egocentric, 模仿学习
一句话总结¶
提出 EgoBridge 框架,利用最优传输(OT)在策略潜在空间中对齐人类和机器人数据的联合分布(特征+动作),结合动态时间规整(DTW)构建伪配对,实现从第一人称人类数据到机器人的跨具身知识迁移,在真实世界任务中绝对成功率提升达 44%。
研究背景与动机¶
领域现状:行为克隆(BC)结合大规模遥操作数据在机器人操作中取得显著进展。但遥操作数据收集成本高、难以覆盖多样场景。穿戴设备(如 AR 眼镜)可低成本采集大量第一人称人类操作数据,包含观测和动作信息。
现有痛点:人类数据和机器人数据之间存在多重域差距——(a) 视觉外观差异(人手 vs 机械臂);(b) 运动学差异(同一动作空间下行为分布不同);(c) 传感模态差异(机器人有腕部相机,人类没有)。直接混合训练(co-training)不能自动产生有效迁移。
核心矛盾:简单 co-training 假设共享潜在空间自然涌现,但实际上人类和机器人的潜在特征形成分离的聚类(latent covariate shift),\(\mu_H \neq \mu_R\),导致从人类数据学到的行为无法迁移到机器人。
本文目标:(a) 显式对齐人类和机器人域的潜在表示;(b) 在对齐过程中保留动作相关信息;(c) 使机器人能执行仅在人类数据中出现的新行为。
切入角度:将跨具身学习形式化为域适应问题。不同于全局分布对齐(如对抗训练、MMD),利用 OT 的几何结构保留局部动作对应关系。
核心 idea:用 DTW 引导 OT 的代价函数,在对齐潜在特征时自动发现行为相似的人类-机器人伪配对,实现动作感知的联合分布对齐。
方法详解¶
整体框架¶
EgoBridge 是一个 co-training 框架。编码器 \(f_\phi\) 将人类/机器人观测映射到共享潜在空间 \(\mathcal{Z}\),Transformer 解码器 \(\pi_\theta\) 从潜在特征生成动作。总损失为 \(\mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{BC-cotrain}}(\phi,\theta) + \alpha\mathcal{L}_{\text{OT-joint}}\)。BC 损失端到端优化整个网络,OT 损失仅优化编码器。
关键设计¶
-
联合分布最优传输 (Joint OT):
- 功能:对齐人类和机器人数据在潜在空间中的联合分布 \(P(f_\phi(O), A)\)
- 核心思路:给定人类样本 \(\{(o_i^H, a_i^H)\}\) 和机器人样本 \(\{(o_j^R, a_j^R)\}\),用 Sinkhorn 算法求解带熵正则化的最优传输计划 \(T_\epsilon^*\):\(\mathcal{L}_{\text{OT-joint}} = \sum_{i,j}(T_\epsilon^*)_{ij} \cdot \mathcal{C}((f_\phi(o_i^H), a_i^H), (f_\phi(o_j^R), a_j^R))\)
- 设计动机:与仅对齐边际分布 \(P(f_\phi(O))\) 的标准域适应不同,联合对齐同时考虑特征和动作,防止对齐破坏动作相关信息。梯度鼓励编码器将行为相似的跨域样本映射到附近
- 与标准 OT 的区别:标准 OT 用欧氏距离作为代价函数可能将外观相似但行为不同的样本配对,联合 OT 确保配对的同时行为也相似
-
DTW 引导的代价函数设计:
- 功能:用动态时间规整识别行为相似的跨域伪配对
- 核心思路:对 mini-batch 中的每对人类-机器人动作轨迹计算 DTW 距离 \(\text{DTW}(\mathbf{a}^H, \mathbf{a}^R) = \min_\pi \sum_{(i,j)\in\pi}\|a_i^H - a_j^R\|^2\)。找到每个机器人样本的最佳人类匹配 \(i^*(j) = \arg\min_i A_{ij}\),然后修改代价矩阵: \(\tilde{C}_{ij} = \begin{cases} D_{ij} \cdot \lambda & \text{if } i = i^*(j) \\ D_{ij} & \text{otherwise} \end{cases}\) 其中 \(D_{ij} = \|f_\phi(o_i^H) - f_\phi(o_j^R)\|^2\),\(\lambda \ll 1\) 大幅降低伪配对的传输代价
- 设计动机:(a) DTW 天然处理时间对齐差异(人类执行通常比遥操作快 2-3 倍);(b) 使用"软监督"——不直接用 DTW 距离作为损失,而是用它识别配对后降低 OT 中的传输代价;(c) 比 MSE 配对更鲁棒(消融实验证实)
-
共享策略架构:
- 功能:统一处理人类和机器人两种数据源
- 核心思路:编码器 \(f_\phi\) 包含模态特定 stem(共享 vision stem 处理第一人称 RGB,独立 stem 处理机器人腕部相机)和共享 Transformer encoder trunk。解码器 \(\pi_\theta\) 为多层 Transformer decoder,通过交替 self/cross-attention 生成动作。\(M\) 个可学习 context token 用于计算 OT 损失
- 设计动机:共享 vision stem 强制视觉对齐;分离腕部相机 stem 因为人类数据没有对应模态;DETR 风格架构支持灵活的多模态输入
-
数据收集系统:
- 人类数据:Meta Project Aria 智能眼镜,采集第一人称 RGB 和双手 SE(3) 笛卡尔位姿
- 机器人数据:Eve 机器人 + 同款 Aria 眼镜模拟人类手眼配置,消除相机设备差异
- 动作空间统一:双臂末端执行器 SE(3) 位姿 + 轨迹 chunk
损失函数 / 训练策略¶
\(\mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{BC-cotrain}}(\phi,\theta) + \alpha\mathcal{L}_{\text{OT-joint}}(\phi)\)。BC 损失对人类+机器人数据均匀采样,OT 损失仅更新编码器参数。动作和本体感觉做具身特定的高斯归一化。
实验关键数据¶
真实世界主实验¶
| 方法 | Scoop Coffee In-Dist. | Scoop Obj. Gen. | Scoop Scene+Obj | Drawer (SR) | Drawer Beh. Gen. | Laundry (SR) |
|---|---|---|---|---|---|---|
| Robot-only BC | 33% | 40% | 7% | 9% | 0% | 28% |
| Co-train | 53% | 46% | 0% | 22% | 0% | 33% |
| EgoMimic | 60% | 53% | 0% | 14% | 0% | 33% |
| MimicPlay | 33% | 27% | 0% | 14% | 0% | 28% |
| ATM | 47% | 33% | 0% | 6% | 8% | 28% |
| EgoBridge | 67% | 60% | 27% | 47% | 33% | 72% |
消融实验 (Drawer 任务)¶
| 配置 | Drawer SR | Beh. Gen. SR | 说明 |
|---|---|---|---|
| EgoBridge (full) | 47% | 33% | 完整模型 |
| MSE 替代 DTW | 14% | 17% | DTW 配对是关键,去掉后掉 33% |
| Standard OT (边际对齐) | 33% | 17% | 联合 OT 优于边际 OT |
| Co-train (无对齐) | 22% | 0% | 无对齐完全无法行为泛化 |
关键发现¶
- DTW 配对贡献最大:将 DTW 替换为 MSE 后性能暴跌(47%→14%),说明时间对齐和运动学鲁棒的配对是核心
- 联合 OT 优于边际 OT:标准 OT 仅对齐特征边际分布但忽略动作对应关系,泛化能力显著下降
- 行为泛化是独特能力:其他所有基线在仅人类数据覆盖的新抽屉位置上完全失败(0%),唯独 EgoBridge 实现 33% 成功率
- 潜在空间可视化:t-SNE 显示 EgoBridge 的人类-机器人特征重叠度最高(Wasserstein-2 距离最小),KNN 配对语义最相似
亮点与洞察¶
- OT + DTW 的组合设计:OT 提供可微的分布对齐框架,DTW 提供时间鲁棒的行为匹配度量。两者组合使得对齐是"行为感知"的——这个 idea 可迁移到任何跨域模仿学习场景
- 从人类学新行为:这是最有价值的贡献。大多数方法只能增强机器人已有行为的鲁棒性,EgoBridge 能让机器人执行从未遥操作过的新行为,真正实现了人类数据的"增值"
- 软监督优于硬约束:DTW 不直接作为损失函数,而是通过降低 OT 代价来引导对齐。这种软监督方式更鲁棒,避免了 DTW 本身的噪声影响
局限与展望¶
- 单任务 DTW:DTW 基于动作轨迹距离,在多任务联合训练时可能无法区分不同任务中相似的局部运动。作者提到未来可用 VLM 的语言嵌入距离替代
- 仍需少量机器人数据:不是纯粹的人类到机器人迁移,需要目标域的种子数据。能否进一步减少/消除?
- SE(3) 动作空间假设:要求人类和机器人共享末端执行器位姿空间,对灵巧操作等不同运动学的任务可能受限
- 评估规模:每个任务的测试 rollout 数量较少(15-48 次),统计置信度有限
相关工作与启发¶
- vs EgoMimic:EgoMimic 使用视觉遮挡和数据归一化等启发式方法桥接域差距,缺乏显式对齐。EgoBridge 用 OT 显式对齐,在所有任务上表现更好
- vs MimicPlay:MimicPlay 使用层次策略(高层规划co-train + 低层解码fine-tune),用 KL 散度对齐边际分布。EgoBridge 的联合 OT 对齐更保留动作信息
- vs ATM:ATM 通过点轨迹追踪提取运动信息然后冻结高层训练低层。这种两阶段方法可能丢失细粒度对应关系
评分¶
- 新颖性: ⭐⭐⭐⭐ OT + DTW 的组合在跨具身模仿学习中是新颖的,联合分布对齐的形式化也很清晰
- 实验充分度: ⭐⭐⭐⭐ 三个真实世界任务(含双臂),仿真消融,潜在空间可视化,充分验证假设
- 写作质量: ⭐⭐⭐⭐ 问题形式化清晰,方法动机充分,实验条理分明
- 价值: ⭐⭐⭐⭐⭐ 行为泛化能力是真正的突破——让人类数据不再只是"锦上添花"而是真的能教机器人新技能