EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data¶

会议: NeurIPS 2025 Oral
arXiv: 2509.19626
代码: ego-bridge.github.io
领域: 强化学习
关键词: cross-embodiment, 域适应, 最优传输, egocentric, 模仿学习

一句话总结¶

提出 EgoBridge 框架，利用最优传输(OT)在策略潜在空间中对齐人类和机器人数据的联合分布（特征+动作），结合动态时间规整(DTW)构建伪配对，实现从第一人称人类数据到机器人的跨具身知识迁移，在真实世界任务中绝对成功率提升达 44%。

研究背景与动机¶

领域现状：行为克隆(BC)结合大规模遥操作数据在机器人操作中取得显著进展。但遥操作数据收集成本高、难以覆盖多样场景。穿戴设备（如 AR 眼镜）可低成本采集大量第一人称人类操作数据，包含观测和动作信息。

现有痛点：人类数据和机器人数据之间存在多重域差距——(a) 视觉外观差异（人手 vs 机械臂）；(b) 运动学差异（同一动作空间下行为分布不同）；(c) 传感模态差异（机器人有腕部相机，人类没有）。直接混合训练(co-training)不能自动产生有效迁移。

核心矛盾：简单 co-training 假设共享潜在空间自然涌现，但实际上人类和机器人的潜在特征形成分离的聚类（latent covariate shift），\(\mu_H \neq \mu_R\)，导致从人类数据学到的行为无法迁移到机器人。

本文目标：(a) 显式对齐人类和机器人域的潜在表示；(b) 在对齐过程中保留动作相关信息；(c) 使机器人能执行仅在人类数据中出现的新行为。

切入角度：将跨具身学习形式化为域适应问题。不同于全局分布对齐（如对抗训练、MMD），利用 OT 的几何结构保留局部动作对应关系。

核心 idea：用 DTW 引导 OT 的代价函数，在对齐潜在特征时自动发现行为相似的人类-机器人伪配对，实现动作感知的联合分布对齐。

方法详解¶

整体框架¶

EgoBridge 是一个 co-training 框架。编码器 \(f_\phi\) 将人类/机器人观测映射到共享潜在空间 \(\mathcal{Z}\)，Transformer 解码器 \(\pi_\theta\) 从潜在特征生成动作。总损失为 \(\mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{BC-cotrain}}(\phi,\theta) + \alpha\mathcal{L}_{\text{OT-joint}}\)。BC 损失端到端优化整个网络，OT 损失仅优化编码器。

关键设计¶

联合分布最优传输 (Joint OT):
- 功能：对齐人类和机器人数据在潜在空间中的联合分布 \(P(f_\phi(O), A)\)
- 核心思路：给定人类样本 \(\{(o_i^H, a_i^H)\}\) 和机器人样本 \(\{(o_j^R, a_j^R)\}\)，用 Sinkhorn 算法求解带熵正则化的最优传输计划 \(T_\epsilon^*\)：\(\mathcal{L}_{\text{OT-joint}} = \sum_{i,j}(T_\epsilon^*)_{ij} \cdot \mathcal{C}((f_\phi(o_i^H), a_i^H), (f_\phi(o_j^R), a_j^R))\)
- 设计动机：与仅对齐边际分布 \(P(f_\phi(O))\) 的标准域适应不同，联合对齐同时考虑特征和动作，防止对齐破坏动作相关信息。梯度鼓励编码器将行为相似的跨域样本映射到附近
- 与标准 OT 的区别：标准 OT 用欧氏距离作为代价函数可能将外观相似但行为不同的样本配对，联合 OT 确保配对的同时行为也相似
DTW 引导的代价函数设计:
- 功能：用动态时间规整识别行为相似的跨域伪配对
- 核心思路：对 mini-batch 中的每对人类-机器人动作轨迹计算 DTW 距离 \(\text{DTW}(\mathbf{a}^H, \mathbf{a}^R) = \min_\pi \sum_{(i,j)\in\pi}\|a_i^H - a_j^R\|^2\)。找到每个机器人样本的最佳人类匹配 \(i^*(j) = \arg\min_i A_{ij}\)，然后修改代价矩阵： \(\tilde{C}_{ij} = \begin{cases} D_{ij} \cdot \lambda & \text{if } i = i^*(j) \\ D_{ij} & \text{otherwise} \end{cases}\) 其中 \(D_{ij} = \|f_\phi(o_i^H) - f_\phi(o_j^R)\|^2\)，\(\lambda \ll 1\) 大幅降低伪配对的传输代价
- 设计动机：(a) DTW 天然处理时间对齐差异（人类执行通常比遥操作快 2-3 倍）；(b) 使用"软监督"——不直接用 DTW 距离作为损失，而是用它识别配对后降低 OT 中的传输代价；(c) 比 MSE 配对更鲁棒（消融实验证实）
共享策略架构:
- 功能：统一处理人类和机器人两种数据源
- 核心思路：编码器 \(f_\phi\) 包含模态特定 stem（共享 vision stem 处理第一人称 RGB，独立 stem 处理机器人腕部相机）和共享 Transformer encoder trunk。解码器 \(\pi_\theta\) 为多层 Transformer decoder，通过交替 self/cross-attention 生成动作。\(M\) 个可学习 context token 用于计算 OT 损失
- 设计动机：共享 vision stem 强制视觉对齐；分离腕部相机 stem 因为人类数据没有对应模态；DETR 风格架构支持灵活的多模态输入
数据收集系统:
- 人类数据：Meta Project Aria 智能眼镜，采集第一人称 RGB 和双手 SE(3) 笛卡尔位姿
- 机器人数据：Eve 机器人 + 同款 Aria 眼镜模拟人类手眼配置，消除相机设备差异
- 动作空间统一：双臂末端执行器 SE(3) 位姿 + 轨迹 chunk

损失函数 / 训练策略¶

\(\mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{BC-cotrain}}(\phi,\theta) + \alpha\mathcal{L}_{\text{OT-joint}}(\phi)\)。BC 损失对人类+机器人数据均匀采样，OT 损失仅更新编码器参数。动作和本体感觉做具身特定的高斯归一化。

实验关键数据¶

真实世界主实验¶

方法	Scoop Coffee In-Dist.	Scoop Obj. Gen.	Scoop Scene+Obj	Drawer (SR)	Drawer Beh. Gen.	Laundry (SR)
Robot-only BC	33%	40%	7%	9%	0%	28%
Co-train	53%	46%	0%	22%	0%	33%
EgoMimic	60%	53%	0%	14%	0%	33%
MimicPlay	33%	27%	0%	14%	0%	28%
ATM	47%	33%	0%	6%	8%	28%
EgoBridge	67%	60%	27%	47%	33%	72%

消融实验 (Drawer 任务)¶

配置	Drawer SR	Beh. Gen. SR	说明
EgoBridge (full)	47%	33%	完整模型
MSE 替代 DTW	14%	17%	DTW 配对是关键，去掉后掉 33%
Standard OT (边际对齐)	33%	17%	联合 OT 优于边际 OT
Co-train (无对齐)	22%	0%	无对齐完全无法行为泛化

关键发现¶

DTW 配对贡献最大：将 DTW 替换为 MSE 后性能暴跌（47%→14%），说明时间对齐和运动学鲁棒的配对是核心
联合 OT 优于边际 OT：标准 OT 仅对齐特征边际分布但忽略动作对应关系，泛化能力显著下降
行为泛化是独特能力：其他所有基线在仅人类数据覆盖的新抽屉位置上完全失败(0%)，唯独 EgoBridge 实现 33% 成功率
潜在空间可视化：t-SNE 显示 EgoBridge 的人类-机器人特征重叠度最高（Wasserstein-2 距离最小），KNN 配对语义最相似

亮点与洞察¶

OT + DTW 的组合设计：OT 提供可微的分布对齐框架，DTW 提供时间鲁棒的行为匹配度量。两者组合使得对齐是"行为感知"的——这个 idea 可迁移到任何跨域模仿学习场景
从人类学新行为：这是最有价值的贡献。大多数方法只能增强机器人已有行为的鲁棒性，EgoBridge 能让机器人执行从未遥操作过的新行为，真正实现了人类数据的"增值"
软监督优于硬约束：DTW 不直接作为损失函数，而是通过降低 OT 代价来引导对齐。这种软监督方式更鲁棒，避免了 DTW 本身的噪声影响

局限与展望¶

单任务 DTW：DTW 基于动作轨迹距离，在多任务联合训练时可能无法区分不同任务中相似的局部运动。作者提到未来可用 VLM 的语言嵌入距离替代
仍需少量机器人数据：不是纯粹的人类到机器人迁移，需要目标域的种子数据。能否进一步减少/消除？
SE(3) 动作空间假设：要求人类和机器人共享末端执行器位姿空间，对灵巧操作等不同运动学的任务可能受限
评估规模：每个任务的测试 rollout 数量较少（15-48 次），统计置信度有限

评分¶

新颖性: ⭐⭐⭐⭐ OT + DTW 的组合在跨具身模仿学习中是新颖的，联合分布对齐的形式化也很清晰
实验充分度: ⭐⭐⭐⭐ 三个真实世界任务（含双臂），仿真消融，潜在空间可视化，充分验证假设
写作质量: ⭐⭐⭐⭐ 问题形式化清晰，方法动机充分，实验条理分明
价值: ⭐⭐⭐⭐⭐ 行为泛化能力是真正的突破——让人类数据不再只是"锦上添花"而是真的能教机器人新技能