Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment¶
会议: CVPR 2026
arXiv: 2603.10929
代码: https://github.com/yfqi/lifelong_mlr_ifa
领域: 强化学习
关键词: 终身模仿学习, 多模态潜在回放, 增量特征调整, 灾难性遗忘, 机器人操作
一句话总结¶
提出终身模仿学习框架,通过 Multimodal Latent Replay(在冻结编码器的潜空间中存储和回放紧凑多模态特征)和 Incremental Feature Adjustment(基于角距离的自适应间隔约束防止任务间表示漂移),在 LIBERO 基准上实现 AUC 提升 10-17 点、遗忘减少 65%。
研究背景与动机¶
模仿学习(IL)让机器人通过观察人类示范学习行为,但现实环境是动态变化的,新的物体、目标和场景不断出现。标准 IL 假设固定任务集,无法处理持续到来的新任务。终身模仿学习(LIL)需要在不断获取新技能的同时保持已学行为,核心挑战是灾难性遗忘。
现有 LIL 方法的局限:(1) 经验回放方法(如 ER)存储原始轨迹数据,内存占用大,且对新旧任务相似度敏感;(2) 渐进式模型扩展方法(如 TAIL)需要测试时的任务标识符,限制实际应用;(3) 蒸馏方法(如 M2Distill)结构复杂。更关键的是,当新任务与旧任务在潜空间中表示重叠时,共享 embedding 空间内的干扰会恶化遗忘。
核心 idea:(1) 用冻结的预训练编码器提取多模态特征,在潜空间而非原始数据空间进行回放,大幅降低存储开销;(2) 通过角距离间隔约束,主动将新任务的表示推离旧任务的参考 embedding,保持任务间可区分性。
方法详解¶
整体框架¶
两阶段训练:(1) 多任务预训练阶段——联合训练所有模块(视觉/语言/状态编码器、FiLM 调制层、时序解码器、策略头);(2) 终身学习阶段——冻结编码器,仅更新时序解码器和策略头,结合 MLR 和 IFA 在新任务上持续学习。
关键设计¶
-
Multimodal Latent Replay (MLR):
- 功能:在终身学习阶段,存储冻结编码器输出的多模态潜特征(而非原始图像和轨迹),学习新任务时与新数据混合训练
- 核心思路:缓冲区 \(\mathcal{B} = \{(\mathbf{H}_n, a_n)\}_{n=1}^{N_B}\),其中 \(\mathbf{H}_n \in \mathbb{R}^{M \times L \times E}\) 是拼接了视觉、语言、状态的多模态潜特征序列。学习新任务 \(T_k\) 时最小化 \(\mathcal{L}_{BC}\) on \(\mathcal{D}_k \cup \mathcal{B}\)
- 设计动机:原始轨迹(高维图像序列)存储开销巨大。通过冻结编码器,潜特征是稳定且紧凑的,每个任务仅需 ~37-188MB(取决于采样概率),远小于存储原始图像。冻结编码器还消除了对 PEFT(如 LoRA)的需求
-
Incremental Feature Adjustment (IFA):
- 功能:对新旧任务在潜空间中的表示施加角距离间隔约束,防止表示漂移导致的干扰
- 核心思路:\(\mathcal{L}_{IFA} = \frac{1}{|\mathcal{P}|}\sum_{(j,k) \in \mathcal{P}} \max(0, d(g_t(T_k), h^{(r)}(T_k)) - d(g_t(T_k), h^{(r)}(T_j)) + \delta)\),其中 \(d(a,b) = \arccos(\frac{a^\top b}{\|a\|_2 \|b\|_2})\) 为角距离,间隔 \(\delta = \alpha \cdot d(h^{(r)}(T_k), h^{(r)}(T_j))\) 自适应地随任务参考间距缩放
- 设计动机:当新任务的全局潜表示 \(g_t(T_k)\) 与旧任务的参考 \(h^{(r)}(T_j)\) 过于接近时,共享时序解码器会混淆两个任务。IFA 产生排斥力将新任务推离旧任务,同时保持与自身参考的吸引力。自适应间隔避免了固定间隔对不同任务相似度的不适应
-
Task Pair Selection 与 Reference Choice:
- 功能:选择哪些任务对需要施加 IFA 约束,以及用什么作为每个任务的参考 embedding
- 核心思路:计算所有任务对在 agent-view 和 language 模态上的余弦相似度,仅对同时在两个模态 top 50% 相似且包含新旧任务的对施加 IFA。参考选用语言 embedding \(h^{(l)}\)——因为语言描述对任务具有稳定、固定的表示
- 设计动机:不是所有任务对都需要分离——仅相似的任务对容易发生表示干扰,针对性约束更高效
损失函数 / 训练策略¶
终身学习阶段总损失:\(\mathcal{L} = \mathcal{L}_{BC} + \lambda_{IFA} \mathcal{L}_{IFA}\),\(\lambda_{IFA} = 0.1\)。使用 AdamW 优化器,学习率 \(10^{-4}\),batch size 10,训练 100 epoch。缓冲区大小等价于每任务 5 个演示。基座编码器为冻结的 CLIP。
实验关键数据¶
主实验¶
| 方法 | LIBERO-OBJECT AUC↑ | LIBERO-GOAL AUC↑ | LIBERO-50 AUC↑ | LIBERO-GOAL NBT↓ |
|---|---|---|---|---|
| Sequential | 30.0 | 23.0 | 14.0 | 70.0 |
| ER | 49.0 | 47.0 | 36.0 | 36.0 |
| LOTUS | 65.0 | 56.0 | 45.0 | 30.0 |
| M2Distill | 69.0 | 57.0 | NA | 20.0 |
| ISCIL | 66.3 | 60.5 | 37.7 | 19.4 |
| MLR + IFA | 79.4 | 77.2 | 56.1 | 6.9 |
消融实验¶
| 配置 | LIBERO-OBJ AUC | LIBERO-GOAL AUC | 说明 |
|---|---|---|---|
| MLR only | 77.6 | 74.6 | 仅潜在回放已大幅超越 SOTA |
| MLR + IFA | 79.4 | 77.2 | IFA 进一步改善 |
| 不同模态 pair: Lan+AV | 79.4 | 77.2 | 最佳组合 |
| 仅 Language | 77.3 | 71.8 | 不如 Lan+AV |
| Mean global 作为参考 | 75.7 | 70.5 | 不如 Language 参考 |
关键发现¶
- MLR 单独就已大幅超越所有 SOTA:LIBERO-OBJECT AUC 77.6 vs ISCIL 66.3,LIBERO-GOAL AUC 74.6 vs 60.5
- IFA 在所有数据集上进一步改善,在 LIBERO-GOAL 上 NBT 从 10.0 降至 6.9(遗忘减少 31%)
- 在最挑战的 LIBERO-50 上,MLR+IFA 的 NBT 为 8.6,远低于 LOTUS 的 43.0,表明方法在长任务序列上特别有效
- 语言 + agent-view 是 IFA 任务对选择的最佳模态组合
亮点与洞察¶
- "冻结编码器 + 潜在回放"的设计极其简洁高效——不需要 PEFT、不需要蒸馏、不需要开放词汇编码器,却超越了所有使用这些复杂技术的方法
- IFA 的自适应间隔 \(\delta = \alpha \cdot d(h^{(r)}(T_k), h^{(r)}(T_j))\) 意味着任务越相似间隔越小,任务越不同间隔越大,自然适应任务结构
- 使用语言 embedding 作为参考锚点是一个优雅的选择——语言描述稳定不变,是任务的天然标识符
局限与展望¶
- 依赖预训练阶段的 CLIP 编码器质量,如果编码器表示不适合目标域可能需要微调
- 缓冲区的统一随机采样策略可能不是最优的,基于信息量的优先采样可能更好
- IFA 的 \(\alpha\) 对不同数据集需要手动调整(0.1-0.7),自动搜索机制值得探索
- 仅在 LIBERO 基准上验证,更多实际机器人平台的验证是必要的
相关工作与启发¶
- LOTUS 提出了开放词汇的终身学习方案,本文证明冻结 CLIP + 潜在回放是更简洁有效的替代
- M2Distill 用多模态蒸馏保持表示稳定,IFA 用角距离约束达到类似目标但更简单
- 潜在回放的思想可推广到其他需要持续学习的多模态系统
- TAIL 的每任务 LoRA 方案需要测试时任务 ID,本文实现了任务无关的 LIL
- ER 直接存储原始轨迹,MLR 存储潜特征减少 >90% 的存储开销
补充细节¶
- 缓冲区存储采用随机采样策略,保持所有已遇任务的平衡分配
- FiLM 层用语言特征调制视觉和状态 embedding,实现任务条件化的表示
- GPT-2 作为时序解码器,将多模态潜特征序列映射为全局表示
- 实验使用单张 A100 GPU,计算资源需求低
- LIBERO-50 中每阶段引入 5 个新任务,共 5 阶段 25 个新任务,充分测试长序列可扩展性
评分¶
- 新颖性: ⭐⭐⭐⭐ MLR+IFA 的设计简洁有效,自适应间隔约束有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 三个 LIBERO 数据集、多基线对比、详细消融(模态、参考、比例、缓冲区大小)
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,消融分析系统化,IFA 的图示直观
- 价值: ⭐⭐⭐⭐⭐ AUC +10-17 点、NBT 下降 65% 的提升巨大,方法简洁可复现