Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot Manipulation¶

会议: CVPR 2025
arXiv: 2504.00420
代码: 无
领域: 机器人操作 / 持续学习
关键词: 原始提示学习, 终身学习, 光流, 扩散策略, 灾难性遗忘

一句话总结¶

提出 Primitive Prompt Learning (PPL)，通过将运动原语编码为可复用的提示向量，结合光流感知的 Motion-Aware Prompting（MAP）实现跨技能运动原语共享，用冻结-扩展机制支持终身机器人操作学习，在 LIBERO 和真实世界中均优于 LoRA、经验回放等基线。

研究背景与动机¶

领域现状：机器人操作策略通常在固定任务集合上训练，面对新任务时需要重新训练。实际应用中机器人需要持续学习新技能而不遗忘旧技能（终身学习）。现有终身学习方法（经验回放、LoRA 等）要么需要存储旧数据，要么无法有效迁移知识。

现有痛点：不同操作技能之间存在共享的运动原语（如"抓取"动作在拿杯子和拿香蕉中相似），但现有方法只通过语义相似性（文本嵌入）发现任务间关联，忽略了运动层面的共享结构。语义不同但运动相似的任务（"grasp mug" vs "place banana"）之间的知识迁移被遗漏。

核心矛盾：终身学习需要平衡旧知识保留和新知识获取。参数共享多→迁移好但遗忘严重；参数隔离多→遗忘少但迁移弱。

本文目标 找到共享的运动原语，让它们在多任务预训练中学到并在终身学习中冻结复用。

切入角度：用光流提取运动信息，与 CLIP 文本嵌入结合形成查询向量。光流捕捉的运动模式（"向下抓取"、"向前推动"）跨越语义边界，是发现运动原语共享性的关键。

核心 idea：光流+语义联合查询发现跨任务运动原语 → 编码为提示向量 → 预训练冻结后终身复用。

方法详解¶

整体框架¶

两阶段框架：Stage 1 在多技能数据上预训练扩散 Transformer 策略+原始提示向量。提示通过前缀方式注入 MSA 层的 Key/Value。Stage 2 学习新技能时冻结预训练提示，新增终身学习提示并用注意力加权机制混合两种提示。MAP 模块将光流和文本嵌入结合为查询向量，通过余弦相似度选择相关的提示组件。

关键设计¶

Motion-Aware Prompting (MAP):
- 功能：同时利用运动和语义信息发现跨任务的共享原语
- 核心思路：用 RAFT 算法提取视频中的光流 \(F\)，特征化后得到 \(\Phi(F)\)；用 CLIP 编码任务描述 \(E_{\text{CLIP}}(T)\)。两者融合为 MAP 查询 \(\text{MAP}(T,F) = f_{\text{prompt}}(E_{\text{CLIP}}(T), \Phi(F))\)。光流捕捉低层运动模式（方向、速度、轨迹），CLIP 捕捉高层语义
- 设计动机：纯文本查询只能发现语义相似任务间的关联（如"拿杯子"和"拿瓶子"），无法发现语义不同但运动相似的任务（如"抓杯子"和"放香蕉"都涉及手臂下移+夹爪闭合）。消融显示 MAP 使提示权重分布反映了运动共享模式
前缀提示学习（Prefix Prompt）:
- 功能：以最小参数量为策略网络注入技能知识
- 核心思路：提示 \(p \in \mathbb{R}^{L_p \times D}\) 分为 \(\{p^K, p^V\}\) 对，前缀拼接到 MSA 的 Key 和 Value 序列中：\(f_{P-T}(\mathbf{p}, \mathbf{h}) = \text{MSA}(h_Q, [\mathbf{p}_K; h_K], [\mathbf{p}_V; h_V])\)，只更新提示参数而冻结主干网络
- 设计动机：提示学习的参数量远小于全量微调或 LoRA，且提示可以独立冻结/扩展，天然适合终身学习的知识管理
冻结-扩展的终身学习机制:
- 功能：学新技能时不遗忘旧技能
- 核心思路：新任务到来时冻结所有预训练提示，新增一组终身提示。MAP 查询用注意力加权机制从冻结提示和新提示中选择相关组件：\(\alpha_m = \cos\_\text{sim}(\text{MAP}(T,F) \odot A, K_m)\)，\(p = \sum_m \alpha_m P_m\)。只更新新提示的参数
- 设计动机：冻结提示保留旧知识不受干扰，新提示捕捉新任务特有的运动模式。注意力机制让选择过程可微分且自适应

损失函数 / 训练策略¶

行为克隆损失：\(\hat\theta = \min_\theta \sum_k \mathbb{E}_{s_t, a_t \sim \mathcal{D}_k}[\sum_t \mathcal{L}(\pi(a|s_t, T_k; \theta), a_k^t)]\)，通过扩散策略参数化。预训练使用 MimicGen + LIBERO 数据，每技能 200 条人类演示。终身学习阶段只更新新提示参数。

实验关键数据¶

主实验¶

LIBERO 终身学习（7 个顺序任务）的前向/后向迁移：

方法	平均 FWT	平均 BWT
Sequential	低	严重遗忘
Experience Replay	中	负 BWT
LoRA	中	中
PPL (Ours)	0.83±0.03	0.78±0.09

真实世界实验（Franka Panda，9 个技能）：

方法	预训练均值	终身学习均值
Diffusion-Transformer	0.42±0.09	-
MoE	0.73±0.08	-
PPL	0.84±0.05	0.68±0.05

消融实验¶

配置	效果
文本-only 查询	只发现语义相似任务间的关联
文本+光流查询 (MAP)	额外发现运动相似任务间的关联
无预训练提示	终身学习性能显著下降
极端光照变化	光流质量下降导致性能退化 (0.83→0.61)

关键发现¶

光流发现运动原语共享：MAP 查询使语义不同但运动相似的任务（如"抓杯子"和"放香蕉"）共享更高的提示权重，这是纯文本查询无法实现的
提示数量不是越多越好：过多提示引入噪声，最优数量需要平衡覆盖度和精度
训练效率接近 LoRA：PPL 速度与 LoRA 相当，但性能接近 MoE（同时获得效率和质量）
后期任务遗忘更明显：Task 7 的 BWT 降至 0.43，说明终身学习序列越长遗忘风险越大
光照鲁棒性不足：暖→冷→暗的光照变化使光流方案从 0.83 降到 0.61，纯文本方案反而更稳定

亮点与洞察¶

MAP 的双模态查询：将"看起来像什么"（语义）和"怎么动的"（运动）结合来发现原语共享性，这种直觉非常自然——人类学新技能时也会同时参考动作模式和任务描述
冻结-扩展的简洁性：不需要复杂的正则化项来防遗忘，只需冻结旧提示+扩展新提示。注意力加权自动处理新旧知识的融合
提示作为运动原语的载体：每个提示向量对应一种运动原语，提示选择权重可以可视化任务间的运动共享模式

局限与展望¶

光照敏感性：光流在极端光照变化下失效，限制了真实环境中的部署可靠性。深度或 3D 场景流可能更鲁棒
后期任务遗忘：7 个任务序列末端的 BWT 已经明显下降（0.43），更长的终身学习序列可能面临更大挑战
仅桌面操作：实验限于 Franka Panda 的桌面操作任务，移动操作或双臂协作未涉及
提示数量需要手动调参：最优提示数量取决于任务复杂度，缺乏自适应机制
单步光流：RAFT 只提取相邻帧的光流，无法捕获长程运动模式

评分¶

新颖性: ⭐⭐⭐⭐ 光流+语义联合发现运动原语是有趣的创新，冻结-扩展提示的终身学习设计简洁有效
实验充分度: ⭐⭐⭐⭐ 仿真+真实世界、多基线对比、消融充分，但任务规模有限（最多 9 个技能）
写作质量: ⭐⭐⭐⭐ 方法描述清晰，可视化分析有说服力
价值: ⭐⭐⭐⭐ 为机器人终身学习提供了轻量且有效的方案