AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots¶
会议: CVPR 2026
arXiv: 2603.07648
机构: 中山大学、鹏城实验室、银旺智能
领域: 机器人操作 / 视觉-语言-动作模型
关键词: VLA, 原子技能, Mixture-of-Experts, 持续学习, 任务规划, 技能路由
一句话总结¶
提出AtomicVLA,在π₀基础上构建统一规划-执行框架,通过自适应Think-Act切换生成原子技能抽象,并用技能引导的MoE(SG-MoE)将动作路由到专精expert执行,LIBERO-LONG成功率从85.2%提升至95.2%(+10%),真实Franka长任务+18.3%,持续学习+21%。
研究背景与动机¶
- 现有瓶颈:当前VLA模型(π₀、OpenVLA等)使用单一动作解码器,将所有技能知识混合在同一组参数中。面对多步长任务时缺乏显式规划能力,面对新技能学习时存在灾难性遗忘。
- 两阶段方法的不足:SayCan、Inner Monologue等方法用外部LLM做高层规划+独立底层控制器执行,但规划器与执行器之间缺乏相互感知,导致指令过时或不相关,且存在系统延迟。
- 核心需求:机器人模型需要同时支持 (1) 高层推理与任务规划,(2) 精细动作生成,(3) 可扩展的持续学习——现有方法无法同时满足这三点。
- 核心思路:将复杂任务分解为可复用的原子技能(如grasp、push、rotate),每个技能由专属expert处理,通过模块化设计实现技能库的持续扩展。
方法详解¶
整体框架¶
AtomicVLA基于π₀构建端到端框架,统一thinking和acting两种模态。输入为多相机观测 \(O_t^{1:n}\) 和语言指令 \(\ell\),模型首先自适应预测当前应进入thinking还是acting模式:
- Thinking模式:在任务开始或子技能切换时激活,生成三部分输出——任务链 \(C_{0 \to k}\)(将指令分解为有序子目标)、当前进度 \(C_t\)、原子技能抽象 \(\sigma\)
- Acting模式:在正常执行阶段激活,基于最新技能抽象 \(\sigma\) 和本体感知状态 \(s_t\),通过SG-MoE生成动作chunk \(A_t\)
关键设计¶
1. 自适应Think-Act切换机制
- 功能:让模型自主决定"该想还是该做",避免每步都做规划的计算浪费
- 核心思路:引入两个特殊输出token [think] 和 [act]。模型在每个决策步先预测标识符,[think] 触发高层规划生成任务链和原子技能标签,[act] 触发动作chunk输出
- 设计动机:任务初始和子技能转换时才需要规划,中间执行阶段直接生成动作即可。这种自适应切换比固定周期规划更高效,也比完全不规划的纯动作预测更鲁棒。当执行失败时(如物体掉落),模型能自动检测异常、重新触发thinking、生成新的技能抽象并恢复执行
2. 技能引导的Mixture-of-Experts架构(SG-MoE)
- 功能:将不同原子技能的动作生成分配给各自专精的expert,避免技能间干扰
- 核心思路:SG-MoE包含三个核心组件:
- Skill Router:基于原子技能抽象 \(\sigma\) 做路由决策。采用噪声调度式嵌入:每个原子技能映射到标量噪声级别 \(\sigma \in [0,100]\),经可学习嵌入函数转换为高维向量 \(Z_\sigma = E(\text{norm}(\log(\sigma)))\)。Router对 \(Z_\sigma\) 计算expert概率分布,激活top-1技能expert
- 共享Expert:保留π₀预训练权重,维持通用动作生成能力,所有token均经过此expert
- 原子技能Expert:每个expert专精一种原子技能,通过训练自然分化
- 设计动机:传统MoE的token级路由使每个expert仍学习混合技能,没有明确的技能专精化。SG-MoE用语义明确的原子技能标签做路由,确保同一技能的所有动作token由同一expert处理,减少技能间干扰
- 输出融合:最终动作为共享expert和激活技能expert的加权组合 \(F_{out} = (1-w_k) \cdot F_{share}(x_t) + w_k \cdot F_k(x_t)\)
3. 模块化持续学习(Skill Expansion)
- 功能:在不遗忘已有技能的前提下持续获取新技能
- 核心思路:当引入新原子技能时,只需 (a) 新增一个技能expert(随机初始化),(b) 扩展skill router的嵌入空间覆盖新技能标签,(c) 冻结所有已有expert参数——只训练新expert和更新后的router分支
- 设计动机:传统VLA的全量微调导致灾难性遗忘(如π₀.₅学新技能后旧技能平均下降15%)。"只加不改"的模块化策略从架构层面规避遗忘,router通过复制原有权重初始化保证平滑集成
4. 高质量Embodied Reasoning数据生成
- 功能:为thinking模式提供高质量训练数据(任务链+进度+技能标签)
- 核心思路:两阶段数据构建——首先对机器人演示轨迹做主轴运动分析(比较平移/旋转分量大小 + 夹爪状态追踪),自动分割为原子技能片段(如z轴持续下降+夹爪闭合 → "pick"动作);然后用InternVideo2.5对每个片段进行语义标注,自动校正并丰富初始的原子动作标签
- 设计动机:传统方法依赖VLM做视频理解或光流特征分割,容易产生歧义和噪声,需要大量人工后处理。基于物理运动学的分解更精确、更少依赖人工
训练策略¶
- Think模式:交叉熵损失,预测任务链、进度和技能标签的token序列
- Act模式:Flow matching损失(继承π₀),预测连续动作chunk
- 总损失:\(\mathcal{L}_{total} = \mathcal{L}_{think} + \mathcal{L}_{act}\)
- Expert配置:LIBERO和真实机器人实验使用5个技能expert,CALVIN使用8个技能expert
- 两种变体:AtomicVLA基于π₀构建,AtomicVLA*基于π₀.₅构建
实验关键数据¶
主实验:LIBERO Benchmark(成功率%)¶
| 方法 | Spatial | Object | Goal | Long | Avg. |
|---|---|---|---|---|---|
| Octo | 78.9 | 85.7 | 84.6 | 51.1 | 75.1 |
| OpenVLA | 84.9 | 88.4 | 79.2 | 53.7 | 76.5 |
| CoT-VLA | 87.5 | 91.6 | 87.6 | 69.0 | 81.1 |
| π₀ | 96.4 | 98.8 | 95.8 | 85.2 | 94.2 |
| π₀.₅ | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 |
| AtomicVLA | 96.8 | 98.0 | 96.4 | 95.2 | 96.6 |
| AtomicVLA* | 98.8 | 98.8 | 97.2 | 96.2 | 97.8 |
主实验:CALVIN ABC→D(长任务序列完成率%)¶
| 方法 | 1任务 | 2任务 | 3任务 | 4任务 | 5任务 | Avg.Len↑ |
|---|---|---|---|---|---|---|
| π₀ | 94.3 | 87.0 | 77.9 | 68.5 | 59.4 | 3.87 |
| π₀.₅ | 91.9 | 84.6 | 79.4 | 75.5 | 71.0 | 4.02 |
| AtomicVLA | 95.0 | 87.8 | 81.9 | 75.0 | 69.1 | 4.09 |
| AtomicVLA* | 94.1 | 88.7 | 85.2 | 81.7 | 77.6 | 4.27 |
真实Franka机器人:长任务(成功率%)¶
| 方法 | 物体入盘 | 物体入抽屉 | 物体入微波炉 | Avg. | ΔAvg. |
|---|---|---|---|---|---|
| π₀ | 45 | 55 | 10 | 36.7 | — |
| π₀.₅ | 65 | 35 | 35 | 45.0 | — |
| AtomicVLA | 65 | 60 | 45 | 56.7 | +20.0 |
| AtomicVLA* | 75 | 60 | 55 | 63.3 | +18.3 |
持续学习:技能扩展实验(成功率%)¶
| 方法 | Grasp | Stack | Close | Press | Open(新) | Avg. | ΔAvg. |
|---|---|---|---|---|---|---|---|
| π₀.₅ (基线) | 85 | 65 | 70 | 90 | — | 77.5 | — |
| π₀.₅ (持续学习) | 70 | 45 | 60 | 75 | 55 | 61.0 | -15.0 |
| AtomicVLA* (基线) | 95 | 80 | 70 | 100 | — | 86.3 | — |
| AtomicVLA* (持续学习) | 90 | 80 | 80 | 100 | 70 | 82.0 | -1.3 |
消融实验:SG-MoE路由机制(LIBERO-LONG%)¶
| 方法 | LIBERO-LONG |
|---|---|
| π₀ (无MoE) | 85.2 |
| + 标准token级MoE | 88.6 (+3.4) |
| + MoDE (去噪步路由) | 89.5 (+4.3) |
| + SG-MoE (原子技能路由) | 95.2 (+10.0) |
关键发现¶
- LIBERO-LONG提升最显著:AtomicVLA在最具挑战性的长序列任务上提升10%,证明显式规划+技能分解对多步任务至关重要
- SG-MoE远超标准MoE:标准token级MoE和MoDE仅分别提升3.4%和4.3%,而SG-MoE提升10%——因为前两者仍是token级路由,expert学习混合技能;SG-MoE确保同一技能的所有token由同一expert处理
- 持续学习几乎无遗忘:π₀.₅学习新技能后旧技能平均下降15%(Stack最严重降20%),AtomicVLA*仅下降1.3%,从架构层面解决遗忘问题
- 混合训练技能干扰:不同夹爪状态需求的任务混合训练会互相干扰(如抽屉开启不需闭合夹爪,影响抓取任务),SG-MoE通过技能隔离有效缓解
- 错误恢复能力:AtomicVLA在执行失败时能自动检测异常并重新规划(如物体掉落后重新生成技能抽象),但CALVIN评测框架不认可恢复后的完成,报告数字可能低估真实能力
亮点与洞察¶
- Think-Act统一范式:不是简单的chain-of-thought叠加,而是将规划与原子技能抽象深度耦合——thinking的输出直接驱动MoE的路由决策,规划和执行在同一模型中形成闭环
- 噪声调度式技能嵌入:借鉴扩散模型的思路将离散技能标签映射到连续嵌入空间做路由,设计巧妙且实验证明优于通用token路由
- "只加不改"的持续学习:不依赖正则化(EWC等)或经验回放,而是从架构设计上冻结旧expert、只训练新expert,简单有效
- 主轴分析数据生成:用运动学主轴分析替代VLM视频理解做原子动作分割,物理先验更可靠且不依赖人工标注
局限性¶
- 原子技能标签质量依赖InternVideo2.5的生成能力,对罕见或高度专业化操作可能标注不准
- SG-MoE采用top-1路由,需要多技能协同的动作(如"边推边转")可能需要top-k路由
- 每新增一个技能就增加一个expert,长期参数量线性增长——缺乏expert合并或剪枝机制
- CALVIN上提升(+0.22 avg len)相对LIBERO较小,可能因CALVIN任务粒度与原子技能对齐不够紧密
- 混合训练异构任务时仍存在干扰(如夹爪状态冲突),SG-MoE缓解但未完全消除
相关工作与启发¶
- vs π₀/π₀.₅:纯flow matching动作预测,无显式规划。AtomicVLA在其基础上增加thinking和技能路由,LIBERO-Long +10%验证规划的价值
- vs SayCan/Inner Monologue:外部LLM做规划+独立控制器执行,规划与执行分离导致模态gap。AtomicVLA统一在同一模型中
- vs MoDE:用去噪时间步做路由信号,本质仍是token级路由。SG-MoE用语义明确的技能标签路由,+5.7%证明技能级路由更优
- MoE技能路由的通用性:噪声调度式嵌入路由可迁移到多任务NLP——用任务描述嵌入做expert路由
- 模块化持续学习范式:冻结旧expert+新增新expert的策略可用于视觉大模型的领域持续预训练
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Think-Act统一 + SG-MoE噪声调度路由 + 模块化持续学习,三大创新点自洽
- 实验充分度: ⭐⭐⭐⭐ LIBERO四子集 + CALVIN + 真实Franka + 消融 + 持续学习,数据充实
- 写作质量: ⭐⭐⭐⭐ 动机-方法-实验逻辑清晰,SG-MoE架构图直观,算法伪代码规范
- 价值: ⭐⭐⭐⭐⭐ 对VLA持续学习和长任务规划有重要贡献,SG-MoE思路具有通用启发价值