AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots¶

会议: CVPR 2026
arXiv: 2603.07648
机构: 中山大学、鹏城实验室、银旺智能领域: 机器人操作 / 视觉-语言-动作模型
关键词: VLA, 原子技能, Mixture-of-Experts, 持续学习, 任务规划, 技能路由

一句话总结¶

提出AtomicVLA，在π₀基础上构建统一规划-执行框架，通过自适应Think-Act切换生成原子技能抽象，并用技能引导的MoE（SG-MoE）将动作路由到专精expert执行，LIBERO-LONG成功率从85.2%提升至95.2%（+10%），真实Franka长任务+18.3%，持续学习+21%。

研究背景与动机¶

现有瓶颈：当前VLA模型（π₀、OpenVLA等）使用单一动作解码器，将所有技能知识混合在同一组参数中。面对多步长任务时缺乏显式规划能力，面对新技能学习时存在灾难性遗忘。
两阶段方法的不足：SayCan、Inner Monologue等方法用外部LLM做高层规划+独立底层控制器执行，但规划器与执行器之间缺乏相互感知，导致指令过时或不相关，且存在系统延迟。
核心需求：机器人模型需要同时支持 (1) 高层推理与任务规划，(2) 精细动作生成，(3) 可扩展的持续学习——现有方法无法同时满足这三点。
核心思路：将复杂任务分解为可复用的原子技能（如grasp、push、rotate），每个技能由专属expert处理，通过模块化设计实现技能库的持续扩展。

方法详解¶

整体框架¶

AtomicVLA基于π₀构建端到端框架，统一thinking和acting两种模态。输入为多相机观测 \(O_t^{1:n}\) 和语言指令 \(\ell\)，模型首先自适应预测当前应进入thinking还是acting模式：

Thinking模式：在任务开始或子技能切换时激活，生成三部分输出——任务链 \(C_{0 \to k}\)（将指令分解为有序子目标）、当前进度 \(C_t\)、原子技能抽象 \(\sigma\)
Acting模式：在正常执行阶段激活，基于最新技能抽象 \(\sigma\) 和本体感知状态 \(s_t\)，通过SG-MoE生成动作chunk \(A_t\)

关键设计¶

1. 自适应Think-Act切换机制

功能：让模型自主决定"该想还是该做"，避免每步都做规划的计算浪费
核心思路：引入两个特殊输出token [think] 和 [act]。模型在每个决策步先预测标识符，[think] 触发高层规划生成任务链和原子技能标签，[act] 触发动作chunk输出
设计动机：任务初始和子技能转换时才需要规划，中间执行阶段直接生成动作即可。这种自适应切换比固定周期规划更高效，也比完全不规划的纯动作预测更鲁棒。当执行失败时（如物体掉落），模型能自动检测异常、重新触发thinking、生成新的技能抽象并恢复执行

2. 技能引导的Mixture-of-Experts架构（SG-MoE）

功能：将不同原子技能的动作生成分配给各自专精的expert，避免技能间干扰
核心思路：SG-MoE包含三个核心组件：
- Skill Router：基于原子技能抽象 \(\sigma\) 做路由决策。采用噪声调度式嵌入：每个原子技能映射到标量噪声级别 \(\sigma \in [0,100]\)，经可学习嵌入函数转换为高维向量 \(Z_\sigma = E(\text{norm}(\log(\sigma)))\)。Router对 \(Z_\sigma\) 计算expert概率分布，激活top-1技能expert
- 共享Expert：保留π₀预训练权重，维持通用动作生成能力，所有token均经过此expert
- 原子技能Expert：每个expert专精一种原子技能，通过训练自然分化
设计动机：传统MoE的token级路由使每个expert仍学习混合技能，没有明确的技能专精化。SG-MoE用语义明确的原子技能标签做路由，确保同一技能的所有动作token由同一expert处理，减少技能间干扰
输出融合：最终动作为共享expert和激活技能expert的加权组合 \(F_{out} = (1-w_k) \cdot F_{share}(x_t) + w_k \cdot F_k(x_t)\)

3. 模块化持续学习（Skill Expansion）

功能：在不遗忘已有技能的前提下持续获取新技能
核心思路：当引入新原子技能时，只需 (a) 新增一个技能expert（随机初始化），(b) 扩展skill router的嵌入空间覆盖新技能标签，(c) 冻结所有已有expert参数——只训练新expert和更新后的router分支
设计动机：传统VLA的全量微调导致灾难性遗忘（如π₀.₅学新技能后旧技能平均下降15%）。"只加不改"的模块化策略从架构层面规避遗忘，router通过复制原有权重初始化保证平滑集成

4. 高质量Embodied Reasoning数据生成

功能：为thinking模式提供高质量训练数据（任务链+进度+技能标签）
核心思路：两阶段数据构建——首先对机器人演示轨迹做主轴运动分析（比较平移/旋转分量大小 + 夹爪状态追踪），自动分割为原子技能片段（如z轴持续下降+夹爪闭合 → "pick"动作）；然后用InternVideo2.5对每个片段进行语义标注，自动校正并丰富初始的原子动作标签
设计动机：传统方法依赖VLM做视频理解或光流特征分割，容易产生歧义和噪声，需要大量人工后处理。基于物理运动学的分解更精确、更少依赖人工

训练策略¶

Think模式：交叉熵损失，预测任务链、进度和技能标签的token序列
Act模式：Flow matching损失（继承π₀），预测连续动作chunk
总损失：\(\mathcal{L}_{total} = \mathcal{L}_{think} + \mathcal{L}_{act}\)
Expert配置：LIBERO和真实机器人实验使用5个技能expert，CALVIN使用8个技能expert
两种变体：AtomicVLA基于π₀构建，AtomicVLA*基于π₀.₅构建

实验关键数据¶

主实验：LIBERO Benchmark（成功率%）¶

方法	Spatial	Object	Goal	Long	Avg.
Octo	78.9	85.7	84.6	51.1	75.1
OpenVLA	84.9	88.4	79.2	53.7	76.5
CoT-VLA	87.5	91.6	87.6	69.0	81.1
π₀	96.4	98.8	95.8	85.2	94.2
π₀.₅	98.8	98.2	98.0	92.4	96.9
AtomicVLA	96.8	98.0	96.4	95.2	96.6
AtomicVLA*	98.8	98.8	97.2	96.2	97.8

主实验：CALVIN ABC→D（长任务序列完成率%）¶

方法	1任务	2任务	3任务	4任务	5任务	Avg.Len↑
π₀	94.3	87.0	77.9	68.5	59.4	3.87
π₀.₅	91.9	84.6	79.4	75.5	71.0	4.02
AtomicVLA	95.0	87.8	81.9	75.0	69.1	4.09
AtomicVLA*	94.1	88.7	85.2	81.7	77.6	4.27

真实Franka机器人：长任务（成功率%）¶

方法	物体入盘	物体入抽屉	物体入微波炉	Avg.	ΔAvg.
π₀	45	55	10	36.7	—
π₀.₅	65	35	35	45.0	—
AtomicVLA	65	60	45	56.7	+20.0
AtomicVLA*	75	60	55	63.3	+18.3

持续学习：技能扩展实验（成功率%）¶

方法	Grasp	Stack	Close	Press	Open(新)	Avg.	ΔAvg.
π₀.₅ (基线)	85	65	70	90	—	77.5	—
π₀.₅ (持续学习)	70	45	60	75	55	61.0	-15.0
AtomicVLA* (基线)	95	80	70	100	—	86.3	—
AtomicVLA* (持续学习)	90	80	80	100	70	82.0	-1.3

消融实验：SG-MoE路由机制（LIBERO-LONG%）¶

方法	LIBERO-LONG
π₀ (无MoE)	85.2
+ 标准token级MoE	88.6 (+3.4)
+ MoDE (去噪步路由)	89.5 (+4.3)
+ SG-MoE (原子技能路由)	95.2 (+10.0)

关键发现¶

LIBERO-LONG提升最显著：AtomicVLA在最具挑战性的长序列任务上提升10%，证明显式规划+技能分解对多步任务至关重要
SG-MoE远超标准MoE：标准token级MoE和MoDE仅分别提升3.4%和4.3%，而SG-MoE提升10%——因为前两者仍是token级路由，expert学习混合技能；SG-MoE确保同一技能的所有token由同一expert处理
持续学习几乎无遗忘：π₀.₅学习新技能后旧技能平均下降15%（Stack最严重降20%），AtomicVLA*仅下降1.3%，从架构层面解决遗忘问题
混合训练技能干扰：不同夹爪状态需求的任务混合训练会互相干扰（如抽屉开启不需闭合夹爪，影响抓取任务），SG-MoE通过技能隔离有效缓解
错误恢复能力：AtomicVLA在执行失败时能自动检测异常并重新规划（如物体掉落后重新生成技能抽象），但CALVIN评测框架不认可恢复后的完成，报告数字可能低估真实能力

亮点与洞察¶

Think-Act统一范式：不是简单的chain-of-thought叠加，而是将规划与原子技能抽象深度耦合——thinking的输出直接驱动MoE的路由决策，规划和执行在同一模型中形成闭环
噪声调度式技能嵌入：借鉴扩散模型的思路将离散技能标签映射到连续嵌入空间做路由，设计巧妙且实验证明优于通用token路由
"只加不改"的持续学习：不依赖正则化（EWC等）或经验回放，而是从架构设计上冻结旧expert、只训练新expert，简单有效
主轴分析数据生成：用运动学主轴分析替代VLM视频理解做原子动作分割，物理先验更可靠且不依赖人工标注

局限性¶

原子技能标签质量依赖InternVideo2.5的生成能力，对罕见或高度专业化操作可能标注不准
SG-MoE采用top-1路由，需要多技能协同的动作（如"边推边转"）可能需要top-k路由
每新增一个技能就增加一个expert，长期参数量线性增长——缺乏expert合并或剪枝机制
CALVIN上提升（+0.22 avg len）相对LIBERO较小，可能因CALVIN任务粒度与原子技能对齐不够紧密
混合训练异构任务时仍存在干扰（如夹爪状态冲突），SG-MoE缓解但未完全消除

评分¶

新颖性: ⭐⭐⭐⭐⭐ Think-Act统一 + SG-MoE噪声调度路由 + 模块化持续学习，三大创新点自洽
实验充分度: ⭐⭐⭐⭐ LIBERO四子集 + CALVIN + 真实Franka + 消融 + 持续学习，数据充实
写作质量: ⭐⭐⭐⭐ 动机-方法-实验逻辑清晰，SG-MoE架构图直观，算法伪代码规范
价值: ⭐⭐⭐⭐⭐ 对VLA持续学习和长任务规划有重要贡献，SG-MoE思路具有通用启发价值