X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model¶
会议: ICLR2026
OpenReview: https://openreview.net/forum?id=kt51kZH4aG
论文: 项目主页
代码: 待确认
领域: 机器人 / 跨本体 Vision-Language-Action
关键词: 跨本体机器人, VLA, soft prompt, flow matching, 机器人预训练
一句话总结¶
X-VLA 把每个机器人数据源的硬件与采集差异编码成一组可学习 soft prompt,并配合简洁的 Transformer + flow matching 动作生成框架,在大规模异构机器人数据预训练后实现强跨本体适配。
研究背景与动机¶
领域现状:通用机器人策略正在从单任务模仿学习走向 Vision-Language-Action 模型:模型接收多视角图像、自然语言指令和本体状态,再输出未来一段动作。近年的 RT 系列、OpenVLA、\(\pi_0\)、GR00T 等工作都在尝试把 VLM 的开放词汇理解能力和机器人动作生成结合起来,让一个模型覆盖多机器人、多任务、多环境。
现有痛点:真正难的地方不是只把动作维度对齐。大规模机器人数据来自不同硬件平台、不同相机位置、不同控制频率、不同任务分布和不同采集规范;同一句“把物体放进容器”,在 Franka、UR5、AgileX 双臂或 WidowX 上对应的视觉视角、本体状态含义和动作尺度都不同。很多已有 VLA 主要给不同 embodiment 配不同动作头,能处理最后的动作空间差异,却没有在早期感知和推理阶段告诉模型“这批 token 来自什么机器人、什么相机、什么控制接口”。
核心矛盾:跨本体预训练需要共享 backbone 来沉淀通用操作知识,但异构数据又会把 backbone 拉向互相冲突的分布。若完全共享,模型会在混合数据上出现语义错位和训练不稳定;若给每个机器人分太多专属参数,又失去可扩展性,也削弱跨机器人知识迁移。
本文目标:作者希望找到一种低成本的异构建模方式:既能显式吸收硬件、相机和数据源差异,又不破坏预训练 VLM 的表示;既能在 7 个数据源、29 万条轨迹上稳定预训练,又能在新机器人上用少量参数快速适配。
切入角度:论文把“不同机器人数据源”重新看作多任务学习里的“不同任务”。在 NLP 里,soft prompt 可以用少量可学习 token 引导大模型适配特定任务;迁移到机器人后,每个数据源也可以有自己的 prompt token,用端到端训练自动学习硬件配置的隐表示,而不需要人工写一段机器人描述。
核心 idea:用数据源级 soft prompt 在早期多模态融合阶段注入 embodiment 信息,让共享 Transformer backbone 学到更干净的跨本体通用策略,同时把机器人特有差异留给轻量 prompt 和动作投影来吸收。
方法详解¶
整体框架¶
X-VLA 是一个基于 flow matching 的 VLA 策略模型。它输入主视角图像、可选辅助视角、语言指令、本体状态、噪声动作 chunk 和连续时间 \(t\),通过各自的编码管线变成 token,再拼接对应数据源查询到的 soft prompt,最后用一叠标准 self-attention Transformer encoder 做跨模态推理并预测动作速度场。
训练分成两个阶段:第一阶段在 AGIBOT、Droid、RoboMind 等 7 个硬件/相机配置上联合预训练 backbone 与 soft prompt;第二阶段面向新机器人或新任务时先冻结 backbone 只 warm-up 新 prompt,再联合微调整个策略,或用 LoRA 这类 PEFT 只调很少参数。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["异构机器人数据<br/>多视角 + 指令 + 本体"] --> B["分流编码管线<br/>高维感知 / 低维控制"]
B --> C["异构 Soft Prompt 库<br/>按数据源查询"]
C --> D["标准 Transformer 融合<br/>跨模态动作推理"]
D --> E["Flow Matching 动作生成<br/>噪声到动作 chunk"]
E --> F["两阶段新域适配<br/>prompt warm-up + policy tuning"]
关键设计¶
1. 异构 Soft Prompt 库:把机器人差异提前注入共享推理空间
跨本体数据的麻烦在于,差异不仅出现在动作输出端,也出现在感知和本体状态如何解释上。X-VLA 给每个数据源 \(D_i\) 维护一组可学习 prompt token \(p_i\),训练时根据 dataset id 查询对应 prompt,并把它们与图像、语言、本体和动作 token 一起送入 Transformer。作者将其形式化为 \(p_i \approx \Phi(h_i)\):\(h_i\) 是硬件配置,\(\Phi\) 不是人工定义的文本模板,而是在训练中隐式学出来的 prompt 空间映射。
这个设计比“每个机器人一个动作头”更早介入推理过程,也比 language prompt 更省人工。动作头只能在最后输出时处理动作维度,无法告诉模型主视角和腕视角分别意味着什么;手写语言描述又依赖模板质量,扩展到大量机器人时维护成本高。soft prompt 则用很少参数让 backbone 在 attention 里主动感知“当前样本属于哪个硬件/采集域”,从而减少混合数据带来的表示冲突。
2. 分流编码管线:把 VLM 擅长的语义理解和机器人细粒度观测拆开
X-VLA 没有简单地把所有图像和语言一股脑塞进 VLM。主视角图像与语言指令进入 Florence-2-Large 这类预训练 VLM 编码器,用来承担高层视觉语言 grounding;腕部等辅助视角则用共享视觉 backbone 编码,因为这些视角变化快、噪声大,更偏向局部操作线索而不是通用语义理解。
低维部分也单独处理:本体状态 \(R_t\)、flow matching 中的噪声动作 chunk \(A_t\) 和时间嵌入 \(t\) 被拼接后经轻量线性层投到高维 token 空间。这样做的关键不是追求复杂结构,而是让不同模态先在适合自己的尺度上被整理好,再交给标准 Transformer 融合。结果是模型既保留 VLM 的视觉语言能力,又不会让本体和动作 token 在语义维度上被高维图文特征淹没。
3. Flow Matching 动作生成:用连续去噪过程预测未来动作轨迹
X-VLA 不直接回归单步动作,而是学习从随机噪声到专家动作 chunk 的速度场。给定专家动作序列 \(A\) 和噪声 \(A_0 \sim \mathcal{N}(0, I)\),训练时构造插值 \(A_t=(1-t)A_0+tA\),让网络预测从 \(A_t\) 指向目标动作的速度 \(A-A_0\)。推理时从噪声开始,通过 ODE 更新逐步得到完整动作 chunk。
这个选择和机器人控制很契合:一个动作 chunk 包含未来短时轨迹,比单步控制更能表达意图;flow matching 又比离散动作 token 化更自然地处理连续末端位姿。论文还把动作统一成 end-effector pose:三维位置、Rotate6D 绝对旋转和二值夹爪状态,位置/旋转用 MSE,夹爪用 BCE,减少不同机器人控制接口之间的标签不一致。
4. 两阶段适配与训练配方:先让新 prompt 找到位置,再让策略专门化
新机器人适配时,X-VLA 不是直接全量微调。它先加入一组新的 soft prompt \(p_{new}\),冻结预训练 backbone,只优化 prompt,让新硬件配置在已有跨本体表示空间里找到合适入口;随后再联合优化 prompt 和策略参数,或只用 LoRA 等 PEFT 调少量参数完成专门化。
作者还加入几项看似工程但很关键的稳定化处理:soft prompt 和视觉语言模块使用更小学习率,避免破坏预训练表示;预训练动作目标不是逐帧预测所有细碎运动,而是把未来 4 秒轨迹下采样成 30 个 anchor points,用更抽象的意图监督降低人类示教噪声;采样时同时跨 domain 和轨迹打乱,避免大数据源主导训练。这些配方共同解释了为什么 soft prompt 机制能在 29 万条异构轨迹上稳定放大,而不是只在小实验里有效。
一个完整示例¶
假设预训练 batch 里同时出现三类样本:AGIBOT 的头部/腕部三视角双臂数据、Droid 的 Franka 左视角/腕视角数据,以及 RoboMind 的 UR5 顶视角数据。传统共享 VLA 会把这些样本都送进同一套 backbone,只在最后用动作头区分输出;模型需要自己从图像和本体值里猜测硬件来源,容易把“相机位置变化”和“任务语义变化”混在一起。
在 X-VLA 里,AGIBOT 样本会查询 AGIBOT prompt,Droid-Left 样本会查询 Droid-Left prompt,UR5 样本会查询 UR5 prompt。主视角和语言先形成高层任务 token,腕视角形成局部操作 token,本体与噪声动作形成控制 token;这些 token 与对应 prompt 拼接后进入 Transformer。attention 可以在一开始就看到“这是三视角双臂”或“这是单臂顶视角”的软条件,于是同一个“pick and place”指令会在不同硬件上下文中被解释成不同的可执行动作轨迹。
适配到一个未见过的 WidowX 时,模型先初始化一组 WidowX prompt,并用少量示教只训练 prompt 与动作相关头部。这个过程相当于给新硬件找一个靠近已有单臂机器人 prompt 的位置;随后再联合微调或加 LoRA。论文的 prompt 可视化显示,训练后的 prompt 会按硬件配置聚成簇,Droid 的两个 Franka 视角甚至会互相交织,说明模型学到的不是粗暴的数据源编号,而是带有 embodiment 相似性的连续表示。
损失函数 / 训练策略¶
预训练目标是 flow matching 版行为克隆。给定观测 \(o\)、专家动作 chunk \(A\)、噪声 \(A_0\) 和时间 \(t \sim U(0,1)\),模型学习速度场 \(v_\theta(A_t,o,t)\),优化目标为:
X-VLA-0.9B 使用 Florence-2-Large 作为 VLM 编码器,动作生成 backbone 是 24 层、hidden size 1024 的标准 Transformer,soft prompt 长度为 32。预训练数据包含约 290K episodes,覆盖 AGIBOT、Droid 与 RoboMind 中 7 个数据源和 5 类机器人手臂,训练 200K iterations,global batch size 1024,AdamW 学习率 \(1\times10^{-4}\)。预训练后,新域适配先进行 1000 iteration 的 prompt/action head warm-up,再进入 joint training;PEFT 设置下只调约 9M 参数,约为 0.9B 模型的 1%。
实验关键数据¶
主实验¶
论文的主实验覆盖 6 个仿真环境和 3 个真实机器人平台。最核心结论是:X-VLA-0.9B 参数量只有 0.9B,但在多数 benchmark 上超过更大的 3B-9B VLA,并且在跨机器人、跨任务、跨环境和灵巧操作上都保持强结果。
| Benchmark | 指标 | X-VLA-0.9B | 之前最好结果 | 主要提升 |
|---|---|---|---|---|
| Simpler Visual Matching (Google) | Avg success | 80.4 | 78.0 | +2.4 |
| Simpler Visual Aggregation (Google) | Avg success | 75.7 | 72.7 | +3.0 |
| Simpler WidowX | Success | 95.8 | 71.9 | +23.9 |
| LIBERO Average | Avg success | 98.1 | 97.1 | +1.0 |
| RoboTwin-2.0 Easy | Avg success | 70.0 | 46.4 | +23.6 |
| RoboTwin-2.0 Hard | Avg success | 39.0 | 16.4 | +22.6 |
| VLABench | Avg score | 51.1 | 39.7 | +11.4 |
| NAVSIM | PDMS | 87.3 | 81.7 | +5.6 |
真实机器人结果也很有说服力。WidowX 上,X-VLA 在 BridgeData-v2 风格的 5 个 pick-and-place 任务中全面超过 baseline;AgileX 双臂 cloth folding 中,用 1200 条 Soft-FOLD 轨迹适配后,接近 100% 成功率、约 33 次折叠/小时;AIRBOT 这个预训练未见过的机器人上,PEFT 也能在少量 cloth-pick 示教下完成快速适配。
| 真实/低成本适配设置 | 可调参数 | X-VLA 结果 | 对比对象 | 说明 |
|---|---|---|---|---|
| LIBERO PEFT | 9M | 93% 左右平均成功率 | \(\pi_0\) 全量/大模型约 94% | 只调约 1% 参数接近 3B 模型 |
| Simpler-WidowX PEFT | 9M | 54.2 | \(\pi_0\) 55.7 | 300 倍更少可调参数下接近 |
| AIRBOT cloth-pick | 少量 PEFT 参数 | 可在未见机器人上适配 | 无预训练专门版本 | 验证新 embodiment 迁移 |
| AgileX cloth folding | 全策略适配 | 近 100% 成功率,33 folds/hour | ACT、\(\pi_0\) finetune | 显示灵巧双臂任务收益 |
消融实验¶
组件消融给出了清楚的因果链:朴素异构预训练会让适配变差,而动作对齐、编码管线和 soft prompt 是把预训练收益释放出来的关键。
| 配置 | 预训练验证误差 | 适配成功率 | 说明 |
|---|---|---|---|
| Baseline w/o PT | - | 4.1 | 只靠基础模型,几乎不可用 |
| + Custom LR w/o PT | - | 39.6 | 学习率配方提升单域训练稳定性 |
| + Heterogeneous PT | 0.110 | 25.0 | 朴素混合预训练反而伤害适配 |
| + Action alignment / intention abstraction / balanced sampling | 0.077 | 50.0 | 数据处理把异构监督拉到更一致 |
| + Transformer encoder 替代 DiT | 0.071 | 47.9 | 结构更简单,但单独收益有限 |
| + Encoding pipeline | 0.053 | 64.6 | 分流编码显著提高下游适配 |
| + Soft prompt | 0.041 | 73.8 | 直接验证异构 prompt 的贡献 |
| + Scaling up | 0.032 | 89.6 | 更大模型继续降低误差、提升适配 |
| + Two-step adaptation | 0.032 | 95.8 | prompt warm-up 后再适配最强 |
作者还比较了不同 backbone。X-VLA 的标准 Transformer encoder 验证误差为 0.041,优于 DiT 的 0.077、MM-DiT 的 0.140 和 \(\pi_0\)-style decoder 的 0.056,说明这里的关键并不是堆更花的 action decoder,而是把输入编码和异构条件处理干净。
| 设计问题 | 对比设置 | 关键结果 | 结论 |
|---|---|---|---|
| Prompt 是否学到硬件差异 | T-SNE 可视化 7 个数据源 prompt | prompt 按硬件配置聚类,两个 Franka 视角相互交织 | soft prompt 不只是记 dataset id |
| 新机器人 prompt 来源 | random / AgiBot / UR5 / two-step adapted | UR5 prompt 早期迁移更好,two-step 最终最好 | embodiment 相似性会影响迁移 |
| 预测窗口长度 | 1s / 2s / 4s / 8s | Simpler-WidowX 成功率 0 / 8.3 / 29.16 / 27.08 | 4 秒窗口最适合抽象动作意图 |
| PEFT 可调参数 | prompt only / +linear / +LoRA / unfreeze last layer | 0 / 8.3 / 54.2 / 68.9 | prompt 很重要,但新域高性能仍需一定可调容量 |
关键发现¶
- Soft prompt 是本文最核心的增益来源:在完整编码管线基础上加入 soft prompt,预训练验证误差从 0.053 降到 0.041,下游适配成功率从 64.6 提到 73.8。
- 预训练验证误差和下游适配成功率强相关,因此作者用动作预测 \(\ell_1\) error 作为 scaling proxy;模型大小、数据多样性和数据规模增加时都没有出现饱和迹象。
- 朴素异构预训练会造成负迁移,说明跨本体 VLA 的关键不是“把数据倒进模型”这么简单,而是必须建模异构来源。
- PEFT 结果说明 backbone 确实学到了 embodiment-agnostic 表示,但 prompt-only 不够,新机器人适配还需要 LoRA 或解冻部分层提供足够容量。
- 真实 cloth folding 的结果显示,X-VLA 不只是 benchmark 数字好,在长时序、非刚体、双臂灵巧操作中也能受益于大规模跨本体预训练。
亮点与洞察¶
- Soft prompt 的位置选得很巧。它不是在输出端修补动作,也不是在输入端拼一段人工描述,而是在 token 融合阶段给 Transformer 一个连续、可学习的硬件上下文,因此能同时影响视觉理解、本体解释和动作生成。
- 论文对“异构性”的拆解比较到位。很多 VLA 论文把 cross-embodiment 简化成 action space mismatch,X-VLA 明确指出相机、任务分布、控制频率和采集协议同样会让 shared backbone 混乱。
- 架构克制是一个优点。最终模型没有引入复杂 MoE 或大量 domain-specific adapter,而是用标准 Transformer encoder 作为主体;这让 scaling 行为更容易解释,也更接近未来可持续放大的基础模型路线。
- 4 秒 30 anchor points 的动作意图抽象很值得迁移。对于嘈杂人类示教,逐帧动作可能过度拟合细碎手抖和无意义微调;适度下采样能让预训练更关注“接下来要去哪里”。
- prompt 可视化提供了少见的解释性证据。Franka 两个视角 prompt 混在一起、单臂与双臂分开,说明 learned prompt 空间可能可以用于后续的最近 embodiment 检索或 few-shot prompt 初始化。
局限与展望¶
- 0.9B 和 290K episodes 仍然不是终局规模。论文显示 scaling 未饱和,但受算力和高质量机器人数据限制,没有验证更大 backbone、更强 VLM 或百万级/千万级机器人轨迹下的规律。
- 新机器人仍需要示教与适配。X-VLA 的目标是快速适配而不是真正 zero-shot 部署;即使有 prompt warm-up,面对完全新硬件时仍要收集少量轨迹并训练。
- 监督信号仍主要来自低维动作标签。作者也承认动作标签信息量有限,未来可结合 3D 空间推理、物理状态、中间子目标或自监督视频目标,让预训练学到更丰富的任务结构。
- soft prompt 按数据源查询,依赖 dataset id 或域标识。真实开放部署中,如果数据源边界不清、同一机器人配置持续变化,如何自动选择或组合 prompt 仍是问题。
- 实验虽然覆盖很广,但不同 benchmark 的任务难度、示教数量和评估协议差异很大;横向说“一个模型 beat all”时仍需注意这些设置不可完全等价。
相关工作与启发¶
- vs \(\pi_0\): \(\pi_0\) 也是 flow-based VLA,并展示了大规模通用机器人控制能力;X-VLA 的差异在于更聚焦跨本体异构预训练,用 soft prompt 和两阶段适配减少新域调参成本,PEFT 下用约 9M 可调参数接近 \(\pi_0\) 的部分结果。
- vs OpenVLA / OpenVLA-OFT: OpenVLA 系列强调开源 VLA 和高效 fine-tuning;X-VLA 更强调 mixed-robot pretraining 中的硬件/相机/任务分布差异,证明仅靠共享 backbone 或输出头不足以稳定吸收异构数据。
- vs HPT-style heterogeneous pretraining: HPT-style projection 用 domain-specific projection 对齐观测表示,但容易改变预训练 VLM 特征分布;X-VLA 用 soft prompt 作为附加 token 引导 attention,较少干扰已有表示。
- vs language prompt: language prompt 用文本描述机器人硬件,直观但依赖人工模板;soft prompt 把这种描述变成可学习连续向量,省掉手写配置,也能捕获文本难以穷尽的相机、频率和数据分布差异。
- 对后续研究的启发: 如果把 prompt 空间进一步和显式机器人参数结合,例如自由度、相机外参、控制频率、末端执行器类型,就可能得到可检索、可组合、可插值的 embodiment representation,为真正 plug-and-play 的机器人基础模型铺路。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 将 soft prompt 系统引入跨本体 VLA 预训练,机制简单但问题定位准确。
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 6 个仿真 benchmark、3 个真实机器人、scaling、组件消融、prompt 分析和 PEFT,对结论支撑很强。
- 写作质量: ⭐⭐⭐⭐☆ 主线清楚,工程细节完整;少数表述如 “one model to beat them all” 需要读者结合协议差异谨慎理解。
- 价值: ⭐⭐⭐⭐⭐ 对大规模机器人数据混训非常实用,给跨本体 VLA 的异构建模提供了可扩展且容易复现的基线思路。