跳转至

VLANeXt:构建强大 VLA 模型的配方

会议: ICML 2026
arXiv: 2602.18532
代码: https://github.com/DravenALG/VLANeXt
领域: 具身智能 / VLA / 机器人学习
关键词: 视觉语言动作模型, 机器人学习, VLA 设计空间, 多模态融合, 指令条件控制

一句话总结

本文系统探索 VLA 模型的设计空间,通过 500+ 对照实验提炼出 12 条关键设计原则——构建高效强大的 VLANeXt 模型,在 LIBERO 基准上超越 SOTA,并在真实机器人任务中验证了设计原则的有效性。

研究背景与动机

领域现状:VLA 模型利用预训练 VLM 为通用机器人策略学习提供视觉和语言理解能力。已有众多 VLA 模型被提出(RT-2、OpenVLA、π 系列等),但训练协议和评估设置存在重大差异。

现有痛点:VLA 领域仍处于"原始汤"阶段——想法众多但缺乏系统性。不同方法采用不同 VLM 骨干、架构设计、损失函数,难以公平对比。

核心矛盾:如何在统一框架下系统比较 VLA 设计选择,区分出哪些设计真正有效?

本文目标:在统一框架和评估设置下重新审视 VLA 设计空间,找出可复现、可通用的设计配方。

切入角度:从 RT-2 出发沿三个维度逐步演进——基础组件、感知要素、动作建模。这个系统化消融路径能清晰展示每个设计选择的贡献。

核心 idea:通过大规模对照实验(>500 次)在统一评估协议下逐步优化设计,将碎片化 VLA 方法论整合成 12 条可操作的设计原则。

方法详解

整体框架

管道:多模态输入(多视角 RGB + 本体感觉 + 语言指令)→ 多模态 LLM → 软连接到策略模块 → 动作块预测 + 频域辅助目标。核心特点是在 VLM 和策略模块间引入可学习查询缓冲区,实现信息表示空间的平滑过渡。

关键设计

  1. 软连接策略模块与 VLM:

    • 功能:在 VLM 的文本表示空间与策略模块的动作预测空间之间建立柔和的信息流动。
    • 核心思路:相比 RT-2 的"文本 token 复用"(紧耦合)和 MetaQuery 的"完全解耦",软连接采用分层连接但插入可学习查询缓冲区。对 VLM 每层输出通过 cross-attention 与策略模块查询交互,再通过 adaLN 条件时间步信息。
    • 设计动机:解决硬连接的欠拟合与完全解耦的信息损耗。软连接在 LIBERO-plus 上性能最优(56.2%),相比松连接提升 2.5%。
  2. 多视角 + VLM 侧本体感觉融合:

    • 功能:整合机器人本体感觉和多视角观察,在 VLM 级别融合。
    • 核心思路:多视角输入通过多模态 LLM 图像编码器处理;本体感觉通过线性投影转换为 token 后与视觉 token 共同输入 VLM。本体感觉应在 VLM 级别注入而非策略模块级别。
    • 设计动机:本体感觉提供的状态信息与视觉指令的对齐度在 VLM 级更高(98.0% vs 96.2%)。多视角观察提供补充几何线索(91.8% → 97.6%)。
  3. 流匹配 + 频域辅助损失:

    • 功能:将动作块预测(8 步)视为连续时间序列,流匹配主损失 + 频域 MSE 辅助。
    • 核心思路:主损失采用流匹配建模连续动作分布。频域辅助损失通过 DCT 将动作转换到频域,对低频分量赋予更高权重 \(L_{\text{freq}} = \text{MSE}(\text{DCT}(\hat{a}), \text{DCT}(a))\),权重 \(w(\text{freq}) \propto 1/(\text{freq}+1)\)
    • 设计动机:回归损失在高性能区间被流匹配超越。频域正则项防止过拟合于轨迹抖动,性能达 99.0%(+1% 相比回归),不增加训练开销。

实验关键数据

主实验

方法 LIBERO (%) LIBERO-plus (%) 模型大小
OpenVLA 76.5 15.6 7B
OpenVLA-OFT 97.1 69.6 7B
π₀ 86.0 53.6 11B
π₀-Fast 85.5 61.6 7B
NORA 87.9 39.0 未知
UniVLA 95.2 42.9 未知
FLOWER 96.9 未报告 未知
VLANeXt 97.4 83.9 2.5B

VLANeXt 以 2.5B 模型大小(约 OpenVLA-OFT 的 1/3)超越所有 baseline。

消融实验

设计维度 配置 LIBERO (%) LIBERO-plus (%)
基础组件 单层策略头 + 文本 token 复用 19.8 <5.0
分离策略头(2 层) 30.2 16.6
大策略模块(12 层) 64.4 34.0
+动作分块(chunk=8) 74.6 43.4
+流匹配损失 80.0 45.0
+Qwen3-VL-2B 骨干 90.0 53.7
+软连接 91.8 56.2
感知要素 +多视角 97.6 80.5
+VLM 侧本体感觉 98.0 87.7
动作建模 +频域辅助损失 99.0 93.1

关键发现

  • 大策略模块贡献最大(+33.8%)。
  • 强 VLM 骨干(+10.0%)优于单纯增加参数。
  • 感知要素(多视角+本体感觉)合计 +13.0%。
  • 频域损失虽简单但有效,计算开销可忽略。
  • 视频历史无益——添加时间历史反而掉点(91.8% → 85.0%)。
  • 本体感觉位置敏感——VLM 级注入远优于策略模块(98.0% vs 96.2%)。

亮点与洞察

  • 系统性设计探索:500+ 对照实验在统一框架下分解 VLA 设计空间,"配方"思维比"一锤子"创新对社区更有方法论意义。
  • 多模态融合的深层洞察:本体感觉应在 VLM 侧融合而非策略侧,多视角观察提供几何补偿。
  • 时间序列思想迁移:频域正则项从时序预测迁移到动作生成,简洁优雅大幅改善 LIBERO-plus 扰动鲁棒性。
  • 效率-性能平衡:2.5B VLANeXt 显著小于 OpenVLA-OFT 的 7B 但性能更优。
  • 开源生态贡献:发布统一轻量级框架降低 VLA 研究进入壁垒。

局限与展望

  • 评估限于 LIBERO/LIBERO-plus 两个仿真基准,真实机器人验证样本量小。
  • 数据集特性——LIBERO 主要是操纵任务,缺乏导航等多样化场景。
  • 计算效率——2.5B 模型推理延迟、显存占用未详细报告。
  • 改进:跨体型、跨任务设计迁移;自适应融合策略;结合在线学习;深入分析频域损失机制。

相关工作与启发

  • vs RT-2/OpenVLA:VLANeXt 通过设计细节优化在 2.5B 规模超越 OpenVLA-OFT 7B。
  • vs π 系列:π 紧耦合 11B;VLANeXt 软连接更轻量性能更优。
  • vs 世界模型方法(WorldVLA):辅助任务 +2% 但 3 倍训练时间;VLANeXt 用频域损失取代获更好效率-性能平衡。

评分

  • 新颖性: ⭐⭐⭐⭐ 系统化探索 VLA 设计空间,方法论贡献显著。
  • 实验充分度: ⭐⭐⭐⭐⭐ 500+ 对照 + 2 仿真基准 + 真实机器人 + 详尽消融。
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,设计演进流畅。
  • 价值: ⭐⭐⭐⭐⭐ 为 VLA 领域从碎片化探索向系统化设计转变树立范例。