VLA-Arena:评估视觉语言动作模型的开源框架¶
会议: ICML 2026
arXiv: 2512.22539
代码: https://github.com/VLA-Arena/VLA-Arena
领域: 机器人学 / 视觉语言动作模型 / Agent
关键词: 视觉语言动作模型, 基准评估, 机器人操纵, 泛化性能, 安全性约束
一句话总结¶
VLA-Arena 提出结构化 VLA 基准——通过任务结构、语言命令和视觉观察三个正交维度系统量化难度,用 170 个任务揭示现有 VLA 模型在泛化、视觉感知和安全性上的关键缺陷。
研究背景与动机¶
领域现状:VLA 模型正迅速发展——从 RT-1、RT-2 到最新 π0、UniVLA 已展现跨具身、跨场景、长期操纵能力,但能力边界和失败模式缺乏定量刻画。
现有痛点:现有机器人学基准(LIBERO、VLABench、RoboCasa)三大问题——(1)任务设计过于简化,单一复杂度水平定义;(2)要么关注噪声鲁棒性要么关注任务泛化,难以理解模型如何在多维度并发挑战时表现;(3)忽视安全约束,理想环境运行。
核心矛盾:高在分布内任务(L0)上的表现能否真实反映模型泛化能力?模型是通过鲁棒多模态理解还是脆弱模式匹配工作?
本文目标:设计基准能系统量化 VLA 能力边界,区分真正语言-视觉-动作理解与表面模式记忆,同时评估安全性。
切入角度:通过三个正交维度同时控制任务难度——任务结构复杂度、语言指令语义变化、视觉观察系统扰动。
核心 idea:构建"三轴难度空间"基准系统,通过结构化、可控、可重复任务设计将 VLA 评估从"通过/失败"二元判断升级为"能力前沿在哪里"精细诊断。
方法详解¶
整体框架¶
三维任务设计——(1)任务结构维(T 轴):170 任务分 11 套件按四核心维度组织(安全/干扰/泛化/长期)+ 3 难度等级(L0/L1/L2);(2)语言命令维(W 轴):W0-W4 通过 WordNet 语义相似词替换;(3)视觉观察维(V 轴):V0-V4 累积应用视觉扰动(光照→颜色→视点→噪声)。
关键设计¶
-
Constrained BDDL(CBDDL):
- 功能:扩展标准 BDDL 原生支持动态实体、扰动、安全谓词。
- 核心思路:10 类安全谓词(碰撞、力矩限制、物体坠落等)精确定义约束。引入累积成本(CC):\(CC(\tau) = \sum_{t=0}^{L-1} c^{inst}(s_t, a_t) + \alpha \cdot c^{term}(s_L)\),\(\alpha=10\) 加权终态危险。
- 设计动机:区分"通过任务但违反安全约束"与"真正安全的成功",对现实部署至关重要。
-
有原则的语言扰动(基于 WordNet):
- 功能:系统改写语言指令通过替换语义相似词诊断模型理解而非死记。
- 核心思路:识别指令语义插槽(动作词、目标词、地点词),用 WordNet 找距离为 1 的同义词替换;难度等级是被替换的插槽数量 W0(原始)→ W4(4 个插槽都替换)。
- 设计动机:区分真正语言理解与表面关键词匹配。模型在 W0 表现好但 W4 崩溃说明它做模式匹配。
-
累积层级化视觉扰动(V0-V4):
- 功能:逐层施加视觉挑战诊断视觉鲁棒性。
- 核心思路:V0 标准 → V1 光照扰动 → V2 物体颜色随机化 → V3 视点偏移 → V4 高斯噪声。每层在前一层基础上累积。
- 设计动机:对应 sim-to-real 问题和神经网络捷径;从较轻自然变化逐步到极端扰动精确定位失败边界。
实验关键数据¶
主实验:六个主流 VLA 模型¶
| 任务维 | 模型 | L0-SR | L1-SR | L2-SR | L1+L2 下降 | 关键发现 |
|---|---|---|---|---|---|---|
| Safety-StaticObstacles | π0 | 1.0 | 0.7 | 0.3 | 70% | 最强模型也在 L2 崩溃 |
| Safety-StaticObstacles | OpenVLA | 0.6 | 0.6 | 0.0 | 100% | 无法处理 L2 多障碍 |
| Distractor | π0 | 0.9 | 0.1 | 0.0 | 100% | 干扰物大幅影响 |
| Extrapolation-UnseenObjects | π0 | 0.8 | 0.5 | 0.0 | 100% | 新物体完全失败 |
| Long Horizon | π0 | 0.9 | 0.0 | 0.0 | 100% | 无法组合技能 |
消融¶
| 任务类型 | 扰动维度 | W0 | W2 | W4 | 趋势 | 洞察 |
|---|---|---|---|---|---|---|
| StatePreservation | 语言 | 0.8 | 0.8 | 0.7 | 平缓 | 依赖视觉线索 |
| StatePreservation | 视觉 | 0.8 | 0.7 | 0.1 | 陡峭跌落 | V3+V4 崩溃 |
| UnseenObjects | 语言 | 0.8 | 0.4 | 0.1 | 单调递减 | 需真正理解 |
| UnseenObjects | 视觉 | 0.8 | 0.5 | 0.0 | 陡峭跌落 | 视觉同样致命 |
VLM vs VLA 视觉接地差距¶
| 视觉级别 | Qwen3-VL-8B 定位准度 | VLA 平均掉点 |
|---|---|---|
| V0 | 100% | - |
| V1 | 100% | 13.5% |
| V2 | 100% | 24.0% |
| V3 | 96.7% | 30.5% |
| V4 | 93.3% | 50.5% |
核心发现:揭示"灾难性遗忘"——微调使 VLA 放弃通用视觉概念。VLM 在 V4 仅下降 6.7%,VLA 在 V4 掉 50.5%,说明微调过程模型重学针对特定像素分布的反演而非保留鲁棒表示。
关键发现¶
- 记忆化优于泛化——所有模型 L0 优异但 L1-L2 普遍掉 50%-100%。
- 视觉捷径猖獗——π0 在 StatePreservation 任务 V3 就从 0.8 跌到 0.2。
- 语义理解缺失——语言扰动导致 UnseenObjects 单调递减(0.8 → 0.1)。
- Sim-to-Real 验证:Franka 真机 L0→L2 性能下滑(60%→3.3%)和安全违反(0/10→4/10)基本再现。
亮点与洞察¶
- 三轴正交设计的威力:每个维度独立但相互正交,能精确隔离失败原因。
- CBDDL + CC 指标的创新:安全性直接融入基准定义,累积成本巧妙惩罚瞬时危险和终态失败。
- WordNet 驱动的有原则语言扰动:相比随机改写或模板变换更自然且可控。
- Sim-to-Real 验证的严谨性:在实 Franka 机器人验证模拟结果可迁移性。
- 排名反转现象:不同难度层级最优模型不同说明每个等级提供非冗余洞察。
局限与展望¶
- VLA-Arena 基于 MuJoCo 模拟,覆盖真实场景有限。
- 数据集规模不足以完全消除微调的数据影响。
- 关键词替换基于 WordNet,对非英文支持有限。
- 长期维"技能组合"相对简单(最多 3 子技能)。
- 改进:多体身学习;动态环境;开放词汇;在线学习评估。
相关工作与启发¶
- vs LIBERO/RoboCasa:本文引入"三轴难度空间"和安全维度,诊断能力大幅提升。
- vs VLABench:VLABench 强调语言多样性但任务设计平坦;VLA-Arena 通过正交维度分解。
- vs LIBERO-Pro/Plus:本文更系统化,不仅视觉维有 V0-V4,语言维也有 W0-W4 分级诊断。
- 启发:基准设计应从"能做什么"升级为"边界在哪里";安全性应是基准第一阶级公民。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首创"三轴正交难度空间"和"W/V 扰动诊断探针"组合。
- 实验充分度: ⭐⭐⭐⭐⭐ 6 主流 VLA + 170 任务 + 真实 Franka 验证 + 详细消融。
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,图表精心设计。
- 价值: ⭐⭐⭐⭐⭐ 对 VLA 社区的影响是结构性的。