LIBERO-Plus: A Progressive Robustness Benchmark for Visual-Language-Action Models¶
会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 机器人 / 具身智能 / VLA 鲁棒性评测
关键词: VLA 模型, 鲁棒性基准, 分布偏移, 扰动评测, 泛化分析
一句话总结¶
针对"VLA 模型在 LIBERO 上动辄报 95%+ 成功率却在真实部署里频频翻车"的虚高假象,构建了一个自动、细粒度、七维度可控扰动的鲁棒性基准 LIBERO-Plus,对 10 个主流 VLA 做系统评测,揭示出在适度扰动下成功率从 95% 暴跌到 30% 以下,并发现这些模型存在"忽略语言、依赖固定视觉、靠位置记忆"等深层脆弱性。
研究背景与动机¶
领域现状:VLA(视觉-语言-动作)模型把基础模型范式从语言/视觉拓展到机器人操控,自回归派把动作离散成 token 端到端训练,扩散派生成连续轨迹,强化学习派强调下游适应。这些模型在 LIBERO 这类仿真基准上报出 95–99% 的成功率,仿佛操控任务"快被解决了"。
现有痛点:高分背后藏着鲁棒性的根本性弱点。现有基于仿真的鲁棒性评测有三大局限:① 扰动覆盖窄——只沿某一两个轴(物体变化、光照、改写指令)扰动,没有系统覆盖广谱鲁棒性因素;② 靠手工设计——人工设计扰动难以规模化和复现,很多评测样本量小(常少于 100 个测试场景);③ 粒度粗——只报聚合成功率,掩盖了"模型在什么条件下、怎么失败"的细节。结果是现有方法只能给出碎片化洞察,无法系统刻画模型能力边界、也无法指导有针对性的改进。
核心矛盾:基准上的高分 ≠ 真实能力。模型在固定、理想条件下表现好,但一旦遇到光照变化、视角偏移、不同自然语言措辞就崩——评测协议与真实部署之间存在系统性鸿沟。
本文目标:造一个能在七大维度上可控、自动、细粒度地施加扰动的评测框架,逼出 VLA 的真实鲁棒性,并定位"何时失败、为何失败"。
切入角度:在被广泛采用的 LIBERO 上做扩展,沿三条方法学方向升级——全面的扰动覆盖(7 类、21 子类)、自动参数化生成(规模化、可复现)、按难度分层(L1–L5)的渐进式评测。
核心 idea:用"七维可控扰动 + 自动生成 + L1–L5 难度分层"取代窄维度手工评测,把聚合成功率拆成细粒度鲁棒性画像,戳破 VLA 的高分假象。
方法详解¶
整体框架¶
LIBERO-Plus 是一个评测基准(而非新模型),核心是在原始 LIBERO 基础上系统化地生成分布偏移场景。它沿 7 个扰动因子(物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理、传感器噪声)展开为 21 个子维度,自动参数化生成共 10,030 个任务实例 ⚠️(论文同时提到"超过 56K 鲁棒性场景",10,030 应为最终任务实例数、56K 为含训练集的更大规模,以原文为准),并依据四个代表性 VLA 的实测表现把任务标定成 L1–L5 五个难度级别。这些扰动只改变输入分布、保持任务结构不变,刻画的是 OOD 泛化里的"协变量偏移"。基于这套基准,作者评测了 10 个主流 VLA,并进一步做了语言依赖、视觉依赖、组合泛化、扩增训练等深入分析。由于本文是纯基准/数据集论文、不含多阶段方法 pipeline,这里不画框架图。
关键设计¶
1. 七维 21 子类的全面可控扰动:把"广谱鲁棒性"一次铺开
针对现有评测"只扰动一两个轴"的窄覆盖,LIBERO-Plus 在七个相互正交的因子上系统施扰:物体布局(加入干扰物 + 目标物位移)、相机视角(位姿/朝向/视场角)、机器人初始状态(机械臂起始位姿)、语言指令(语义改写并增加语言复杂度)、光照(强度/方向/颜色)、背景纹理(材质/纹理替换)、传感器噪声(抖动、高斯模糊等光度失真)。每个因子又细分子维度共 21 个,全部建立在 LIBERO 的多视角观测 + 语言指令场景之上。这种"正交多因子"设计让单维度脆弱性可以被逐一隔离归因,而不是混在一个聚合分数里看不清。对比表显示,LIBERO-Plus 是唯一同时满足"自动 + 细粒度 + 七维全覆盖"的基准。
2. 自动参数化生成:从"手搓百例"到"规模化数万场景"
人工设计扰动既难规模化也难复现,是现有基准样本量普遍小于 100 的根因。LIBERO-Plus 把每个扰动维度都做成可参数化的自动生成器,能批量构造训练集和测试集,覆盖 56K+ 鲁棒性场景 ⚠️(以原文为准),无需人工逐个设计,保证评测的可复现与可扩展。正是这套自动管线,后面才能进一步构造出 20,000+ 条成功轨迹用于扩增训练。
3. L1–L5 渐进难度分层:从"一个总分"到"鲁棒性曲线"
只报聚合成功率会掩盖"扰动强度多大时模型开始崩"。作者用四个代表性 VLA 的实测表现,把任务按经验难度标定为 L1 到 L5 五级,构成一条随扰动强度递增的难度阶梯。这样每个模型在每个维度上都能画出"成功率 vs 难度"曲线,精确捕捉它在哪一档强度下失效——这正是"细粒度"的落点,也是定位"何时失败"的工具。
4. 组合泛化间隙:用统计协方差量化"多维扰动的耦合恶化"
单维度扰动只能看孤立因子,但现实里多种偏移会同时出现、彼此耦合。作者从统计角度定义"组合泛化":令 \(D_i\) 表示第 \(i\) 类扰动是否施加、\(Y\) 表示任务是否成功,在 \(Y=1\) 条件下估计两扰动的联合与边缘概率,并定义组合泛化间隙为二者在成功条件下的协方差 \(\Delta_{ij}\triangleq\mathrm{Cov}(D_i,D_j\mid Y=1)=p(D_i{=}1,D_j{=}1\mid Y{=}1)-p(D_i{=}1\mid Y{=}1)\,p(D_j{=}1\mid Y{=}1)\)。\(\Delta_{ij}>0\) 表示两扰动可被联合应对,\(\Delta_{ij}<0\) 表示组合带来超出独立效应的额外难度,\(\Delta_{ij}=0\) 表示独立。通过 3 万次重复实验(6 类扰动两两组合、每组合 2000 次)发现 \(\Delta_{ij}\) 一致为负,说明泛化本质上不可分解——多维偏移在特征空间里像耦合噪声源,暴露了学到表征的纠缠。
实验关键数据¶
基准对比¶
| 基准 | 自动化 | 模拟器 | 细粒度 | 七维全覆盖 |
|---|---|---|---|---|
| AGNOSTOS / Gembench | ✗ | RLBench | ✗ | 仅 1 维 |
| RL4VLA / INT-ACT | ✗ | ManiSkill | ✗ | 少数维度 |
| VLATest / COLOSSEUM | ✓ | ManiSkill/RLBench | ✗ | 部分维度 |
| LIBERO-Plus (Ours) | ✓ | LIBERO | ✓ | 7 维全覆盖 |
主实验:10 个 VLA 在各扰动下的成功率(%,节选)¶
| 模型 | Original | Camera | Robot | Language | Light | Background | Noise | Layout | Total |
|---|---|---|---|---|---|---|---|---|---|
| OpenVLA | 76.5 | 0.8 | 3.5 | 23.0 | 8.1 | 34.8 | 15.2 | 28.5 | 15.6 |
| OpenVLA-OFT | 97.1 | 56.4 | 31.9 | 79.5 | 88.7 | 93.3 | 75.8 | 74.2 | 69.6 |
| π0 | 94.2 | 13.8 | 6.0 | 58.8 | 85.0 | 81.4 | 79.0 | 68.9 | 53.6 |
| π0-fast | 85.5 | 65.1 | 21.6 | 61.0 | 73.2 | 73.2 | 74.4 | 68.8 | 61.6 |
| Nora | 87.9 | 2.2 | 37.0 | 65.1 | 45.7 | 58.6 | 12.8 | 62.1 | 39.0 |
| WorldVLA | 79.1 | 0.1 | 27.9 | 41.6 | 43.7 | 17.1 | 10.9 | 38.0 | 25.0 |
| UniVLA | 95.2 | 1.8 | 46.2 | 69.6 | 69.0 | 81.0 | 21.2 | 31.9 | 42.9 |
| RIPT-VLA | 97.5 | 55.2 | 31.2 | 77.6 | 88.4 | 91.6 | 73.5 | 74.2 | 68.4 |
即使在原始 LIBERO 上近饱和(76–97%),加入扰动后总成功率普遍腰斩甚至更惨——相机视角和机器人初始状态是最大杀手(OpenVLA 相机扰动下掉到 0.8%,WorldVLA 掉到 0.1%)。
关键发现¶
- 普遍脆弱(Finding 1–2):所有 VLA 对扰动都脆弱,对相机视角、机器人初始状态最敏感(需要空间几何与本体感知的高层理解),对光照、背景这类浅层视觉变化相对鲁棒。
- 语言扰动影响异常小(Finding 3):语言扰动平均仅掉 -25.3,反直觉。空指令实验显示 OpenVLA-OFT 在 object suite 上去掉语言几乎不掉点,说明它实际"退化成 Vision-Action 模型",把语言当冗余信号忽略了。
- 位置偏置而非语义理解(Finding 5/7/8):加干扰物模型基本不掉点(会聚焦目标物),但目标物位移后成功率暴跌;目标替换任务里成功率几乎归零——模型靠记忆位置而非理解语义,且改了指令仍执行原目标动作。
- 腕部相机是光照鲁棒性的来源(Finding 6):全黑输入成功率塌到近 0,但只遮第三视角(保留腕部相机)仍有 43.6/43.0/67.3 的成功率,说明腕部近距视角提供了光照不变的几何/接触线索;只靠第三视角的模型(OpenVLA、Nora、WorldVLA)光照扰动下常掉 60+ 分。
- 组合泛化不可分解(Finding 9):组合泛化间隙 \(\Delta_{ij}\) 一致为负,多维扰动耦合带来超出独立效应的额外退化。
- 扩增训练有效:用自动管线构造的 20,000+ 成功轨迹做混合微调,总成功率达 79.6%,超过所有基线;相机视角鲁棒性 92.8%(比次优高 37.2 个百分点),噪声 89.3%、布局 77.6% 也大幅提升。
亮点与洞察¶
- 戳破"benchmark 高分=能力"的幻觉:用受控扰动把 95% 的成功率打到 30% 以下,直观证明现有评测协议严重高估 VLA 真实能力,是对整个领域评测实践的有力警示。
- 细粒度归因方法学:七维正交扰动 + L1–L5 分层 + 组合协方差间隙,三层设计让"何时失败、为何失败"可量化、可定位,而非只给一个总分。
- 诊断性实验设计巧妙:空指令、目标替换、全黑/遮第三视角等极端消融,干净利落地证明了"VLA 忽略语言""靠位置记忆""依赖腕部相机"等深层机制——这些诊断范式可直接复用到其他具身模型分析。
- 评测即数据:自动生成管线不仅产测试集,还能产 2 万+训练轨迹做扩增训练,证明"针对性多样化训练"能显著提升鲁棒性,把"诊断"闭环到"改进"。
局限与展望¶
- 全部基于 LIBERO 仿真,扰动虽多但仍是仿真域,与真实世界的 sim-to-real 差距未直接评测。
- 10,030 任务 与 56K 场景 的口径在缓存里表述略有出入 ⚠️(疑似分别指任务实例数与含训练集的总场景数,以原文为准)。
- 难度 L1–L5 由四个代表性模型的经验表现标定,分层标准依赖所选模型,可能带入这些模型的偏好。
- 扩增训练只在 OpenVLA-OFT 上验证,是否对其他架构同样有效未充分展开。
相关工作与启发¶
- vs COLOSSEUM / VLATest:它们也做自动化扰动生成,但缺乏每个维度内的细粒度难度分析;LIBERO-Plus 加入 L1–L5 分层和组合泛化间隙,洞察更深。
- vs RL4VLA / INT-ACT / Gembench:依赖人工设计任务、样本量常 <100,覆盖维度有限;本文自动参数化生成数万场景、七维全覆盖。
- vs 原始 LIBERO:LIBERO 提供理想条件下的可复现评测,本文在其上系统注入分布偏移,把"理想表现"扩展为"鲁棒性画像"。
评分¶
- 新颖性: ⭐⭐⭐⭐ 七维扰动 + L1–L5 分层 + 组合泛化协方差间隙的组合在 VLA 评测里是首创,但单项技术多为已有思路的系统化整合
- 实验充分度: ⭐⭐⭐⭐⭐ 10 个模型 × 7 维扰动 + 3 万次组合实验 + 多组诊断消融 + 扩增训练,规模与深度都很扎实
- 写作质量: ⭐⭐⭐⭐ 发现条理清晰、诊断实验设计漂亮(缓存里组合泛化的公式存在 OCR 噪声)
- 价值: ⭐⭐⭐⭐⭐ 直击 VLA 评测虚高这一关键问题,基准与发现都对社区有强指导意义