LIBERO-Plus: A Progressive Robustness Benchmark for Visual-Language-Action Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 机器人 / 具身智能 / VLA 鲁棒性评测
关键词: VLA 模型, 鲁棒性基准, 分布偏移, 扰动评测, 泛化分析

一句话总结¶

针对"VLA 模型在 LIBERO 上动辄报 95%+ 成功率却在真实部署里频频翻车"的虚高假象，构建了一个自动、细粒度、七维度可控扰动的鲁棒性基准 LIBERO-Plus，对 10 个主流 VLA 做系统评测，揭示出在适度扰动下成功率从 95% 暴跌到 30% 以下，并发现这些模型存在"忽略语言、依赖固定视觉、靠位置记忆"等深层脆弱性。

研究背景与动机¶

领域现状：VLA（视觉-语言-动作）模型把基础模型范式从语言/视觉拓展到机器人操控，自回归派把动作离散成 token 端到端训练，扩散派生成连续轨迹，强化学习派强调下游适应。这些模型在 LIBERO 这类仿真基准上报出 95–99% 的成功率，仿佛操控任务"快被解决了"。

现有痛点：高分背后藏着鲁棒性的根本性弱点。现有基于仿真的鲁棒性评测有三大局限：① 扰动覆盖窄——只沿某一两个轴（物体变化、光照、改写指令）扰动，没有系统覆盖广谱鲁棒性因素；② 靠手工设计——人工设计扰动难以规模化和复现，很多评测样本量小（常少于 100 个测试场景）；③ 粒度粗——只报聚合成功率，掩盖了"模型在什么条件下、怎么失败"的细节。结果是现有方法只能给出碎片化洞察，无法系统刻画模型能力边界、也无法指导有针对性的改进。

核心矛盾：基准上的高分 ≠ 真实能力。模型在固定、理想条件下表现好，但一旦遇到光照变化、视角偏移、不同自然语言措辞就崩——评测协议与真实部署之间存在系统性鸿沟。

本文目标：造一个能在七大维度上可控、自动、细粒度地施加扰动的评测框架，逼出 VLA 的真实鲁棒性，并定位"何时失败、为何失败"。

切入角度：在被广泛采用的 LIBERO 上做扩展，沿三条方法学方向升级——全面的扰动覆盖（7 类、21 子类）、自动参数化生成（规模化、可复现）、按难度分层（L1–L5）的渐进式评测。

核心 idea：用"七维可控扰动 + 自动生成 + L1–L5 难度分层"取代窄维度手工评测，把聚合成功率拆成细粒度鲁棒性画像，戳破 VLA 的高分假象。

方法详解¶

整体框架¶

LIBERO-Plus 是一个评测基准（而非新模型），核心是在原始 LIBERO 基础上系统化地生成分布偏移场景。它沿 7 个扰动因子（物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理、传感器噪声）展开为 21 个子维度，自动参数化生成共 10,030 个任务实例 ⚠️（论文同时提到"超过 56K 鲁棒性场景"，10,030 应为最终任务实例数、56K 为含训练集的更大规模，以原文为准），并依据四个代表性 VLA 的实测表现把任务标定成 L1–L5 五个难度级别。这些扰动只改变输入分布、保持任务结构不变，刻画的是 OOD 泛化里的"协变量偏移"。基于这套基准，作者评测了 10 个主流 VLA，并进一步做了语言依赖、视觉依赖、组合泛化、扩增训练等深入分析。由于本文是纯基准/数据集论文、不含多阶段方法 pipeline，这里不画框架图。

关键设计¶

1. 七维 21 子类的全面可控扰动：把"广谱鲁棒性"一次铺开

针对现有评测"只扰动一两个轴"的窄覆盖，LIBERO-Plus 在七个相互正交的因子上系统施扰：物体布局（加入干扰物 + 目标物位移）、相机视角（位姿/朝向/视场角）、机器人初始状态（机械臂起始位姿）、语言指令（语义改写并增加语言复杂度）、光照（强度/方向/颜色）、背景纹理（材质/纹理替换）、传感器噪声（抖动、高斯模糊等光度失真）。每个因子又细分子维度共 21 个，全部建立在 LIBERO 的多视角观测 + 语言指令场景之上。这种"正交多因子"设计让单维度脆弱性可以被逐一隔离归因，而不是混在一个聚合分数里看不清。对比表显示，LIBERO-Plus 是唯一同时满足"自动 + 细粒度 + 七维全覆盖"的基准。

2. 自动参数化生成：从"手搓百例"到"规模化数万场景"

人工设计扰动既难规模化也难复现，是现有基准样本量普遍小于 100 的根因。LIBERO-Plus 把每个扰动维度都做成可参数化的自动生成器，能批量构造训练集和测试集，覆盖 56K+ 鲁棒性场景 ⚠️（以原文为准），无需人工逐个设计，保证评测的可复现与可扩展。正是这套自动管线，后面才能进一步构造出 20,000+ 条成功轨迹用于扩增训练。

3. L1–L5 渐进难度分层：从"一个总分"到"鲁棒性曲线"

只报聚合成功率会掩盖"扰动强度多大时模型开始崩"。作者用四个代表性 VLA 的实测表现，把任务按经验难度标定为 L1 到 L5 五级，构成一条随扰动强度递增的难度阶梯。这样每个模型在每个维度上都能画出"成功率 vs 难度"曲线，精确捕捉它在哪一档强度下失效——这正是"细粒度"的落点，也是定位"何时失败"的工具。

4. 组合泛化间隙：用统计协方差量化"多维扰动的耦合恶化"

单维度扰动只能看孤立因子，但现实里多种偏移会同时出现、彼此耦合。作者从统计角度定义"组合泛化"：令 \(D_i\) 表示第 \(i\) 类扰动是否施加、\(Y\) 表示任务是否成功，在 \(Y=1\) 条件下估计两扰动的联合与边缘概率，并定义组合泛化间隙为二者在成功条件下的协方差 \(\Delta_{ij}\triangleq\mathrm{Cov}(D_i,D_j\mid Y=1)=p(D_i{=}1,D_j{=}1\mid Y{=}1)-p(D_i{=}1\mid Y{=}1)\,p(D_j{=}1\mid Y{=}1)\)。\(\Delta_{ij}>0\) 表示两扰动可被联合应对，\(\Delta_{ij}<0\) 表示组合带来超出独立效应的额外难度，\(\Delta_{ij}=0\) 表示独立。通过 3 万次重复实验（6 类扰动两两组合、每组合 2000 次）发现 \(\Delta_{ij}\) 一致为负，说明泛化本质上不可分解——多维偏移在特征空间里像耦合噪声源，暴露了学到表征的纠缠。

实验关键数据¶

基准对比¶

基准	自动化	模拟器	细粒度	七维全覆盖
AGNOSTOS / Gembench	✗	RLBench	✗	仅 1 维
RL4VLA / INT-ACT	✗	ManiSkill	✗	少数维度
VLATest / COLOSSEUM	✓	ManiSkill/RLBench	✗	部分维度
LIBERO-Plus (Ours)	✓	LIBERO	✓	7 维全覆盖

主实验：10 个 VLA 在各扰动下的成功率（%，节选）¶

模型	Original	Camera	Robot	Language	Light	Background	Noise	Layout	Total
OpenVLA	76.5	0.8	3.5	23.0	8.1	34.8	15.2	28.5	15.6
OpenVLA-OFT	97.1	56.4	31.9	79.5	88.7	93.3	75.8	74.2	69.6
π0	94.2	13.8	6.0	58.8	85.0	81.4	79.0	68.9	53.6
π0-fast	85.5	65.1	21.6	61.0	73.2	73.2	74.4	68.8	61.6
Nora	87.9	2.2	37.0	65.1	45.7	58.6	12.8	62.1	39.0
WorldVLA	79.1	0.1	27.9	41.6	43.7	17.1	10.9	38.0	25.0
UniVLA	95.2	1.8	46.2	69.6	69.0	81.0	21.2	31.9	42.9
RIPT-VLA	97.5	55.2	31.2	77.6	88.4	91.6	73.5	74.2	68.4

即使在原始 LIBERO 上近饱和（76–97%），加入扰动后总成功率普遍腰斩甚至更惨——相机视角和机器人初始状态是最大杀手（OpenVLA 相机扰动下掉到 0.8%，WorldVLA 掉到 0.1%）。

关键发现¶

普遍脆弱（Finding 1–2）：所有 VLA 对扰动都脆弱，对相机视角、机器人初始状态最敏感（需要空间几何与本体感知的高层理解），对光照、背景这类浅层视觉变化相对鲁棒。
语言扰动影响异常小（Finding 3）：语言扰动平均仅掉 -25.3，反直觉。空指令实验显示 OpenVLA-OFT 在 object suite 上去掉语言几乎不掉点，说明它实际"退化成 Vision-Action 模型"，把语言当冗余信号忽略了。
位置偏置而非语义理解（Finding 5/7/8）：加干扰物模型基本不掉点（会聚焦目标物），但目标物位移后成功率暴跌；目标替换任务里成功率几乎归零——模型靠记忆位置而非理解语义，且改了指令仍执行原目标动作。
腕部相机是光照鲁棒性的来源（Finding 6）：全黑输入成功率塌到近 0，但只遮第三视角（保留腕部相机）仍有 43.6/43.0/67.3 的成功率，说明腕部近距视角提供了光照不变的几何/接触线索；只靠第三视角的模型（OpenVLA、Nora、WorldVLA）光照扰动下常掉 60+ 分。
组合泛化不可分解（Finding 9）：组合泛化间隙 \(\Delta_{ij}\) 一致为负，多维扰动耦合带来超出独立效应的额外退化。
扩增训练有效：用自动管线构造的 20,000+ 成功轨迹做混合微调，总成功率达 79.6%，超过所有基线；相机视角鲁棒性 92.8%（比次优高 37.2 个百分点），噪声 89.3%、布局 77.6% 也大幅提升。

亮点与洞察¶

戳破"benchmark 高分=能力"的幻觉：用受控扰动把 95% 的成功率打到 30% 以下，直观证明现有评测协议严重高估 VLA 真实能力，是对整个领域评测实践的有力警示。
细粒度归因方法学：七维正交扰动 + L1–L5 分层 + 组合协方差间隙，三层设计让"何时失败、为何失败"可量化、可定位，而非只给一个总分。
诊断性实验设计巧妙：空指令、目标替换、全黑/遮第三视角等极端消融，干净利落地证明了"VLA 忽略语言""靠位置记忆""依赖腕部相机"等深层机制——这些诊断范式可直接复用到其他具身模型分析。
评测即数据：自动生成管线不仅产测试集，还能产 2 万+训练轨迹做扩增训练，证明"针对性多样化训练"能显著提升鲁棒性，把"诊断"闭环到"改进"。

局限与展望¶

全部基于 LIBERO 仿真，扰动虽多但仍是仿真域，与真实世界的 sim-to-real 差距未直接评测。
10,030 任务与 56K 场景的口径在缓存里表述略有出入 ⚠️（疑似分别指任务实例数与含训练集的总场景数，以原文为准）。
难度 L1–L5 由四个代表性模型的经验表现标定，分层标准依赖所选模型，可能带入这些模型的偏好。
扩增训练只在 OpenVLA-OFT 上验证，是否对其他架构同样有效未充分展开。

评分¶

新颖性: ⭐⭐⭐⭐ 七维扰动 + L1–L5 分层 + 组合泛化协方差间隙的组合在 VLA 评测里是首创，但单项技术多为已有思路的系统化整合
实验充分度: ⭐⭐⭐⭐⭐ 10 个模型 × 7 维扰动 + 3 万次组合实验 + 多组诊断消融 + 扩增训练，规模与深度都很扎实
写作质量: ⭐⭐⭐⭐ 发现条理清晰、诊断实验设计漂亮（缓存里组合泛化的公式存在 OCR 噪声）
价值: ⭐⭐⭐⭐⭐ 直击 VLA 评测虚高这一关键问题，基准与发现都对社区有强指导意义