Limited Linguistic Diversity in Embodied AI Datasets¶
会议: ACL 2026
arXiv: 2601.03136
代码: 待确认
领域: 具身智能 / 数据分析 / VLA / 语言多样性
关键词: VLA 数据集审计、词汇多样性、语义多样性、句法多样性、Open X-Embodiment
一句话总结¶
本文对主流 VLA 训练语料(RT-1、BRIDGE、TacoPlay、Language Table、LIBERO)做系统性"语言多样性体检",从词汇/语义/句法三维度量化发现:VLA 数据仅 < 2% 指令唯一、RT-1 整库只有 49 个 unique word、否定/条件句 < 1%,远逊于指令调优语料(OASST2 93%、Alpaca 99.8% 唯一),这种"模板化贫乏"或许正是 VLA 模型对 paraphrase 脆弱、泛化失败的根源。
研究背景与动机¶
领域现状:OpenVLA、RT-X、π0.5 等 VLA 模型主要靠 Open X-Embodiment (OXE) 这类大规模数据训练。OXE 文档强调对象/场景/具身的多样性,但对指令语言本身的特性几乎不报告。同时学术界已观察到 VLA 模型对 paraphrase 敏感、对干扰物脆弱、易泛化失败(Gao 2025, AgiBotWorld 2025, Wang 2024)。
现有痛点:现有 VLA 工作把指令当辅助标签,没人系统量化训练数据中的语言信号到底是什么样。模型对 paraphrase 鲁棒性差,但没人知道:(a) 训练时模型见到的指令有多少是重复的?(b) 词汇多丰富?(c) 句法结构多样吗?(d) 真实世界常见的否定/条件句出现频率多高?这些都是空白。
核心矛盾:VLA 社区追求"通用机器人 + 自然语言指令",但训练数据可能在语言维度上是 toy-level——模型在数百万 episode 上训练,看到的语言可能就那么几十个模板词的组合。如果训练数据语言贫乏到这种程度,模型在 LLM backbone 上获得的丰富语言能力会被覆写/灾难性遗忘。
本文目标:(1) 给"指令语言多样性"建立可操作的多维度量化框架;(2) 对主流 VLA 数据集做系统性审计并与非机器人语料(指令调优、对话)对照;(3) 提出基于审计结果的针对性数据增广/采集策略。
切入角度:借鉴 Tevet & Berant 2021 把多样性分为 form vs content 的框架,再细分为词汇/语义/句法三轴,每轴用多个互补指标(避免单指标局限),并设置参考数据集(OASST2/Alpaca/LLaVA-Instruct/ALFRED/SCOUT)做对照——既不主张存在"理想指标值",又能让读者直观感受 VLA 语料的偏离程度。
核心 idea:用三维多指标审计 + 跨域参考语料对照,把"指令语言贫乏"从感觉变成数字。
方法详解¶
整体框架¶
- 输入:VLA 数据集(RT-1, BRIDGE, TacoPlay, Language Table, LIBERO)+ 参考数据集(OASST2, Alpaca, LLaVA-Instruct, ALFRED, SCOUT)
- 三大分析维度(A1/A2/A3):A1 重复 & 词汇多样性、A2 语义多样性、A3 句法 & 结构多样性
- 每维度多个互补指标:避免任一指标的固有偏置(如 BERTScore 不敏感语序)
- 输出:每个数据集在 ~10 个量化指标上的画像 + 跨域对照表 + 改进建议(增广 / 跨域迁移 / 采集指南)
关键设计¶
-
Analysis 1: Duplication & Lexical Diversity(重复 & 词汇):
- 功能:量化"指令到底重复多少 + 用了多少种词"。
- 核心思路:基础统计——句子总数 #Sent、唯一句数 #Uniq 与 % Uniq、唯一 unigram 数 #Words;多样性指标——Compression Ratio (CR)(gzip 压缩比,越低越多样,Shaib 2025 验证对人写 vs LLM 写有效)、ROUGE-L、BLEU、Jaccard、Levenshtein。前两个在主表 Table 2,后三个在附录 Table 4。
- 设计动机:从 LLM 文献已知数据 deduplication 显著影响泛化(Kandpal 2022, Lee 2022),且过参网络可拟合随机标签(Zhang 2017)——高重复率会让 VLA 模型记忆训练指令而非泛化。CR 比 ROUGE 更全局(看整库),是与 ROUGE 等 pairwise 指标的互补。
-
Analysis 2: Semantic Diversity(语义内涵):
- 功能:量化"指令背后表达了多少不同的任务语义"。
- 核心思路:
- 句子级 pairwise BERTScore——配对采样 1000 条指令计算相似度均值
- 数据集级 PCA on sentence embeddings——用 USE/SBERT/CLIP/SONAR 四种编码器算嵌入,报告解释 95% 累计方差所需的 PCA 分量数(intrinsic dimensionality)
- Verb–Direct Object 共现矩阵——分析每个 DO 配多少种 verb,对 navigation 数据集则分析 directional/manner adverbial 的覆盖度
- 设计动机:embedding-based 指标对 paraphrase 鲁棒(捕捉 what is said 而非 how),适合度量任务种类的多样性。VO 共现是 robotics 域特有的可解释维度——如果"banana"只被"pick",模型就学到了 verb-object shortcut,与 Shah 2020 的 simplicity bias 一致。
-
Analysis 3: Structural Diversity(句法 & 高阶结构):
- 功能:量化"指令的语法骨架和高阶逻辑构造"。
- 核心思路:
- POS pattern 频率分布 + Constituency Tree Kernel (Moschitti 2006) pairwise 相似度:捕捉表层句法多样性
- 高阶构造检测:用 dependency parse + keyword pattern + POS 启发式自动识别否定(negation)、条件(conditional)、多步(multi-step)、循环(cycle)四种构造的占比;对 < 600 唯一句的数据集人工标注,> 600 用自动 pipeline;每个数据集再人工 review 500 条以估算 labeling 不确定性
- 设计动机:句法贫乏会放大模型偏置(Aggarwal 2022);否定 / 条件 / 循环 / 多步是真实世界 robot 命令的必备结构("不要拿烂的苹果"/"如果拿到了苹果就洗它"/"重复直到放完"),现有 VLA 几乎不学这些等于直接砍掉部署能力。
损失函数 / 训练策略¶
本文是纯数据集审计/经验研究,不训练任何模型。所有计算用 spaCy 做 POS/dependency,sentence embeddings 用 USE/SBERT/CLIP/SONAR 公开模型,多样性指标按 1000 采样 × 3 次重复算均值±标准差。
实验关键数据¶
主实验:跨数据集多维度对比(Table 2 核心数字)¶
| 数据集 | # Sent | # Uniq (% Uniq) | # Words | CR ↓ | ROUGE-L ↓ | BERTScore ↓ | USE PCA ↑ | Tree Kernel ↓ |
|---|---|---|---|---|---|---|---|---|
| 指令调优 | ||||||||
| OASST2 | 42K+ | 39,301 (93.33%) | 35,445 | 2.75 | 0.05 | 0.45 | 254 | 2.25% |
| Alpaca | 53K+ | 52,996 (99.81%) | 18,141 | 3.20 | 0.10 | 0.57 | 231 | 3.66% |
| LLaVA-Instruct | 366K+ | 261,892 (71.45%) | 15,477 | 4.41 | 0.21 | 0.61 | 184 | 7.46% |
| 语言导向 robotics | ||||||||
| ALFRED | 162K+ | 126,005 (79.9%) | 2,627 | 5.91 | 0.21 | 0.64 | 159 | 5.71% |
| SCOUT | 23K+ | 8,795 (39.4%) | 1,631 | 4.85 | 0.07 | 0.49 | 148 | 1.89% |
| VLA 数据集 | ||||||||
| RT-1 | 3.7M+ | 577 (0.02%) | 49 | 118.20 | 0.19 | 0.64 | 33 | 5.09% |
| BRIDGE | 864K+ | 11,693 (1.4%) | 1,189 | 64.90 | 0.15 | 0.60 | 125 | 3.68% |
| TacoPlay | 214K | 403 (0.2%) | 74 | 158.86 | 0.30 | 0.68 | 42 | 8.86% |
| Language Table | 7.0M+ | 127,370 (1.81%) | 928 | 56.64 | 0.29 | 0.70 | 86 | 9.19% |
| LIBERO | 6.5K | 112 (1.72%) | 79 | 134.86 | 0.38 | 0.71 | 34 | 12.22% |
冲击性数字: - RT-1 有 3.7M 条句子但只有 577 唯一句(0.02% 唯一率),整库一共只用了 49 个唯一词("bottle / apple / pick / move / coke ..."等) - VLA 数据集 CR(压缩比)56-158,远高于指令调优语料的 2.75-4.41——表明高度可压缩 = 高度重复 - USE PCA intrinsic dim 也表明 VLA 数据集(33-125)远不如非 VLA 语料(148-254)
消融 / 关键发现表(Table from Figure 5:高阶结构构造比例)¶
| 构造类型 | 平均 VLA 占比 | 平均非 VLA 占比 | 真实世界需求 |
|---|---|---|---|
| Negation(否定) | < 1% | ALFRED/SCOUT 略高但仍少 | "不要拿烂苹果" — 安全关键 |
| Conditional(条件) | < 1% | < 2% | "如果...就..." — exception 处理 |
| Multi-step(多步) | 中等到高(LIBERO 最高) | 中等 | 顺序逻辑,唯一覆盖较好的 |
| Cycle(循环) | 几乎为 0 | 仅 SCOUT/ALFRED 有微弱信号 | "重复直到..." — 长程任务 |
POS Pattern 集中度(Figure 4)¶
| 数据集 | 最频繁 POS pattern 占比 | 例子 |
|---|---|---|
| TacoPlay | 24% | VERB→DET→ADJ→NOUN→ADP→DET→NOUN ("put the purple block on the table") |
| RT-1 | 11% | VERB→NOUN→NOUN→ADP→ADJ→NOUN ("place water bottle into white bowl") |
| BRIDGE | 3% | 比 RT-1/TacoPlay 多样 |
| Language Table | 4% | 接近 BRIDGE |
关键发现¶
- #Episode ≠ 语言多样性:RT-1 有 370 万条命令但只有 577 唯一句,"看了 3.7M 次同 577 句话"——这对 LLM 训练经验丰富的人来说是触目惊心的数据 inefficiency。
- VLA 数据集词汇极度集中:跨所有 VLA 数据集只有 4 个词同时出现:
move, close, open, pick——这就是 VLA 模型实际的"动作动词词表"。 - Verb-Object 共现极偏:RT-1 里 "banana" 几乎只配 "pick","knock" 几乎只配 can-shaped 物体——模型很容易学到 shortcut "看到 banana → pick",从而忽略语言指令(Shah 2020 simplicity bias 的活样本)。
- 结构性贫乏比词汇性贫乏更严重:否定/条件/循环 < 1%,意味着所有 VLA 模型从未见过"不要做 X"或"如果 Y 则 Z"——这些是真实世界部署的安全必备结构。
- SCOUT(Wizard-of-Oz 对话)显著优于所有 OXE 数据集:唯一率 39.4%、词汇 1631、否定/循环占比明显更高——证明交互式采集比 scripted/teleoperated 能产出更多样的语言。
- LLM 生成的指令(Alpaca)反而比人类(OASST2)唯一率更高(99.8% vs 93.3%):LLM 善于无穷"换皮",但 LLaVA-Instruct 又因为视觉问答模板化降到 71.45%——生成方式的设计很关键。
亮点与洞察¶
- 首次把"VLA 数据集语言贫乏"从感觉变成数字:之前社区里只有"似乎"的抱怨,本文给出了 RT-1 49 个唯一词、0.02% 唯一率这种任何人都说服的硬数据。这种"datasheet for datasets"在 VLA 领域是空白,本文填上了。
- 跨域对照是巧妙的方法论选择:把 VLA 数据和 OASST2/Alpaca/LLaVA-Instruct 放在同一指标尺度上,让差距"用倍数说话"——CR=158 vs CR=2.75 直观到令人警醒。
- VO 共现热图是诊断 shortcut learning 的简单工具:可直接套用到任何带语言 condition 的 imitation learning 数据集,找出"哪个 noun 永远配同一个 verb"的 spurious correlation。
- 三维多指标 + 重复采样统计:避免单指标偏置(BERTScore 不敏感语序、ROUGE-L 不敏感同义改写、CR 只看全局),方法论严谨度对 dataset audit 类工作是稀缺品。
- 可操作的改进建议:(i) targeted augmentation(基于 Tree Kernel/POS 引导 LLM 做句法 paraphrase)、(ii) cross-domain transfer(混入 procedural text)、(iii) annotation guidance(采集时实时提示 rephrase)——把诊断变成处方。
- 隐含挑战 OXE / Bender-Rule 文化:呼应 Bender 2019, 2021 的"数据透明化"运动,把"语言"加入 robotics 数据卡的必报项。
局限与展望¶
- 不评估跨模态对齐:只看文本,不看 instruction-image-trajectory 的一致性——理论上一个数据集语言丰富但 grounding 错乱也是坏的。
- 不直接证因果:"VLA 模型脆弱"和"训练数据语言贫乏"只是 correlation,没做"在丰富语言数据上重训 VLA 看是否更鲁棒"的实验——这是后续最重要的 follow-up。
- 指标本身有局限:BERTScore 不敏感语序/反义、Tree Kernel 对长句不稳;作者通过多指标互补 + 人工校验缓解,但单点不可全信。
- OXE 子集只取 4 个:未覆盖 OXE 全部 40+ 数据集,结论虽具代表性但不是 exhaustive。
- 数据获取成本约束的承认:作者指出新对象/新场景的物理采集成本天然限制了 robotics 数据的语义多样性,建议把投资转向"新道具 + 新环境(如非厨房)"。
- 语言局限于英语:所有数据集都是英语,多语种 VLA 数据的语言多样性未涉及。
- 展望:(1) 用本文的 framework 做 dataset card 强制项;(2) 直接做 controlled experiment——同 episode 数下,纯模板 vs 增广 paraphrase vs 人工对话三种语言富集策略对 VLA 泛化的影响;(3) 把分析扩展到中文/多语种 VLA 数据;(4) 设计基于 negation/conditional 的新评测 benchmark 测 VLA 是否真"听懂"语言。
相关工作与启发¶
- vs Xing et al. 2025(VLA shortcut 分析): 它聚焦视觉 shortcut(视角、背景、分割),仅一笔带过语言变化少;本文做的是补全的、语言专属的全面审计。
- vs OXE 原始 paper(Collaboration 2024): OXE 文档强调对象/场景/具身多样性,但完全没量化语言;本文等于给 OXE 写了一篇缺失的"语言子节"。
- vs Tevet & Berant 2021(NLG 多样性框架): 直接借用其 form vs content 二分法 + 多指标互补理念,迁移到 robotics 域;并加入 robotics 特有的 VO 共现分析。
- vs Shaib et al. 2025(Compression Ratio for LLM 文本检测): 借用 CR 当数据集级多样性 proxy,并验证 VLA 数据集 CR 异常高(118-158)——压缩比这个简单指标在 robotics 域也很有用。
- vs Bender 2019/2021(dataset documentation 运动): 思想一脉相承——"如果不报告数据特性,就无法理解模型行为";本文是这一精神在 embodied AI 的具体执行。
- vs Driess et al. 2025 / Grover et al. 2025(VLA 语言能力退化研究): 它们从模型侧观察"加 action expert 会损 VLM 能力";本文从数据侧给出可能的根源——训练语言本身就贫乏到不足以维持 VLM 的语言能力。
- vs Guo et al. 2024(LLM-generated 文本多样性下降): 同样关注"训练数据多样性影响下游能力",本文把这个论点从纯 LLM 推广到 VLA 场景。
评分¶
- 新颖性: ⭐⭐⭐⭐ 第一篇系统性 VLA 数据集语言审计,方法借用但组合新;非方法论创新但 community-defining
- 实验充分度: ⭐⭐⭐⭐ 10+ 数据集 × 3 维度 × 10+ 指标 + 人工校验 + 多 encoder 对比,dataset paper 该做的都做了
- 写作质量: ⭐⭐⭐⭐⭐ 动机—框架—量化—改进建议链条干净,表格设计直观,三维分类清晰
- 价值: ⭐⭐⭐⭐⭐ 给 OXE / π0.5 / OpenVLA 等下游开发者敲警钟,可能直接改变下一代 VLA 数据采集 SOP
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评