Interleave-VLA: Enhancing Robot Manipulation with Image-Text Interleaved Instructions¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ULTWUuGhC3
代码: 项目主页开源（210k episodes 数据集 + 代码）
领域: 机器人操作 / 视觉-语言-动作模型 (VLA)
关键词: Interleaved Instruction, VLA, Out-of-Domain Generalization, In-Context Visual Grounding, Open X-Embodiment

一句话总结¶

本文提出 Interleave-VLA：一个模型无关、几乎不改架构的范式，让现有 VLA 接受"图文交错"指令（把文本里的目标物体替换成它的图像），并配套一条自动化流水线把 Open X-Embodiment 改造成 21 万条交错指令数据集，使机器人对未见物体的域外泛化提升约 2×，并涌现出对手绘草图、网图等指令的零样本理解能力。

研究背景与动机¶

领域现状：基础模型让"通用机器人策略"成为可能，主流做法是把 VLM 扩展成 VLA（视觉-语言-动作），用文本指令 + 视觉观测直接生成连续动作（如 π0、OpenVLA、RT-2）。但几乎所有现代 VLA 仍停留在纯文本指令范式（作者称之为 Text-VLA）。
现有痛点：纯文本指令在域外场景容易含糊或繁琐——当用户想说"拿起这个长得像这样的东西"时，文本很难精确描述独特形状/颜色的物体。作者把由此导致的泛化失败归结为三类注意力幻觉 (attentional hallucination)：① 注意力偏置（attention bias，焦点错误落到显著的干扰物上）；② 注意力扩散（diffused attention，注意力无焦点地铺满全场，表示模型不确定）；③ 注意力泄漏（attention leakage，认对了目标但焦点散逸到无关背景）。它们源于语义歧义（"toy dinosaur" 旁边放着相似形状的玩具大象就乱选）和训练分布偏置（"redbull" 罕见词被切成 "red"+"bull"，过度关注 "red" 而误把可口可乐当红牛）。
核心矛盾：数字世界的 VLM 早已能处理任意图文交错输入并因此获得更强泛化，而物理世界的 VLA 却还没吃到这个红利；VIMA 虽是交错指令的概念先驱，但局限在 2D 风格化仿真的高层规划，没验证真实世界低层动作的可行性与泛化收益。
本文目标：把"图文交错指令"从数字世界搬到物理世界的连续动作生成，且要做到自然、灵活、模型无关、改动最小，并系统性验证交错指令相对纯文本的真实收益。
核心 idea：(1) 用图像替代文本里的歧义物体描述，提供"少偏置"的在场视觉锚定（in-context visual grounding），直接缓解由歧义引发的幻觉；(2) 自动造数据——设计流水线把现成纯文本机器人数据集自动转成交错指令，解决"没有交错训练数据"这一最大瓶颈；(3) 极简适配——只往 tokenizer 加分隔符、改输入处理，核心架构不动，让 SOTA VLA 即插即用。

方法详解¶

整体框架¶

Interleave-VLA 把状态形式化为三元组 \(s_t = (I_t, q_t, \mathcal{I})\)：当前视觉观测 \(I_t\)、本体感知 \(q_t\)、以及一段交错指令序列 \(\mathcal{I} = (u_1,\dots,u_M)\)，其中每个 token \(u_j \in V_{\text{text}} \cup V_{\text{img}}\) 要么是文本 token、要么是图像 token；策略 \(a_t \sim \pi_\theta(\cdot \mid s_t)\) 据此采样连续动作。当所有 \(u_j\) 都是文本时即退化为标准 Text-VLA。整个范式由三块拼成——适配模块（让现成 VLA 看懂交错格式）、可扩展训练（在 21 万条交错数据上训练，不改超参和目标）、通用推理接口（测试时接受相机裁剪/网图/草图）；外加一条自动数据生成流水线把 Open X-Embodiment 转成交错数据。

flowchart TB
    subgraph DATA["数据流水线: 文本数据集 → 交错数据集"]
        A1["指令解析<br/>Qwen2.5 抽取关键物体"] --> A2["开放词表检测<br/>OWLv2 定位+裁剪 (82.6%)"]
        A2 --> A3["质量校验<br/>Qwen2.5-VL 复核 + SAM 分割<br/>(提升到 95.6%)"]
    end
    DATA --> B["Open Interleaved X-Embodiment<br/>210k episodes / 13M frames / 3500 物体"]
    B --> C["训练: π0 + 分隔符 token<br/>flow-matching 目标不变"]
    C --> D["推理接口"]
    D --> E1["相机裁剪"]
    D --> E2["网络图片"]
    D --> E3["手绘草图"]

关键设计¶

1. 极简适配模块：只加分隔符，架构零改动。 Interleave-VLA 不动 VLA 的主干网络，只往 base 模型的 tokenizer 里引入特殊分隔符 token（如 <BOI>/<EOI> 标记图像段的起止），并升级输入处理器去支持"文本-图像-文本"交错排布。一个典型指令从纯文本 Place [the blue spoon near microwave] into [silver pot on towel] 变成 Place [image1] into [image2]——把歧义的名词短语直接换成物体裁剪图。论文主要把它套在 π0 上（其 Paligemma 底座本不支持交错输入，适配后即可），并验证同样能套到架构和训练目标都不同的 OpenVLA，证明"模型无关"不是空话。这种"最小侵入"是它能即插即用、且不破坏预训练能力的关键。

2. 自动化交错数据流水线：三阶段把纯文本数据"图像化"。 由于现实机器人数据集只有文本指令，作者用三步把它们自动转成交错数据：① 指令解析用 Qwen2.5 从语言指令里抽关键物体名词（比 SpaCy 等规则工具更能适配多样表述、还能概括长指令）；② 开放词表检测用 OWLv2 按关键词在轨迹帧里定位并裁剪目标物体，单此一步准确率 82.6%；③ 数据质量校验针对 OWLv2 失败的难例，用 Qwen2.5-VL 复核检测结果，必要时给出关键点交给 Segment Anything 做更精细分割，把整体准确率拉到 95.6%。该流水线整合了 Open X-Embodiment 中 11 个子数据集（RT-1、Bridge、Jaco Play、Language Table 等），产出 21 万 episodes、1300 万帧、3500 类物体的真实世界交错数据集。为增加指令多样性，还随机混入互联网图片替换原物体图。

3. 三种训练模态消融，定位收益来源——格式 + 内容双管齐下。 为厘清"交错"为何有效，作者切了三个变体：Text-VLA（训练/测试都用文本）、Interleave-VLA (Partial)（交错训练、文本测试）、Interleave-VLA (Full)（交错训练 + 交错测试）。结果表明：Partial 仅靠交错数据的多模态性就已超过纯文本（缓解过拟合），而 Full 借助测试时的显式视觉锚定把语义域外泛化再翻一倍——说明收益既来自数据/模态多样性（缓解分布偏置导致的幻觉），也来自交错格式本身提供的在场视觉信息（缓解歧义导致的幻觉）。进一步的 prompt 图像消融显示，任务图 + 网图混合比任一单独来源都好（域内 71.0 vs 单一 59~67），说明 prompt 图的多样性也是 scaling 的一个维度。

4. 通用推理接口：训练没见过的指令模态零样本可用。 推理时同时支持纯文本和交错指令，且交错图可来自相机裁剪、网图甚至手绘草图——即使风格与训练数据迥异。正是因为模型学的是"用图像在场锚定目标"这一通用能力，而非记忆特定图像风格，才涌现出对裁剪图/网图/草图的零样本理解，配合 GUI 让人机交互更直观（"画个简笔画就能指挥机器人"）。

实验关键数据¶

主实验：SimplerEnv（WidowX / BridgeData V2）¶

4 个域内任务 + 3 个域外套件（Visual / Novel Object / Novel Category），3 个 seed，单位为成功率。

模型	范式	训练/测试模态	In-Domain	Visual	Novel Object	Novel Category	Avg
RT-1-X	Text-VLA	Text/Text	1.1	0.0	3.5	5.8	3.2
Octo	Text-VLA	Text/Text	17.4	12.5	10.8	8.2	10.5
Spatial-VLA	Text-VLA	Text/Text	38.4	19.6	17.1	17.6	18.0
π0.5	Text-VLA	Text/Text	57.2	53.9	50.9	41.8	49.0
π0	Text-VLA	Text/Text	68.1	72.4	26.0	19.3	39.5
π0	Interleave (Partial)	Interleave/Text	70.1	76.8	35.8	20.9	43.6
π0	Interleave (Full)	Interleave/Interleave	70.5	73.2	53.8	57.3	60.6

域内基本持平（70.5 vs 68.1），说明交错指令不损伤熟悉任务；域外语义泛化 Novel Object 26.0→53.8、Novel Category 19.3→57.3，约 2× 提升，且超过额外用物体接地/检测 VQA 预训练的 π0.5。

真实机器人（FANUC LRMate 200iD/7L，每物体 20 条遥操作演示）¶

PT 表示在交错数据集上预训练（注意：预训练数据不含 FANUC，仍能跨本体迁移）。

范式	PT	In-Domain (Succ Avg)	Out-of-Domain (Succ Avg)
Interleave-VLA	✗	6 / 19	0 / 0
Text-VLA	✓	39 / 50	13 / 21
Interleave-VLA	✓	67 / 47	71 / 38

低数据场景下直接 finetune π0 几乎失败；预训练后 Interleave-VLA 域外比 Text-VLA 高 2-3×，体现跨本体迁移降低了数据采集负担。

消融与关键发现¶

跨架构验证（VIMA-Bench / OpenVLA）：把范式直接套到 OpenVLA，在 L1-L4 四个泛化级别上全面领先，且比 Text-VLA 高约 2×，无需任务特定设计。
零样本指令模态（Table 4）：对训练从未见过的手绘草图、用户裁剪图、网图，成功率/准确率多在 70-80%+ 且 Acc 常达 100%。
prompt 图像多样性（Table 5）：Internet-only 59.2/69.1、Task-specific-only 67.5/67.1、Mixed 71.0/71.7 最优。
格式 vs 内容（Table 6）：视觉目标线索主要驱动域外泛化（提供显式图像信息），交错格式带来互补增益、尤其能消解 "Move Near" 这类欠定指令的歧义。

亮点与洞察¶

把"交错"这个数字世界已验证的红利第一次系统性落到真实世界低层动作，并用 2×/2-3× 的域外提升把"交错有用"从直觉变成定量结论。
"注意力幻觉"三分类（偏置/扩散/泄漏）是很漂亮的失败分析框架：把 Text-VLA 的泛化失败拆成可视化、可归因的注意力模式，再用 attention map 直接展示交错指令如何让焦点收敛回目标，论证链条完整。
数据流水线是真正的工程贡献：用"LLM 解析 + 开放词表检测 + VLM/SAM 校验"的协作把准确率从 82.6% 拉到 95.6%，把 Open X-Embodiment 自动转成 21 万条交错数据并开源，复用价值高。
模型无关 + 改动最小：只加分隔符 token 就能让 π0 和 OpenVLA 这两类架构都升级，落地门槛极低。

局限与展望¶

依赖检测/分割质量：流水线 95.6% 的准确率意味着仍有约 5% 噪声交错样本，对小物体、遮挡、密集杂乱场景的裁剪质量可能成为瓶颈。
物体级锚定为主：交错指令目前主要替换"名词物体"，对空间关系、动作副词、抽象目标（如"整理整齐"）这类难以用单张图表达的指令收益有限。
本体与任务仍有限：真实实验集中在单臂抓取/摆放（FANUC + 食物/厨具），更长程、多步骤、双臂或灵巧手任务尚未验证。
草图/网图的鲁棒性边界：附录提到草图存在失败模式，零样本能力对极端抽象或歧义的手绘仍可能退化。
展望：把交错锚定从物体扩展到区域/轨迹/关系，结合更强的开放词表分割与在线纠错，有望进一步逼近"指哪打哪"的通用操作接口。

评分¶

新颖性: ⭐⭐⭐⭐ — 交错图文指令本身非首创（VIMA 在先），但"真实世界 + 低层连续动作 + 模型无关极简适配 + 自动数据流水线 + 注意力幻觉归因"的组合是首次系统性打通，定位清晰。
实验充分度: ⭐⭐⭐⭐ — 覆盖仿真（SimplerEnv）、真机（FANUC）、跨架构（OpenVLA/VIMA-Bench）、零样本模态、多维消融，证据链完整；真机任务种类与本体多样性偏窄。
写作质量: ⭐⭐⭐⭐ — 问题定义清楚，三类幻觉的可视化分析和定量表格有说服力，图示直观。
价值: ⭐⭐⭐⭐ — 开源 21 万条交错数据集 + 即插即用范式，复用门槛低、泛化收益显著，对 VLA 社区有实际推动力。