OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=tWMfhoP3as
代码: 暂未公开
领域: 机器人 / 具身智能
关键词: 视觉语言动作模型, 自适应推理, 长程操作, 人机交互, 视觉 grounding

一句话总结¶

OneTwoVLA 把机器人里的快动作执行和慢语言推理统一到同一个 VLA 中，让模型在关键时刻用 [BOR] 触发推理、平时用 [BOA] 直接输出动作，从而在长程操作、错误恢复、人机交互和开放视觉 grounding 上明显优于无推理 VLA 与双系统方案。

研究背景与动机¶

领域现状：通用机器人控制最近主要沿着 vision-language-action model (VLA) 发展：模型看多视角图像和语言指令，直接输出连续动作或动作 token。另一条路线借鉴人类的双系统认知，把高层 VLM / LLM 当作慢速 System Two，让它先规划或分解任务，再由低层 VLA / policy 作为 System One 执行动作。

现有痛点：纯 VLA 执行动作很快，但面对长程任务时容易忘记当前进度，也难以处理错误、歧义和人类临场改指令。双系统方法能显式推理，却带来两个很实际的问题：高层模型不知道低层 policy 到底会不会做某个动作，可能给出不可执行的子任务；同时高层 VLM 推理延迟很高，如果固定频率反复调用，机器人会等得慢，甚至拿到已经过时的指导。

核心矛盾：机器人需要同时具备“快”和“慢”两种能力。快动作执行要求低延迟、闭环、贴近传感器反馈；慢语言推理要求看懂场景、维护计划、追踪历史、处理异常。如果把两者硬拆成两个模型，协同成本高；如果把推理完全去掉，长程泛化又不够。

本文目标：作者希望得到一个单模型 policy，它既能在普通时刻像 System One 一样连续执行动作，又能在完成子任务、检测到错误、遇到人类干预或歧义时像 System Two 一样输出自然语言推理，并且让这个切换由模型自己决定。

切入角度：关键观察是，推理不需要每一帧都发生。多数时间机器人只要根据最近一次推理继续执行动作；只有当状态发生语义层面的变化，才需要重新描述场景、更新计划和决定下一步。因此，与其“每步都推理”或“从不推理”，不如让同一个 VLA 学会判断什么时候推理。

核心 idea：用一个统一的 VLA 同时建模决策 token、语言推理和动作 chunk，并用带具身推理标注的机器人数据与合成视觉语言数据共同训练，让模型在执行过程中自适应地在 Reason 和 Act 两种模式之间切换。

方法详解¶

整体框架¶

OneTwoVLA 的输入包括当前多相机观测 \(I_t^{1:n}\)、最近一次推理时刻的参考图像 \(I_{ref}^{1:n}\)、语言指令 \(\ell\)、最新推理内容 \(R\)，以及在动作模式下额外使用的机器人 proprioceptive state \(s_t\)。模型每个时间步先输出一个 decision token：如果是 [BOR]，它进入 reasoning mode，生成新的文本推理；如果是 [BOA]，它进入 acting mode，基于最近推理直接生成动作 chunk \(A_t\) 并执行。

整体上，它不是把 VLM planner 和 VLA controller 拼起来，而是在同一个模型内部把“何时想一想”和“何时动手做”合成一个闭环。推理内容会保存为状态，动作执行期间持续被复用；当模型判断推理过期、任务阶段变化、动作失败或人类输入改变目标时，再刷新推理。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["当前观测 + 参考图像<br/>指令 + 最新推理"] --> B["自适应推理/动作切换"]
    B -->|[BOR]| C["具身推理状态<br/>场景/计划/历史/下一步"]
    C --> A
    B -->|[BOA]| D["统一 VLA 动作生成<br/>输出动作 chunk"]
    D --> E["机器人执行<br/>更新环境状态"]
    E --> A
    F["推理增强数据构建"] --> B
    G["合成具身 VL 数据<br/>提升泛化"] --> B

关键设计¶

1. 自适应推理/动作切换：用 [BOR] 和 [BOA] 把慢思考变成可学习的控制决策

传统双系统机器人通常把高层推理的调用频率写死，比如每隔一段时间让 VLM 重新规划。OneTwoVLA 改成让模型先预测 decision token。给定当前图像、参考图像、指令和最近推理 \(R\)，如果模型认为需要更新语义状态，就输出 beginning of reasoning [BOR]，随后自回归生成新的推理文本；如果最近推理仍然足够新，就输出 beginning of action [BOA]，直接进入动作专家生成动作。

这个设计的核心不是多加两个特殊 token，而是把“推理是否过期”变成 policy 自己学习的中间决策。对于番茄炒蛋、火锅、鸡尾酒这类任务，机器人只有在完成一个食材步骤、抓取失败、人类打断或目标模糊时才需要重新推理；其他时刻反复生成语言只会拖慢执行。论文的时间分析也支持这一点：OneTwoVLA 的总任务时间接近不推理的 flat VLA，而双系统“总在推理”方案会因为 Gemini 2.5 Pro 的调用延迟明显变慢。

2. 具身推理状态：让语言推理同时承担场景理解、计划、进度记忆和下一步控制接口

OneTwoVLA 生成的 reasoning content 不是一段自由发挥的 chain-of-thought，而是结构化的具身状态，包含四类信息：场景描述、全局高层计划、历史摘要、当前下一步。场景描述聚焦任务相关物体的位置；计划列出完成任务的步骤；历史摘要告诉模型已经完成了什么；下一步把长程目标压缩成当前要执行的动作意图。

这个结构解决了 VLA 在长程任务中最容易出错的两个问题。第一，模型不必只靠视觉帧隐式记忆进度，而是能读到“我已经加了糖浆和橙汁，现在要加伏特加”这样的历史状态。第二，动作专家收到的不只是原始用户指令，而是结合当前场景和进度后的下一步意图，因此更容易学习精细动作。论文还加入最近推理时刻的参考图像 \(I_{ref}^{1:n}\)，用于给当前图像提供历史锚点，避免相似状态下模型分不清“刚开始”还是“已经完成一步”。

3. 推理增强机器人数据构建：把人工示范切成推理区间和动作区间来监督切换行为

现有机器人数据大多只有 observation-action pair，不告诉模型什么时候该停下来重新理解任务。作者因此把每条人工示范轨迹切成两类 interval：reasoning interval 出现在子任务完成、错误出现、需要人机交互等关键点，并标注推理文本；acting interval 则主要学习根据最新推理继续执行动作。训练时，reasoning interval 中如果当前 \(R\) 已经过期，监督 decision token 为 [BOR]；当 \(R\) 更新后，监督变成 [BOA]；acting interval 中始终监督 [BOA]。

推理标注本身采用两阶段自动 pipeline。第一阶段先给定高层计划 \(P=(p_1,\dots,p_K)\)，从示范视频均匀采样 \(N=32\) 帧，让 Gemini 2.5 标出每个子任务完成后的 reasoning interval。第二阶段在每个 interval 的中点帧上生成四个字段：场景描述 \(D_j\)、完整计划 \(P\)、历史摘要 \(H_j=(p_1,\dots,p_j)\)、下一步 \(X_j=p_{j+1}\)。作者报告在 Tomato-Egg 任务中，人类评估认为 81.5% 的 interval 标注正确，83.3% 的场景描述合理，说明这个自动标注虽然不是完美真值，但质量足以支撑训练。

4. 合成具身视觉语言数据：用 action-free VL 样本补足泛化推理能力

机器人示范昂贵，光靠真实轨迹很难覆盖开放物体、空间关系、属性描述和用户意图。OneTwoVLA 利用统一模型的好处，把没有动作标签的视觉语言数据也纳入共同训练。作者先让 Gemini 2.5 Pro 生成多样化桌面场景文字描述，再用 FLUX.1-dev 合成图像，并加入鱼眼畸变或机器人夹爪合成，让图像更接近真实机器人视角；最后再让 Gemini 生成任务指令与对应推理内容。

这条 pipeline 一共生成 16,000 个样本，其中 6,000 个偏视觉 grounding，每张图含直接名称、空间关系、属性和语义特征等指代表达；另外 10,000 个偏长程计划，要求从目标生成多步计划，有一部分还加入人机交互。它没有动作标签，所以不能直接教机器人怎么动，但能激活预训练 VLM 中的常识和视觉语义能力，再通过与机器人数据 co-training 迁移到控制 policy 中。实验里 OneTwoVLA-VL 在开放世界视觉 grounding 和泛化规划上大幅超过只用机器人数据的 OneTwoVLA，正说明这部分数据不是装饰，而是泛化来源。

一个完整示例¶

以“Make me a cup of Vodka Sunrise”为例，初始观测中桌上有糖浆、橙汁、不同口味伏特加和杯子。模型先输出 [BOR]，生成推理：场景中糖浆在某处、橙汁在某处；计划是先加糖浆、再加橙汁、最后加伏特加；历史为空；现在要加糖浆。随后多帧内它输出 [BOA]，动作专家连续生成抓瓶、移动、倾倒、放回等动作 chunk。

当糖浆加入完成后，当前视觉状态和参考图像、历史推理不再一致，模型再次输出 [BOR]，把历史摘要更新为“已加入糖浆”，下一步变成“加入橙汁”。如果这时人类打断说“不想要橙味伏特加，换柠檬味”，交互文本会追加进语言指令，模型再进入 reasoning mode，把计划改成“放下橙味伏特加，拿柠檬味伏特加”。这就是统一模型比双系统更顺的地方：同一个模型既知道当前低层执行到了哪里，也能立刻把语言交互转成可执行的下一步。

损失函数 / 训练策略¶

OneTwoVLA 以 \(\pi_0\) 作为基础 VLA 实例。其 vision-language model 部分负责自回归生成文本推理，并用交叉熵监督 decision token 和 reasoning token；连续动作分布沿用 \(\pi_0\) 的 action expert，用 flow matching loss 训练动作 chunk。形式上，reasoning mode 生成 \(\hat{R}\sim\pi_\theta(\cdot|I_t^{1:n}, I_{ref}^{1:n}, \ell, R)\)，acting mode 生成 \(A_t\sim\pi_\theta(\cdot|I_t^{1:n}, I_{ref}^{1:n}, \ell, R, s_t)\)。

训练数据由三部分混合：普通机器人示范动作数据、带 reasoning interval 的推理增强机器人数据、以及 16,000 个 action-free 合成具身 VL 样本。前两者教模型何时推理、何时动作以及动作如何执行；后者主要监督语言推理和视觉语义理解，用于补足未见物体、未见指令和常识规划。

实验关键数据¶

主实验¶

论文用真实机器人实验验证四种能力：长程任务规划、错误检测与恢复、自然人机交互、视觉 grounding。长程任务包括 Tomato-Egg、Hotpot 和 Cocktail，每个任务每个方法评估 20 次；主要对比 flat \(\pi_0\)、双系统 VLA 和 OneTwoVLA。

任务 / 设置	指标	OneTwoVLA	之前 SOTA / 基线	提升
长程任务平均	成功率	87%	\(\pi_0\): 57%	+30 个百分点
长程任务平均	成功率	87%	Dual-System: 63%	+24 个百分点
Tomato-Egg	成功率	85%	\(\pi_0\): 70%, Dual-System: 55%	+15 / +30 个百分点
Hotpot	成功率	80%	\(\pi_0\): 50%, Dual-System: 70%	+30 / +10 个百分点
Cocktail	成功率	95%	\(\pi_0\): 50%, Dual-System: 65%	+45 / +30 个百分点

从这个表看，OneTwoVLA 的优势不是单一任务偶然爆发，而是在三个长程真实操作上都稳定更高。\(\pi_0\) 的典型失败是忘记进度或重复当前步骤，例如火锅里反复夹牛肉；双系统的失败则更像接口错配和延迟，比如高层系统给出低层 policy 不会执行的命令，或者推理来得太晚。

消融实验¶

论文没有做传统“去掉某个 loss”的内部消融，但给出了非常清楚的组件对比：无推理的 \(\pi_0\)、统一但只用机器人数据的 OneTwoVLA、以及加入 16,000 合成 VL 数据的 OneTwoVLA-VL。这个对比能看出显式推理和 VL co-training 分别贡献了什么。

配置	关键指标	说明
\(\pi_0\) flat VLA	长程平均 57%；Single-Env grounding 5%；Open-World grounding 3%	动作执行快，但缺少显式推理和历史状态，长程计划与语义 grounding 都弱
Dual-System VLA	长程平均 63%；人机交互 65%；错误恢复 58.3%	有高层推理，但高低层互不了解，且 VLM 延迟导致更新不及时
OneTwoVLA	长程平均 87%；错误恢复 80%；人机交互 100%；Single-Env grounding 78%	统一模型 + 自适应推理，显著提升长程执行、恢复和交互
OneTwoVLA-VL	泛化规划平均 70%；Open-World grounding 73%；泛化人机交互 72.5%	加入合成具身 VL 数据后，未见任务、未见物体和复杂指代表达泛化大幅提升

更细的视觉 grounding 分解也很有意思。在 Single-Env 中，OneTwoVLA-VL 的 name / spatial / attribute / semantic 成功数分别是 10/10、8/10、8/10、9/10；OneTwoVLA 是 10/10、5/10、8/10、8/10；\(\pi_0\) 只有 2/10、0/10、0/10、0/10。在 Open-World 中，OneTwoVLA-VL 达到 29/40，而 OneTwoVLA 只有 3/40，\(\pi_0\) 只有 1/40，说明合成 VL 数据主要改善开放环境泛化，而不只是让已见环境上的语义描述更顺。

关键发现¶

自适应推理确实能同时兼顾效率和能力。OneTwoVLA 只在关键时刻推理，任务完成时间接近不推理的 \(\pi_0\)；双系统因为频繁调用 Gemini 2.5 Pro，推理时间占比高，真实执行慢很多。
显式 reasoning content 不只是给人看的解释，也帮助动作学习。作者报告 \(\pi_0\) 在验证集上的动作 MSE 比 OneTwoVLA 高 62%，说明“下一步 + 历史状态”确实让动作预测更容易。
合成 VL 数据主要解决机器人数据覆盖不到的开放语义问题。OneTwoVLA 不加 VL co-training 时，在 Open-World grounding 只有 8% 成功率；加上后到 73%，还能处理 Sprite、GoPro 等不在机器人数据甚至不在合成数据中的对象。
错误恢复和人机交互是统一模型的强项。错误恢复中 OneTwoVLA 达到 8/10，双系统和 \(\pi_0\) 分别是 7/12、8/14；人机交互中 OneTwoVLA 在 Hotpot 和 Cocktail 的 20 次交互全部成功，双系统只有 13/20。

亮点与洞察¶

把“什么时候推理”显式建模成 token 决策很巧。很多 embodied reasoning 方法把推理当成固定流程，OneTwoVLA 则让推理频率随状态变化而变化，这更接近真实机器人部署时的效率约束。
统一模型比双系统的关键优势在于能力边界共享。高层推理和低层动作来自同一个模型、同一套训练数据和同一段历史状态，减少了 planner 说得出但 controller 做不到的问题。
reasoning content 的四字段设计很实用。场景、计划、历史、下一步刚好覆盖长程任务最容易丢失的信息，而且格式足够简单，可以用自动标注 pipeline 大规模生成。
合成视觉语言数据的价值被放在了机器人语境里。它不是普通 VQA 数据，而是桌面场景、物体指代、长程计划和人机交互，所以和机器人 policy 的输入分布更接近。
这篇对 VLA scaling 有一个启发：如果 VLA 初始化自强 VLM，那么 action-free 数据并非只能做预训练，也可以在 policy co-training 阶段继续激活模型的语义常识。

局限与展望¶

作者承认目前 reasoning interval 依赖人工设计的候选关键步骤和自动标注，相当于一种 SFT 式对齐；什么时候推理未必最优。未来可以用 RL 让模型根据任务成功率、延迟和错误代价学习更优推理策略。
即使只在少数关键时刻推理，机器人仍要停顿 2-3 秒。对于需要连续动态控制的任务，异步推理和动作生成会更重要，例如边执行边预估下一段计划。
动作推理效率还没有被充分优化。随着统一模型变大，action expert 或 VLM backbone 的推理成本可能成为瓶颈，需要引入更快的 action decoding、缓存或蒸馏。
合成 VL 数据虽然规模化，但质量仍有噪声。作者抽样 50 个合成样本发现 2 个图像错误、8 个文本错误、40 个完全正确；这说明数据有用，但如果继续扩大规模，质量过滤会变得更关键。
论文主要在桌面操作与厨房/饮品/物体拾取场景验证，还没有证明对移动操作、多机器人协作或更长时间尺度任务同样有效。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用统一 VLA 学自适应推理/动作切换，抓住了双系统机器人最痛的延迟和接口错配问题。
实验充分度: ⭐⭐⭐⭐⭐ 真实机器人实验覆盖长程规划、错误恢复、人机交互、视觉 grounding 和开放泛化，指标很完整。
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，方法、数据 pipeline 和实验任务都解释得比较具体，案例也直观。
价值: ⭐⭐⭐⭐⭐ 对具身智能很有参考价值，尤其是“推理不必每步发生，但必须能在线发生”这个设计原则很可迁移。