Hybrid Training for Vision-Language-Action Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=IBJtOltTbx
代码: 待确认
领域: 机器人 / 具身智能 (VLA)
关键词: Vision-Language-Action, Embodied Chain-of-Thought, 混合训练, 推理加速, 模态变量

一句话总结¶

本文提出 Hybrid Training (HyT)：让 VLA 在训练时同时从「思维链(CoT)」和「动作」数据中学习，但在推理时通过一个「模态变量」直接输出动作、跳过费时的思维生成，从而既拿到 CoT 带来的性能增益，又保持标准 VLA 的高控制频率。

研究背景与动机¶

领域现状：在 VLA(视觉-语言-动作模型)中引入具身思维链(Embodied CoT, ECoT)——即在输出动作前先用语言生成「计划/子任务/物体位置/运动方向」等中间思考——已被证明能显著提升机器人操作性能，并增强可解释性(人类可读取并干预智能体意图)。
现有痛点：思维链是长语言序列，token 数远多于动作本身。在真实机器人执行中，每一步都先生成思考会让动作推理频率大幅下降——ECoT 比标准 VLA 慢 3×，分层 VLA(HiRobot)慢 4×。而操作任务需要长序列动作，延迟严重损害可用性。
核心矛盾：性能(靠 CoT) ↔ 推理速度(靠不生成 CoT) 二者难以兼得。
本文目标：回答「生成长思维链是否是获得性能增益的必要前提？」并设计一个既快又强的训练方案。
核心 idea：「技能化直觉」假说 —— 借鉴 Kahneman 的 System I/II 双系统理论，作者假设 CoT 训练的主要收益不来自测试时生成的思考本身，而来自模型通过「预测思考 + 思考条件化动作」内化的知识。因此一个充分训练过的 VLA 应能在没有中间思考的情况下，凭内化的「直觉」直接、更准确地预测动作。

方法详解¶

整体框架¶

HyT 把标准 VLA、ECoT(思考型)、分层 VLA(跟随型)统一进单一模型、单组参数 θ 的混合目标里。关键是引入一个模态变量 \(m\)(以 <act> / <think> 等文本 token 形式存在)：训练时通过蒙特卡洛采样让模型见到三类「输入-输出」组合，学会三种条件动作分布；推理时只需把模态 token 设为 <act>，模型即直接吐动作，推理开销与标准 VLA 相同。

flowchart LR
    A[图像 x + 任务 l] --> M[LLM/VLA θ]
    T[模态 token m] --> M
    M -->|m = act| ACT[直接输出动作 a]
    M -->|m = think| THK[先生成思考 τ 再出动作]
    M -->|m = follow| FOL[跟随外部给定 τ 出动作]

关键设计¶

1. 混合训练目标：用模态变量边缘化统一三种 VLA。 出发点是把动作分布写成对思考 \(\tau\) 与模态变量 \(m\) 的边缘化：\(p(a_t|x_t,l)=\sum_i\sum_j p_\theta(a_t,\tau^i|x_t,l,m^j)p(m^j)\)。在此框架下，作者具体实例化三种条件分布：\(p(a_t|x_t,l)=\underbrace{p_\theta(a_t|x_t,l,m_a)}_{\text{act}}+\underbrace{p_\theta(a_t|x_t,l,\tau_t)p_\theta(\tau_t|x_t,l,m_\tau)}_{\text{think}}+\underbrace{p_\theta(a_t|x_t,\tau_t,m_f)}_{\text{follow}}\)。其中 act 模仿标准 VLA(令 \(p_\theta(\tau=\varnothing|m_a)=1\)，无思考直接出动作)；think 模仿 ECoT(先思考再动作)；follow 模仿分层系统的低层策略(给定外部思考/指令后只管执行)。这一统一视角让一个模型同时具备「快、慢、跟随」三种行为，而非训练三个独立模型。

2. 蒙特卡洛采样实现，而非加权求和损失。 总目标是三项负对数似然的加权和 \(\min_\theta \mathcal{L}_{hyt}=w_a\mathcal{L}_{act}+w_\tau\mathcal{L}_{think}+w_f\mathcal{L}_{follow}\)。但若对每个样本直接算三项加权和，会让同一批次里重复出现同样的思考和动作，降低 batch 多样性。作者的做法是把权重 \(\{w_a,w_\tau,w_f\}\) 重新解释为采样概率：每次构造 batch 时，按这些概率为每个数据点随机抽取一种(模态 token, 思考, 动作)组合。本文取 \(\{w_a{:}0.25,\ w_\tau{:}0.5,\ w_f{:}0.25\}\)，即一半样本走 think 模式喂思考、四分之一走 act、四分之一走 follow。这样模型在一次次随机暴露中同时学会三种分布。

3. 推理时用模态 token 一键切换、无额外开销。 测试时默认设 \(m_a=\langle act\rangle\)，强制模型直接预测动作——此时模型能调用训练中从思考里内化的知识，却不付出任何额外 token 生成成本，控制频率与标准 VLA 持平(~3Hz)。若需要可解释性或细粒度指令跟随，则切到 \(\langle think\rangle\)(读取智能体意图)或 follow 模式(注入人类/oracle 给定的思考来覆盖意图)。作者观察到 HyT 训练后的模型会「忠实地」服从模态 token 生成对应输出，且各模式性能相近，故模态变量在任务开始时设定、episode 内不动态切换(动态切换留作未来工作)。

实验关键数据¶

主实验：LIBERO 基准(成功率 %，越高越好)¶

方法	Spatial	Object	Goal	Long	Avg.
OpenVLA	84.7	88.4	79.2	53.7	76.5
CoT-VLA	87.5	91.6	87.6	69.0	81.1
π0-FAST	96.4	96.8	88.6	60.2	85.5
MolmoAct	87.0	95.4	87.6	77.2	86.6
VLA-OFT	94.2	97.8	91.4	84.8	92.1
HyT (ours)	94.0	97.2	96.2	89.4	93.7

HyT 与 OFT 配方结合后总均分 SOTA，且在最难的 Goal / Long 长程套件上提升最明显。

真实世界实验(UFactory xArm 6，成功率 %)¶

任务类别	OpenVLA	HyT
In-distribution	52 ±10	72 ±9
Out-of-distribution	29 ±9	54 ±10
Overall	41 ±7	63 ±7

OOD 上提升尤为显著(29→54)，HyT 到达抓取/放置位置更精准，且从不抓错物体。

关键发现¶

ClevrSkills(9 任务, 300–3000 demos)：HyT 在所有数据规模上不仅超过标准 VLA，还普遍优于 ECoT 与 HiRobot；ECoT 次优，分层 VLA 在 ≥1500 demos 后反被标准 VLA 超过。对更复杂、更长程任务收益更大。
推理速度：HyT 与标准 VLA 同为 ~3Hz；ECoT 慢 3×，HiRobot 慢 4×。HyT 实现「ECoT 级性能 + 标准 VLA 级速度」。
模式等价性：无 oracle 思考时，HyT 在 act 与 think 模式性能相近——印证「测试时生成思考可能并非必要」。给 oracle 思考(follow/think 模式)能进一步提升各方法性能。
饱和情形：若从已充分 robotics 预训练的 OpenVLA 出发微调，HyT 与 baseline 都接近饱和(~95.3%)，说明 HyT 的增益主要在补偿预训练不足或微调数据稀缺。

亮点与洞察¶

「思考的价值在训练而非推理」 这一假说被系统验证，给「快慢思考」之争提供了干净的反例式答案：可以只在训练吃 CoT 的红利。
用单一模型 + 模态变量统一了标准/思考/分层三种 VLA 范式，工程上优雅，且推理零额外成本。
把损失权重重解释为采样概率的小技巧，简单地解决了 batch 多样性问题，可复用于其他多目标模仿学习。
三种推理模式带来「速度-可解释性-可干预性」的灵活权衡，follow 模式天然支持人类/oracle 注入细粒度指令。

局限与展望¶

「act 与 think 模式性能相近」是在所评测任务上的结论；对需要更复杂具身推理的任务是否仍成立，作者明确表示需进一步验证。
模态变量在 episode 内固定不变，未探索执行中动态切换快慢系统的机制(可能在难步骤切 think、简单步骤切 act)。
思考的提取依赖 oracle/模拟器标注或 LLM 生成(LIBERO)，真实场景下高质量思考标注的获取成本未充分讨论。
采样系数 \(\{0.25,0.5,0.25\}\) 为经验设定，跨任务的鲁棒最优配比仍待研究。

评分¶

新颖性: ⭐⭐⭐⭐ —— 用统一边缘化 + 模态变量把三种 VLA 范式合一并实现「训练吃 CoT、推理不出 CoT」，视角清晰且实用；思想上与 DualFormer/CoT dropout 有承接，非完全原创但落点扎实。
实验充分度: ⭐⭐⭐⭐ —— 覆盖 ClevrSkills(数据规模扫描)、LIBERO(SOTA 对比)、真实 xArm 6(含 OOD)三类设定，并报告推理速度与多模式分析；部分关键消融(系数)放在附录。
写作质量: ⭐⭐⭐⭐ —— 以「CoT 是否必要」的问题驱动，假说-方法-验证逻辑连贯，图表与问答式小标题易读。
价值: ⭐⭐⭐⭐ —— 直击 VLA 落地的「性能 vs 速度」核心痛点，方法即插即用可叠加 OFT 等现有配方，对实机部署有直接意义。