HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=H1KDMNOKQn
代码: 待确认
领域: 机器人 / 具身智能 (VLA)
关键词: Vision-Language-Action, 扩散策略, 自回归, 统一模型, 协同集成

一句话总结¶

HybridVLA 让同一个 LLM backbone 在同一条 token 序列里同时承担扩散去噪和自回归动作预测两种范式，并用基于置信度的协同集成自适应融合两者，仿真和真机分别比 SOTA 提升 17% 和 19%。

研究背景与动机¶

领域现状：VLA 模型把 VLM 的推理与生成能力迁移到机器人操作上，目前主要分两条技术路线——自回归把连续动作离散化成 bin 当 token 预测（如 OpenVLA），扩散则在 VLM 后挂一个 diffusion head 预测连续动作（如 π0、CogACT）。
现有痛点：自回归的离散化破坏了动作位姿的连续性，难以精细控制；而扩散路线的 diffusion head 是个独立外挂模块，只把 VLM 当成多模态特征提取器，没有把预训练好的 LLM 当作迭代生成的"动作专家"来用，浪费了互联网规模的预训练知识。
核心矛盾：两种范式各有所长——扩散擅长精细/动态物体的连续控制，自回归继承 VLM 的生成范式、学得快且更懂灵活指令与未见物体——但现有工作只能二选一，无法在一个模型里兼得。
本文目标：构造一个统一的 VLA 模型，用同一个 LLM backbone 同时跑自回归和扩散两种动作生成，让二者互相强化并按场景自适应取长补短。
核心 idea：统一序列内的协同生成——把扩散的 Markov 去噪步骤嵌入 LLM 的 next-token 预测过程，每个去噪步当作一次推理迭代，再用动作集成机制按自回归 token 置信度融合两路输出。

方法详解¶

整体框架¶

所有多模态输入（多视角图像、语言、机器人状态、扩散 timestep 与噪声动作、自回归动作）都被编码进 LLM 嵌入空间，组织成一条精心设计的统一 token 序列。LLM 先在 <BOD>…<EOD> 包裹的扩散区段里迭代去噪出连续动作，再以这些连续条件为前缀自回归生成离散动作 token；推理时按自回归置信度自适应集成两路动作驱动机械臂。

flowchart LR
    A[多视角图像<br/>语言指令<br/>机器人状态] --> B[Vision Encoder<br/>DINOv2+SigLIP / CLIP]
    B --> C[统一 token 序列<br/>LLM 嵌入空间]
    C --> D["LLM backbone<br/>(扩散 & 自回归)"]
    D --> E["&lt;BOD&gt; 扩散去噪 &lt;EOD&gt;<br/>DDIM n=4 → 连续动作 a_d"]
    E --> F[自回归 next-token<br/>离散动作 a_ar + 置信度 c_ar]
    F --> G{c_ar > θ?}
    G -- 是 --> H["集成: (a_d + a_ar)/2"]
    G -- 否 --> I["仅扩散: a_d"]
    H --> J[机械臂执行]
    I --> J

关键设计¶

1. 统一 token 序列编排：用 marker 把两种范式无冲突地串进一条序列 论文系统对比了 4 种序列排布（Table 1），最终选定 Type 4。机器人状态不再被离散化拼进语言 query，而是用可学习 MLP 直接映射成连续向量 \(f_r \in \mathbb{R}^{B\times 1\times 4096}\) 注入嵌入空间以增强时序一致性；扩散的 timestep 与噪声动作同样经 MLP 投成连续向量，并用 <BOD>(Beginning of Diffusion) 和 <EOD>(End of Diffusion) 两个特殊 token 把扩散区段包起来。这个边界设计的关键作用在于厘清两种生成的界限、避免 next-token 预测时混淆（如扩散 token 直接去预测离散 mask token）。更微妙的是摆放顺序：自回归训练时 question 和答案（含离散动作 GT）都可见，若把自回归放在扩散之前，这些 GT 会作为扩散的条件造成动作泄漏（Type 3）；因此论文把扩散 token 放在前面，既为后续 token 提供连续 latent 条件，又因扩散本身作用于噪声而天然规避了信息泄漏。

2. 协同训练配方：把扩散去噪嵌进 next-token 预测，两路联合优化同一动作分布 两种范式共享 LLM 并联合优化一个混合目标。扩散侧沿用 diffusion policy 的去噪 MSE：\(L_{dif}=\mathbb{E}_{a,i,c}\lVert \epsilon - \epsilon_\pi(a_t^i, i, c)\rVert^2\)，其中 \(\epsilon\sim\mathcal{N}(0,1)\)、\(c\) 为条件上下文；自回归侧最小化离散动作的交叉熵 \(L_{ar}\)，合成 \(L_{hybrid}=L_{dif}+L_{ar}\)。由于动作数据被统一归一化到 \([-1,1]\)、离散动作只是该分布的量化表示，两个分支实际在逼近同一条件动作分布，因而能互相强化（PCA 与消融均验证）。推理时扩散用 DDIM、采样步数低至 \(n=4\) 即可兼顾性能与速度，且每步只把当前噪声样本喂进 LLM 预测下一步噪声、序列不保留历史噪声，每步即一次"推理迭代"；为加速还引入 KV cache，首步处理完视觉/语言 token 后，后续步只前传更新的 timestep 与噪声、复用缓存的 K/V，大幅减少冗余计算。

3. 协同动作集成：以自回归置信度为信号自适应融合两路输出 作者观察到两个现象——不同动作类型在不同任务上各有胜负；自回归 token 的置信度是动作质量的可靠指标（>80% 成功样本里自回归 token 平均置信度超 0.96）。据此设计集成规则：用自回归 token 的平均置信度 \(c^{ar}_{t+1}\) 引导，若超过阈值 \(\theta=0.96\) 则认为自回归动作足够准，与扩散动作取平均 \(a_{t+1}=(a^d_{t+1}+a^{ar}_{t+1})/2\)；否则只信扩散动作 \(a_{t+1}=a^d_{t+1}\)。这种"高置信度才融合、低置信度回退到扩散"的策略让控制更鲁棒。

此外，模型用预训练 Prismatic VLM 初始化，分两阶段训练：先在 Open X-Embodiment、DROID、RoboMIND 等 35 个数据集、760K 轨迹（33M 帧、>10K A800 GPU 小时）上大规模预训练，再在自采仿真与真机数据上微调；提供 7B(LLaMA-2) 和 2.7B(Phi-2) 两个规模。

实验关键数据¶

主实验表格（RLBench 10 任务多任务设定，成功率 S.R.↑）¶

方法	Mean S.R.	推理速度
ManipLLM (7B)	0.38	2.2 Hz
OpenVLA (7B)	0.41	6.3 Hz
OpenVLA-OFT (7B)	0.45	13.4 Hz
π0 (2.6B)	0.61	13.8 Hz
CogACT (7B)	0.60	9.8 Hz
HybridVLA-ar (7B)	0.65	6.3 Hz
HybridVLA-dif (7B)	0.72	9.4 Hz
HybridVLA (7B)	0.78	6.1 Hz
HybridVLA (2.7B)	0.67	12.3 Hz

HybridVLA(7B) 比自回归 SOTA(OpenVLA) 和扩散 SOTA(π0) 分别高 37% 和 17%；即便单看扩散分支 HybridVLA-dif 也比 CogACT/π0 高 12%/11%，说明共享 LLM 比外挂 diffusion head 更能释放扩散潜力。

消融实验表格（Table 3，10 RLBench 任务）¶

配置	训练损失	LSP	Mean ↑
Ex1 仅 AR	\(L_{ar}\)	✓	0.57
Ex2 仅 AR	\(L_{hybrid}\)	✓	0.65
Ex3 仅 Dif	\(L_{dif}\)	✓	0.65
Ex4 仅 Dif	\(L_{hybrid}\)	✓	0.72
Ex5 AR+Dif+CAE	\(L_{hybrid}\)	✓	0.78
Ex6 AR+Dif+CAE	\(L_{hybrid}\)	✗	0.22

Ex1→Ex2、Ex3→Ex4：换成混合目标后单分支也涨（0.57→0.65、0.65→0.72），证明两范式联合训练彼此增益；
Ex5 协同集成达到 0.78，优于任一单分支；
Ex6 去掉大规模预训练骤降到 0.22，说明跨本体预训练是性能基石。

关键发现¶

序列排布很关键：Type 4 在扩散/自回归两种推理下均最优（Dif 0.72 / AR 0.65），错误排布会引发 GT 泄漏或 token 混淆。
真机：单臂与双臂任务上比 SOTA 平均提升 19%，并对未见物体/背景/空间布局/光照展现强泛化。
自回归分支可替换为语言任务规划而不损害扩散动作稳定性（该设定仍达 74%）。

亮点与洞察¶

范式融合的"优雅解"：不是把扩散和自回归各跑一遍再拼，而是把扩散去噪解释为 LLM 的一种 next-token 推理迭代，二者共享 backbone、逼近同一分布，互相强化而非简单堆叠。
置信度即质量信号：发现自回归 token 置信度与动作正确性强相关，把它当作集成开关，简单却有效。
工程细节扎实：KV cache 让扩散步推理提速，DDIM 仅 4 步即可，保证统一模型的推理速度仍可与单范式基线相当。

局限与展望¶

集成阈值 \(\theta=0.96\) 是经验值，跨任务/本体是否需要重调、对阈值敏感性虽有附录分析但仍是潜在脆弱点。
7B 模型推理 6.1 Hz，对高频闭环控制（如灵巧手）可能偏慢；2.7B 提速但精度下降。
预训练成本高（>10K A800 小时），复现门槛大；消融也显示去掉预训练性能崩塌，方法对大规模数据依赖强。
动作仍是 SE(3) 末端位姿（7/14-DOF），对更高自由度或接触丰富的操作尚未验证。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把扩散去噪嵌入 LLM 的 next-token 预测、在统一 token 序列里融合两种生成范式，序列排布与防泄漏设计有巧思。
实验充分度: ⭐⭐⭐⭐ 仿真(RLBench/SimplerEnv)+真机单/双臂、SOTA 对比、组件消融、序列排布消融、泛化测试齐全，760K 轨迹规模可观。
写作质量: ⭐⭐⭐⭐ 动机清晰、框架图与表格到位，方法叙述层次分明。
价值: ⭐⭐⭐⭐ 提供了 VLA 范式融合的一个强 baseline 与可复用设计思路，仿真/真机均显著提升，对具身操作社区有实用价值。