TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models¶

会议: ICLR 2026
arXiv: 2511.05275
代码: 项目页面
领域: 机器人操作/双臂
关键词: 双臂操作, VLA, 模块化组合, 联合注意力, 数据高效

一句话总结¶

提出TwinVLA——将两个预训练单臂VLA通过联合注意力和MoE组合为双臂VLA的模块化框架，仅需~800h公开单臂数据+50 episode双臂微调数据+25 H100 GPU-days，即可匹及使用10,900h私有数据+1,000+ GPU-days的π0性能水平。

研究背景与动机¶

领域现状：Vision-Language-Action模型(VLA)在单臂机器人操作任务上取得了显著成功，能够有效泛化到不同任务、物体和环境。然而，双臂操作——叠衣服、组装零件等复杂任务所必需的能力——由于公开双臂数据的稀缺而进展有限。

现有痛点：

数据瓶颈严重：π0依赖超过10,000小时的私有双臂数据，RDT-1B需要约2,400小时混合数据集，这些规模的数据收集成本极高且不可复现
计算开销巨大：RDT-1B在48块H100上训练一个月，π0的计算需求更高，超过1,000 H100 GPU-days
单体架构的局限：现有方法将两臂动作混合在单一模型中训练，未利用双臂操作天然的模块化结构
跨体态迁移困难：单臂和双臂的观测/动作空间差异大，单体模型需在异构数据上联合训练

核心矛盾：公开可用的双臂数据极其稀缺，但现有方法都需要大规模双臂预训练数据。如何用丰富的单臂数据构建高性能双臂策略？

本文方案：受神经科学启发——人类双臂控制由SMA和胼胝体协调两个独立运动系统，而非单一控制器——提出模块化的TwinVLA：复制预训练单臂VLA → 联合注意力跨臂融合 → MoE高效处理共享输入 → 少量双臂数据微调。

方法详解¶

整体框架¶

TwinVLA把"双臂操作"重新表述成"两个单臂策略协同"。它分三步走：先在Open X-Embodiment(OXE)单臂数据(~800h)上预训练一个0.8B的紧凑VLA(SingleVLA)，让模型先学会单臂的抓取、放置、移动等基本技能；再把这份SingleVLA完整复制成左、右两份，仅通过联合注意力让两臂在每一层交换信息、通过专家混合(Mixture-of-Experts, MoE)高效处理两臂共享的语言指令与第一人称视角；最后只用约50 episode双臂演示微调，无需任何双臂预训练。

观测被拆成三路：两臂共享的语言指令 \(l\) 与ego视角图像 \(I_{ego}\)，以及各臂独立的腕部图像和本体感知 \(d\)。视觉先经共享编码器，再分别进入左、右VLM；两份VLM靠联合注意力耦合，各自产出readout token；最后由共享的DiT动作头把两路token联合解码成左右臂动作。动作头沿用条件流匹配(Conditional Flow Matching)训练，损失为 \(\mathcal{L}^{T}(\theta) = \mathbb{E}_{p(A_t|o_t),\,q(A_t^\tau|A_t)} \|v_\theta(A_t^\tau, h_t, d_t) - \mathbf{u}(A_t^\tau|A_t)\|^2\)，推理时以前向Euler积分 \(A_t^{\tau+\delta} = A_t^\tau + \delta\, v_\theta(A_t^\tau, h_t, d_t)\) 从噪声逐步采出动作。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN_S["共享输入<br/>语言指令 l + ego视角 I_ego"]
    IN_L["左臂输入<br/>腕部图 + 本体感知 d^L"]
    IN_R["右臂输入<br/>腕部图 + 本体感知 d^R"]
    ENC["共享视觉编码器<br/>(选择性模块复制：两臂共享)"]
    IN_S --> ENC
    IN_L --> ENC
    IN_R --> ENC
    subgraph TWIN["Twin VLM 跨臂协同"]
        direction TB
        VLM_L["左臂 VLM<br/>(复制自 SingleVLA)"]
        VLM_R["右臂 VLM<br/>(复制自 SingleVLA)"]
        JA["联合注意力与因果掩码<br/>拼接 Q/K/V 跨臂交换"]
        MOE["MoE高效共享输入<br/>与注意力重加权"]
        VLM_L --> JA
        VLM_R --> JA
        JA --> MOE
    end
    ENC --> TWIN
    TWIN --> RT["各臂 readout token"]
    RT --> DIT["共享 DiT 动作头<br/>(选择性模块复制：两臂共享)<br/>条件流匹配解码"]
    DIT --> OUT["左右臂动作 A^L, A^R"]

关键设计¶

1. 选择性模块复制：让单臂先验在该共享的地方共享、该分化的地方分化

整模复制会浪费参数也丢掉单臂技能的可迁移性，因此TwinVLA按"是否体态相关"分层处理：视觉编码器与DiT动作头被两臂共享，因为视觉理解和底层运动控制对左右臂本就是同一回事；VLM backbone被完整复制成两份，因为决策层需要臂特异性；本体感知编码器则各臂独立。这样总参数只有1.3B(与RDT-1B的1.2B相当)，相比"复制整模"几乎不增加计算开销，又让"抓取/放置/移动"这类基本技能在两臂间天然迁移。消融里"从头训练、不用单臂预训练"会让真实世界成功率暴跌46%，印证了这份可迁移先验的价值。

2. 联合注意力与因果掩码：把两套单臂流缝成一个能互相看见的双臂系统

两份VLM若各算各的，就退化成两个互不通气的单臂策略，无法协调动作。借鉴Mixture-of-Transformers(MoT)的思路，TwinVLA只共享自注意力层：把两个VLM的Q、K、V拼接后做一次统一自注意力，再按臂把输出切回各自的流，而投影、前馈等其余组件保持臂特异，从而在每一层都完成轻量的跨臂信息交换。为同时保住自回归因果性并避免信息泄漏，它设计了专门的因果掩码——各臂区域内保持下三角因果性，共享模态(语言+ego视角)对两臂完全可达，每臂只能注意到对侧一半的token，既让两臂"看见彼此"，又不至于让对侧上下文淹没自身决策。消融显示这是最关键的组件，去掉后真实世界成功率下降36%。

3. MoE高效共享输入与注意力重加权：把冗余开销压下去、把预训练的注意力分布稳住

语言指令和第一人称视角是两臂共享的，若各送一份进两个VLM会近乎翻倍显存。TwinVLA只对共享输入用软MoE路由 \(\text{MoE}(x) = w_{\text{left}} \cdot \text{FFN}_{\text{left}}(x) + (1-w_{\text{left}}) \cdot \text{FFN}_{\text{right}}(x)\)，其中权重 \(w_{\text{left}}\) 由线性层加softmax算出，让共享token只算一遍却仍融合两臂专家；去掉MoE会让显存多占21%、真实成功率掉9%。此外，微调时新增的臂特定token会稀释预训练学到的模态注意力分布，于是引入注意力重加权(Attention Re-weighting)还原各模态原本的重要性，使初始微调loss降低40%。

实验关键数据¶

主实验：真实世界五项双臂任务¶

方法	参数量	预训练数据	计算量	平均成功率
Diffusion Policy	271M	无	-	最低
RDT-1B	1.2B	~2,400h	>1,000 GPU-days	中
TwinVLA	1.3B	~800h	25 GPU-days	高
π0 (上界)	3.3B	~10,900h	>1,000 GPU-days	最高

TwinVLA在平均成功率上显著超越RDT-1B (+26%)，接近π0的性能，尽管数据量仅为π0的7%、计算量不到其3%。

消融实验：各组件贡献¶

消融设置	仿真成功率变化	真实世界成功率变化	说明
完整TwinVLA	基线	基线	—
w/o 注意力重加权	-1.1%	-4.0%	初始loss增加40%
w/o MoE	-2.2%	-9.0%	VRAM增加21%
w/o 联合注意力	-6.2%	-36.0%	最关键组件
从头训练(无预训练)	-4.6%	-46.0%	预训练至关重要

联合注意力是最关键的组件，在真实世界去掉后成功率下降36%，证明跨臂协调对双臂操作不可或缺。

数据效率¶

演示数量	TwinVLA	RDT-1B
20 episodes	起步	起步
35 episodes	快速超越RDT-1B	缓慢提升
50 episodes	显著领先	仍在追赶

TwinVLA展示了陡峭的学习曲线，50条演示即可超越使用大量数据预训练的RDT-1B。

鲁棒性与语言跟随¶

场景	RDT-1B	π0	TwinVLA
低光照(Fold towel)	15.0%	40.0%	45.0%
干扰物(Fold towel)	15.0%	60.0%	25.0%
语言跟随(多任务)	基线	基线+x	基线+21.8%

TwinVLA对光照变化鲁棒，在语言跟随评测中平均超越RDT-1B 21.8%和π0。

亮点与洞察¶

"复制而非重训"的范式意义：TwinVLA证明了正确的架构归纳偏置比暴力数据收集更有效——40倍计算效率和13倍数据效率的提升不是增量改进，而是范式级跨越
神经科学与工程的对应：人类双臂的SMA/胼胝体协调机制 ↔ TwinVLA的联合注意力，生物学原理直接指导了架构设计
25 vs 1,000+ GPU-days：使双臂VLA研究从少数有私有数据的实验室"民主化"为任何有少量双臂演示的团队都可参与
单臂先验的可迁移性：基本操作技能(抓取、放置、移动)在单臂和双臂间共享，Twin结构让这种迁移自然发生

局限性¶

视觉分布差异：两臂的视觉输入与单臂预训练分布不同，限制泛化
绝对末端执行器(EEF)控制：体态无关但不如相对动作灵活
干扰物场景性能较弱(25% vs π0的60%)

评分¶

新颖性: ⭐⭐⭐⭐⭐ 模块化双臂VLA组合的首次系统实现
实验充分度: ⭐⭐⭐⭐ 真实+仿真+数据/计算效率+消融
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，神经科学类比直觉优美
价值: ⭐⭐⭐⭐⭐ 对双臂VLA研究有范式级影响