Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System¶

会议: ACL 2026
arXiv: 2604.24921
代码: https://libra-vla.github.io/
领域: VLA / 具身智能 / 双系统架构
关键词: 视觉语言动作模型、混合动作空间、双系统、异步执行、coarse-to-fine

一句话总结¶

Libra-VLA 把机器人动作分解为"离散宏方向（macro-intent）+ 连续微姿态（micro-pose）"的混合动作空间，再用 System 2（VLM + 并行 coarse-action head）低频规划、System 1（diffusion transformer + 独立 SigLIP 编码器）高频精修，通过 intent buffer 实现真正异步执行，在 LIBERO 上拿到 97.2% SoTA、LIBERO-Plus 零样本 79.5%（比之前 OpenVLA-OFT+ 高 10 个点）。

研究背景与动机¶

领域现状：VLA 模型（OpenVLA、π0、π0.5、GR00T-N1 等）已是开放世界通用机器人的主流范式，把语言指令直接 ground 到电机命令。主流做法两条路：(a) 把连续动作离散化成 256 个 bin 做 AR 预测（OpenVLA、π0-FAST）；(b) 在 VLM backbone 上挂 diffusion head 直接出连续动作（π0、GR00T-N1、Diffusion Policy）。

现有痛点：两种做法都是 monolithic 的"flat 映射"——一个网络同时处理高层抽象语义推理和低层高频电机控制。这种统一架构忽略了机器人操作天然的层次结构（先粗到位再精细对齐），把"语义-执行"巨大的鸿沟一次性扛在单一模型肩上，导致表征负担过重。

现有的层次化尝试也不够：HAMSTER/MOKA 用 keypoint、ViLA/Hi Robot 用 sub-instruction，都做的是时间维度分解（缩短规划 horizon），但每步还是要从高层模态跨到连续电机命令，单步表征复杂度并没简化；HybridVLA 虽叫混合，但两支独立预测细粒度后做算术平均，本质是平行结构没有 hierarchy。

核心矛盾：在动作表征空间上没有层次——离散 bin 越细量化误差越小但越偏离 VLM 的语义抽象，连续输出对 VLM 的几何精度要求过高；同时双系统架构里 GR00T-N1 用静态 latent 当 bridge 会"过时"，FiS-VLA 强制单 backbone 双任务会"特征挤压"，OpenHelix 用高维黑盒 latent 不可解释。

本文目标：(1) 在动作表征空间而非时间轴做层次分解；(2) 通过任务分工平衡两个子系统的学习难度；(3) 实现真正异步、可解释、低延迟的执行。

切入角度：把动作显式拆成 hybrid space——离散粗方向（macro-intent，回答"去哪儿"）+ 连续微姿态（micro-alignment，回答"怎么交互"）。前者天然 align VLM 的离散 token 输出空间，后者只需在 anchor 周围生成残差，搜索空间被显著压缩。

核心 idea：把"flat 模态翻译"换成"两段简单映射" + dual-system 异步执行 + intent buffer 提前预测多步粗方向。

方法详解¶

整体框架¶

输入：指令 \(L\) + 观察 \(\mathbf{o}_t\)
概率分解：\(P(\mathbf{a}_t \mid \mathbf{o}_t, L) \approx \underbrace{P(\mathbf{a}_t^f \mid \mathbf{a}_t^c, \mathbf{o}_t)}_{\text{Action Refiner}} \cdot \underbrace{P(\mathbf{a}_t^c \mid \mathbf{o}_t, L)}_{\text{Semantic Planner}}\)
System 2 (Semantic Planner)：InternVL2.5-2B 主干 + Parallel Coarse-Action Head（12 层 transformer，hidden=1024），低频输出 \(L_{\text{macro}} = M \times H_{\text{chunk}}\) 个粗 token（每步 \(D\) 维 action，每维 \(N\) 个 bin）
System 1 (Action Refiner)：diffusion transformer + 独立 SigLIP 视觉编码器 \(\mathcal{E}_{\text{vis}}\)，高频从 intent buffer 取 slice 当条件，去噪出连续动作
Bridge：FIFO Intent Buffer \(\mathcal{Q}\) + 可学习 codebook \(\mathbf{E} \in \mathbb{R}^{N \times D}\) 把离散 bin 映射成 embedding
输出：连续动作 \(\mathbf{a}_t \in [-1, 1]^D\)

关键设计¶

Hybrid Action Space + Coarse-Grained Directional Discretization:
- 功能：把动作每维量化成 \(N\) 个 uniform bin，\(y_{t,i}^{gt} = \mathrm{clip}(\lfloor (a_{t,i}+1)/2 \times N \rfloor, 0, N-1)\)，但故意用很小的 \(N \ll 256\)。
- 核心思路：之前的离散 VLA（OpenVLA）追求 \(N=256\) 来逼近连续控制，这反而让 token 空间太大，VLM 学不动；本文把 \(N\) 砍到很小（消融发现 \(N\) 适中时性能最佳，呈倒 U 曲线），让 token 真正表示"粗方向 macro-intent"——VLM 的语义抽象力被发挥到 sweet spot，量化损失则交给后面的 continuous refiner 来补。
- 设计动机：作者识别出"learning complexity equipartition"原则——性能随分解粒度呈倒 U曲线，当两个子系统学习难度均衡时达到峰值。这是本文最关键的实证发现，把"超参 \(N\)"提升为方法论原则。
Parallel Coarse-Action Head + Adaptive Intent Injection（curriculum 解决 teacher forcing 偏置）:
- 功能：用 \(K\) 个 learnable query 与 VLM 输出 \(\mathbf{H}_t\) 做 self-attention 并行预测整个 chunk 的所有粗 token：\(\mathbf{Z}_{\text{act}} = \mathrm{SelfAttn}([\mathbf{Q}_{\text{act}}; \mathbf{H}_t])_{0:K}\)，再 Linear+Softmax 输出 \(P(\mathbf{a}_t^c)\)。
- 核心思路：训练时 System 1 需要 \(\mathbf{e}_{\text{intent}}\) 当条件——早期 System 2 还没学好，直接用预测会引入噪声破坏 System 1 训练；标准 teacher forcing 又让 System 1 永远只见过 ground truth，inference 时崩。本文用dynamic curriculum：System 2 预测准确率低于阈值 \(\tau\) 时用 GT 取 codebook embedding，超过 \(\tau\) 后切到从 \(P(\mathbf{a}_t^c)\) 采样——逐步让 refiner 适应 planner 噪声。
- 设计动机：并行 head 是为推理速度（不做 AR）；curriculum 是为训-推 gap，同时让 refiner 内化"对 planner 偏差的容错能力"，这正是 dual-system VLA 的鲁棒性根源。
Asynchronous Execution with Intent Buffer + Horizon Expansion:
- 功能：System 2 一次预测未来 \(L_{\text{macro}} = M \cdot H_{\text{chunk}}\) 步的 macro token 推进 FIFO buffer \(\mathcal{Q}\)，System 1 每个控制 step 从 buffer pop \(H_{\text{chunk}}\) 个 token 作 condition；接下来的 \(M-1\) 个 chunk 内 System 2 完全休眠。
- 核心思路：传统 dual-system（GR00T-N1）用 static latent 当 bridge，时间一久就和环境状态脱钩；本文用 predictive intent buffer 让 System 2 提前规划好整个 horizon 的离散方向序列，System 1 每步取的 slice 是时间同步的，避免 lagging。同时离散 token 本身就具有物理可解释性（"+x 大、+y 小"），比黑盒 latent 透明。
- 设计动机：把 VLM 这个昂贵开销从"每个控制 step 一次"摊到"每 M 个 chunk 一次"，把控制频率和规划频率解耦——这是真正可用于实时机器人的关键工程突破。

损失函数 / 训练策略¶

联合优化两路 loss：

Planner loss：\(\mathcal{L}_{\text{plan}} = \mathcal{L}_{\text{CE}}(P(\mathbf{a}_t^c), \mathbf{y}_t^{gt})\)（标准交叉熵，每维 \(N\) 路分类）
Refiner loss：\(\mathcal{L}_{\text{diff}} = \mathbb{E}_{k, \mathbf{x}_0, \epsilon}[\|\epsilon - \epsilon_\theta(\mathbf{x}_k, \mathbf{F}_t^{\text{geo}}, \mathbf{e}_{\text{intent}})\|^2]\)（标准 DDPM noise prediction）
总损失：\(\mathcal{L}_{\text{total}} = \lambda_{\text{diff}} \mathcal{L}_{\text{diff}} + \lambda_{\text{plan}} \mathcal{L}_{\text{plan}}\)，权重校准平衡梯度量级
关键超参：\(M=2\)（horizon expansion factor）、\(H_{\text{chunk}}=5\)、\(L_{\text{macro}}=10\)、\(N\) 适中（具体值在 ablation 报）
训练：全部实验无大规模机器人数据预训练，从 InternVL2.5-2B + SigLIP 直接微调

实验关键数据¶

主实验：LIBERO Benchmark（4 个 task suite，每 task 50 rollout，共 500 次）¶

方法	Action Space	Spatial	Object	Goal	Long	Avg
OpenVLA	Discrete	84.7	88.4	79.2	53.7	76.5
π0-FAST	Discrete	96.4	96.8	88.6	60.2	85.5
DD-VLA	Discrete	97.2	98.6	97.4	92.0	96.3
Diffusion Policy	Continuous	78.3	92.5	68.3	50.5	72.4
Octo	Continuous	78.9	85.7	84.6	51.1	75.1
GR00T-N1	Continuous	94.4	97.6	93.0	90.6	93.9
GO-1	Continuous	96.2	97.8	96.0	89.2	94.8
F1	Continuous	98.2	97.8	95.4	91.3	95.7
GE-Act	Continuous	98.2	97.6	95.8	94.4	96.5
π0	Continuous	96.8	98.8	95.8	85.2	94.1
π0.5	Continuous	98.8	98.2	98.0	92.4	96.9
Libra-VLA (Ours)	Hybrid	98.6	99.4	98.0	92.8	97.2

亮点：Object 99.4（验证 refiner 的几何精度）、Long 92.8（验证 planner 的长程指引）、Avg 97.2 全榜首位。

LIBERO-Plus 鲁棒性评测（7 种扰动：相机/机器人/语言/光照/背景/噪声/布局）¶

方法	Camera	Robot	Lang	Light	BG	Noise	Layout	Avg
Zero-Shot Transfer
OpenVLA	0.8	3.5	23.0	8.1	34.8	15.2	28.5	15.6
π0-FAST	65.1	21.6	61.0	73.2	73.2	74.4	68.8	61.6
OpenVLA-OFT	56.4	31.9	79.5	88.7	93.3	75.8	74.2	69.6
Ours (Hybrid)	68.9	48.8	92.7	97.9	93.4	86.3	77.5	79.5
Supervised Fine-Tuning
π0.5*	70.3	41.7	81.1	97.3	94.6	71.8	84.9	75.7
OpenVLA-OFT+	92.8	30.3	85.8	94.9	93.9	89.3	77.6	79.6
Ours (Hybrid)	94.5	41.8	—	—	—	—	—	(继续领先)

关键发现：零样本下 Libra-VLA 比第二名 OpenVLA-OFT 平均高 +9.9 个点（79.5 vs 69.6），尤其 Language 92.7 vs 79.5、Light 97.9 vs 88.7——证明 hybrid 空间显著降低了对训练分布的依赖。

消融实验¶

配置	趋势	说明
改变 bin 数 \(N\)（粗到细扫描）	倒 U 形曲线	\(N\) 太小 planner 学不到细节，\(N\) 太大 VLM 学不动；中间值最优——验证 "learning complexity equipartition" 原则
去掉 Adaptive Intent Injection（纯 teacher forcing）	推理性能掉	训推 gap，refiner 没见过 planner 噪声
去掉独立 SigLIP，用 InternVL2.5 共享 backbone	性能下降	验证"特征挤压瓶颈"——FiS-VLA 的问题
\(M=1\)（同步执行，无 horizon expansion）	性能相近但推理延迟显著上升	异步设计的价值主要在延迟
用静态 latent bridge（GR00T-N1 风格）替代 intent buffer	长 horizon 任务掉点	验证 predictive intent buffer 抗 lagging

关键发现¶

倒 U 曲线是本文最有方法论价值的发现：把"超参 \(N\)"提升为"学习复杂度均分原则"，给后续 VLA 设计提供了可直接套用的指导。
零样本 LIBERO-Plus 的 +10 点提升说明 hybrid action space 不只是涨点 trick，而是真正提升了 OOD 泛化——粗方向 macro-intent 对环境扰动天然鲁棒，因为它不携带精确几何信息。
不做大规模机器人预训练就能 SoTA：之前 π0/GR00T 都要在海量机器人数据上预训练，Libra-VLA 直接从 InternVL2.5 微调就赢，意味着架构优化能省掉昂贵的数据投入。
异步执行的延迟优势：System 2 每 \(M\) 个 chunk 才跑一次，把 VLM 算力摊薄，实测延迟显著下降。

亮点与洞察¶

"动作表征空间"维度的层次分解 是真正的范式突破：之前所有 hierarchical VLA 都做时间维分解（waypoint/sub-instruction），本文找到了正交的、未被充分挖掘的轴——动作空间本身的离散/连续二分。这套思路可类推到任何"高层语义→低层精细"的生成任务（语音合成、视频生成）。
"Learning Complexity Equipartition" 原则：把"调超参 \(N\)"上升为"在两个子系统间均分难度"的设计哲学，并用倒 U 曲线实证。这是 dual-system VLA 设计的"罗塞塔石碑"，可直接套用到 GR00T/π0.5 等架构。
Predictive Intent Buffer 是异步执行的关键：用"预测未来 \(M\) 个 chunk 的离散方向序列"替代"静态 latent"，让 System 1 始终有时间同步的指引——这个简单设计让 dual-system VLA 第一次在实时机器人上真正可用。
离散 token 当 inter-system 通信：相比 OpenHelix 的黑盒 latent，离散 token 物理可解释（哪个方向、多大幅度），便于调试和安全审计——这对 VLA 的可部署性是巨大加分。
独立 SigLIP for Refiner：让快系统拥有独立高分辨率视觉编码器，彻底解决 FiS-VLA 的"特征挤压"问题——硬件成本可控（SigLIP 不大）但解耦收益巨大。

局限与展望¶

倒 U 曲线的最优 \(N\) 依赖任务/数据集：论文未给出自动选 \(N\) 的方法，新场景需重新扫描。
horizon expansion factor \(M\) 也是硬超参：\(M\) 过大会让 macro-intent 过时（环境变化）、\(M\) 过小则 VLM 调用太频繁；目前手调 \(M=2\)。
强假设动作可均匀离散化：对每维独立 quantize 假设各维度可分解，对高度耦合的多关节协调（如灵巧手）可能失效。
仅在 LIBERO/LIBERO-Plus + 有限真机实验上验证：未在真实工业级长 horizon 任务（拼装、烹饪）上验证；未做大 scale 机器人数据预训练后的 scaling 曲线。
2B VLM 限制天花板：InternVL2.5-2B 主干，未探索 7B/72B 主干带来的语义能力跃升是否会改变倒 U 曲线形状。
展望：(1) 自适应 \(N\)（按任务难度学）；(2) 把 macro-intent token 词表与人类可读语义对齐做"可解释 VLA"；(3) 扩展到 dual-arm/灵巧手；(4) 把 intent buffer 当 KV-cache 做更激进的异步。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 在动作表征维度做 hierarchy + learning complexity equipartition 原则，是 VLA 领域少有的范式级洞察
实验充分度: ⭐⭐⭐⭐ LIBERO + LIBERO-Plus + 真机实验 + 完整消融；但缺大 scale pretraining/scaling 曲线
写作质量: ⭐⭐⭐⭐⭐ Motivation→架构→倒 U 曲线发现→异步执行，每一步都有 clean justification
价值: ⭐⭐⭐⭐⭐ 给所有 dual-system VLA 提供了可直接套用的设计原则，且实测涨点很大（零样本 +10）

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评