跳转至

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

会议: NeurIPS 2025
arXiv: 2506.06072
代码: https://intuitive-robots.github.io/beast_website/
领域: 模仿学习 / 机器人
关键词: 动作Tokenizer, B样条, 并行解码, 平滑轨迹, 高效推理

一句话总结

BEAST 用 B 样条曲线参数化动作序列——通过岭回归估计控制点并均匀量化为固定长度 token,实现 20× token 压缩(100 步→5 token)、数学保证的动作块间 \(C^0\) 连续过渡,在 LIBERO-Long 上成功率排名第 1(86.4%),推理吞吐量 617 Hz(比 π₀ 快 2.14×、比 OpenVLA 快 101×)。

研究背景与动机

领域现状:模仿学习中的动作表示影响策略质量和推理效率。VQ-VAE 需要独立训练码本;FAST 用 BPE 产生变长序列;逐步离散化(binning)token 数量与序列长度成正比。

现有痛点:(a) VQ-VAE 的码本训练与策略训练分离,可能不匹配;(b) FAST 的变长 token 不利于并行解码;(c) 逐步 binning 压缩率低——100 步需 100 个 token;(d) 所有现有方法都不保证动作块之间的平滑过渡(需时间混合后处理)。

核心矛盾:需同时满足高压缩率(少 token = 快解码)+ 固定长度(并行解码)+ 平滑过渡(无跳变)+ 高精度。

本文目标 设计满足上述所有要求的动作 tokenizer。

切入角度:B 样条曲线天然提供连续平滑表示,且控制点数量固定(=token 数)、与采样点数无关、通过岭回归快速拟合、通过 clamping 保证块间连续。

核心 idea:B 样条拟合动作序列 → 控制点均匀量化为固定长度 token → clamped 起点保证块间 \(C^0\) 连续 → 20× 压缩且数学平滑。

方法详解

整体框架

动作序列 \(a_{1:T}\)\(T\) 步 × \(D\) 自由度)→ B 样条拟合(岭回归 \(\mathbf{c} = (\Phi^T\Phi + \lambda I)^{-1}\Phi^T a\),Cox-de Boor 基函数)→ \(N\) 个控制点 \(C \in \mathbb{R}^{D \times N}\)均匀量化到 [0,255] → 交错展平为固定长度 token → Transformer/VLM 解码器生成 → 反量化 + B 样条重建恢复连续动作

关键设计

  1. B 样条参数化 + 岭回归:

    • 功能:用 \(N\) 个控制点紧凑表示 \(T\) 步动作序列
    • 核心思路:选 \(N=10\) 个 B 样条基函数(3 阶),用 Cox-de Boor 递归计算基值矩阵 \(\Phi\),岭回归求解控制点。每个自由度独立求解(并行化)
    • 设计动机:\(N \ll T\)(如 10 vs 100)实现 10-20× 压缩。B 样条的局部支撑性保证改变一个控制点只影响局部轨迹
  2. Clamped B 样条(块间连续):

    • 功能:数学保证连续动作块之间无跳变
    • 核心思路:将当前块的第一个控制点设为上一块的最后一个动作值 \(c_0\),求解时扣除 \(c_0\) 贡献求残差 \(\hat{a} = a - c_0\Phi_0^P\),再拟合剩余控制点
    • 设计动机:现有方法依赖时间混合来平滑块间过渡——这是后处理而非保证。Clamped B 样条从数学上保证 \(C^0\) 连续
  3. 均匀量化 + 交错展平:

    • 功能:将控制点转为 Transformer 可处理的离散 token
    • 核心思路:控制点值归一化到 [0,255] 范围(8-bit 均匀量化),按基函数交错排列使相邻 token 来自不同自由度但同一时间段
    • 设计动机:交错排列让 Transformer 利用同时间段不同自由度间的依赖

损失函数 / 训练策略

  • 离散 token: 交叉熵;连续变体(BEAST-CT): ELBO
  • 支持 Decoder-only Transformer + CLIP、ACT (CVAE)、Florence-2 VLM 等多种架构
  • 支持自回归和并行解码两种模式

实验关键数据

主实验

基准 方法 成功率 排名
LIBERO-Long BEAST 86.4% #1
LIBERO-Long π₀ 79.6% #2
LIBERO 平均 BEAST 92.5% π₀ 94.2% (#1)
CALVIN ABC→D (5指令) BEAST 74.4% VPP 75.0% 接近
ALOHA 双臂 BEAST-ACT 70% ACT 49% (+21%)
Franka 挑战赛 BEAST-D 76.57% π₀ 53.43%

效率对比

方法 吞吐量 (Hz) 延迟 (s) vs BEAST
BEAST-F 617.3 0.019
π₀ 288.1 0.103 0.47×
FAST
OpenVLA 6.1 0.164 0.01×

消融实验

变体 CALVIN 平均长度 说明
BEAST-F (N=10) 4.43 最优
BEAST-F (N=5) 3.88 基函数太少 (-12%)
BEAST-F (N=15) 4.20 收益递减
Binning-F 1.41 差 68%(无压缩)
BEAST-CT (连续) 3.88 略弱于离散

关键发现

  • B 样条 20× 压缩直接转化为推理加速——617 Hz 满足实时控制需求
  • Clamped 设计在 ALOHA 双臂上 +21% 成功率——消除了块间跳变导致的失败
  • LIBERO-Long(最长序列)上排名第 1——B 样条对长序列尤其有效
  • 训练也更快——80% 成功率在 20K 步达到(π₀ 同时仅 20%)
  • 1D 玩具实验:BEAST MSE 0.0004 vs Binning 0.0215(50× 更准)

亮点与洞察

  • B 样条是动作表示的理想选择:固定长度 + 连续平滑 + 高压缩 + 快速拟合——同时满足四个需求,且完全不需要训练
  • Clamped 设计的数学优雅:固定第一个控制点就保证块间连续——极简约束产生关键质量保证
  • 101× 速度提升 vs OpenVLA 说明动作表示效率对实时部署至关重要

局限与展望

  • 基函数数量 \(N\) 需手动选择——依赖轨迹平滑度和采样率
  • 对突变动作(碰撞响应)可能欠拟合——B 样条天然偏平滑
  • 均匀量化可能不如自适应量化精确

相关工作与启发

  • vs FAST (BPE): 变长 token 不利于并行,BEAST 固定长度
  • vs VQ-VAE: 需独立训练码本,BEAST 无需训练(纯解析)
  • vs ACT: BEAST-ACT 将 B 样条融入 ACT 框架提升 21%

评分

  • 新颖性: ⭐⭐⭐⭐⭐ B 样条动作 tokenizer 全新且优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实机器人+效率对比+消融
  • 写作质量: ⭐⭐⭐⭐⭐ 方法推导清晰,实验全面
  • 价值: ⭐⭐⭐⭐⭐ 可能成为机器人模仿学习的标准动作表示

| CALVIN ABC-D | BEAST-D | 74.4%(5任务成功率) | SOTA | | CALVIN ABCD-D | BEAST-D | 84.8%(5任务成功率) | SOTA | | LIBERO-LONG | BEAST-F (0.77B) | 竞争力 | vs pi0 (3.3B) | | 推理速度 | BEAST | 617 Hz | vs OpenVLA 6.1 Hz (101x) | | 推理延迟 | BEAST | 19ms | vs pi0 40ms (2.1x) |

消融实验

配置 关键发现 说明
控制点数 N 5-10 最优 过多过拟合,过少欠拟合
B 样条阶数 P P=3 最优 三次样条标准选择
压缩比 4-8x vs 单步 binning 20x fewer tokens (toy task)
并行 vs 自回归 精度相当,速度大幅提升 动作级并行可行
真实世界 52.86%(Franka) 70%(ALOHA) 仿真→真实成功迁移
训练效率 20k步达80% vs pi0的20% 收敛快 4 倍

关键发现

  • 101 倍推理加速是最突出结果——来自并行解码+压缩
  • B 样条平滑保证消除了动作块过渡不连续——高频控制(100+Hz)时特别重要
  • 无需训练 tokenizer——VQ tokenizer 需在目标域重训练的问题被完全避免

亮点与洞察

  • "不训练的 tokenizer 最好":B 样条拟合是纯数学(Ridge 回归),避免了 tokenizer-策略联合优化困难。
  • 正确利用动作连续性先验:之前将动作视为离散序列,丢失平滑先验。B 样条天然编码了它。
  • 并行解码的可行性:文本必须自回归(后词依赖前词),但动作不必——控制点间依赖可被模型内部处理。

局限与展望

  • 控制点数 \(N\) 需要数据集特定调参
  • B 样条假设动作连续可微——不完全适用于有间断的任务(如二元 gripper)
  • 均匀量化 [0,255] 对高精度任务可能不够
  • 真实世界成功率(52-76%)仍有提升空间

相关工作与启发

  • vs RT-2/Octo/OpenVLA: 用单步 binning,BEAST 压缩 4-8 倍
  • vs pi0: flow matching 生成连续动作;BEAST 用 B 样条+离散 token 更简单同样有效
  • vs ACT: 预测固定长度动作块但不保证块间平滑;BEAST 的边界条件保证平滑

评分

  • 新颖性: ⭐⭐⭐⭐ B 样条做动作 tokenization 简洁有效
  • 实验充分度: ⭐⭐⭐⭐⭐ CALVIN+LIBERO+真实世界 x 3种架构
  • 写作质量: ⭐⭐⭐⭐ 方法清晰,对比全面
  • 价值: ⭐⭐⭐⭐⭐ 101x加速+免训练 tokenizer 对机器人学习有重要实用价值