BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning¶

会议: NeurIPS 2025
arXiv: 2506.06072
代码: https://intuitive-robots.github.io/beast_website/
领域: 模仿学习 / 机器人
关键词: 动作Tokenizer, B样条, 并行解码, 平滑轨迹, 高效推理

一句话总结¶

BEAST 用 B 样条曲线参数化动作序列——通过岭回归估计控制点并均匀量化为固定长度 token，实现 20× token 压缩（100 步→5 token）、数学保证的动作块间 \(C^0\) 连续过渡，在 LIBERO-Long 上成功率排名第 1（86.4%），推理吞吐量 617 Hz（比 π₀ 快 2.14×、比 OpenVLA 快 101×）。

研究背景与动机¶

领域现状：模仿学习中的动作表示影响策略质量和推理效率。VQ-VAE 需要独立训练码本；FAST 用 BPE 产生变长序列；逐步离散化（binning）token 数量与序列长度成正比。

现有痛点：(a) VQ-VAE 的码本训练与策略训练分离，可能不匹配；(b) FAST 的变长 token 不利于并行解码；(c) 逐步 binning 压缩率低——100 步需 100 个 token；(d) 所有现有方法都不保证动作块之间的平滑过渡（需时间混合后处理）。

核心矛盾：需同时满足高压缩率（少 token = 快解码）+ 固定长度（并行解码）+ 平滑过渡（无跳变）+ 高精度。

本文目标 设计满足上述所有要求的动作 tokenizer。

切入角度：B 样条曲线天然提供连续平滑表示，且控制点数量固定（=token 数）、与采样点数无关、通过岭回归快速拟合、通过 clamping 保证块间连续。

核心 idea：B 样条拟合动作序列 → 控制点均匀量化为固定长度 token → clamped 起点保证块间 \(C^0\) 连续 → 20× 压缩且数学平滑。

方法详解¶

整体框架¶

动作序列 \(a_{1:T}\)（\(T\) 步 × \(D\) 自由度）→ B 样条拟合（岭回归 \(\mathbf{c} = (\Phi^T\Phi + \lambda I)^{-1}\Phi^T a\)，Cox-de Boor 基函数）→ \(N\) 个控制点 \(C \in \mathbb{R}^{D \times N}\) → 均匀量化到 [0,255] → 交错展平为固定长度 token → Transformer/VLM 解码器生成 → 反量化 + B 样条重建恢复连续动作

关键设计¶

B 样条参数化 + 岭回归:
- 功能：用 \(N\) 个控制点紧凑表示 \(T\) 步动作序列
- 核心思路：选 \(N=10\) 个 B 样条基函数（3 阶），用 Cox-de Boor 递归计算基值矩阵 \(\Phi\)，岭回归求解控制点。每个自由度独立求解（并行化）
- 设计动机：\(N \ll T\)（如 10 vs 100）实现 10-20× 压缩。B 样条的局部支撑性保证改变一个控制点只影响局部轨迹
Clamped B 样条（块间连续）:
- 功能：数学保证连续动作块之间无跳变
- 核心思路：将当前块的第一个控制点设为上一块的最后一个动作值 \(c_0\)，求解时扣除 \(c_0\) 贡献求残差 \(\hat{a} = a - c_0\Phi_0^P\)，再拟合剩余控制点
- 设计动机：现有方法依赖时间混合来平滑块间过渡——这是后处理而非保证。Clamped B 样条从数学上保证 \(C^0\) 连续
均匀量化 + 交错展平:
- 功能：将控制点转为 Transformer 可处理的离散 token
- 核心思路：控制点值归一化到 [0,255] 范围（8-bit 均匀量化），按基函数交错排列使相邻 token 来自不同自由度但同一时间段
- 设计动机：交错排列让 Transformer 利用同时间段不同自由度间的依赖

损失函数 / 训练策略¶

离散 token: 交叉熵；连续变体（BEAST-CT）: ELBO
支持 Decoder-only Transformer + CLIP、ACT (CVAE)、Florence-2 VLM 等多种架构
支持自回归和并行解码两种模式

实验关键数据¶

主实验¶

基准	方法	成功率	排名
LIBERO-Long	BEAST	86.4%	#1
LIBERO-Long	π₀	79.6%	#2
LIBERO 平均	BEAST	92.5%	π₀ 94.2% (#1)
CALVIN ABC→D (5指令)	BEAST	74.4%	VPP 75.0% 接近
ALOHA 双臂	BEAST-ACT	70%	ACT 49% (+21%)
Franka 挑战赛	BEAST-D	76.57%	π₀ 53.43%

效率对比¶

方法	吞吐量 (Hz)	延迟 (s)	vs BEAST
BEAST-F	617.3	0.019	1×
π₀	288.1	0.103	0.47×
FAST	—	—	—
OpenVLA	6.1	0.164	0.01×

消融实验¶

变体	CALVIN 平均长度	说明
BEAST-F (N=10)	4.43	最优
BEAST-F (N=5)	3.88	基函数太少 (-12%)
BEAST-F (N=15)	4.20	收益递减
Binning-F	1.41	差 68%（无压缩）
BEAST-CT (连续)	3.88	略弱于离散

关键发现¶

B 样条 20× 压缩直接转化为推理加速——617 Hz 满足实时控制需求
Clamped 设计在 ALOHA 双臂上 +21% 成功率——消除了块间跳变导致的失败
LIBERO-Long（最长序列）上排名第 1——B 样条对长序列尤其有效
训练也更快——80% 成功率在 20K 步达到（π₀ 同时仅 20%）
1D 玩具实验：BEAST MSE 0.0004 vs Binning 0.0215（50× 更准）

亮点与洞察¶

B 样条是动作表示的理想选择：固定长度 + 连续平滑 + 高压缩 + 快速拟合——同时满足四个需求，且完全不需要训练
Clamped 设计的数学优雅：固定第一个控制点就保证块间连续——极简约束产生关键质量保证
101× 速度提升 vs OpenVLA 说明动作表示效率对实时部署至关重要

局限与展望¶

基函数数量 \(N\) 需手动选择——依赖轨迹平滑度和采样率
对突变动作（碰撞响应）可能欠拟合——B 样条天然偏平滑
均匀量化可能不如自适应量化精确

评分¶

新颖性: ⭐⭐⭐⭐⭐ B 样条动作 tokenizer 全新且优雅
实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实机器人+效率对比+消融
写作质量: ⭐⭐⭐⭐⭐ 方法推导清晰，实验全面
价值: ⭐⭐⭐⭐⭐ 可能成为机器人模仿学习的标准动作表示

消融实验¶

配置	关键发现	说明
控制点数 N	5-10 最优	过多过拟合，过少欠拟合
B 样条阶数 P	P=3 最优	三次样条标准选择
压缩比	4-8x vs 单步 binning	20x fewer tokens (toy task)
并行 vs 自回归	精度相当，速度大幅提升	动作级并行可行
真实世界	52.86%(Franka) 70%(ALOHA)	仿真→真实成功迁移
训练效率	20k步达80% vs pi0的20%	收敛快 4 倍

关键发现¶

101 倍推理加速是最突出结果——来自并行解码+压缩
B 样条平滑保证消除了动作块过渡不连续——高频控制(100+Hz)时特别重要
无需训练 tokenizer——VQ tokenizer 需在目标域重训练的问题被完全避免

亮点与洞察¶

"不训练的 tokenizer 最好"：B 样条拟合是纯数学（Ridge 回归），避免了 tokenizer-策略联合优化困难。
正确利用动作连续性先验：之前将动作视为离散序列，丢失平滑先验。B 样条天然编码了它。
并行解码的可行性：文本必须自回归（后词依赖前词），但动作不必——控制点间依赖可被模型内部处理。

局限与展望¶

控制点数 \(N\) 需要数据集特定调参
B 样条假设动作连续可微——不完全适用于有间断的任务（如二元 gripper）
均匀量化 [0,255] 对高精度任务可能不够
真实世界成功率（52-76%）仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ B 样条做动作 tokenization 简洁有效
实验充分度: ⭐⭐⭐⭐⭐ CALVIN+LIBERO+真实世界 x 3种架构
写作质量: ⭐⭐⭐⭐ 方法清晰，对比全面
价值: ⭐⭐⭐⭐⭐ 101x加速+免训练 tokenizer 对机器人学习有重要实用价值

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

效率对比¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

效率对比¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶