Time Optimal Execution of Action Chunk Policies Beyond Demonstration Speed¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=INsLvSCJ4z
项目页: https://clvrai.github.io/RACE/
代码: 待开源（论文承诺发布完整代码与配置）
领域: 机器人 / 模仿学习 / 动作分块策略加速
关键词: 模仿学习, 动作分块, 时间最优路径参数化, 异步推理, 测试时搜索

一句话总结¶

针对模仿学习（含 VLA）策略执行速度被演示速度死死卡住的问题，本文提出 RACE：把"动作"重定义为期望状态、对每个动作块做可达性感知的时间最优重定时、再用测试时搜索挑选最平滑可控的未来块，在不掉成功率的前提下把执行速度提到演示的 2 倍、原策略的 4 倍。

研究背景与动机¶

领域现状：现代机器人操作主要靠模仿学习——transformer / diffusion 策略（如 ACT、Diffusion Policy）和大规模预训练的视觉-语言-动作（VLA）模型。它们普遍采用动作分块（action chunking）：策略一次预测未来一段动作序列，然后开环执行若干步再重新推理，这样能稳定时序、缩短有效决策视野、提升精度与泛化。

现有痛点：这类方法在速度这一维度上有结构性缺陷。因为它们模仿的是演示数据的行为，执行速度也就被演示速度锁死；而遥操作（teleoperation）界面本身不直观，采集到的演示往往很慢，尤其是高精度任务（如插孔、家具装配），导致策略落地时执行得又慢又拖。在工业吞吐场景里，速度和精度、泛化同等重要。

核心矛盾：直觉上"提高动作执行频率"就能加速，但天真地提频会立刻崩。第一，改频改变了底层转移动态：低层控制器（如 PD 控制器）按当前状态与指令的差值施力，每个动作分到的执行时间被压短后，控制器还没把机器人推到目标状态就切到下一条指令，于是产生作者所谓的"状态误差（state error）"，并在开环执行的动作块里逐步累积；同时高速运动可能超出关节力矩 / 速度上限，物理上根本够不着。第二，为了消除推理停顿而上异步推理时，新动作块是在"过时的机器人状态"上算出来的——推理期间机器人已经动了，新计划和实际状态对不上，可控性下降、误差被进一步放大。

本文目标：在不牺牲精度和通用性的前提下，把任意预测动作块的模仿策略加速到超过演示速度，并且要同时解决"改频导致的状态误差"和"异步推理导致的错位"两件事。

切入角度：作者不走强化学习重新 rollout 改进策略那条重路，而是坚持纯模仿学习的简单路线——不改变策略学到的动作序列内容，只改变"怎么以更高速度去跟随这条序列"。关键观察是：误差的根源在于"动作指令 + 固定执行时序"这套接口，而把模仿目标换成期望状态、把时序交给最优控制去自适应安排，就能让转移动态对执行时序变得鲁棒。

核心 idea：用"期望状态"替代"动作指令"作为模仿目标，再用时间最优路径参数化（TOPP-RA）在物理约束下给每个状态块自适应重定时，最后用测试时 Best-of-N 搜索挑出最平滑、最可控的未来块来对抗异步错位——三者合起来即 RACE（Reachability-aware Accelerated Chunk Execution）。

方法详解¶

整体框架¶

RACE 要解决的是"如何让一条已经训练好的模仿策略跑得比演示更快、又不掉成功率"。它不重新学习动作内容，而是在模仿目标、执行时序、块选择三处分别动手术，组成一条串行流水线：训练阶段把策略学成预测"期望状态轨迹"而非动作指令；推理阶段先把当前动作块插值成几何路径，用 TOPP-RA 在力矩 / 速度约束下求最快的时间参数化；当用异步推理消除停顿时，再用测试时搜索从策略采样的多个候选块里挑出曲率最小、最可控的一条交给 TOPP 求解执行。三个组件依次对应"改频崩→不可达→异步错位"这三道坎。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["动作分块策略<br/>预测未来一段序列"] --> B["1. 期望状态作为动作<br/>用到达状态训练，<br/>配高增益控制器跟踪"]
    B -->|异步推理时| C["3. 测试时搜索<br/>采样多个候选块，<br/>选曲率最小最可控的一条"]
    B -->|同步执行时| D
    C --> D["2. 可达性时间最优规划<br/>TOPP-RA 在力矩/速度<br/>约束下重定时"]
    D -->|有解| E["高增益低层控制器<br/>按时间参数化轨迹执行"]
    D -->|无解·不可控| F["回退原始频率<br/>到下一路点再重规划"]
    F --> D

关键设计¶

1. 期望状态作为动作：让转移动态对执行时序鲁棒

这一步针对的是"提频改变转移动态、产生并累积状态误差"的痛点。问题根源在于：常规模仿学习把"动作指令"作为模仿目标，而动作指令是喂给低层控制器的输入，控制器需要足够的执行时间才能把机器人推到指令对应的状态；一旦提频、每个指令分到的时间变短，PD 控制器施力时间不够，机器人停在了一个不同于期望的状态，误差在开环动作块里越滚越大。RACE 的做法是直接模仿演示中实际到达的状态（reached state）——用 (状态, 下一状态) 对而非 (状态, 动作) 对来训练 / 微调策略，并把预测出的期望状态当作低层控制器的指令。这样带来一个关键自由度：执行时可以换用与遥操作不同的、更高增益的控制器来精确跟踪期望状态，因为高增益施加更大的力，能在更短时间内把机器人拉到目标位姿。注意这在遥操作阶段是行不通的——遥操作时调高增益会让机器人过度反应、更难操控——但在自主执行阶段恰好可以放开手脚。本质上，"期望状态 + 高跟踪控制器"把转移动态从"对时序敏感"变成"对时序鲁棒"，这是后续加速的地基。（下文"动作"一词默认指期望状态，除非显式写"动作指令"。）

2. 可达性时间最优规划：在物理约束下榨干每个块的速度

光把动作换成期望状态还不够——当加速率上去、期望状态离当前状态越来越远时，高增益控制器会施加越来越大的力，迟早撞上力矩约束，物理上不可达。所以需要自适应地决定每一步加速多少。RACE 对策略生成的状态块（一串状态路点）用三次样条插值出几何路径 \(q(s) \in \mathbb{R}^n\)（\(s\) 是标量路径参数，以当前速度作边界条件），再对它跑 TOPP-RA（基于可达性分析的时间最优路径参数化）。TOPP-RA 把广义二阶约束 \(A(q)\ddot{q} + \dot{q}^\top B(q)\dot{q} + f(q) \in \mathcal{C}\) 投影到相空间，用平方速度 \(x=\dot{s}^2\) 和伪加速度 \(u=\ddot{s}\) 写成路径约束：

\[a(s)u + b(s)x + c(s) \in \mathcal{C}(s),\quad a=Aq',\ b=Aq''+q'^\top Bq',\ c=f\]

算法把路径离散为 \(s_0,\dots,s_N\)，先做反向传播递归求出每个点的"可控集 \(\mathcal{K}_i\)"（能到达 \(\mathcal{K}_{i+1}\) 的状态区间），再从 \(\mathcal{K}_0\) 出发正向传播贪心地选下一可控集里能取到的最高 \(x\)，从而得到在力矩、速度约束下跟随该路径的最快时间参数化。边界条件取 \(\dot{s}_0^2=1\)、\(\dot{s}_{N,\min}^2=0\)、\(\dot{s}_{N,\max}^2=1\)，给末状态留自由度。这样每个动作块都被重定时成一条"物理可行、自适应快慢"的轨迹——直道飙速、弯道减速，而不是死板地整体放大频率。当初始状态不在 \(\mathcal{K}_0\)（即无可行解）时，RACE 回退到原始控制频率不加速，并在到达下一路点后持续重规划，直到出现可行解，保证不会因强行加速而失控。

3. 测试时搜索：用 Best-of-N 选最平滑的块对抗异步错位

异步推理能消除推理停顿，但会带来"为不确定的未来状态预测动作"的难题。推理窗口里机器人已经漂移，新块到手时实际状态 \(x_{\text{current}}\) 可能对新轨迹不可控（并入新路径所需的瞬时力矩超限）；而且生成式策略是概率的，状态或噪声的微小变化会让新块与正在执行的块拓扑不一致，在交接点形成高速下根本跟不住的尖锐不连续。两种现象殊途同归，都让 TOPP 求不出可行的时间参数化。RACE 的洞察是：交接点处的路径曲率 \(q''\) 才是决定可解性的主导项。它用 Best-of-N 采样多个候选块，按平滑度目标打分选最优：

\[J(q(s)) = \frac{s_{\text{end}}}{\int_0^{s_{\text{end}}} \|q''\|^2 \, ds}\]

（分子的 \(s_{\text{end}}\) 做长度归一化；\(q(s_{\text{end}})\) 可取块中的中间动作而非末动作，其索引是超参。）为什么挑曲率最小的有效？回看约束系数，唯一含 \(q''\) 的是 \(\dot{s}^2\) 的系数 \(b(s)\)；多个候选都以共同的初始状态 \((q(0), q'(0))\) 为条件，在短规划视野内位置 \(q\) 变化很小、切向 \(q'\) 的显著变化必然要求很大的 \(q''\)，于是 \(q''\) 成了区分候选的最敏感主导项。曲率越小 → \(|b(s)|\) 越小 → 每个 \(\dot{s}^2\) 允许的可行控制集越大 → 可控集 \(\mathcal{K}_0\) 的体积越大，从而机器人漂移后的当前状态更可能仍在可控集内、TOPP 更容易求出高速解。与 MPC 的相似之处是都用基于视野的优化，但 RACE 用模仿策略本身当生成式采样器（保留人类演示的自然性），且优化目标是"可控性体积"而非随机 / 梯度采样，专门针对异步执行的错位问题。

损失函数 / 训练策略¶

训练侧的唯一改动是把模仿目标从"动作指令"换成"到达状态"，即在 (状态, 下一状态) 对上训练或微调扩散策略 / VLA，损失沿用原策略的模仿目标，不引入额外的强化学习 rollout。推理侧（TOPP-RA 重定时 + Best-of-N 测试时搜索）全部无需训练，可直接套到任意预测动作块的现成策略上，体现其"策略无关、任务无关"的定位。此外为公平对比，加速执行时对本文及所有 baseline 都统一提高了夹爪速度（避免因夹取慢而漏抓）。

实验关键数据¶

主实验¶

仿真用 Robomimic 的 Lift / Can / Square / Tool Hang（后两者需高精度插入），策略为预测视野 \(T_p=32\) 的 Diffusion Policy，在 200 条 PH 演示上训练；评测以"相对演示的加速比（成功 episode 平均时长 / 演示平均时长）"对"成功率"画 Pareto 曲线。结论：无论有无推理延迟，RACE 都取得 Pareto 最优，最高 2× 加速且成功率不降，在精密任务（Square、Tool Hang）上优势尤其明显；天真的 Action / State Fast-forward 在提频时成功率随状态误差显著下滑。下表为与同类加速方法 SAIL 的直接对比（Robomimic，开启力矩约束）：

任务	SAIL 成功率	SAIL 加速比	RACE 成功率	RACE 加速比
Lift	0.930	2.520	0.995	2.068
Can	0.890	1.970	0.965	1.805
Square	0.750	1.620	0.805	1.819
Tool Hang	0.610	0.940	0.715	2.053

RACE 在全部任务上成功率高于 SAIL，且在精密任务上加速比也更高（Tool Hang 从 0.94× 提到 2.05×）——SAIL 需为每个任务调加速率并训练条件模型，RACE 则用 TOPP 在推理时任务无关地自适应选加速率，并用测试时搜索绕过条件模型。

真实机实验进一步验证：高精度 Door Insertion（FurnitureBench）上 RACE 的任务完成速度超过包括 8× 提频在内的所有 baseline，成功率仍与原策略相当；吞吐密集的 Fruit Packaging / Trash Cleaning（基于 π0.5 微调）上 RACE 在相同时间内累计成功数最高，约翻倍 VLA 吞吐；半动态的传送带抓取任务（2.5× 未见过速度）上 baseline 全部失败（成功率 0），RACE 仍保持成功率 0.53、加速比 2.02×。

消融实验¶

配置	关键现象	说明
Action Fast-forward	关节误差最高、随块累积	仅提频，状态误差开环累积
State Fast-forward	误差略降但 Pareto 改善有限	仅换期望状态，缺时间最优规划
RACE（含 TOPP）	关节误差最低、成功率/速度最高	可达性重定时是精密任务关键
RACE w/o TTS	平滑度/可控性低、关节误差高	高推理延迟下吞吐下降
RACE（含 TTS）	平滑度↑可控性↑一致性↑误差↓吞吐↑	测试时搜索对抗异步错位

关键发现¶

时间最优规划是精密任务的胜负手：仅把动作换成期望状态（State Fast-forward）对 Pareto 曲线改善有限，必须叠加考虑可达性的 TOPP 重定时才能把误差压到最低、把精密任务加速上去——证明"状态误差"主要来自物理可达性约束而非单纯的目标表示。
TTS 通过"平滑→可控"链路提鲁棒：测试时搜索同时提升平滑度和可控性（\(\mathcal{K}_0\) 体积），可控性变大让轨迹跟踪更准、关节误差更低，并隐式促进块间一致性（无需 inpainting 这类显式目标），在 0.2s 人为延迟的压力测试下仍维持吞吐。
越精密越受益：RACE 在 Square、Tool Hang、Door Insertion 等高精度任务上的相对增益最大，作者推测是因为它把机器人牢牢约束在分布内状态、避免进入 OOD，从而既减少失败又减少拖慢完成的失误。

亮点与洞察¶

把"加速"问题翻译成"控制可行性"问题：别人在提频 / 蒸馏 / 并行解码上做文章，本文洞察到真正的瓶颈是"短时域下的转移动态改变 + 物理可达性"，于是用经典最优控制（TOPP-RA）而非更多数据来解，思路清奇且可迁移。
测试时搜索的目标设计极巧：把"最大化可控集体积"这一抽象目标，通过约束系数 \(b(s)\) 与曲率 \(q''\) 的关系，化简成一个可直接计算的路径平滑度积分 \(J\)，让 Best-of-N 有了物理意义明确的打分函数，而不是拍脑袋选目标。
策略无关、任务无关、训练侧改动极小：唯一训练改动是把模仿目标换成到达状态，推理侧组件全部即插即用，可叠加在 Diffusion Policy、π0.5 等任意动作块策略上，落地成本低。
可迁移 trick："用生成式策略本身当采样器 + 物理目标打分"这套测试时对齐范式，可推广到其他需要在物理约束下从概率策略里挑动作的场景。

局限与展望¶

方法依赖力矩 / 速度等物理约束的可建模性与 TOPP-RA 的可解性；当初始状态频繁不可控时会回退到原频率，加速收益打折，论文未充分量化回退发生的频率。
TTS 引入 Best-of-N 采样，需要多次前向，自身带来额外推理开销；虽然论文把推理加速方法视为互补，但在延迟敏感场景下 N 的选取与总延迟的权衡未深入讨论。
期望状态作为模仿目标依赖能换用高增益、高跟踪精度的低层控制器，对控制器质量和机器人本体的力矩裕度有隐含要求，柔顺 / 欠驱动机器人上的适用性存疑。
评测主要在 Robomimic 与若干真实操作任务上；面对强外部动态、接触富集（rich-contact）或需要力控的任务，"跟随期望状态轨迹"的范式是否仍成立有待验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把模仿策略加速重构为"状态表示 + 最优控制重定时 + 物理目标测试时搜索"，视角与同行明显不同。
实验充分度: ⭐⭐⭐⭐ 仿真 + 真实机覆盖精密 / 吞吐 / 半动态任务，含 SAIL 直接对比与分组件消融，缺对回退频率与 N 的系统分析。
写作质量: ⭐⭐⭐⭐ 问题分解清晰、每个组件对应一道坎，公式推导（曲率→可控集）讲透；个别句子有笔误。
价值: ⭐⭐⭐⭐⭐ 策略 / 任务无关、训练改动极小、可叠加现成 VLA，直击模仿学习落地的速度瓶颈，工业吞吐场景实用性强。