Adaptive Action Chunking at Inference-time for Vision-Language-Action Models¶
会议: CVPR 2026
arXiv: 2604.04161
代码: https://lance-lot.github.io/adaptive-chunking.github.io/
领域: 机器人 / VLA模型
关键词: 动作分块, VLA模型, 自适应推理, 动作熵, 机器人操作
一句话总结¶
提出自适应动作分块(AAC)策略,利用动作熵作为线索在推理时动态确定最优分块大小,无需额外训练或架构修改,在RoboCasa和LIBERO等基准上持续提升GR00T N1.5和π0.5的任务成功率。
研究背景与动机¶
领域现状:VLA模型中,动作分块(一次性执行一组动作而不中间重新规划)是提高机器人操作能力的关键技术。当前主流VLA模型(GR00T N1.5、π0、SmolVLA)都使用固定的分块大小。
现有痛点:(1) 大分块→响应性差,无法及时适应新信息;(2) 小分块→mode-jumping,分块间不连续导致抖动;(3) 不同任务的最优分块大小不同(实验证明:同一模型在不同RoboCasa任务上,最优分块从4到16不等)。现有方法如ACT用EMA平滑、BID搜索最优分块,但都使用固定大小。
核心矛盾:需要在一致性(大分块)和反应性(小分块)之间动态平衡,但固定分块大小无法实现。
切入角度:动作熵反映预测的不确定性——低熵→高可靠性→可执行大分块;高熵→低可靠性→应缩小分块频繁重新规划。
核心idea:计算不同分块大小对应的平均动作熵,找最大差分点确定最优分块大小。
方法详解¶
整体框架¶
AAC 想解决的是「分块大小该多大」这个被现有 VLA 写死成超参的问题,而且它不碰训练、不改架构,纯粹塞进推理循环里。每来一个新观测,模型先并行采样 N 个候选动作块,然后沿着块内每个未来时间步算出动作熵,得到一条「熵随分块长度增长」的曲线;接着在这条曲线上找熵增最陡的拐点(最大差分点),把它当成本步该用的分块大小 \(h^*\),执行前 \(h^*\) 个动作后再回到观测、重新采样。整套流程的直觉是:模型自己有多确定,就让它一口气走多远。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
OBS["当前观测<br/>图像 + 指令 + 机器人状态"] --> SAMPLE["并行采样 N 个候选动作块<br/>流匹配动作头多次去噪"]
subgraph D1["动作熵:量化预测不确定性"]
direction TB
SAMPLE --> ENT["逐时间步算熵<br/>连续高斯微分熵 + 离散 Shannon 熵"]
ENT --> CURVE["沿块长求平均动作熵 Ē_h"]
end
subgraph D2["最大差分点:确定分块大小"]
direction TB
CURVE --> DIFF["找熵增最陡的拐点<br/>= 最优分块大小 h*(下界 ξ)"]
end
DIFF --> EXEC["执行前 h* 个动作"]
EXEC -->|回到下一观测重采样| OBS
关键设计¶
1. 动作熵:把「模型对未来多确定」量化成一条曲线
痛点在于分块大小本质上要回答「这组预测往后第几步开始不可信」,而这件事没有现成的标尺。AAC 用 N 个候选块在每个时间步上的发散程度来度量不确定性,并且区分两类动作分别计算。连续动作(平移、旋转)服从高斯,用微分熵 \(E_t = \frac{1}{2}\log\!\big[(2\pi e)^d \det(\Sigma_t)\big]\),其中协方差 \(\Sigma_t\) 直接从 N 个候选块在该步的取值估出;离散动作(夹爪开合)用 Shannon 熵 \(E_{dis} = -\sum p(a)\log p(a)\),概率 \(p(a)\) 用候选里各取值的频率估计。把同一步上平移、旋转、夹爪三项相加,再沿块长 \(h\) 做平均,就得到平均动作熵
它正是后续选分块大小所依赖的那条曲线。这样做的好处是熵完全由现成的多次采样估出,连续和离散动作用同一套加和框架,不挑机器人形态。
2. 最大差分点:从哪一步起再走就不靠谱了
有了 \(\bar{E}_h\) 曲线还得回答「在哪截断」。AAC 的判据是找平均熵增长最快的那一步:
差分 \(\bar{E}_{h+1} - \bar{E}_h\) 最大的位置,意味着从这个分块长度往后再多执行一步,不确定性就会陡增——所以这里正是一致性(大分块省重规划)和反应性(小分块能及时纠偏)之间的最佳切换点,超过它就是在拿可靠性换效率。外层再套一个下界 \(\xi\),保证分块不会缩到太小,既维持最小动作幅度、又避免每步都重规划带来的计算开销。算出 \(h^*\) 后执行前 \(h^*\) 个动作,再回到新观测重新采样。
这条判据为什么有效,从它在实机上自然涌现的行为就能看出:因为分块大小完全跟着熵走,机械臂靠近目标物体、需要精细对位时预测发散、熵高,\(h^*\) 自动缩小、频繁重规划;进入长距离运输、轨迹平滑可预测时熵低,\(h^*\) 放大、一口气高效移动。这条「分块大小随任务语义阶段起伏」的曲线和人类「粗动作大步走、精动作小步挪」的直觉吻合,论文用可视化做了验证——也从侧面印证了用熵的最大差分点定截断是合理的。
损失函数 / 训练策略¶
AAC 不引入任何训练目标,全部计算发生在推理时——熵直接从流匹配(flow-matching)动作头的多次采样里估出。因此它兼容所有基于扩散 / 流匹配的 VLA 模型,属即插即用。
实验关键数据¶
主实验(RoboCasa + LIBERO)¶
| 方法 | RoboCasa Avg | LIBERO Avg |
|---|---|---|
| GR00T (h=16, 默认) | 59.7% | 94.1% |
| GR00T (h=2) | 47.0% | 90.2% |
| GR00T (h=4) | 56.2% | 92.6% |
| GR00T (h=8) | 61.2% | 94.7% |
| GR00T + AAC | 62.0% | 95.0% |
LIBERO-Long (最难子集): 88.8% → 92.8% (+4.0%)
跨Backbone验证¶
| 方法 | LIBERO Avg |
|---|---|
| π0.5 (基线) | 97.0% |
| π0.5 + AAC | 97.9% |
OOD鲁棒性(LIBERO-Pro位置扰动)¶
| 扰动级别 | GR00T | GR00T+AAC |
|---|---|---|
| ×0.2 | 基线 | +提升 |
| ×0.3 | 基线 | +提升 |
| ×0.4 | 基线 | +提升 |
关键发现¶
- 没有单一固定分块大小在所有任务上最优:LIBERO-Spatial最优h=4,LIBERO-Goal最优h=16
- AAC在所有固定分块大小的平均值之上,且不需要任何手动调参
- 在长视界任务(LIBERO-Long)上提升最显著(+4%),因为这类任务对反应性要求最高
- 分块大小的时间分布与任务语义阶段高度吻合:运输→大块,操作→小块
亮点与洞察¶
- 零训练开销的推理优化:AAC完全在推理时工作,不需修改模型架构或重新训练,即插即用
- 动作熵作为通用不确定性度量:跨连续/离散动作空间的统一熵计算框架,可泛化到不同机器人形态(单臂/双臂/人形)
- 与人类直觉的一致性:可视化分析显示分块大小与任务语义阶段完美对应——粗操作大块、精操作小块,验证了方法的物理合理性
局限与展望¶
- N个候选块的并行采样引入额外推理延迟(N越大估计越准但越慢)
- 最大差分点策略是启发式的,不保证全局最优
- \(\xi\) 最小分块下界是超参,不同任务可能需要不同值
- 当前仅在桌面操作任务上验证,更复杂的移动操作(如导航+操作组合)有待探索
相关工作与启发¶
- vs ACT (EMA平滑): ACT每步生成新块用EMA融合,分块大小仍固定。AAC自适应选择大小
- vs BID/TV-BID: BID从多候选块中选最优块但大小固定,AAC同时自适应大小
- vs 基于RL的自适应方法: 需要额外训练和任务特定奖励信号,AAC无需训练
评分¶
- 新颖性: ⭐⭐⭐⭐ 动作熵驱动的分块选择简洁有效,但原理相对直观
- 实验充分度: ⭐⭐⭐⭐⭐ 多基准、多backbone、OOD测试、真机实验、定性分析全面
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法简洁、可视化出色
- 价值: ⭐⭐⭐⭐⭐ 对VLA部署有直接实用价值,零开销即插即用