Verifier-Free Test-Time Sampling for Vision-Language-Action Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=UD4Rw8MOEK
领域: 机器人 / 具身智能
关键词: VLA、测试时缩放、Best-of-N、KL散度置信度、条件掩码

一句话总结¶

本文提出 MG-Select：一个无需外部验证器、无需额外训练模块的 VLA 测试时缩放框架——并行采样 \(N\) 个候选动作，用「模型自己在掩码掉部分输入条件后产生的参考分布」与正常预测分布之间的 KL 散度作为置信度来做 Best-of-N 选择，在仿真与真机抓取放置任务上把基座 VLA 的成功率显著拉高（RoboCasa 30 演示样本下相对提升 168%）。

研究背景与动机¶

领域现状：视觉-语言-动作模型（VLA）已经在机器人控制上表现亮眼，其中自回归 VLA（如 OpenVLA、\(\pi_0\)-FAST）直接复用语言模型的 next-token 预测目标把连续动作 token 化后逐 token 生成，不改架构就能达到与复杂架构相当的性能，是当前主流路线之一。

现有痛点：VLA 在高精度任务上仍然吃力——抓取、放置这类毫米级操作经常失败，而这种精度恰恰决定真实机器人任务的成败。根因之一是单次推理范式：模型每步都贪心解码（永远取概率最高的动作 token），即使这个动作并非最优。

核心矛盾：受 LLM 推理里 Test-Time Scaling（重复采样 + 验证器）成功的启发，已有工作给 VLA 配了一个外部验证器（用强化学习训练的价值函数）来做 Best-of-N。但这条路有两个硬伤：① 验证器需要在推理前额外训练，部署管线变复杂、算力开销大；② 这些验证器的奖励建模绑死在特定数据集上，对没见过的任务提示词/物体泛化不了。于是问题变成：能不能不训练任何外部模块，只靠 VLA 自身的内部信号来挑出更精确的动作？

切入角度：作者先试了最朴素的「按 likelihood 选最高概率的候选」——确实在某些情况下有效，但通常不管用，因为 VLA 在目标任务上微调后会记住专家轨迹，动作 token 分布过度集中，多次采样几乎收敛到同一个结果，likelihood 区分不出好坏。这提示：与其看「绝对概率」，不如看「相对于一个不确定参考分布的偏离程度」——偏离不确定参考最远的动作，往往才是模型最有把握、最精确的那个。

核心 idea：用「同一个 VLA 在随机掩码掉部分输入条件（指令文本 / 本体状态）后产生的分布」当参考分布 \(Q\)，用预测分布 \(P\) 相对 \(Q\) 的 KL 散度当置信度，KL 最大的候选即最自信的动作——验证器免训练、模块免新增。

方法详解¶

整体框架¶

MG-Select 把「单次贪心」换成「采样—打分—选择」三步循环，全程只用 VLA 自身的内部信号。给定当前观测 \(o_t\)、本体状态 \(q_t\)、指令 \(I\)：(1) 自回归 VLA \(\pi_\theta\) 以温度 \(\tau>0\) 并行采样 \(N\) 个候选动作序列；(2) 对每个候选，一边算正常条件下的预测分布 \(P_i=\pi_\theta(\cdot\mid o_t,q_t,I,a_{<i})\)，一边算「掩码掉某些条件」后的参考分布 \(Q_i\)，逐 token 求 \(\mathrm{KL}(Q_i\|P_i)\) 并聚合成动作级置信度 \(C_{\tilde a}\)；(3) 取置信度最高的候选作为最终动作 \(a^*=\arg\max_{\tilde a^{(n)}} C_{\tilde a^{(n)}}\)（Best-of-N）。此外，为了让 VLA 在被掩码输入时仍产生有意义的分布，作者用一个联合训练策略在微调阶段顺带学会条件掩码分布（得到增强版 MG-Select*）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>观测 + 本体状态 + 指令"] --> B["测试时缩放框架<br/>温度采样 N 个候选动作"]
    B --> C["预测分布 P<br/>(完整条件)"]
    B --> D["条件掩码置信度<br/>掩码指令/状态得参考分布 Q"]
    C --> E["逐 token KL(Q‖P)<br/>聚合成动作置信度"]
    D --> E
    E --> F["Best-of-N 选择<br/>取置信度最高候选"]
    F --> G["输出动作 a*"]
    T["联合训练策略<br/>微调时随机 dropout 条件"] -.离线增强.-> D

关键设计¶

1. 测试时缩放框架：把单次贪心换成并行采样 + Best-of-N

针对「每步贪心解码会在高精度任务上卡壳」的痛点，框架把推理拆成两段：先并行随机采样得到 \(N\) 个候选，再用一个准则 \(M\) 选最优。采样时用温度 \(\tau\) 控制分布锐度与多样性，\(\tilde a^{(n)}_j \sim \pi_\theta(\cdot\mid o_t,q_t,I,\tilde a^{(n)}_{<j};\tau)\)，其中 \(\pi_\theta(\cdot;\tau)=\mathrm{softmax}(\ell/\tau)\)，\(\tau\to 0\) 时退化为贪心。最终动作按 \(a^*=\arg\max_{\tilde a^{(n)}\in\tilde A} M_{\tilde a^{(n)}}\) 选出。这个框架本身是通用骨架，关键在于准则 \(M\) 怎么定——直接用 likelihood 不行（分布过度集中，候选都一样），于是引出下面的条件掩码置信度。实验上 \(N=4\) 就能拿到大部分收益，再往上提升边际很小，故作为实用默认值。

2. 条件掩码置信度：用 KL 偏离一个"半失明"参考分布来衡量自信度

这是全文核心。作者的假设是：一个既不确定、又不偏离目标动作分布太远的参考分布，才能给出有意义的置信信号。怎么造这样的参考？让同一个 VLA 掩码掉部分输入条件——把指令文本、本体状态、或两者一起置空（\(\varnothing\)），相当于人为制造「忽略了任务关键信息」的失败模式。具体三种变体：

\[\text{KL}_{\text{text}}=\mathrm{KL}\big(\pi_\theta(\cdot\mid o_t,q_t,\varnothing,a_{<i})\,\big\|\,\pi_\theta(\cdot\mid o_t,q_t,I,a_{<i})\big)\]

State-masking 把 \(q_t\) 置空、Text&State-masking 把两者都置空，形式同理。token 级置信度 \(C_i=\mathrm{KL}(Q_i\|P_i)\)，再在序列上聚合 \(C_a=\sum_{i\in\mathcal I}\mathrm{KL}(Q_i\|P_i)\) 得到动作级分数用于排名。直觉是：如果某个候选动作即使在「半失明」参考下也能被正常条件分布显著拉开（KL 大），说明完整条件提供的信息对它真的起了作用、模型对它最有把握。哪种掩码最好取决于任务——SIMPLER-WidowX 全是抓取放置、模型不靠指令也会做，故 state-masking 最好；RoboCasa 任务类型多、没指令做不对，故 text-masking / text&state-masking 更有效。注意聚合集合 \(\mathcal I\) 不是全序列：实验发现只取 FAST tokenizer 的前 5 个 token（从低频到高频对齐）效果最好，朴素求和反而最差。

3. 联合训练策略：让 VLA 在微调时顺便学会"被掩码"的分布

痛点是现成 VLA 从没在条件掩码设定下训练过，直接掩码输入往往产生乱来的动作，参考分布质量差。作者的解法是在微调目标数据集时随机 dropout 条件：对本体状态 \(q_t\) 和指令 \(I\) 构造四种掩码变体 \(\mathcal M=\{(q_t,I),(q_t,\varnothing),(\varnothing,I),(\varnothing,\varnothing)\}\)（全条件 / 文本掩码 / 状态掩码 / 双掩码），用增广数据集训练：

\[\mathcal L_{\text{Joint-IL}}(\theta;D)=-\mathbb E_{((o_t,q_t),a_{t:t+H},I)\sim D}\Big[\mathbb E_{(q^{(m)}_t,I^{(m)})\in\mathcal M}\big[\log\pi_\theta(a_t\mid o_t,q^{(m)}_t,I^{(m)})\big]\Big]\]

这样模型既保住标准微调的性能，又意识到条件掩码分布的存在，让参考分布更可靠。有意思的是，联合训练单独使用就已经超过 vanilla 模仿学习（消融里 PnP 从 17.0 升到 28.5），作者推测是条件掩码起到了防过拟合的正则作用；再叠加 MG-Select 选择则进一步涨点（得到 MG-Select*）。另外参考分布不能直接用 \(\tau=1.0\)，因为掩码分布可能在某些 token 上「过于尖锐」，破坏分布式置信度的本意，需要给参考分布加一个偏高的正则温度（如 \(\tau=4.0\)）来平滑。

损失函数 / 训练策略¶

训练目标即上面的 \(\mathcal L_{\text{Joint-IL}}\)——在标准模仿学习（imitation learning，最大化专家动作对数似然）基础上，对每个样本在四种条件掩码变体上取期望。推理侧无需任何训练：候选数 \(N=4\)、采样温度 \(\tau=0.5\)、参考分布正则温度 \(\tau=4.0\)、聚合取前 5 个 token。为缓解「重复 \(N\) 次 prefill」的延迟，作者还设计了单次 prefill 部署：\(N\) 个候选共享一次 prefill 再各自解码，\(N=4\) 时相比朴素实现降低 45% 延迟，使总推理时间与单动作推理相当。

实验关键数据¶

主实验¶

数据集	设置 / 指标	基座 \(\pi_0\)-FAST	+ MG-Select*	相对提升
RoboCasa	30 演示，Pick&Place 成功率%	5.3	14.2	+168%
RoboCasa	100 演示，Pick&Place%	17.0	31.0	+82%
SIMPLER-WidowX	4 任务平均%	46.9	50.3	+7%
LIBERO	4 套件平均%	92.0	93.1	+1.2%
真机 ID（Franka）	60 演示，平均成功率%	37.5	47.9	+28%
真机 OOD（Franka）	未见物体，平均%	53.1	71.9	+35%

注：RoboCasa 低数据区（30 演示）增益最大，说明 MG-Select 能有效补偿数据稀缺下的性能；LIBERO 基座已接近饱和（92%）故提升空间小，但在最难的 LIBERO-Object（95.4→98.0）、LIBERO-Long（79.6→82.7）上仍稳定涨点。换到 OpenVLA 基座（LIBERO 平均 69.1→71.7）也有效，验证与架构无关。

消融实验（RoboCasa，100 演示，PnP / All 成功率%）¶

配置	PnP	All	说明
Greedy	28.5	42.7	贪心解码基线
Likelihood（\(N{=}4\)）	30.5	46.8	按似然选，已优于贪心
Uniform KL（\(N{=}4\)）	30.0	46.5	对均匀参考的 KL
MG-Select（\(N{=}4\)）	31.0	48.1	条件掩码参考 KL，最优
w/o Joint-IL（仅 MG-Select）	22.6	43.7	不联合训练掉到 22.6
w/o MG-Select（仅 Joint-IL）	28.5	42.7	不做选择掉到 28.5

关键发现¶

联合训练 + MG-Select 缺一不可：两者都用 PnP=31.0，只用其一分别掉到 28.5 / 22.6，二者协同效应明显（消融表 d）。
条件掩码参考优于均匀/似然参考：MG-Select（31.0）> Likelihood（30.5）> Uniform KL（30.0），证明「半失明」参考比无信息的均匀分布提供更有效的不确定性信号。
聚合策略很关键且反直觉：朴素求和最差（26.1），只取前 5 个 token 最好（31.0），作者推测与 FAST tokenizer 把动作按低频到高频对齐的结构有关。
参考分布要"调钝"：直接用 \(\tau{=}1.0\) 的掩码分布效果差，加高温 \(\tau{=}4.0\) 平滑后才超过均匀基线（消融表 e）。
候选数 \(N{=}4\) 够用：\(N\) 升到 64 才有进一步收益但边际很小，权衡算力取 4。

亮点与洞察¶

把"掩码输入"变成不确定性探针：用同一个模型掩码掉部分条件来造参考分布，既零额外参数又自动对齐目标任务分布，比 LLM 里常用的均匀/自洽参考更贴合 VLA 场景——这是最"啊哈"的点。
诊断出 likelihood 失效的真因：VLA 微调后分布过度集中导致多次采样收敛，因此绝对概率没区分度，必须看「相对偏离」。这个观察对任何在窄分布上做 Best-of-N 的任务都有借鉴意义。
单次 prefill 共享：把 Best-of-N 的主要延迟来源（重复 prefill）摊成一次，让测试时缩放在实时机器人控制里真正可用，是很实在的工程 trick。
思路可迁移：「用条件 dropout 自造参考分布 + KL 选择」可推广到其他自回归生成的择优场景（如条件文本生成、需要免验证器打分的任务）。

局限与展望¶

掩码变体需按任务挑选：text / state / both 哪种最好依赖任务特性（单任务用 state、多任务用 text），缺乏自动选择机制，部署时仍需经验或调参。
聚合超参与 tokenizer 强耦合：「取前 5 个 token」是针对 FAST tokenizer 的经验值，换 tokenizer 或动作表示可能需要重调，泛化性存疑。
收益受基座饱和度限制：在 LIBERO 这类基座已接近天花板的 benchmark 上提升很小，方法主要在低数据 / 高难度精度任务上价值突出。
仅验证自回归 VLA：方法依赖动作 token 分布与条件掩码，对扩散/流匹配类连续动作 VLA 是否适用未探讨，是自然的延伸方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「掩码输入自造参考分布 + KL 选择」的 verifier-free 思路在 VLA 测试时缩放里很新颖
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 RoboCasa/SIMPLER/LIBERO 三仿真 + 真机 ID/OOD，含 6 组消融与延迟分析
写作质量: ⭐⭐⭐⭐ 动机推导清晰，但掩码变体选择与聚合超参的经验性较强
价值: ⭐⭐⭐⭐⭐ 免训练、免模块、与架构无关，对低数据高精度机器人任务实用价值高