Test-Time Perturbation Tuning with Delayed Feedback for Vision-Language-Action Models¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/zhoujiahuan1991/CVPR2026-PDF
领域: 机器人 / 具身智能 / VLA
关键词: 视觉-语言-动作模型, 测试时自适应, 轨迹过拟合, 延迟反馈, 数据增强
一句话总结¶
针对 VLA 在物体微小位姿变化下就崩的"轨迹过拟合"问题,本文提出 PDF——一个无需 verifier、不更新主干参数的测试时自适应框架:用不确定性自适应分配的数据增强+多视角投票抑制虚假相关,再用 episode 结束后的延迟反馈训练一个轻量扰动头来纠正模型的过度自信,在 LIBERO 上成功率 +7.4%、Atari 上人类归一化分 +0.10。
研究背景与动机¶
领域现状:视觉-语言-动作模型(VLA,如 OpenVLA、Gato/Jat、RT-2)把视觉、语言、动作联合建模,通过多模态预训练把指令翻译成可执行动作,在机器人操作和像素控制任务上展现出通用具身智能的雏形。
现有痛点:这些模型对语义上无关紧要的微小环境变化异常脆弱——比如物体位姿稍微挪一点,成功率就大幅下降甚至任务失败。作者通过诊断实验揭示了一个有趣的行为偏差:让机械臂去抓碗,它可能抓不到却继续朝盘子移动;即使把目标碗用 mask 遮掉,机械臂依然复现出几乎一样的动作轨迹。这说明策略根本没有"看着目标做决策",而是在背诵训练时见过的轨迹。
核心矛盾:作者把这个失败模式命名为轨迹过拟合(trajectory overfitting)——VLA 在训练时记住了与成功相关的轨迹特定视觉/上下文模式(夹爪外观、背景纹理等),把"动作"和"实体"之间的虚假相关当成了决策依据,而非真正理解任务语义。一旦测试输入与历史轨迹相似,它就照搬记忆中的次优动作。
现有方案的不足:缓解这个问题的自然思路是测试时自适应(TTA)。但 verifier-based TTA(如 RoboMonkey、VGPS)需要预训练一个打分器、反复 rollout,开销大且难泛化到新环境;verifier-free TTA 又依赖熵最小化这类自监督置信度指标——当模型本身预测被误校准(对错误动作过度自信)时,熵最小化反而会进一步放大错误 logit,把模型推向更自信的错误决策。
切入角度:作者发现一个关键现象——对像素观测做受控数据增强,能让夹爪重新把注意力聚焦回目标碗、恢复正确执行(论文 Fig.1d)。这说明扰动输入分布本身就能打破轨迹过拟合。同时,episode 结束后环境会给出"成功/失败/累计奖励"这类延迟反馈,这是比自监督置信度更可靠的监督信号,只是来得晚。
核心 idea:用"不确定性驱动的数据增强+投票"在线打破虚假相关,再用"延迟反馈训练一个轻量扰动头"回溯性地纠正动作 logit 的过度自信——全程冻结 VLA 主干,不做微调、不要 verifier。
方法详解¶
整体框架¶
PDF(Perturbation learning with Delayed Feedback)是一个即插即用、verifier-free、不更新主干参数的测试时自适应框架,由两大组件串成一条"在线决策 + 离线回溯"的闭环。
在线阶段:每个时间步 \(t\),VLA 接收像素观测 \(o_t\) 和指令 \(c_t\),先估计当前决策的动作 logit 不确定性 \(U_t\),据此自适应分配一个数据增强预算 \(N_t\);原始观测和增强观测一起编码成多模态特征 \(f_t\),分别送进两个并联的头——LM head 产出决策 logit,扰动头(P head)产出 logit 扰动;二者相加得到最终 logit,detokenize 成候选动作集,再由多数投票选出最终动作 \(a_t\)。特征和投票后的最终 logit 被存进 rollout buffer \(D\)。
离线阶段:一个 episode 结束后,环境给出延迟反馈 \(r\)(成功/失败/奖励);从 buffer 采一个 batch,用 PDF 损失(含 REINFORCE 项 + 门控 KL 正则)只更新 P head,所有 VLA 参数(视觉编码器、token embedding、causal transformer、LM head)始终冻结。这样把"昂贵但可靠的环境反馈"以极低成本(仅 9M 可训练参数、无需对主干求梯度)回灌到下一个 episode 的决策里。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["像素观测 + 指令"] --> B["不确定性投票<br/>U_t 自适应分配增强预算 N_t"]
B --> C["多视角编码<br/>LM head + P head 相加"]
C --> D["最终 logit → 候选动作 → 多数投票"]
D -->|执行并存入 rollout buffer| E["环境交互"]
E -->|episode 结束·延迟反馈 r| F["延迟反馈引导自适应<br/>PDF loss 只更新 P head"]
F -.->|纠正后的扰动回灌下一 episode| C
关键设计¶
1. 不确定性驱动的动作投票:把宝贵的增强预算只花在"模型自己也拿不准"的步上
直接对每一步都做大量数据增强能抑制轨迹过拟合,但增强会带来显著推理开销,全程平铺成本太高;而在序贯决策里,单个高不确定性动作就可能直接导致整段任务失败。PDF 因此先量化每步的预测不确定性,定义为动作分布的归一化香农熵:
其中 \(K\) 是可能的动作 token 数,\(p(a_t = a_k \mid s_t) = \mathrm{softmax}(z_t)_k\)。然后按不确定性自适应决定增强预算 \(N_t = N_{\max}\cdot U_t\):模型越没把握,就采样越多增强视角。原始观测 \(o_t\) 与 \(N_t\) 个增强视角 \(\{T_j(o_t)\}\) 各自编码、各出一组候选动作,最终用多数投票选 \(a_t\)。这等于把"模型确定的步快速放行、不确定的步多看几眼再投票",既打破了对单一记忆轨迹的依赖,又把算力精准投到刀刃上——实验中固定 \(N_{\max}=3\) 即可(预算再大反而因噪声累积掉点)。
2. 延迟反馈引导的扰动头自适应:用 episode 结束后才到的真反馈,回溯性地纠正过度自信
verifier-free TTA 的老毛病是只能靠自监督置信度(如熵最小化)自适应,而模型一旦对错误动作过度自信,这类信号会把错误越推越自信。PDF 改用一个更可靠但来得晚的信号——episode 结束后的延迟反馈 \(r\)。具体做法是给最终 logit 加一个可学习的扰动项:
其中 \(h_\phi\) 是冻结的 LM head,\(h_\theta\) 是唯一可训练的扰动头(P head),\(\lambda\) 是权重。episode 结束拿到 \(r\) 后,从 buffer 采 batch 重算带梯度的 \(\tilde{z}_b\),用如下损失只更新 P head:
第一项是 REINFORCE 风格目标:当反馈 \(r\) 超过基线 \(b\)(即这条扰动后策略 \(\tilde{\pi}\) 表现好)时,提高其动作的似然,把扰动推向成功方向、压制失败方向。第二项 KL 正则仅在正反馈 \(r>b\) 时由指示函数 \(\mathbb{I}\) 门控开启,用来稳定更新、加速收敛;而 \(r\le b\) 时关掉 KL,给模型留出探索空间。这样把"哪条动作真的导致了成功"这种 ground-truth 级信号,以仅训练 9M 参数、不碰主干梯度的代价,转化为对 logit 的回溯性修正——这正是它能纠正 entropy-minimization 纠不了的过度自信的根本原因。
⚠️ 损失公式中 \(\log\pi_\phi\) 与 \(\mathrm{KL}(\pi_\phi\|\tilde\pi)\) 的下标 \(\phi\) 与正文"扰动后策略 \(\tilde\pi\)"的表述略有出入,疑为原文 typo,含义以"提高扰动策略中成功动作的似然、并用 KL 约束其不偏离过远"为准,⚠️ 以原文为准。
损失函数 / 训练策略¶
训练目标即上面的 \(L_{PDF}\)(REINFORCE 项 + 门控 KL)。整个测试时自适应只优化 P head \(h_\theta\),VLA 全部参数冻结;优化在每个 episode 结束后从 rollout buffer 采 batch 进行。base 模型 LIBERO 上用 OpenVLA、Atari 上用 Jat(Gato 开源实现),各自先训练 50 episode 再评估,全部实验在单卡 Tesla V100-32GB 上完成。增强预算上限 \(N_{\max}=3\)。
实验关键数据¶
主实验(LIBERO 四套件成功率)¶
| 方法 | 发表 | 参数 | Spatial | Object | Goal | Long | Avg. SR↑ | 平均排名↓ |
|---|---|---|---|---|---|---|---|---|
| OpenVLA† | CoRL'24 | - | 0.85 | 0.64 | 0.76 | 0.53 | 0.69 | 5.8 |
| TraceVLA | ICLR'25 | 130M | 0.85 | 0.85 | 0.75 | 0.54 | 0.75 | 6.5 |
| OpenVLA-DPO | Arxiv'25 | 130M | 0.84 | 0.89 | 0.79 | 0.53 | 0.76 | 4 |
| SFT-4LIBERO | Arxiv'25 | 130M | 0.85 | 0.87 | 0.77 | 0.55 | 0.76 | 3.5 |
| MG-Select | Arxiv'25 | 130M | 0.82 | 0.73 | 0.73 | 0.55 | 0.71 | 6 |
| PDF (Ours) | - | 9M | 0.90 | 0.72 | 0.86 | 0.59 | 0.77 | 2.5 |
PDF 以最少的可训练参数(9M vs 93–130M)拿到最佳平均成功率(0.77)和最佳平均排名(2.5)。长程任务(Long)提升最明显(0.59,比最强 baseline 高 +0.04),说明它对序贯决策质量的提升最实在;比同为 verifier-free 的 MG-Select 平均 SR 高近 6 个点。Object 套件是它的弱项(0.72),原因见消融。Atari-57 上 HNS 达 1.07,比 Jat base 的 0.97 高 +0.10,57 个游戏里 47 个有正向提升(BOXING +0.60 最高)。
消融实验¶
组件消融(DA = 数据增强,DF = 延迟反馈,LIBERO)
| 配置 | 关键表现 | 说明 |
|---|---|---|
| OpenVLA (baseline) | 较低 | 无任何 TTA |
| PDF w/o DA | 多数任务超过 baseline | 只用原始观测学扰动、无数据增强 |
| PDF w/o DF | Object 掉到 0.50、Goal 掉到 0.77 | 只靠多视角投票、无延迟反馈,明显下滑 |
| PDF (Full) | 四套件平均最高、最稳 | DA+DF 协同 |
损失项消融(人类归一化分 / 成功率,跨五个 benchmark)
| 配置 | Atari | Spatial | Object | Goal | Long |
|---|---|---|---|---|---|
| OpenVLA | 0.97 | 0.85 | 0.62 | 0.82 | 0.56 |
| w/o KL | 1.04 | 0.86 | 0.65 | 0.82 | 0.57 |
| w/o RE | 0.96 | 0.89 | 0.69 | 0.85 | 0.58 |
| PDF (Full) | 1.07 | 0.89 | 0.72 | 0.86 | 0.59 |
关键发现¶
- DF 是稳健性的关键:去掉延迟反馈(w/o DF)在 Object(0.50)和 Goal(0.77)上大幅下滑,说明物体操作和目标条件任务尤其依赖真实反馈来纠偏;而 w/o DA 仍能超过 baseline,二者协同才达到最佳——DA 负责在线打破虚假相关,DF 负责离线纠正过度自信。
- 两个损失项都有用,KL 影响更大:REINFORCE 项和门控 KL 各去其一都掉点,去掉 KL 对最终结果影响更显著,印证 KL 正则对稳定测试时更新的作用。
- 增强不是越多越好:增强预算从 0 增到 4,五个 benchmark 普遍单调掉点——预算越大噪声累积越严重。小预算(max=3)才是打破轨迹过拟合与引入低质视角之间的最佳折中,作者据此建议按 benchmark 自适应设上限而非一味拉满。
亮点与洞察¶
- 把"轨迹过拟合"诊断得很到位:mask 掉目标物体后机械臂仍复现相同动作——这个实验直观证明了 VLA 在背诵轨迹而非理解语义,比泛泛说"鲁棒性差"有说服力得多,是全文动机的基石。
- 不确定性当"增强预算分配器"很巧:把香农熵既当"该不该多看几眼"的开关、又当增强数量的连续旋钮,等于自动在确定的步省算力、不确定的步加保险,避免了对每步无脑增强的开销。
- 延迟反馈 + 冻结主干 + 轻量扰动头的组合可迁移:当下游有"episode 级稀疏反馈但无法/不愿微调大模型"的场景(很多机器人、推荐、对话 agent 都是),这套"冻结主干、只训一个小扰动头、用 REINFORCE+门控 KL 回灌反馈"的范式可以直接借用。
- 9M 参数、不碰主干梯度:相比动辄 130M 且要对主干求梯度的 baseline,部署成本和显存友好度高一个量级。
局限与展望¶
- 依赖延迟反馈信号可得:方法成立的前提是 episode 结束能拿到成功/失败/奖励。完全无反馈或反馈极稀疏/噪声大的真实环境里,DF 这一支可能失效,退化成只剩投票。
- Object 套件反而偏弱:主表里 PDF 在 Object 上只有 0.72,落后多个 baseline,论文未深入分析为何物体识别类任务受益较小,可能与该套件虚假相关本就不严重有关。
- 延迟带来的信用分配粗糙:反馈是 episode 级的,但 PDF 用它更新整段 buffer 的扰动,对"具体哪一步动作该负责"的信用分配较粗,长程复杂任务里可能稀释纠正信号。
- 增强变换是手工设定的:变换集合 \(T\) 固定,未探索按任务/不确定性自适应选择增强类型,这块还有提升空间。
相关工作与启发¶
- vs verifier-based TTA(RoboMonkey / VGPS):他们要预训练一个 verifier 打分 + best-of-N 反复 rollout,开销大且难泛化新环境;PDF 完全不要 verifier,用环境自带的延迟反馈替代外部打分器,参数和算力都低得多。
- vs verifier-free TTA / 熵最小化(MG-Select 等):他们靠自监督置信度(熵/KL)自适应,模型一旦误校准就会把错误越放越自信;PDF 用真实延迟反馈纠正过度自信,从根上避开了"自监督信号不可靠"的陷阱,平均 SR 高近 6 点。
- vs 微调类方法(OpenVLA-DPO / SFT-4LIBERO):他们需要更新 130M 主干参数;PDF 冻结主干、只训 9M 扰动头,在不微调的前提下达到甚至超过这些强微调模型的水平。
评分¶
- 新颖性: ⭐⭐⭐⭐ "轨迹过拟合"诊断 + 延迟反馈训扰动头的组合在 VLA TTA 里是清新角度,但各组件单看(数据增强、REINFORCE、冻结主干训小头)都不算全新。
- 实验充分度: ⭐⭐⭐⭐ LIBERO 四套件 + Atari-57 两类任务、组件/损失/预算三组消融较完整;Object 偏弱处缺深入分析。
- 写作质量: ⭐⭐⭐⭐ 动机的诊断实验讲得清楚,框架图到位;损失公式下标存在疑似 typo。
- 价值: ⭐⭐⭐⭐ verifier-free、不微调、9M 参数即可上线,对资源受限的具身部署有实用价值。