Test-Time Perturbation Tuning with Delayed Feedback for Vision-Language-Action Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/zhoujiahuan1991/CVPR2026-PDF
领域: 机器人 / 具身智能 / VLA
关键词: 视觉-语言-动作模型, 测试时自适应, 轨迹过拟合, 延迟反馈, 数据增强

一句话总结¶

针对 VLA 在物体微小位姿变化下就崩的"轨迹过拟合"问题，本文提出 PDF——一个无需 verifier、不更新主干参数的测试时自适应框架：用不确定性自适应分配的数据增强+多视角投票抑制虚假相关，再用 episode 结束后的延迟反馈训练一个轻量扰动头来纠正模型的过度自信，在 LIBERO 上成功率 +7.4%、Atari 上人类归一化分 +0.10。

研究背景与动机¶

领域现状：视觉-语言-动作模型（VLA，如 OpenVLA、Gato/Jat、RT-2）把视觉、语言、动作联合建模，通过多模态预训练把指令翻译成可执行动作，在机器人操作和像素控制任务上展现出通用具身智能的雏形。

现有痛点：这些模型对语义上无关紧要的微小环境变化异常脆弱——比如物体位姿稍微挪一点，成功率就大幅下降甚至任务失败。作者通过诊断实验揭示了一个有趣的行为偏差：让机械臂去抓碗，它可能抓不到却继续朝盘子移动；即使把目标碗用 mask 遮掉，机械臂依然复现出几乎一样的动作轨迹。这说明策略根本没有"看着目标做决策"，而是在背诵训练时见过的轨迹。

核心矛盾：作者把这个失败模式命名为轨迹过拟合（trajectory overfitting）——VLA 在训练时记住了与成功相关的轨迹特定视觉/上下文模式（夹爪外观、背景纹理等），把"动作"和"实体"之间的虚假相关当成了决策依据，而非真正理解任务语义。一旦测试输入与历史轨迹相似，它就照搬记忆中的次优动作。

现有方案的不足：缓解这个问题的自然思路是测试时自适应（TTA）。但 verifier-based TTA（如 RoboMonkey、VGPS）需要预训练一个打分器、反复 rollout，开销大且难泛化到新环境；verifier-free TTA 又依赖熵最小化这类自监督置信度指标——当模型本身预测被误校准（对错误动作过度自信）时，熵最小化反而会进一步放大错误 logit，把模型推向更自信的错误决策。

切入角度：作者发现一个关键现象——对像素观测做受控数据增强，能让夹爪重新把注意力聚焦回目标碗、恢复正确执行（论文 Fig.1d）。这说明扰动输入分布本身就能打破轨迹过拟合。同时，episode 结束后环境会给出"成功/失败/累计奖励"这类延迟反馈，这是比自监督置信度更可靠的监督信号，只是来得晚。

核心 idea：用"不确定性驱动的数据增强+投票"在线打破虚假相关，再用"延迟反馈训练一个轻量扰动头"回溯性地纠正动作 logit 的过度自信——全程冻结 VLA 主干，不做微调、不要 verifier。

方法详解¶

整体框架¶

PDF（Perturbation learning with Delayed Feedback）是一个即插即用、verifier-free、不更新主干参数的测试时自适应框架，由两大组件串成一条"在线决策 + 离线回溯"的闭环。

在线阶段：每个时间步 \(t\)，VLA 接收像素观测 \(o_t\) 和指令 \(c_t\)，先估计当前决策的动作 logit 不确定性 \(U_t\)，据此自适应分配一个数据增强预算 \(N_t\)；原始观测和增强观测一起编码成多模态特征 \(f_t\)，分别送进两个并联的头——LM head 产出决策 logit，扰动头（P head）产出 logit 扰动；二者相加得到最终 logit，detokenize 成候选动作集，再由多数投票选出最终动作 \(a_t\)。特征和投票后的最终 logit 被存进 rollout buffer \(D\)。

离线阶段：一个 episode 结束后，环境给出延迟反馈 \(r\)（成功/失败/奖励）；从 buffer 采一个 batch，用 PDF 损失（含 REINFORCE 项 + 门控 KL 正则）只更新 P head，所有 VLA 参数（视觉编码器、token embedding、causal transformer、LM head）始终冻结。这样把"昂贵但可靠的环境反馈"以极低成本（仅 9M 可训练参数、无需对主干求梯度）回灌到下一个 episode 的决策里。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["像素观测 + 指令"] --> B["不确定性投票<br/>U_t 自适应分配增强预算 N_t"]
    B --> C["多视角编码<br/>LM head + P head 相加"]
    C --> D["最终 logit → 候选动作 → 多数投票"]
    D -->|执行并存入 rollout buffer| E["环境交互"]
    E -->|episode 结束·延迟反馈 r| F["延迟反馈引导自适应<br/>PDF loss 只更新 P head"]
    F -.->|纠正后的扰动回灌下一 episode| C

关键设计¶

1. 不确定性驱动的动作投票：把宝贵的增强预算只花在"模型自己也拿不准"的步上

直接对每一步都做大量数据增强能抑制轨迹过拟合，但增强会带来显著推理开销，全程平铺成本太高；而在序贯决策里，单个高不确定性动作就可能直接导致整段任务失败。PDF 因此先量化每步的预测不确定性，定义为动作分布的归一化香农熵：

\[U_t = -\frac{1}{\log K}\sum_{k=1}^{K} p(a_k \mid s_k)\log p(a_k \mid s_k)\]

其中 \(K\) 是可能的动作 token 数，\(p(a_t = a_k \mid s_t) = \mathrm{softmax}(z_t)_k\)。然后按不确定性自适应决定增强预算 \(N_t = N_{\max}\cdot U_t\)：模型越没把握，就采样越多增强视角。原始观测 \(o_t\) 与 \(N_t\) 个增强视角 \(\{T_j(o_t)\}\) 各自编码、各出一组候选动作，最终用多数投票选 \(a_t\)。这等于把"模型确定的步快速放行、不确定的步多看几眼再投票"，既打破了对单一记忆轨迹的依赖，又把算力精准投到刀刃上——实验中固定 \(N_{\max}=3\) 即可（预算再大反而因噪声累积掉点）。

2. 延迟反馈引导的扰动头自适应：用 episode 结束后才到的真反馈，回溯性地纠正过度自信

verifier-free TTA 的老毛病是只能靠自监督置信度（如熵最小化）自适应，而模型一旦对错误动作过度自信，这类信号会把错误越推越自信。PDF 改用一个更可靠但来得晚的信号——episode 结束后的延迟反馈 \(r\)。具体做法是给最终 logit 加一个可学习的扰动项：

\[\tilde{z}_t = h_\phi(f_t) + \lambda h_\theta(f_t)\]

其中 \(h_\phi\) 是冻结的 LM head，\(h_\theta\) 是唯一可训练的扰动头（P head），\(\lambda\) 是权重。episode 结束拿到 \(r\) 后，从 buffer 采 batch 重算带梯度的 \(\tilde{z}_b\)，用如下损失只更新 P head：

\[L_{PDF} = -(r-b)\log\pi_\phi + \lambda_{KL}\,\mathbb{I}[r>b]\,\mathrm{KL}(\pi_\phi \,\|\, \tilde{\pi})\]

第一项是 REINFORCE 风格目标：当反馈 \(r\) 超过基线 \(b\)（即这条扰动后策略 \(\tilde{\pi}\) 表现好）时，提高其动作的似然，把扰动推向成功方向、压制失败方向。第二项 KL 正则仅在正反馈 \(r>b\) 时由指示函数 \(\mathbb{I}\) 门控开启，用来稳定更新、加速收敛；而 \(r\le b\) 时关掉 KL，给模型留出探索空间。这样把"哪条动作真的导致了成功"这种 ground-truth 级信号，以仅训练 9M 参数、不碰主干梯度的代价，转化为对 logit 的回溯性修正——这正是它能纠正 entropy-minimization 纠不了的过度自信的根本原因。

⚠️ 损失公式中 \(\log\pi_\phi\) 与 \(\mathrm{KL}(\pi_\phi\|\tilde\pi)\) 的下标 \(\phi\) 与正文"扰动后策略 \(\tilde\pi\)"的表述略有出入，疑为原文 typo，含义以"提高扰动策略中成功动作的似然、并用 KL 约束其不偏离过远"为准，⚠️ 以原文为准。

损失函数 / 训练策略¶

训练目标即上面的 \(L_{PDF}\)（REINFORCE 项 + 门控 KL）。整个测试时自适应只优化 P head \(h_\theta\)，VLA 全部参数冻结；优化在每个 episode 结束后从 rollout buffer 采 batch 进行。base 模型 LIBERO 上用 OpenVLA、Atari 上用 Jat（Gato 开源实现），各自先训练 50 episode 再评估，全部实验在单卡 Tesla V100-32GB 上完成。增强预算上限 \(N_{\max}=3\)。

实验关键数据¶

主实验（LIBERO 四套件成功率）¶

方法	发表	参数	Spatial	Object	Goal	Long	Avg. SR↑	平均排名↓
OpenVLA†	CoRL'24	-	0.85	0.64	0.76	0.53	0.69	5.8
TraceVLA	ICLR'25	130M	0.85	0.85	0.75	0.54	0.75	6.5
OpenVLA-DPO	Arxiv'25	130M	0.84	0.89	0.79	0.53	0.76	4
SFT-4LIBERO	Arxiv'25	130M	0.85	0.87	0.77	0.55	0.76	3.5
MG-Select	Arxiv'25	130M	0.82	0.73	0.73	0.55	0.71	6
PDF (Ours)	-	9M	0.90	0.72	0.86	0.59	0.77	2.5

PDF 以最少的可训练参数（9M vs 93–130M）拿到最佳平均成功率（0.77）和最佳平均排名（2.5）。长程任务（Long）提升最明显（0.59，比最强 baseline 高 +0.04），说明它对序贯决策质量的提升最实在；比同为 verifier-free 的 MG-Select 平均 SR 高近 6 个点。Object 套件是它的弱项（0.72），原因见消融。Atari-57 上 HNS 达 1.07，比 Jat base 的 0.97 高 +0.10，57 个游戏里 47 个有正向提升（BOXING +0.60 最高）。

消融实验¶

组件消融（DA = 数据增强，DF = 延迟反馈，LIBERO）

配置	关键表现	说明
OpenVLA (baseline)	较低	无任何 TTA
PDF w/o DA	多数任务超过 baseline	只用原始观测学扰动、无数据增强
PDF w/o DF	Object 掉到 0.50、Goal 掉到 0.77	只靠多视角投票、无延迟反馈，明显下滑
PDF (Full)	四套件平均最高、最稳	DA+DF 协同

损失项消融（人类归一化分 / 成功率，跨五个 benchmark）

配置	Atari	Spatial	Object	Goal	Long
OpenVLA	0.97	0.85	0.62	0.82	0.56
w/o KL	1.04	0.86	0.65	0.82	0.57
w/o RE	0.96	0.89	0.69	0.85	0.58
PDF (Full)	1.07	0.89	0.72	0.86	0.59

关键发现¶

DF 是稳健性的关键：去掉延迟反馈（w/o DF）在 Object（0.50）和 Goal（0.77）上大幅下滑，说明物体操作和目标条件任务尤其依赖真实反馈来纠偏；而 w/o DA 仍能超过 baseline，二者协同才达到最佳——DA 负责在线打破虚假相关，DF 负责离线纠正过度自信。
两个损失项都有用，KL 影响更大：REINFORCE 项和门控 KL 各去其一都掉点，去掉 KL 对最终结果影响更显著，印证 KL 正则对稳定测试时更新的作用。
增强不是越多越好：增强预算从 0 增到 4，五个 benchmark 普遍单调掉点——预算越大噪声累积越严重。小预算（max=3）才是打破轨迹过拟合与引入低质视角之间的最佳折中，作者据此建议按 benchmark 自适应设上限而非一味拉满。

亮点与洞察¶

把"轨迹过拟合"诊断得很到位：mask 掉目标物体后机械臂仍复现相同动作——这个实验直观证明了 VLA 在背诵轨迹而非理解语义，比泛泛说"鲁棒性差"有说服力得多，是全文动机的基石。
不确定性当"增强预算分配器"很巧：把香农熵既当"该不该多看几眼"的开关、又当增强数量的连续旋钮，等于自动在确定的步省算力、不确定的步加保险，避免了对每步无脑增强的开销。
延迟反馈 + 冻结主干 + 轻量扰动头的组合可迁移：当下游有"episode 级稀疏反馈但无法/不愿微调大模型"的场景（很多机器人、推荐、对话 agent 都是），这套"冻结主干、只训一个小扰动头、用 REINFORCE+门控 KL 回灌反馈"的范式可以直接借用。
9M 参数、不碰主干梯度：相比动辄 130M 且要对主干求梯度的 baseline，部署成本和显存友好度高一个量级。

局限与展望¶

依赖延迟反馈信号可得：方法成立的前提是 episode 结束能拿到成功/失败/奖励。完全无反馈或反馈极稀疏/噪声大的真实环境里，DF 这一支可能失效，退化成只剩投票。
Object 套件反而偏弱：主表里 PDF 在 Object 上只有 0.72，落后多个 baseline，论文未深入分析为何物体识别类任务受益较小，可能与该套件虚假相关本就不严重有关。
延迟带来的信用分配粗糙：反馈是 episode 级的，但 PDF 用它更新整段 buffer 的扰动，对"具体哪一步动作该负责"的信用分配较粗，长程复杂任务里可能稀释纠正信号。
增强变换是手工设定的：变换集合 \(T\) 固定，未探索按任务/不确定性自适应选择增强类型，这块还有提升空间。

评分¶

新颖性: ⭐⭐⭐⭐ "轨迹过拟合"诊断 + 延迟反馈训扰动头的组合在 VLA TTA 里是清新角度，但各组件单看（数据增强、REINFORCE、冻结主干训小头）都不算全新。
实验充分度: ⭐⭐⭐⭐ LIBERO 四套件 + Atari-57 两类任务、组件/损失/预算三组消融较完整；Object 偏弱处缺深入分析。
写作质量: ⭐⭐⭐⭐ 动机的诊断实验讲得清楚，框架图到位；损失公式下标存在疑似 typo。
价值: ⭐⭐⭐⭐ verifier-free、不微调、9M 参数即可上线，对资源受限的具身部署有实用价值。