Self-Improving Vision-Language-Action Models with Data Generation via Residual RL¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=eUGoqrZ6Ea
代码: 项目页 https://www.wenlixiao.com/self-improve-VLA-PLD
领域: 机器人 / 具身智能 / VLA / 强化学习
关键词: 视觉-语言-动作模型, 残差强化学习, 自改进, 数据生成, 监督微调

一句话总结¶

本文提出 PLD（Probe-Learn-Distill） 三阶段后训练框架：冻结 VLA 主干、用轻量残差 RL 在基础策略失败的状态上"接管"练出专家，再用"先让基础策略走几步、再让残差专家接管"的混合 rollout 自动采集与部署分布对齐的恢复数据，最后用标准 SFT 蒸馏回基础模型；无需任何额外人类示教，就在 LIBERO 上逼近 99% 成功率、SimplerEnv 提升 50%+，真机 Franka/YAM 任务 100% 成功并连续自主运行 1 小时。

研究背景与动机¶

领域现状：监督微调（SFT）已成为大型视觉-语言-动作（VLA）模型事实上的后训练范式——先在海量异构机器人/视觉-语言数据上预训练，再用少量针对目标任务的高质量遥操作示教 SFT，把通才模型特化到具体任务与本体上。这套从大语言模型借来的"预训练 + SFT"配方在 OpenVLA、π0 等模型上被广泛采用。

现有痛点：把语言领域的配方搬到机器人上有一个独特困难——高质量机器人示教既昂贵又费人力，难以规模化。更关键的是，遥操作采集管线与最终部署的 VLA 策略是解耦的：人类操作员凭经验去预判并纠正失败模式，但他们的示教很少能反映策略在部署时真正会遇到的状态分布。结果就是 SFT 能可靠提升训练任务上的表现，却说不清这些增益能否迁移到新任务、新环境。

核心矛盾：数据采集不应该"无视基础策略"。采数据的策略和被改进的通才必须交互，这样探索才能利用通才已有的先验知识、采到的数据才能与它的轨迹分布对齐。一个自然的实现思路是用 RL 训出任务专家来引导采数据，但直接上 RL 又撞上两道墙：① 语言条件操作任务奖励稀疏，RL 训练既不稳定又样本低效；② 脱离通才单独训专家会引入分布失配，且专家收敛后行为往往过于单一，缺乏 SFT 所需的状态覆盖多样性。

本文目标：让 VLA 用 RL 自动整理的数据自我改进，把人力降到最低，并且这种自整理训练在分布内、分布外都能匹配甚至超过基于人类专家（oracle）遥操作数据的微调。

核心 idea：用一个冻结的 VLA 通才当先验来 warm-start 探索，只训练一个轻量残差高斯策略去"接管"失败状态（既好训又不偏离基础行为太远）；采数据时刻意让基础策略先走、专家后接管，把数据钉在通才的部署分布附近并捕捉恢复行为；最后用普通 SFT 蒸馏回去——RL 生成的、与策略对齐的数据，能胜过只靠遥操作的示教。

方法详解¶

整体框架¶

PLD 是一个即插即用的三阶段后训练管线，输入是一个已有的中等水平 VLA 通才 \(\pi_b\)（如 π0 或 OpenVLA），输出是一个在目标任务上显著更强、且保留泛化能力的同一个通才。三个阶段环环相扣：Probe（探查）→ Learn（学专家）→ Distill（蒸馏）。

第一阶段冻结 VLA 主干，为每个任务训练一个轻量残差动作策略 \(\pi_\delta\)，用样本高效的离线策略（off-policy）RL，让它能在任意状态"接管"基础策略并把成功率推到 99% 以上——这一步本质是在用专家探查 VLA 通才的失败区域。第二阶段用混合 rollout 自动采数据：先让基础策略走随机步数（"base policy probing"），再让残差专家接管完成任务，从而把残差干预偏置到基础策略常访问的状态上，既缓解分布漂移又捕捉到从次优区域恢复的行为。第三阶段把这些为多任务整理好的轨迹用标准 SFT 蒸馏回基础模型，这一步与动作头架构无关，flow-matching 头和自回归 token 头都适用。最后把微调后的通才零样本部署到各种操作任务上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["冻结的 VLA 通才 πb<br/>(中等水平先验)"] --> B["残差 RL warm-start<br/>训轻量专家 πδ 接管失败态"]
    B --> C["base policy probing<br/>基础策略先走→专家接管<br/>采恢复型对齐数据"]
    C --> D["SFT 蒸馏<br/>多任务数据回灌通才<br/>(flow/自回归头通用)"]
    D -->|零样本部署| E["更强的同一个 VLA 通才"]
    E -.数据飞轮.-> B

关键设计¶

1. 残差 RL + 策略先验 warm-start：把"难训的基础策略"换成"好训的残差高斯策略"

直接对表达力强的基础策略（如 flow 动作头）做 RL 微调来最大化 Q 值极其困难，而且资源消耗巨大——OpenVLA-OFT 在 LIBERO 上 batch size 8 单卡就要约 62.5 GB 显存。本文因此采取解耦方案：冻结基础策略 \(\pi_b\)，只训练一个轻量残差动作模块 \(\pi_\delta(\cdot\,|\,s, a_b)\)，它以基础动作 \(a_b\sim\pi_b\) 为条件，输出一个增量动作，组合策略为 \(\bar\pi(\cdot|s)=\pi_b(\cdot|s)\,\pi_\delta(\cdot|s,a_b)\)，最终执行 \(\bar a = a_b + a_\delta\)。残差是个简单的高斯策略，可以用任何现成 off-policy RL 算法轻松训练。

为了在稀疏奖励下做到样本高效，作者沿用"带先验数据的 off-policy actor-critic"思路，维护离线、在线两个 replay buffer：先用基础策略的成功 rollout \(\mathcal{B}_{\text{offline}}=\{\tau_1,\tau_2,\dots\}\) 填满离线 buffer（相当于一次重要性采样，只保留成功尝试），训练时两个 buffer 对称回放（mini-batch 各取一半），保证价值函数持续在高价值状态-动作对上训练。Q 函数按 TD-learning 更新：\(Q_{\bar\pi}(s_t,\bar a_t)\leftarrow r(s,a)+\gamma\,\mathbb{E}_{s_{t+1}}[Q^{\text{target}}_{\bar\pi}(s_{t+1},\bar a_{t+1})]\)。为了一开始别偏离 \(\pi_b\) 太远，增量动作幅度被一个调度器缩放到 \([-\xi,\xi]\)（\(\xi\in[0,1]\)）；同时用纯 \(\pi_b\) 采数据做 warm-up，Q 函数用 Cal-QL 这类保守目标初始化以缓解遗忘。值得注意的是，作者不在策略损失里显式加行为约束，从而让最终专家 \(\bar\pi\) 较少受数据质量或基础策略水平的拖累。这套设计让一个本身泛化不完美、但能做出"合理尝试"的基础策略，成为探索的有效起点。

2. base policy probing 混合 rollout：让采到的数据钉在部署分布上并带恢复行为

如果直接拿训好的 RL 专家去采数据，问题在于专家数据"过于最优"——动作果断、几乎不犹豫、用最短路径完成任务，但这种单峰窄分布会把分布外状态和失败状态严重欠采样。纯粹堆这种专家数据非但不涨点，反而让通才在上面过拟合，损害鲁棒性和泛化。

本文的解法是混合采集方案：先让基础策略 rollout 随机步数，再让学到的残差 RL 专家接管，得到的轨迹形如 \(\tau_{\text{demo}}=\{(s_1,a_{b,1}),\dots,(s_{t-1},a_{b,t-1})\}\cup\{(s_t,a_{b,t}+\bar a_t),\dots\}\)——前半段是基础策略真实会走的轨迹，后半段是专家从潜在次优区域恢复的行为。这一步被称作 base policy probing。更进一步，作者还用这种"基础策略探查"给出的初始状态分布 \(s_0\sim p_0^{\pi_b}\) 去训练 RL 专家，提升其鲁棒性；探查步只作状态初始化、不进 replay buffer。探查时长（probing horizon）越长，episode 越长、成功轨迹间多样性越大，微调表现随之提升并最终饱和。直观地说，专家数据聚集在基础策略的尝试附近、又包含各种恢复行为，蒸馏时遗忘更少——这呼应了 LLM 微调里"KL 散度可作遗忘指标"的观察，PLD 数据天然偏向基础策略、KL 小。

3. 架构无关的 SFT 蒸馏：把 RL 专家技能回灌成同一个通才

第三阶段把为多任务整理好的混合轨迹用标准 SFT蒸馏回基础模型，关键在于这一步与动作头架构解耦：对自回归/token 头，用动作 token 序列的 NLL 损失 \(\mathcal{L}_{\text{AR}}(\theta)=-\mathbb{E}_{k}\,[\log p_\theta(u_k\,|\,u_{<k},x)]\)；对 diffusion 头用 score-matching MSE；对 flow-matching 头用 L2 flow-matching 损失。也就是说，OpenVLA（自回归）和 π0（flow-matching）都能直接套用，不需要为不同架构改采集或蒸馏流程。蒸馏后的通才不仅吸收了专家的任务能力，还因为数据带有恢复样本而超过了单个专家的平均水平，把任务特定能力有效转移进了基础 VLA，并在更大的 PLD 数据集上单调提升分布内成功率。三阶段闭环后，这个更强的通才又能作为新一轮 probing 的起点，形成自改进的"数据飞轮"。

实验关键数据¶

主实验¶

LIBERO 分布内微调（Table 1，50 episodes/任务评测，π0 与 OpenVLA 两种架构）：

基础模型	配置	Spatial	Object	Goal	Avg
π0 (flow)	Baseline SFT	95.2	97.6	87.4	93.4
π0 (flow)	w/ PLD	97.7	98.5	95.3	97.2 (+3.8)
OpenVLA (AR)	Baseline OFT	92.9	99.1	83.25	91.8
OpenVLA (AR)	w/ PLD	99.5	99.1	98.9	99.2 (+7.4)

两种架构、所有 suite 上 PLD 都带来一致的绝对增益，且不需要任何额外人类示教。Goal suite 提升最大（π0 +7.9、OpenVLA +15.7），说明 PLD 在更依赖恢复行为的任务上收益更明显。配合 SimplerEnv，PLD 整体带来 50%+ 的性能增益。

消融实验¶

对比维度	配置	关键发现
RL 算法	PLD vs RLPD（无基础策略引导）/ WSRL（仅离线初始化）	LIBERO-90 的 8 个任务上 PLD 大幅领先，低交互预算下样本效率显著；250k 步内每个任务渐近性能 >95%（120+ 任务）
数据来源（泛化）	PLD vs Human vs base-policy rollout（0-1 REINFORCE）	仅 10% 任务覆盖时 PLD 仍有 24.4% 未见任务零样本成功率；human-only 分布外相近但分布内更弱；base-policy rollout 分布内弱且无法泛化
probing 机制	有 probing vs 无 probing（RL Rollout）vs Human	真机抓方块：+DPLD 30/30，+DRLPD 16/30，+DHuman 10/30

关键发现¶

probing 是泛化的关键：人类示教和 RL rollout 都没访问过"方块被推到左上角卡住"这类角落状态，只有 PLD 显式探查基础策略、生成覆盖这些情况的多样轨迹，因此真机抓方块能稳定从失败中恢复（30/30），而其他数据训练的策略会把方块推进角落卡死。
专家数据并非越多越好：纯 RL 专家数据虽最优但分布窄，单纯堆量会让通才过拟合、反而损害鲁棒性；混合 probing 数据兼顾最优性与覆盖度。
PLD 数据 > 遥操作数据：在相同数据量、训练预算下，RL 生成的策略对齐数据在分布内、分布外都能匹配甚至超过人类 oracle 遥操作数据，且零人工。
真机长程自主：YAM 双臂 GPU 插拔任务用奖励分类器驱动的四阶段状态机协调，蒸馏后系统可连续 1 小时无人干预运行完整循环——单阶段并非 100% 成功，但系统能从失败恢复，让数据飞轮自主转起来。

亮点与洞察¶

"残差接管"把难问题降维：直接 RL 微调表达力强的 flow/AR 通才又贵又不稳，PLD 改成只训一个轻量高斯残差去修正基础动作，既能用任意现成 off-policy 算法、又天然不偏离基础行为太远——这是"用小模块撬动大模型"的可复用范式。
数据采集与部署分布对齐是核心洞见：把"先让基础策略走、再让专家接管"这一招拆开看，本质是强制让训练数据的状态分布覆盖部署时真会遇到的状态，并补上人类/纯专家都不会去的恢复样本，直接对症"遥操作与部署解耦"的痛点。
架构无关让框架真正即插即用：蒸馏只用标准 SFT，flow-matching 与自回归头共用同一套采集/蒸馏流程，意味着 PLD 可以挂到几乎任何现有 VLA 上。
自改进飞轮：RL 生成的对齐数据胜过遥操作，且更强的通才又能成为下一轮 probing 的起点，给出了一条"少人力、可规模化"的 VLA 后训练路径。

局限与展望¶

依赖一个能做出"合理尝试"的基础策略：warm-start 探索的前提是 \(\pi_b\) 在目标任务上能拿到非零成功率，对完全陌生、基础策略 0 成功率的任务，残差接管的起点可能不成立。
奖励工程仍存在：真机长程任务需要训练奖励分类器来驱动状态机协调多阶段，这部分仍需任务特定设计，并非完全自动。
probing horizon 等超参需调：探查时长与增量幅度 \(\xi\) 由调度器控制，论文显示性能随 horizon 增大饱和，但最优区间需经验确定。
多本体迁移、持续在机学习、安全约束采集被作者列为未来方向——当前主要在单本体、单批任务集上验证。

评分¶

新颖性: ⭐⭐⭐⭐ "残差接管 + base policy probing 采对齐恢复数据"组合清晰且切中遥操作-部署解耦的真痛点。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 LIBERO/SimplerEnv 两种 benchmark、π0/OpenVLA 两种架构、Franka/YAM 两套真机，并有大规模消融与泛化分析。
写作质量: ⭐⭐⭐⭐ 三阶段叙事清楚，图示与失败模式可视化到位；部分公式与超参细节散落附录。
价值: ⭐⭐⭐⭐⭐ 给出零额外人力、架构无关、可规模化的 VLA 自改进后训练配方，真机 1 小时自主运行很有说服力。