COVR: Collaborative Optimization of VLMs and RL Agent for Visual-Based Control¶
会议: AAAI 2026
arXiv: 2601.06122
代码: 无(截至 2026-03)
领域: 多模态VLM / Agent / 强化学习
关键词: VLM-RL协同优化, 视觉强化学习, 知识蒸馏, 动态数据筛选, 自动驾驶
一句话总结¶
提出 VLM 与 RL 双向协同优化框架 COVR:RL 生成的高质量交互数据用于微调 VLM,增强后的 VLM 反过来通过 action prior 指导 RL 策略学习,在 CARLA 和 DMControl 上取得 SOTA。
背景与动机¶
视觉强化学习(Visual RL)在高维观测空间下面临样本效率低下的困境。现有的 VLM 辅助 RL 方法大致分两类:(1) 将 VLM 直接作为策略网络微调(VPF),计算开销大且部署困难;(2) 冻结 VLM 进行知识蒸馏(DPL/APL/DGC),将 VLM 的先验知识传递给轻量策略网络。但后者的关键问题在于 VLM 本身在目标任务上可能缺乏足够的领域知识,冻结不更新的 VLM 会传播不准确的推理结果,产生负面指导。
本文的核心洞察是:VLM 和 RL agent 具有高度互补的优势——VLM 有语义推理和泛化能力,RL 能在特定场景中发现高质量的状态-动作对。因此应该建立一个双向增强的闭环,而非单向的知识迁移。
核心问题¶
如何让 VLM 和 RL agent 在训练过程中互相增强?具体而言: 1. RL 训练产生的数据充满噪声和不一致性,如何从中筛选出高质量样本来有效微调 VLM? 2. RL 的随机探索导致相似观测下产生截然不同的高回报动作(如直道上"加速前进" vs "减速右转"),如何避免这种不一致性误导 VLM 的监督微调?
方法详解¶
整体框架¶
COVR 是一个迭代式的双向优化框架,包含两个交替进行的阶段:
阶段一:VLM-Guided RL(VLM 指导 RL)
VLM 接收当前视觉观测和任务提示,推理输出动作语义,通过字符串解析转换为连续动作 \(a_{v,t}\)。RL 策略网络生成的原始动作为 \(a_{r,t}\)。训练时只有 \(a_{r,t}\) 与环境交互,\(a_{v,t}\) 作为辅助监督信号。测试时完全不需要 VLM,只用轻量策略网络推理,满足实时性需求。
阶段二:RL-Tuned VLM(RL 数据微调 VLM)
收集 RL 交互产生的轨迹数据,经 EDDF 筛选和 RALW 加权后,用 LoRA 微调 VLM,增强其在目标任务上的语义推理能力。微调后的 VLM 再为下一轮 RL 训练提供更准确的 action prior。
关键设计¶
-
Exploration-Driven Dynamic Filter (EDDF):基于探索程度的动态数据筛选模块。维护一个专用缓存 \(\mathcal{D}_f\) 存储轨迹数据 \((o_i, a_{r,i}, g_i)\)。核心流程:(a) 对 return 值做 Z-score 标准化;(b) 根据策略熵 \(\varepsilon_t\) 动态调整筛选阈值 \(\tau = \text{Median}(\mathcal{G}_z) + \text{Sigmoid}(\varepsilon_t) \cdot \text{IQR}(\mathcal{G}_z)\)。训练早期策略熵高时阈值较宽松,保留更多可能有价值的低回报样本;训练后期熵降低,阈值收紧以优先选择高回报轨迹。这种设计比固定 top-k 筛选更灵活,能适应 RL 训练的不同阶段。
-
Return-Aware Adaptive Loss Weight (RALW):回报感知的自适应损失加权模块。将筛选后样本的 return 归一化到 \([-1, 1]\),负 return 样本权重置零(不学),正 return 样本获得更高权重。形式化为:\(\mathcal{L}_{\text{RALW}} = \frac{1}{N_v}\sum_{b=1}^{B} w_b \sum_{t=1}^{T} -\log p(y_{b,t} | \mathbf{x}_{b,<t})\),其中 \(w_b = \max(\bar{g}_b, 0)\)。这样模型优先学习高回报行为,同时保留 VLM 原始能力。
-
Adaptive Progressive Fine-Tuning:渐进式微调策略。微调间隔 \(\psi_c\) 随迭代次数线性增长:\(\psi_{c+1} = \psi_c + \psi_c \cdot c\)。训练初期策略不稳定时频繁更新 VLM,后期策略趋于收敛则减少更新频率。每次微调后清空 \(\mathcal{D}_f\) 重新积累。
损失函数 / 训练策略¶
- RL 策略损失:标准 SAC 损失 + VLM 正则项 \(\tilde{\mathcal{L}}_\pi = \mathcal{L}_\pi + \lambda \|a_{v,t} - a_{r,t}\|_2^2\),\(\lambda=2.0\)(CARLA)/ \(1.0\)(DMControl)
- VLM 微调损失:RALW 加权的自回归 NLL loss + label smoothing
- LoRA 微调:rank=128, alpha=256(CARLA)/16(DMControl),最多 8.26% 参数可训练
- 冷启动策略:CARLA 中延迟 2 轮微调后才启用 VLM 指导;DMControl 延迟 4 轮
- VLM 调用频率:训练时每 10 帧推理一次以减少延迟
- VLM backbone:Qwen2.5-VL-3B
实验关键数据¶
CARLA (#HW 高速公路场景)¶
| 方法类型 | 方法 | Episode Reward | Driving Distance |
|---|---|---|---|
| Vanilla RL | SAC | 69 ± 46 | 91 ± 56 |
| Vanilla RL | ResAct | 227 ± 36 | 236 ± 40 |
| VLM-assisted | DGC | 208 ± 13 | 234 ± 15 |
| VLM-assisted | DPL | 113 ± 63 | 124 ± 67 |
| Only VLM | VBE | -11 ± 5 | 11 ± 4 |
| Ours | COVR | 248 ± 81 | 259 ± 85 |
CARLA (#GP 鬼探头行人场景)¶
| 方法类型 | 方法 | Episode Reward | Driving Distance |
|---|---|---|---|
| Vanilla RL | ResAct | 212 ± 54 | 216 ± 55 |
| VLM-assisted | DGC | 146 ± 14 | 169 ± 18 |
| Ours | COVR | 235 ± 89 | 237 ± 89 |
DMControl(6 个常用任务,100K 步)¶
| 任务 | COVR | ResAct | SVEA | DrQ |
|---|---|---|---|---|
| Cartpole, Swingup | 872 ± 2 | 819 ± 44 | 727 ± 86 | 759 ± 92 |
| Reacher, Easy | 969 ± 18 | 917 ± 59 | 811 ± 115 | 601 ± 213 |
| Cheetah, Run | 504 ± 13 | 503 ± 42 | 375 ± 54 | 344 ± 67 |
| Walker, Walk | 802 ± 25 | 772 ± 65 | 747 ± 65 | 612 ± 164 |
| Finger, Spin | 976 ± 9 | 974 ± 42 | 859 ± 77 | 901 ± 104 |
| Ball in cup, Catch | 960 ± 23 | 948 ± 44 | 915 ± 71 | 913 ± 53 |
DMControl Hard Tasks(500K 步)¶
| 任务 | COVR | ResAct | TACO |
|---|---|---|---|
| Hopper, Hop | 188 ± 9 | 99 ± 49 | 112 ± 42 |
| Walker, Run | 485 ± 25 | 467 ± 27 | 355 ± 89 |
| Pendulum, Swingup | 792 ± 82 | 618 ± 380 | 485 ± 167 |
跨基线兼容性(在不同 base 上加 COVR)¶
| 基线 | Cartpole | Cheetah | Walker |
|---|---|---|---|
| SAC | 237→740 | 118→156 | 95→194 |
| DeepMDP | 389→793 | 306→352 | 384→397 |
| RAD | 694→872 | 364→504 | 552→802 |
消融实验要点¶
在 #HW 场景上(完整 COVR: ER=248, DD=259):
- 去掉 EDDF(随机筛选):ER 降至 144(-104),说明动态筛选至关重要
- 固定 top-80%/90%/95% 替代 EDDF:ER 分别为 204/217/192,均不如动态方法
- 去掉 Z-score 标准化:ER 降至 210
- 用即时奖励代替累计 return:ER 降至 221
- 用 Q-value 代替 return:ER 降至 200(早期 Q-value 不稳定)
- 去掉 RALW:ER 降至 204(-44)
- 随机权重代替 return 权重:ER 降至 184
- 用高回报样本直接训练 RL(无 VLM):ER=183/175,证明 VLM 的泛化指导不可替代
VLM 迭代性能提升¶
VLM 推理性能随微调迭代逐步提升:Iteration 0 → 5,ER 从 -13 提升至 97;RL 策略性能相应从 19(Iter 1)提升至 248(final)。
不同 VLM 对比¶
| VLM | ER | DD |
|---|---|---|
| Qwen2-VL-2B | 236 ± 69 | 246 ± 72 |
| Qwen2.5-VL-3B | 248 ± 81 | 259 ± 85 |
| LLaVA-1.5-7B | 228 ± 115 | 244 ± 116 |
有趣的是 7B 的 LLaVA 不如 3B 的 Qwen2.5-VL,说明 VLM 的基础视觉理解能力比参数量更重要。
亮点¶
- 双向优化闭环是核心创新:打破了现有"冻结 VLM → 单向蒸馏"的范式,让 VLM 和 RL 互相增强、螺旋上升。这个思路简洁且有效。
- 测试时无需 VLM:训练时利用 VLM 的重知识,测试时只用轻量策略网络,兼顾了性能和效率(策略网络仅 10M 显存、0.0012s 推理 vs VLM 的 8344M、4.4s)。
- EDDF 的探索感知设计:用策略熵来动态调整筛选阈值是很巧妙的——早期多探索时保留更多样本避免遗漏有价值的低回报数据,后期严格筛选。
- 渐进式微调减少计算开销:间隔线性增长的设计简单但有效,避免了后期不必要的频繁微调。
- 跨基线兼容性好:可以"即插即用"地增强 SAC/DeepMDP/RAD 等不同基线。
局限与展望¶
- 方差偏大:COVR 在 CARLA 上的标准差(±81/±89)明显高于 DGC(±13/±14)和 ResAct(±36/±40),虽然均值最高但稳定性不足,几个种子之间差异大。
- VLM 规模受限:受计算资源限制只用了最大 3B 的 VLM。作者也承认更大的 VLM 可能带来更丰富的先验。
- 仅利用动作语义:当前只从 VLM 中提取 action 级别的指导,没有利用 VLM 内部的推理链(chain of reasoning),可能浪费了 VLM 的中间推理能力。
- 无时序建模:VLM 的每次推理基于单帧画面,缺乏对连续观测序列的建模,在动态场景中可能产生不一致的推理。
- RL 数据质量依赖初始探索:即使有冷启动策略,早期 RL 数据仍不可避免地含噪,LoRA 微调后的 VLM 仍"不完美"。
- 评估环境有限:主要在 CARLA 和 DMControl 上验证,缺乏机器人操作等真实物理任务的评估。
- 未开源代码:可复现性存疑。
与相关工作的对比¶
| 对比维度 | COVR | DGC (CVPR25) | VPF (直接微调 VLM) |
|---|---|---|---|
| VLM 角色 | 迭代微调 + 指导 RL | 冻结 VLM 蒸馏 | VLM 就是策略网络 |
| 是否更新 VLM | ✅ 用 RL 数据 LoRA 微调 | ❌ 冻结 | ✅ 用 RL 损失微调 |
| 测试时推理成本 | 低(仅策略网络) | 低(仅策略网络) | 高(需要 VLM 在线推理) |
| 数据利用 | 双向:RL→VLM→RL | 单向:VLM→RL | VLM 内部训练 |
| #HW ER | 248 | 208 | 91 |
与 DGC 的核心区别在于 COVR 会动态更新 VLM,使其随 RL 训练进程逐步增强领域知识。与 VPF 的区别在于 COVR 最终部署的是轻量策略网络而非 VLM 本身。
启发与关联¶
- 双向协同优化的思路可以迁移到其他 VLM+下游任务的场景:例如 VLM 指导机器人抓取,机器人成功/失败数据反过来微调 VLM。
- EDDF 中用策略熵控制筛选阈值的思路有通用性——任何需要从噪声数据中挑选训练样本的场景都可以借鉴。
- RALW 中用 return 加权损失的设计类似于 RL 中的 advantage weighting,但应用在 VLM SFT 上是有趣的跨界尝试。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 双向协同优化的范式是有意义的贡献,但各个组件(LoRA 微调、return-weighted loss、动态阈值)本身不算特别新颖
- 实验充分度: ⭐⭐⭐⭐⭐ — 实验非常充分,CARLA + DMControl + CarRacing,消融、跨基线、跨场景泛化、不同 VLM、参数分析全都有
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式完整,但部分符号和行文略显繁琐
- 价值: ⭐⭐⭐⭐ — 为 VLM-RL 结合提供了一个简洁有效的 paradigm,但高方差和未开源是减分项