COVR: Collaborative Optimization of VLMs and RL Agent for Visual-Based Control¶

会议: AAAI 2026
arXiv: 2601.06122
代码: 无（截至 2026-03）
领域: 多模态VLM / Agent / 强化学习
关键词: VLM-RL协同优化, 视觉强化学习, 知识蒸馏, 动态数据筛选, 自动驾驶

一句话总结¶

提出 VLM 与 RL 双向协同优化框架 COVR：RL 生成的高质量交互数据用于微调 VLM，增强后的 VLM 反过来通过 action prior 指导 RL 策略学习，在 CARLA 和 DMControl 上取得 SOTA。

背景与动机¶

视觉强化学习（Visual RL）在高维观测空间下面临样本效率低下的困境。现有的 VLM 辅助 RL 方法大致分两类：(1) 将 VLM 直接作为策略网络微调（VPF），计算开销大且部署困难；(2) 冻结 VLM 进行知识蒸馏（DPL/APL/DGC），将 VLM 的先验知识传递给轻量策略网络。但后者的关键问题在于 VLM 本身在目标任务上可能缺乏足够的领域知识，冻结不更新的 VLM 会传播不准确的推理结果，产生负面指导。

本文的核心洞察是：VLM 和 RL agent 具有高度互补的优势——VLM 有语义推理和泛化能力，RL 能在特定场景中发现高质量的状态-动作对。因此应该建立一个双向增强的闭环，而非单向的知识迁移。

核心问题¶

如何让 VLM 和 RL agent 在训练过程中互相增强？具体而言： 1. RL 训练产生的数据充满噪声和不一致性，如何从中筛选出高质量样本来有效微调 VLM？ 2. RL 的随机探索导致相似观测下产生截然不同的高回报动作（如直道上"加速前进" vs "减速右转"），如何避免这种不一致性误导 VLM 的监督微调？

方法详解¶

整体框架¶

COVR 是一个迭代式的双向优化框架，包含两个交替进行的阶段：

阶段一：VLM-Guided RL（VLM 指导 RL）
VLM 接收当前视觉观测和任务提示，推理输出动作语义，通过字符串解析转换为连续动作 \(a_{v,t}\)。RL 策略网络生成的原始动作为 \(a_{r,t}\)。训练时只有 \(a_{r,t}\) 与环境交互，\(a_{v,t}\) 作为辅助监督信号。测试时完全不需要 VLM，只用轻量策略网络推理，满足实时性需求。

阶段二：RL-Tuned VLM（RL 数据微调 VLM）
收集 RL 交互产生的轨迹数据，经 EDDF 筛选和 RALW 加权后，用 LoRA 微调 VLM，增强其在目标任务上的语义推理能力。微调后的 VLM 再为下一轮 RL 训练提供更准确的 action prior。

关键设计¶

Exploration-Driven Dynamic Filter (EDDF)：基于探索程度的动态数据筛选模块。维护一个专用缓存 \(\mathcal{D}_f\) 存储轨迹数据 \((o_i, a_{r,i}, g_i)\)。核心流程：(a) 对 return 值做 Z-score 标准化；(b) 根据策略熵 \(\varepsilon_t\) 动态调整筛选阈值 \(\tau = \text{Median}(\mathcal{G}_z) + \text{Sigmoid}(\varepsilon_t) \cdot \text{IQR}(\mathcal{G}_z)\)。训练早期策略熵高时阈值较宽松，保留更多可能有价值的低回报样本；训练后期熵降低，阈值收紧以优先选择高回报轨迹。这种设计比固定 top-k 筛选更灵活，能适应 RL 训练的不同阶段。
Return-Aware Adaptive Loss Weight (RALW)：回报感知的自适应损失加权模块。将筛选后样本的 return 归一化到 \([-1, 1]\)，负 return 样本权重置零（不学），正 return 样本获得更高权重。形式化为：\(\mathcal{L}_{\text{RALW}} = \frac{1}{N_v}\sum_{b=1}^{B} w_b \sum_{t=1}^{T} -\log p(y_{b,t} | \mathbf{x}_{b,<t})\)，其中 \(w_b = \max(\bar{g}_b, 0)\)。这样模型优先学习高回报行为，同时保留 VLM 原始能力。
Adaptive Progressive Fine-Tuning：渐进式微调策略。微调间隔 \(\psi_c\) 随迭代次数线性增长：\(\psi_{c+1} = \psi_c + \psi_c \cdot c\)。训练初期策略不稳定时频繁更新 VLM，后期策略趋于收敛则减少更新频率。每次微调后清空 \(\mathcal{D}_f\) 重新积累。

损失函数 / 训练策略¶

RL 策略损失：标准 SAC 损失 + VLM 正则项 \(\tilde{\mathcal{L}}_\pi = \mathcal{L}_\pi + \lambda \|a_{v,t} - a_{r,t}\|_2^2\)，\(\lambda=2.0\)（CARLA）/ \(1.0\)（DMControl）
VLM 微调损失：RALW 加权的自回归 NLL loss + label smoothing
LoRA 微调：rank=128, alpha=256（CARLA）/16（DMControl），最多 8.26% 参数可训练
冷启动策略：CARLA 中延迟 2 轮微调后才启用 VLM 指导；DMControl 延迟 4 轮
VLM 调用频率：训练时每 10 帧推理一次以减少延迟
VLM backbone：Qwen2.5-VL-3B

实验关键数据¶

CARLA (#HW 高速公路场景)¶

方法类型	方法	Episode Reward	Driving Distance
Vanilla RL	SAC	69 ± 46	91 ± 56
Vanilla RL	ResAct	227 ± 36	236 ± 40
VLM-assisted	DGC	208 ± 13	234 ± 15
VLM-assisted	DPL	113 ± 63	124 ± 67
Only VLM	VBE	-11 ± 5	11 ± 4
Ours	COVR	248 ± 81	259 ± 85

CARLA (#GP 鬼探头行人场景)¶

方法类型	方法	Episode Reward	Driving Distance
Vanilla RL	ResAct	212 ± 54	216 ± 55
VLM-assisted	DGC	146 ± 14	169 ± 18
Ours	COVR	235 ± 89	237 ± 89

DMControl（6 个常用任务，100K 步）¶

任务	COVR	ResAct	SVEA	DrQ
Cartpole, Swingup	872 ± 2	819 ± 44	727 ± 86	759 ± 92
Reacher, Easy	969 ± 18	917 ± 59	811 ± 115	601 ± 213
Cheetah, Run	504 ± 13	503 ± 42	375 ± 54	344 ± 67
Walker, Walk	802 ± 25	772 ± 65	747 ± 65	612 ± 164
Finger, Spin	976 ± 9	974 ± 42	859 ± 77	901 ± 104
Ball in cup, Catch	960 ± 23	948 ± 44	915 ± 71	913 ± 53

DMControl Hard Tasks（500K 步）¶

任务	COVR	ResAct	TACO
Hopper, Hop	188 ± 9	99 ± 49	112 ± 42
Walker, Run	485 ± 25	467 ± 27	355 ± 89
Pendulum, Swingup	792 ± 82	618 ± 380	485 ± 167

跨基线兼容性（在不同 base 上加 COVR）¶

基线	Cartpole	Cheetah	Walker
SAC	237→740	118→156	95→194
DeepMDP	389→793	306→352	384→397
RAD	694→872	364→504	552→802

消融实验要点¶

在 #HW 场景上（完整 COVR: ER=248, DD=259）：

去掉 EDDF（随机筛选）：ER 降至 144（-104），说明动态筛选至关重要
固定 top-80%/90%/95% 替代 EDDF：ER 分别为 204/217/192，均不如动态方法
去掉 Z-score 标准化：ER 降至 210
用即时奖励代替累计 return：ER 降至 221
用 Q-value 代替 return：ER 降至 200（早期 Q-value 不稳定）
去掉 RALW：ER 降至 204（-44）
随机权重代替 return 权重：ER 降至 184
用高回报样本直接训练 RL（无 VLM）：ER=183/175，证明 VLM 的泛化指导不可替代

VLM 迭代性能提升¶

VLM 推理性能随微调迭代逐步提升：Iteration 0 → 5，ER 从 -13 提升至 97；RL 策略性能相应从 19（Iter 1）提升至 248（final）。

不同 VLM 对比¶

VLM	ER	DD
Qwen2-VL-2B	236 ± 69	246 ± 72
Qwen2.5-VL-3B	248 ± 81	259 ± 85
LLaVA-1.5-7B	228 ± 115	244 ± 116

有趣的是 7B 的 LLaVA 不如 3B 的 Qwen2.5-VL，说明 VLM 的基础视觉理解能力比参数量更重要。

亮点¶

双向优化闭环是核心创新：打破了现有"冻结 VLM → 单向蒸馏"的范式，让 VLM 和 RL 互相增强、螺旋上升。这个思路简洁且有效。
测试时无需 VLM：训练时利用 VLM 的重知识，测试时只用轻量策略网络，兼顾了性能和效率（策略网络仅 10M 显存、0.0012s 推理 vs VLM 的 8344M、4.4s）。
EDDF 的探索感知设计：用策略熵来动态调整筛选阈值是很巧妙的——早期多探索时保留更多样本避免遗漏有价值的低回报数据，后期严格筛选。
渐进式微调减少计算开销：间隔线性增长的设计简单但有效，避免了后期不必要的频繁微调。
跨基线兼容性好：可以"即插即用"地增强 SAC/DeepMDP/RAD 等不同基线。

局限与展望¶

方差偏大：COVR 在 CARLA 上的标准差（±81/±89）明显高于 DGC（±13/±14）和 ResAct（±36/±40），虽然均值最高但稳定性不足，几个种子之间差异大。
VLM 规模受限：受计算资源限制只用了最大 3B 的 VLM。作者也承认更大的 VLM 可能带来更丰富的先验。
仅利用动作语义：当前只从 VLM 中提取 action 级别的指导，没有利用 VLM 内部的推理链（chain of reasoning），可能浪费了 VLM 的中间推理能力。
无时序建模：VLM 的每次推理基于单帧画面，缺乏对连续观测序列的建模，在动态场景中可能产生不一致的推理。
RL 数据质量依赖初始探索：即使有冷启动策略，早期 RL 数据仍不可避免地含噪，LoRA 微调后的 VLM 仍"不完美"。
评估环境有限：主要在 CARLA 和 DMControl 上验证，缺乏机器人操作等真实物理任务的评估。
未开源代码：可复现性存疑。

与相关工作的对比¶

对比维度	COVR	DGC (CVPR25)	VPF (直接微调 VLM)
VLM 角色	迭代微调 + 指导 RL	冻结 VLM 蒸馏	VLM 就是策略网络
是否更新 VLM	✅ 用 RL 数据 LoRA 微调	❌ 冻结	✅ 用 RL 损失微调
测试时推理成本	低（仅策略网络）	低（仅策略网络）	高（需要 VLM 在线推理）
数据利用	双向：RL→VLM→RL	单向：VLM→RL	VLM 内部训练
#HW ER	248	208	91

与 DGC 的核心区别在于 COVR 会动态更新 VLM，使其随 RL 训练进程逐步增强领域知识。与 VPF 的区别在于 COVR 最终部署的是轻量策略网络而非 VLM 本身。

启发与关联¶

双向协同优化的思路可以迁移到其他 VLM+下游任务的场景：例如 VLM 指导机器人抓取，机器人成功/失败数据反过来微调 VLM。
EDDF 中用策略熵控制筛选阈值的思路有通用性——任何需要从噪声数据中挑选训练样本的场景都可以借鉴。
RALW 中用 return 加权损失的设计类似于 RL 中的 advantage weighting，但应用在 VLM SFT 上是有趣的跨界尝试。

评分¶

新颖性: ⭐⭐⭐⭐ — 双向协同优化的范式是有意义的贡献，但各个组件（LoRA 微调、return-weighted loss、动态阈值）本身不算特别新颖
实验充分度: ⭐⭐⭐⭐⭐ — 实验非常充分，CARLA + DMControl + CarRacing，消融、跨基线、跨场景泛化、不同 VLM、参数分析全都有
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式完整，但部分符号和行文略显繁琐
价值: ⭐⭐⭐⭐ — 为 VLM-RL 结合提供了一个简洁有效的 paradigm，但高方差和未开源是减分项