MVR: Multi-view Video Reward Shaping for Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2603.01694
代码: https://mvr-rl.github.io/
领域: 强化学习
关键词: 视觉奖励塑形, 多视角视频, 强化学习, 视觉语言模型, 状态相关性学习

一句话总结¶

提出 MVR 框架，利用多视角视频的视频-文本相似度学习状态相关性函数，结合状态依赖的奖励塑形（自动衰减 VLM 引导），在 HumanoidBench 和 MetaWorld 共 19 个任务上超越现有 VLM 奖励方法。

研究背景与动机¶

领域现状：强化学习中的奖励设计至关重要。近年来一个新兴范式是利用 VLM 的图像-文本相似度作为视觉信号来增强奖励（如 VLM-RM, RoboCLIP），引导 agent 访问与任务描述匹配的状态。

现有痛点：(a) 静态图像的局限：单帧图像-文本相似度无法表征动态运动——优化单帧相似度会让 agent 反复停在"最像跑步"的那一帧，而不是真正跑起来（需要双腿交替的节律性运动）。(b) 单视角遮挡：单一摄像头角度导致机器人肢体间的遮挡，产生视角依赖的偏差。(c) 缺乏自适应衰减：现有方法简单线性叠加 VLM 分数和任务奖励，可能改变最优策略。

核心矛盾：VLM 提供的视觉引导对学习初期有价值（帮助发现正确的运动模式），但如果持续施加，可能与任务目标产生冲突——需要一种"先用后放"的机制。

本文目标 (a) 用视频替代静态图像准确评估动态运动质量；(b) 用多视角消除遮挡偏差；(c) 设计自动衰减的奖励塑形，避免 VLM 引导与任务奖励的持续冲突。

切入角度：不直接拟合 VLM 分数（语义鸿沟太大），而是通过配对比较（paired comparison）保持视频空间和状态空间的排序一致性；利用多视角正则化消除视角偏差；基于 Bradley-Terry 模型设计自动衰减机制。

核心 idea：从多视角视频中学习状态空间的相关性排序函数，再通过与参考集的比较产生自动衰减的奖励塑形信号。

方法详解¶

整体框架¶

在线 RL 循环中：(1) Agent 执行策略，收集状态序列；(2) 周期性渲染多视角视频；(3) 用冻结的 ViCLIP 计算视频-文本相似度，更新数据集 \(\mathcal{D}\) 和参考集 \(\mathcal{D}^{\text{ref}}\)（保留 top-k 最优轨迹）；(4) 从 \(\mathcal{D}\) 更新状态相关性模型 \(f^{\text{MVR}}\)；(5) 用 \(f^{\text{MVR}}\) 和 \(\mathcal{D}^{\text{ref}}\) 计算视觉反馈 \(r^{\text{VLM}}\)，与任务奖励 \(r^{\text{task}}\) 结合。

关键设计¶

配对比较匹配（Matching Paired Comparisons）:
- 功能：桥接状态空间和视频空间之间的语义鸿沟
- 核心思路：不直接从状态回归视频-文本相似度分数（太难），而是保持排序一致性。给定两个视频 \(\mathbf{o}, \mathbf{o}'\)，用 Bradley-Terry 模型计算 \(h_{\text{vid}}(\mathbf{o}, \mathbf{o}') = \sigma(\psi^{\text{VLM}}(\mathbf{o}, \ell) - \psi^{\text{VLM}}(\mathbf{o}', \ell))\)，要求状态空间的排序 \(h_{\text{state}}(\mathbf{s}, \mathbf{s}')\) 与之匹配。损失为两者间的交叉熵 \(L_{\text{matching}}\)
- 设计动机：类似偏好学习（RLHF）的思路，但拟合概率而非二元标签，更平滑稳定。跨视角的视频对共享相同状态序列，自然扩增比较数据
多视角正则化（Regularizing State Representations）:
- 功能：消除不同摄像头角度带来的系统性偏差
- 核心思路：将 \(f^{\text{MVR}}(s) = \langle g^{\text{rel}}, g^{\text{state}}(s) \rangle\) 分解为状态编码器和可学习的相关方向。正则项 \(L_{\text{reg}} = |\psi^{\text{VLM}}(\mathbf{o}_i, \mathbf{o}_j) - \langle \bar{g}^{\text{state}}(\mathbf{s}_i), \bar{g}^{\text{state}}(\mathbf{s}_j) \rangle|\) 对齐状态表示和视频表示的相似度结构
- 设计动机：解耦表示学习（\(L_{\text{reg}}\) 负责）和相关性评分（\(L_{\text{matching}}\) 负责），使多视角信息能被有效聚合而非相互干扰
状态依赖奖励塑形（自动衰减）:
- 功能：让 VLM 引导早期强、后期自动消失
- 核心思路：定义策略相关性 \(h^\pi = \sum_s f^{\text{MVR}}(s) d^\pi(s)\)，优化目标为 \(\max_\pi v^\pi + w \log(\sigma(h^\pi - h^{\pi^\ell}))\)（让当前策略不可区分于最优策略 \(\pi^\ell\)）。通过 Jensen 不等式展开得到 \(r^{\text{VLM}}(s) = \mathbb{E}_{s' \sim \pi^\ell}[\log(\sigma(f^{\text{MVR}}(s) - f^{\text{MVR}}(s')))]\)
- 设计动机：当 agent 的行为已经和 \(\mathcal{D}^{\text{ref}}\) 对齐时，\(f^{\text{MVR}}(s) \approx f^{\text{MVR}}(s')\)，\(r^{\text{VLM}} \to 0\)，VLM 引导自然消失，避免与 \(r^{\text{task}}\) 持续冲突
参考集维护:
- 功能：用 top-k 最优历史轨迹近似 \(\pi^\ell\)
- 核心思路：\(\mathcal{D}^{\text{ref}}\) 保留跨视角聚合相似度最高的 \(k=10\) 条状态序列，类似于"回忆自己最好的几次尝试"
- 设计动机：无需单独从 VLM 奖励训练一个独立策略来近似 \(\pi^\ell\)，直接复用在线经验即可

损失函数 / 训练策略¶

状态相关性模型训练：\(L_{\text{rel}} = L_{\text{matching}} + L_{\text{reg}}\)，每 100K 步更新一次，带早停。最终奖励：\(r^{\text{MVR}}(s) = r^{\text{task}}(s) + w \cdot r^{\text{VLM}}(s)\)，\(w \in \{0.01, 0.1, 0.5\}\) 网格搜索。渲染频率：每 9 条轨迹渲染 1 条，随机选取视角，视频段长度 64 帧。使用 ViCLIP-L（428M 参数）。

实验关键数据¶

主实验¶

HumanoidBench 9 个任务（10M步，3 seeds）：

任务	MVR	TQC	VLM-RM	RoboCLIP	DreamerV3
Walk	927.47 ✓	510.58	535.35	737.34 ✓	800.2 ✓
Run	749.23 ✓	647.87	14.93	501.15	633.8
Slide	735.03 ✓	514.91	163.13	494.20	436.5
Stand	918.55 ✓	576.59	728.69	849.73 ✓	622.7
Sit_Hard	756.67 ✓	511.85	322.95	559.38	433.4
Avg Rank	1.67	3.11	3.78	2.89	3.56

MetaWorld 10 个任务（1M步，5 seeds，成功率）：MVR 平均排名 1.50，RoboCLIP 2.00，VLM-RM 2.40。

消融实验¶

变体	说明
w/o reg（去掉 \(L_{\text{reg}}\)）	多个任务性能下降，验证多视角正则的价值
w/o reference（直接用 \(f^{\text{MVR}}\) 做奖励）	缺少自动衰减，部分任务过拟合 VLM 引导
MVR-CLIP（用图像替代视频）	动态任务（Run, Walk）严重退化——单帧无法表征节律运动
direct（直接拟合 VLM 分数）	语义鸿沟导致学习不稳定
视角数量（1→4）	多视角通常有益，Stand 单视角即可（因为是静态姿态不存在遮挡问题）

关键发现¶

MVR 在 5/9 HumanoidBench 任务上最优，平均排名最好（1.67），且是唯一在 Walk 和 Run 上同时达到成功阈值的方法
VLM-RM 在 Run 上完全失败（14.93 vs 749.23），因为单帧相似度诱导 agent 停在"跑步姿势"而非真正跑步
多视角对动态任务显著有益，对静态姿态任务影响较小
自动衰减机制关键：案例研究显示 MVR 能在早期纠正不良姿势后自动退出，让 agent 专注于速度优化

亮点与洞察¶

根本性解决动态运动的视觉评价问题：用视频替代图像是自然但被忽视的选择。论文清晰展示了单帧方法在跑步任务上的戏剧性失败（VLM-RM: 14.93），动机极其有说服力
配对比较的巧妙设计：不直接回归 VLM 分数（语义鸿沟太大），而是保持排序一致——这种"只学相对顺序"的思路比"学绝对值"鲁棒得多，类似于 RLHF 的成功逻辑
自动衰减的优雅机制：\(r^{\text{VLM}}\) 随行为改善自然趋零，不需要手动设计衰减计划。这比现有的固定权重叠加方案优雅得多
参考集=最佳回忆：用在线收集的 top-k 轨迹近似目标策略，避免了需要专家演示或单独训练的开销。这个类比人类技能学习的直觉很有启发性

局限与展望¶

仅在模拟环境中验证，未在真实机器人上测试——渲染多视角视频在真实场景中需要多相机设置
每 9 条轨迹渲染 1 条已经减少了开销，但仍需调用 ViCLIP（428M 参数），计算成本不可忽视
权重 \(w\) 仍需网格搜索，虽然自动衰减减轻了调参负担，但初始权重仍影响性能
对 Balance_Simple 和 Balance_Hard 任务效果不佳（VLM-RM 反而更好），可能因为这些任务的视觉信号更适合静态评估
参考集 \(\mathcal{D}^{\text{ref}}\) 的质量取决于探索——如果早期探索不足，参考集可能不够好

评分¶

新颖性: ⭐⭐⭐⭐ 视频+多视角+自动衰减三个设计互补恰当，但每个单独看不是全新的
实验充分度: ⭐⭐⭐⭐⭐ 19 个任务 × 5 个方法 × 多项消融，实验设计非常系统
写作质量: ⭐⭐⭐⭐ 方法推导清晰，但符号较多需要仔细跟读
价值: ⭐⭐⭐⭐ 对 VLM 驱动的 RL 奖励设计有实质性推进，实用且可扩展