MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning¶

会议: CVPR 2026
arXiv: 2603.25108
代码: GitHub
领域: Reinforcement Learning / Multimodal Reward Modeling
关键词: 多模态奖励模型, 强化学习, 跨模态迁移, 知识蒸馏, 偏好对齐

一句话总结¶

提出多阶段强化学习（MSRL）方法，通过先在大规模文本偏好数据上学习奖励推理能力，再逐步迁移到多模态任务，解决多模态奖励模型训练中标注数据稀缺的瓶颈问题，在 VL-RewardBench 上将准确率从 66.6% 提升至 75.9%。

研究背景与动机¶

多模态奖励模型（MRM）是对齐多模态大语言模型（MLLM）与人类偏好的核心组件。近期研究从判别式转向生成式奖励建模（通过 CoT 推理生成偏好预测），并开始采用 RLVR（Reinforcement Learning from Verifiable Rewards）进一步增强 MRM 的能力。

然而，RLVR 面临一个根本性瓶颈：高质量多模态偏好标注数据极度稀缺。标注成本高昂，无法像文本领域那样大规模扩展 RL 训练。已有替代方案（如置信度估计、自验证）容易产生误差累积，性能快速饱和。

本文的核心洞见是：偏好推理的核心能力可以从丰富的纯文本数据中学习，并有效迁移到多模态场景。这打破了"必须用更多多模态数据来解决多模态数据不足"的固有假设。

方法详解¶

整体框架¶

MSRL 要解决的是多模态奖励模型训练时「高质量多模态偏好标注极度稀缺」的瓶颈。它的核心赌注是：偏好推理这项核心能力其实可以从海量纯文本数据里学到，再迁移到多模态场景，于是把训练拆成由易到难的三阶段课程——先在大规模文本偏好数据上做 RL 建立通用奖励推理能力（Stage 1），再在 caption 化的数据上做 RL + 跨模态知识蒸馏完成偏好迁移（Stage 2），最后只用少量真实多模态数据做 RL 收尾适配（Stage 3）。其中 Stage 2 由两个互补设计组成：Caption-based RL 把文本能力平滑迁到 caption，CMKD 再把 caption 上学到的推理蒸馏到真实视觉输入。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["基座 MLLM（InternVL3.5）"] --> B["Stage 1 · 文本大规模 RL<br/>HelpSteer3 SFT 学格式 → GRAM-R2 GRPO 练推理<br/>（冻结视觉编码器与投射层）"]
    B --> C["Stage 2 · Caption-based RL<br/>图像/视频替换为 caption + 任务识别奖励 + 经验回放"]
    C --> D["跨模态知识蒸馏 CMKD<br/>caption-MRM 采样 n 条推理 → 投票/格式/置信三步筛 o*<br/>→ 以 [c, o*] 对视觉输入做 SFT"]
    D --> E["Stage 3 · 多模态 RL 微调<br/>仅 20k 真实多模态数据收尾适配"]
    E --> F["生成式多模态奖励模型 MRM"]

关键设计¶

1. 文本数据上的大规模 RL：先在便宜、量大的文本上把奖励推理练出来（Stage 1）

文本偏好数据量大、获取成本低，正好能吃满 RL 的 scaling 红利。Stage 1 先用 40k HelpSteer3 数据做 SFT 让模型学会 CoT 输出格式，再在 400k GRAM-R2 文本偏好数据上跑 GRPO 优化；训练时冻结视觉编码器和投射层、只训语言部分，把通用的奖励推理能力先打牢。

2. Caption-based RL + 偏好泛化：用文字描述当跳板，把文本能力平滑接到多模态（Stage 2）

直接上多模态数据又会撞到数据稀缺。这里把多模态偏好数据里的图像/视频替换成对应的文字描述（caption），构造出纯文本但保留多模态语义的训练数据继续做 RL。同时引入任务识别奖励 \(r_{\text{task}}\)：模型要先输出任务类型标签（如 <type>Image Understanding</type>），正确识别得 0.2 奖励，提升统一 MRM 在不同任务间的区分度；并用经验回放防遗忘——训练批次里按新旧 5:1 混入 Stage 1 的高质量文本样本。

3. 跨模态知识蒸馏（CMKD）：把 caption 训出来的推理灌给「只看图」的模型

caption 与真实视觉输入之间仍有模态差距。CMKD 给定偏好样本和 caption，用 caption 训练的 MRM 生成 \(n\) 个候选推理，再三步筛出最优教师信号 \(o^*\)：多数投票确定伪标签 → 格式过滤 → 选最高置信度；然后用 \([c, o^*]\) 对做 SFT，让模型即使只看视觉输入也能复现蒸馏出的推理过程，后续 RL 阶段则要求模型先生成 <caption> 再做奖励推理。

4. 多模态 RL 微调：用极少真实多模态数据收尾（Stage 3）

因为前两阶段已经把奖励推理能力建得很强，这一步只需 20k 多模态数据做最终适配（同样用任务识别奖励）即可，多模态标注的边际需求被压到很低。

损失函数 / 训练策略¶

三阶段均基于 GRPO 优化，核心目标：\(\mathcal{L}_{\text{RLVR}} = -\mathbb{E}[r_v(s,o)] - \beta \mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\theta_{\text{old}}})\)
可验证奖励 \(r_v = r_{\text{format}} + r_{\text{accuracy}}\)（+ Stage 2/3 的 \(r_{\text{task}}\)）
采样大小 8，学习率 1e-6，批大小 128

实验关键数据¶

主实验¶

基准测试	指标	MSRL (8B)	Generative MRM	提升
VL-RewardBench	Avg Acc	75.9%	66.6%	+9.3%
Multimodal RewardBench	Avg Acc	80.5%	76.2%	+4.3%
GenAI-Bench (Image Gen.)	Acc	75.7%	70.2%	+5.5%
ShareGPT (Video Under.)	Acc	85.5%	80.6%	+4.9%
GenAI-Bench (Video Gen.)	Acc	81.4%	68.3%	+13.1%

MSRL 8B + voting@16 在 VL-RewardBench 上达到 77.5%，甚至超过 Claude-3.7-Sonnet (66.5%) 和 GPT-4o (62.4%)。

消融实验¶

配置	VL-RewardBench Avg	说明
Generative Baseline	66.6%	仅用多模态数据训练
w/o Stage 1	68.8%	去掉文本 RL → 损失最大 (-7.1%)
w/o Stage 2 (Caption)	74.3%	去掉 caption RL → -1.6%
w/o Stage 2 (CMKD)	73.4%	去掉跨模态蒸馏 → -2.5%
w/o Stage 3	72.6%	去掉多模态 RL → -3.3%
Full MSRL	75.9%	完整方法

关键发现¶

文本 RL 是最关键的阶段：Stage 1 贡献了最大的性能增益（+6.9%），证明奖励推理能力可以从纯文本中学习
Scaling 行为一致：从 1B 到 14B 模型，MSRL 的提升始终存在且更大模型受益更多
数据效率极高：仅 5k 多模态数据的 MSRL 已大幅超过仅用多模态数据的 baseline，表明文本 RL 建立的能力使多模态信号的边际收益递减
视频任务提升最大：视频生成任务提升 +13.1%，说明时序视觉数据更依赖强推理能力

亮点与洞察¶

突破数据瓶颈的巧妙思路：不是寻求更多多模态数据，而是利用跨模态迁移——这是一种"降维打击"式的解决方案
Caption 作为模态桥接：将图像替换为 caption 实现"文本→多模态"的平滑过渡，简洁而有效
任务识别奖励：让模型先识别任务类型再推理，提升了统一 MRM 在不同任务间的区分能力
工程友好：强调了 scalable axis——只需增加文本数据量就能持续提升多模态性能，无需昂贵的多模态标注

局限性 / 可改进方向¶

仅在 InternVL3.5 系列上验证，是否对其他架构（如 Qwen-VL、LLaVA）同样有效待验证
CMKD 中的 caption 由 GPT-5 生成，对 caption 质量有依赖
Stage 2 的经验回放比例（5:1）是否最优缺乏充分讨论
未探讨 MSRL 训练的 MRM 在实际 MLLM 对齐中的下游效果（如用于 rejection sampling / PPO）

评分¶

新颖性: ⭐⭐⭐⭐ — 多阶段 RL 课程设计新颖，但各组件（GRPO、caption bridging、知识蒸馏）本身不算新
实验充分度: ⭐⭐⭐⭐⭐ — 多尺度（1B-14B）、多任务（理解+生成）、多基准，消融完整
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，motivation 阐述充分
价值: ⭐⭐⭐⭐⭐ — 提供了一条实用、可扩展的多模态奖励模型训练路径