BaseReward: A Strong Baseline for Multimodal Reward Model¶

会议: ICLR2026
OpenReview: EuN5iszF0a
代码: 待确认
领域: 多模态VLM / 对齐RLHF
关键词: 多模态奖励模型, MLLM 对齐, RLHF, 偏好数据配方, Naive-RM

一句话总结¶

这篇论文不发明新结构，而是把"怎么造一个 SOTA 多模态奖励模型（MRM）"拆成范式、奖励头、正则化、数据、骨干/规模、集成六个维度逐一做消融，得出一份明确的"食谱"，并据此搭出 BaseReward——基于 Qwen2.5-VL-7B + 两层 SiLU MLP 奖励头 + 精挑混合偏好数据的简洁强基线，在 MM-RLHF-Reward Bench、VL-Reward Bench 等主流榜上刷新 SOTA，且推理远快于生成式奖励模型。

研究背景与动机¶

领域现状：多模态大模型（MLLM）要和人类偏好对齐，核心抓手是奖励模型（RM）——给定一个查询和两个回答，RM 要给"更好的"打更高分，这个标量信号随后被 RLHF/GRPO 用来微调 MLLM。文本侧 RM 已有成熟范式，但多模态侧（MRM）各家做法五花八门：Seed-1.5-VL、Keye-VL 用生成式奖励，Mimo-VL 用文本/多模态双 RM，GLM-4.1V 按数据类别分域设计奖励策略。

现有痛点：业界缺一份系统的、能复现的"怎么造 MRM"指南。一堆关键问题没人系统回答过——不同奖励范式（直接打分 vs 先写评语再打分 vs 生成式）在性能、效率、泛化上怎么权衡？奖励头要不要更复杂？常见的正则化（零系数正则、长度归一化）到底有没有用？十几个偏好数据集哪些有益哪些有害？纯文本偏好数据能不能反哺多模态判断？骨干模型选谁、放多大才划算？

核心矛盾：研究者往往直觉地认为"生成式奖励 + 长思维链 + 更大模型 + 更多数据 + 加正则"就更强，但这些直觉缺乏对照实验支撑，且生成式范式带来沉重的推理开销，在 RL 阶段每步都要先吐一段 think 再判断，代价高昂。简洁的 Naive-RM 是不是真的更弱，没人认真验证过。

本文目标：把 MRM 开发管线的每个关键组件都做受控消融，给出一份"实证支撑的食谱"，然后用这份食谱造一个既快又强的基线。

切入角度：作者固定默认训练数据（R1-Reward 的约 20 万偏好对）和默认骨干（Qwen2.5-VL-7B）作为统一对照基座，逐维度单独变量做消融，再把各维度的最优选择拼起来扩到完整数据规模。

核心 idea：用"简洁的 Naive-RM + 优化的两层 SiLU 奖励头 + 不加正则 + 精挑的多模态/纯文本混合数据"这一套朴素配方，证明它比花哨的生成式长思维链奖励模型更强也更快——好的奖励模型不靠复杂结构，靠把每个组件的选择做对。

方法详解¶

整体框架¶

BaseReward 本身结构极简：一个预训练 MLLM 骨干 \(\phi\)，把原本的语言模型头 \(h_l\) 换成一个奖励头 \(l_r\)，让模型对"查询 \(x\) + 回答 \(y\)"输出一个标量奖励 \(r(y|x)\)。训练用人类成对偏好，优化经典 Bradley-Terry 排序损失，让偏好回答 \(y_w\) 的分高于被拒回答 \(y_l\)：

\[\mathcal{L}_{\text{Reward}}(\theta) = \mathbb{E}_{x,y_w,y_l}\big[-\log \sigma\big(r(y_w|x) - r(y_l|x)\big)\big]\]

其中 \(\sigma\) 是 sigmoid。论文真正的工作量不在这条公式，而在于通过一整套消融把"\(\phi\) 选谁、\(l_r\) 长什么样、损失里要不要加正则项、训练数据怎么配、要不要集成"这些选择全部钉死。整条 pipeline 是：偏好对输入 → Qwen2.5-VL-7B 骨干编码 → 两层 SiLU MLP 奖励头出标量分 → 在 280 万条精挑的多模态+纯文本混合偏好对上训练 → 再用一个 Qwen2-VL-7B 副本做投票集成 → 最终作为奖励信号接入 GRPO 强化学习闭环去微调下游 MLLM。

下面这张图把"食谱的几个决策点"按数据流自上而下串起来，每个贡献节点对应后文一个关键设计：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["偏好对输入<br/>查询 + 优/劣回答"] --> B["Naive-RM 范式选型<br/>直接打分，弃生成式长CoT"]
    B --> C["两层 SiLU MLP 奖励头<br/>替代单层线性头"]
    C -->|训练损失只留排序项| D["去正则化训练<br/>零系数正则/长度归一化都砍掉"]
    D --> E["数据配方<br/>多模态+纯文本混合 2.8M"]
    E --> F["骨干选型与集成<br/>Qwen2.5-VL-7B + Qwen2-VL 投票"]
    F --> G["BaseReward 标量奖励"]
    G -->|接入 GRPO| H["RL 微调下游 MLLM"]

关键设计¶

1. Naive-RM 范式选型：放弃花哨的生成式长思维链，回到直接打分

奖励范式有三类：Naive-RM（线性头直接出分，如 IXC-2.5-Reward）、Critic-based RM（先让模型写一段评语再对评语打分，如 MM-RLHF）、Generative RM（把奖励重构成生成任务，直接吐 token 表示哪个更好，如 R1-Reward 输出 <think>...</think><answer>1 or 2</answer>、Seed-1.5-VL 直接吐"1"或"2"）。直觉上生成式带推理过程、可解释性强、更抗过拟合，似乎更优。论文在同一训练协议下对照后发现：生成式在 coding、safety/bias 维度的优势主要来自 MLLM 自身固有知识，而非范式本身——一旦给 Naive-RM 补上对应训练数据，它在 VQA、general、hallucination 等维度反而能打平甚至超过长 CoT 生成式。而 Critic-RM 严重依赖生成评语的质量，劣质评语会成为瓶颈、且难以规模化。加之 Naive-RM 推理快、在 RL 每一步的成本低，论文据此把 Naive-RM 钉为研究主线，后续所有消融都围绕它展开。这一步是整份食谱的地基：先证明"简单的不比复杂的差"，才有资格把后面的优化都押在简单范式上。

2. 两层 SiLU MLP 奖励头：用刚好够的容量替代单层线性头

Naive-RM 默认用单层线性奖励头，但作者发现把它换成多层 MLP 能显著提升判别力，关键变量是层数和激活函数。消融（Table 2）显示单层线性头结果最差；层数加到 2、激活用 SiLU 时最优（VL-Reward Bench Overall Acc 67.9、MM-RLHF Acc 92.9、Acc+ 80.4），而 Tanh、ReLU 等其他激活、或继续堆到 3/4/5 层都不再有增益甚至回落。直觉解释是：奖励打分需要一点非线性映射能力来刻画"好/坏"的复杂边界，单层线性不够；但层数过深又会在有限偏好数据上过拟合，2 层 + SiLU 恰好在容量和泛化间踩到甜点。这个结论很反"越深越好"的惯性，提醒做 RM 时奖励头不是越复杂越好。

3. 去正则化训练：常见的两种正则反而掉点，全部砍掉

RM 训练里常加两类正则：零系数正则（penalty 鼓励优/劣回答的奖励都向 0 居中，正则项是奖励平方和的均值）和长度归一化（用回答长度的对数去归一奖励，缓解 RM 偏好长回答的倾向）。论文把零系数正则权重 \(\lambda\) 从 0 扫到 0.1，发现随 \(\lambda\) 增大各项指标普遍下滑；单加长度归一化（\(\lambda=0\) 的虚线）相比完全不加正则也没有任何提升。结论干脆利落：两种正则在这套设置下都只会掉点，默认配置一律不加。这条"负结果"很有价值——它把一个大家想当然要加的组件直接证伪，省掉了调 \(\lambda\) 的功夫，也让训练更纯粹（损失里只剩排序项）。

4. 数据配方与模态专精：精挑混合数据，且纯文本偏好数据能反哺多模态判断

作者收集了十余个多模态与纯文本偏好数据集逐一单独训练对照，得出几条非直觉结论：并非所有数据都有益，MMIF、SHP 等几乎无益甚至有害，必须做数据筛选；不同数据各有所长，MMPR、RLAIF-V 大幅提升 hallucination 维度（VL-Reward 该项推过 90%），R1-Reward 尤其利于 reasoning；最反直觉的是——纯文本偏好数据（如 Ultra-Hard、Olmo-2）能显著提升多模态判断，因为文本数据里大量的 safety、math 内容补齐了 MRM 在这些维度的短板，使其在多模态 benchmark 上不输纯多模态数据。但作者也划清了边界（模态专精）：反过来，多模态数据并不能提升纯文本 RM 任务，且在同等文本数据量下，纯 LLM 骨干（Qwen2.5-8B/Qwen3-8B）做纯文本 RM 反而比 MLLM 更强。因此最优策略不是强行训一个全能 RM，而是训一个专门的纯文本 RM、再与多模态 RM 模块化组合，RL 时按输入是文本还是多模态动态选用——这与 Mimo-VL 的双 RM 思路一致。最终 BaseReward 用 Table 5 中未被标灰的七个数据集，合计 280 万偏好对。

5. 骨干选型与集成：8B 以内够用，简单平均集成稳定加分

骨干和规模的消融（Table 6）显示不同模型族各有模态偏向：Qwen-VL 系在多模态奖励榜更强（Qwen2.5-VL-7B 在 MM-RLHF 上 93.5，比 Intern-VL3-8B 的 83.7 高近 10%），Intern-VL 系在文本榜更强（Intern-VL3-8B 在 RewardBench 84.0 反超 Qwen2.5-VL-7B 的 75.8）。而单纯放大规模收益递减——Intern-VL3 在 2B 与 8B 间差距很小，10B 以内是性价比最优区间。在此基础上作者用不同骨干（Qwen2.5-VL-7B 与 Intern-VL3-8B）做集成，对比"按验证集加权"与"简单平均"，发现简单平均与复杂加权效果相当却零额外开销，且在多模态与文本榜上都能稳定加分。落地时 BaseReward 主模型用 Qwen2.5-VL-7B，并额外训一个 Qwen2-VL-7B 副本专门用于投票集成。

损失函数 / 训练策略¶

训练目标就是上面的成对排序损失，不加任何辅助损失。训练超参：学习率在 \(\{1\text{e}{-5}, 3\text{e}{-6}, 1\text{e}{-6}, 3\text{e}{-7}\}\) 网格搜索后定为 \(3\text{e}{-6}\)，batch size 128，在 64 张 H100 上完成；训练数据为七个精选数据集合计 280 万偏好对。下游验证用 GRPO 在 Qwen2.5-VL-3B 上跑 RL，对比 rule-based（二值匹配）、BaseReward 打分、以及"精确匹配 + BaseReward"混合三种奖励方案。

实验关键数据¶

主实验¶

在 MM-RLHF-Reward Bench 上，BaseReward 全面超越开源与闭源对手，Acc+ 这一更严格指标（要求样本内所有回答对都排对）尤其拉开差距：

模型	#Param	Acc	Acc+
Claude-3.7-Sonnet	-	82.35	65.22
IXC-2.5-Reward	7B	71.18	50.00
MM-RLHF-Reward	7B	82.00	63.00
R1-Reward	7B	80.59	54.35
BaseReward (Qwen2-VL)	7B	90.59	78.26
BaseReward (Qwen2.5-VL)	7B	91.76	80.43
BaseReward (Ensemble)	7B+7B	92.94	80.43

论文报告：相比前 SOTA，MM-RLHF-Reward Bench 准确率提升约 11.9%，更严格的 Acc+ 比 Claude-3.7-Sonnet 提升 23.32%；VL-Reward Bench Overall Accuracy 提升约 14.2%。在 Multi-Modal Reward Bench 上取得次优，作者归因于训练集缺少 coding 相关偏好数据。

消融实验¶

维度	关键发现	说明
奖励范式	Naive-RM ≈ 或 > 长 CoT 生成式	生成式优势多来自 MLLM 固有知识，补数据后 Naive-RM 不输
奖励头	2 层 + SiLU 最优	单层线性最差；3/4/5 层及其他激活无增益
正则化	一律不加	零系数正则 \(\lambda>0\)、长度归一化都掉点
数据	纯文本反哺多模态	文本数据补齐 safety/math 维度；MMIF/SHP 无益
骨干/规模	8B 以内性价比最优	Qwen-VL 强在多模态、Intern-VL 强在文本；放大收益递减
集成	简单平均即可	与验证集加权相当，零额外开销

关键发现¶

奖励头是单组件里最干净的增益：仅把单层线性换成 2 层 SiLU MLP，MM-RLHF Acc+ 从约 71 升到约 80。
纯文本数据反哺多模态是全文最反直觉的发现——文本偏好数据里的 safety/math 内容直接拉高了多模态 benchmark 对应维度。
范式选择决定了效率：BaseReward 推理远快于 R1-Reward/MM-RLHF（后者要先吐评语/思维链），在 RL 阶段优势放大。
RL 落地中，"rule-based + BaseReward"混合奖励效果最好，规则负责客观题精度、BaseReward 负责复杂语义评价。

亮点与洞察¶

用一篇系统消融把"简单 RM 反而更强"钉死：先证明 Naive-RM 不输生成式长 CoT，再把所有优化押在简单范式上——这套"先证地基再盖楼"的论证结构很有说服力，避免了直接给一个强结果却说不清各组件贡献。
负结果同样宝贵：明确证伪了零系数正则和长度归一化两个"想当然要加"的组件，读者照搬时能直接省掉一轮调参。
跨模态数据迁移的可复用洞察：纯文本偏好数据能补齐多模态 RM 的 safety/math 短板，但反向不成立、且纯文本任务上 LLM 骨干优于 MLLM——这条"模态专精"结论可直接迁移到任何要做统一 RM 的场景，指导"专模型 + 动态路由"而非"硬训全能模型"。
强基线的价值：把奖励头、激活、数据、骨干、集成的最优选择全部公开成一份食谱，社区可低成本复现并在此之上做研究。

局限与展望¶

coding 维度短板：训练集缺 coding 相关偏好数据，导致 Multi-Modal Reward Bench 只拿次优；作者也指出没有单一数据集能显著提升 coding，专项能力需专项数据。
结论绑定特定模型族/规模：消融主要在 Qwen-VL / Intern-VL、8B 以内规模上得出，"2 层 SiLU 最优""放大收益递减"等结论是否在更大规模或其他骨干上成立有待验证。
食谱式而非方法创新：本文价值在于系统实证与强基线，结构上没有新颖组件，部分结论（如文本反哺多模态）给了现象但机制层面的解释仍偏假说。
未深挖 ensemble 边界：简单平均够用的结论基于两个骨干，更多/更异构骨干的集成行为未充分探讨。

评分¶

新颖性: ⭐⭐⭐⭐ 无新结构，但系统性消融 + 多条反直觉结论（文本反哺多模态、正则有害、简单范式不输生成式）本身就是贡献。
实验充分度: ⭐⭐⭐⭐⭐ 六维度逐一受控消融 + 十余数据集对照 + 三大 benchmark + RL 落地验证，非常扎实。
写作质量: ⭐⭐⭐⭐ 食谱式叙事清晰，每节配 Key Insight 总结，易读；表格密集但组织良好。
价值: ⭐⭐⭐⭐⭐ 给社区一份可复现的 MRM 食谱 + 一个开源强基线，实用价值高。