VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models¶
会议: ICCV 2025
arXiv: 2503.07478
代码: https://github.com/JCruan519/VLRMBench
领域: Time Series / Multimodal Evaluation
关键词: 奖励模型, 视觉语言理解, benchmark, 过程推理, 多模态评估
一句话总结¶
提出 VLRMBench,一个包含 12634 个问题、12 项任务的综合且具有挑战性的视觉语言奖励模型(VLRM)基准,覆盖过程理解、结果判断和批评生成三大方面,在 26 个模型上的广泛实验揭示了当前 VLRM 的显著不足。
研究背景与动机¶
奖励模型(RM)在大模型的训练和推理阶段扮演重要角色:训练前用于过滤高质量样本、训练中用于偏好优化(如 RLAIF)、推理时用于测试时缩放(TTS)。然而,现有 VLRM 基准存在严重不足:
评估维度单一:VLRewardBench 仅包含 Pairwise Comparison(两两比较),无法全面评估 VLRM 能力
缺乏步骤级标注:多数基准不包含推理步骤级别的标签
聚焦语言领域:现有 RM 基准(如 PRMBench、ProcessBench)主要针对纯文本,不适用于视觉语言场景
挑战性不足:简单的基准无法暴露 VLRM 的潜在缺陷
方法详解¶
整体框架¶
VLRMBench 构建流程分三阶段:(1) 数据收集与过滤;(2) 推理过程生成与步骤分割;(3) 基于三大主题设计 12 项任务。
关键设计¶
-
协作式数据过滤与生成管线(Collaborative Data Filtering & Generation Pipeline):
- 质量过滤:使用 Qwen2VL-7B 在无图像条件下回答问题,答对则说明质量低(纯靠文本就能解答),剔除
- 难度过滤:加入图像后 Qwen2VL-7B 仍能答对则太简单,剔除。从 16550 个样本过滤至 6715 个
- 推理过程生成:QVQ-72B-preview 生成推理过程(仅保留正确答案的样本)
- 步骤分割:GPT-4o 进行语义级步骤分割
- 人工审核:3 名博士生验证和纠正推理过程中的错误
- 最终保留 1000 个高质量样本,覆盖数学推理、幻觉理解、多图理解
-
步骤级任务(Step-based,8 项): 评估 VLRM 的推理过程理解能力
- SC(Step Correctness):检测推理步骤中的注入错误
- RD(Redundancy Detection):识别推理过程中的冗余信息
- CM(Confidence Misdirection):在错误步骤中加入高置信表述,测试鲁棒性
- EH(Existential Hallucination):检测推理中不存在于图像的实体
- AH(Attribute Hallucination):检测实体属性的错误描述
- DE(Detail Error):检测数值计算或符号的细粒度错误
- SR(Spatial Relationship):检测空间关系描述的错误
- IC(Image Confusion):检测多图任务中的图像引用错误
-
结果级任务(Outcome-based,2 项): 评估 VLRM 的结果判断能力
- MJ(Multi-solution Judgment):比较同一问题的不同推理过程质量
- FF(Forecasting Future):基于前 m 步推理预测最终答案的正确性
-
批评级任务(Criticism-based,2 项): 评估 VLRM 的错误分析和纠正能力
- ERA(Error Reason Analysis):分析错误推理步骤的原因
- EC(Error Correction):直接纠正错误并输出正确推理
损失函数 / 训练策略¶
本文为基准测试工作,无需训练。评估指标包括: - 步骤级任务:F1-Score(平衡精确率和召回率) - 结果级任务:Accuracy - 批评级任务:Win Rate(使用 GPT-4o 作为裁判)
实验关键数据¶
主实验¶
各模型在步骤级任务上的平均 F1-Score(部分模型):
| 模型 | SC | RD | CM | EH | AH | DE | 步骤均值 |
|---|---|---|---|---|---|---|---|
| GPT-4o | 73.7 | 50.6 | 66.6 | 57.6 | 58.6 | 71.8 | 62.4 |
| Claude-3.5-Sonnet | 70.8 | 53.7 | 65.7 | 63.9 | 62.8 | 63.4 | 62.9 |
| Qwen2.5VL-72B | 72.8 | 41.7 | 70.4 | 64.6 | 59.9 | 72.4 | 62.6 |
| Qwen2.5VL-7B | 43.4 | 33.2 | 37.8 | 22.8 | 23.9 | 45.5 | 33.4 |
| InternVL2.5-8B | 36.6 | 28.4 | 31.1 | 21.9 | 21.2 | 36.5 | 28.6 |
| Ovis2-34B | 65.3 | 51.1 | 64.5 | 54.5 | 51.6 | 59.6 | 57.0 |
结果级和批评级任务表现:
| 模型 | MJ(Acc) | FF(Acc) | 结果均值 | ERA(WinRate) | EC(WinRate) |
|---|---|---|---|---|---|
| GPT-4o | 58.4 | 76.0 | 66.3 | 0.0 | 0.0 |
| Claude-3.5-Sonnet | 82.2 | 75.1 | 79.0 | 60.6/25.5/13.9 | 21.2/53.9/24.9 |
| Qwen2.5VL-72B | 65.6 | 80.2 | 72.1 | 74.1/15.1/10.8 | 15.6/77.0/7.3 |
| Qwen2.5VL-7B | 26.0 | 70.7 | 46.0 | 37.7/22.0/40.3 | 9.3/51.9/38.8 |
消融实验¶
模型规模对步骤级任务的影响:
| 模型组 | 规模 | 步骤均值 | 结果均值 |
|---|---|---|---|
| 小型组(<10B) | 2B-8B | 29.8 | 45.2 |
| 中型组(10-40B) | 11B-38B | 45.9 | 54.7 |
| 大型组(>40B) | 72B-90B | 46.1 | 56.8 |
| 闭源组 | - | 62.4+ | 66.3+ |
关键发现¶
- 即使是最先进的 GPT-4o,在 FF(预测未来)任务中也仅达 76.0% 准确率,在步骤级任务中平均 F1 仅 62.4%
- 开源模型正在追赶闭源模型:Qwen2.5VL-72B 在批评任务中胜过 GPT-4o(ERA win rate 74.1% vs 0.0%)
- CM 任务证实 VLRM 容易被高置信表述误导:CM 的 F1 普遍低于 SC
- 冗余检测(RD)是最具挑战性的步骤级任务:所有模型在 RD 上的 F1 分数最低
- 模型从小型到中型提升明显(29.8→45.9),但中型到大型提升有限(45.9→46.1)
亮点与洞察¶
- 12 项任务的全面设计:从过程、结果、批评三个维度全面评估 VLRM,远超现有仅做两两比较的基准
- 双重过滤机制:无图回答正确→低质量、有图回答正确→太简单,确保保留高质量高难度样本
- Confidence Misdirection 任务的创新:测试模型是否会被"definitely""without a doubt"等置信词汇误导
- Forecasting Future 的实用价值:如果能预判推理正确性,可大幅加速 TTS 推理
局限与展望¶
- 推理过程依赖 QVQ-72B-preview 生成,可能引入该模型的偏差
- 数学推理类样本占比大,幻觉和多图样本相对较少
- 批评级任务使用 GPT-4o 作为裁判存在评判偏差风险
- 当前仅评估文本形式的奖励模型,未考虑数值型 RM
- 基准的动态更新机制缺失,模型可能过拟合固定测试集
相关工作与启发¶
- PRMBench:过程奖励模型的细粒度评估(纯文本领域)
- VLRewardBench:首个视觉语言 RM 基准,但仅含单一任务
- ProcessBench:步骤级错误检测的数学推理评估
- 启发:奖励模型的能力评估需要像 VLRMBench 这样的多维度框架,单一任务(如 pairwise comparison)远不够全面
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个综合的 VLRM 基准,12 项任务设计独特
- 实验充分度: ⭐⭐⭐⭐⭐ 26 个模型的广泛评估,分小/中/大/闭源四组分析
- 写作质量: ⭐⭐⭐⭐ 任务设计阐述清晰,表格丰富
- 价值: ⭐⭐⭐⭐ 填补 VLRM 综合评估的空白,揭示了当前模型的关键弱点