VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models¶

会议: ICCV 2025
arXiv: 2503.07478
代码: https://github.com/JCruan519/VLRMBench
领域: Time Series / Multimodal Evaluation
关键词: 奖励模型, 视觉语言理解, benchmark, 过程推理, 多模态评估

一句话总结¶

提出 VLRMBench，一个包含 12634 个问题、12 项任务的综合且具有挑战性的视觉语言奖励模型（VLRM）基准，覆盖过程理解、结果判断和批评生成三大方面，在 26 个模型上的广泛实验揭示了当前 VLRM 的显著不足。

研究背景与动机¶

奖励模型（RM）在大模型的训练和推理阶段扮演重要角色：训练前用于过滤高质量样本、训练中用于偏好优化（如 RLAIF）、推理时用于测试时缩放（TTS）。然而，现有 VLRM 基准存在严重不足：

评估维度单一：VLRewardBench 仅包含 Pairwise Comparison（两两比较），无法全面评估 VLRM 能力

缺乏步骤级标注：多数基准不包含推理步骤级别的标签

聚焦语言领域：现有 RM 基准（如 PRMBench、ProcessBench）主要针对纯文本，不适用于视觉语言场景

挑战性不足：简单的基准无法暴露 VLRM 的潜在缺陷

方法详解¶

整体框架¶

VLRMBench 构建流程分三阶段：(1) 数据收集与过滤；(2) 推理过程生成与步骤分割；(3) 基于三大主题设计 12 项任务。

关键设计¶

协作式数据过滤与生成管线（Collaborative Data Filtering & Generation Pipeline）:
- 质量过滤：使用 Qwen2VL-7B 在无图像条件下回答问题，答对则说明质量低（纯靠文本就能解答），剔除
- 难度过滤：加入图像后 Qwen2VL-7B 仍能答对则太简单，剔除。从 16550 个样本过滤至 6715 个
- 推理过程生成：QVQ-72B-preview 生成推理过程（仅保留正确答案的样本）
- 步骤分割：GPT-4o 进行语义级步骤分割
- 人工审核：3 名博士生验证和纠正推理过程中的错误
- 最终保留 1000 个高质量样本，覆盖数学推理、幻觉理解、多图理解
步骤级任务（Step-based，8 项）: 评估 VLRM 的推理过程理解能力
- SC（Step Correctness）：检测推理步骤中的注入错误
- RD（Redundancy Detection）：识别推理过程中的冗余信息
- CM（Confidence Misdirection）：在错误步骤中加入高置信表述，测试鲁棒性
- EH（Existential Hallucination）：检测推理中不存在于图像的实体
- AH（Attribute Hallucination）：检测实体属性的错误描述
- DE（Detail Error）：检测数值计算或符号的细粒度错误
- SR（Spatial Relationship）：检测空间关系描述的错误
- IC（Image Confusion）：检测多图任务中的图像引用错误
结果级任务（Outcome-based，2 项）: 评估 VLRM 的结果判断能力
- MJ（Multi-solution Judgment）：比较同一问题的不同推理过程质量
- FF（Forecasting Future）：基于前 m 步推理预测最终答案的正确性
批评级任务（Criticism-based，2 项）: 评估 VLRM 的错误分析和纠正能力
- ERA（Error Reason Analysis）：分析错误推理步骤的原因
- EC（Error Correction）：直接纠正错误并输出正确推理

损失函数 / 训练策略¶

本文为基准测试工作，无需训练。评估指标包括： - 步骤级任务：F1-Score（平衡精确率和召回率） - 结果级任务：Accuracy - 批评级任务：Win Rate（使用 GPT-4o 作为裁判）

实验关键数据¶

主实验¶

各模型在步骤级任务上的平均 F1-Score（部分模型）:

模型	SC	RD	CM	EH	AH	DE	步骤均值
GPT-4o	73.7	50.6	66.6	57.6	58.6	71.8	62.4
Claude-3.5-Sonnet	70.8	53.7	65.7	63.9	62.8	63.4	62.9
Qwen2.5VL-72B	72.8	41.7	70.4	64.6	59.9	72.4	62.6
Qwen2.5VL-7B	43.4	33.2	37.8	22.8	23.9	45.5	33.4
InternVL2.5-8B	36.6	28.4	31.1	21.9	21.2	36.5	28.6
Ovis2-34B	65.3	51.1	64.5	54.5	51.6	59.6	57.0

结果级和批评级任务表现:

模型	MJ(Acc)	FF(Acc)	结果均值	ERA(WinRate)	EC(WinRate)
GPT-4o	58.4	76.0	66.3	0.0	0.0
Claude-3.5-Sonnet	82.2	75.1	79.0	60.6/25.5/13.9	21.2/53.9/24.9
Qwen2.5VL-72B	65.6	80.2	72.1	74.1/15.1/10.8	15.6/77.0/7.3
Qwen2.5VL-7B	26.0	70.7	46.0	37.7/22.0/40.3	9.3/51.9/38.8

消融实验¶

模型规模对步骤级任务的影响:

模型组	规模	步骤均值	结果均值
小型组（<10B）	2B-8B	29.8	45.2
中型组（10-40B）	11B-38B	45.9	54.7
大型组（>40B）	72B-90B	46.1	56.8
闭源组	-	62.4+	66.3+

关键发现¶

即使是最先进的 GPT-4o，在 FF（预测未来）任务中也仅达 76.0% 准确率，在步骤级任务中平均 F1 仅 62.4%
开源模型正在追赶闭源模型：Qwen2.5VL-72B 在批评任务中胜过 GPT-4o（ERA win rate 74.1% vs 0.0%）
CM 任务证实 VLRM 容易被高置信表述误导：CM 的 F1 普遍低于 SC
冗余检测（RD）是最具挑战性的步骤级任务：所有模型在 RD 上的 F1 分数最低
模型从小型到中型提升明显（29.8→45.9），但中型到大型提升有限（45.9→46.1）

亮点与洞察¶

12 项任务的全面设计：从过程、结果、批评三个维度全面评估 VLRM，远超现有仅做两两比较的基准
双重过滤机制：无图回答正确→低质量、有图回答正确→太简单，确保保留高质量高难度样本
Confidence Misdirection 任务的创新：测试模型是否会被"definitely""without a doubt"等置信词汇误导
Forecasting Future 的实用价值：如果能预判推理正确性，可大幅加速 TTS 推理

局限与展望¶

推理过程依赖 QVQ-72B-preview 生成，可能引入该模型的偏差
数学推理类样本占比大，幻觉和多图样本相对较少
批评级任务使用 GPT-4o 作为裁判存在评判偏差风险
当前仅评估文本形式的奖励模型，未考虑数值型 RM
基准的动态更新机制缺失，模型可能过拟合固定测试集

评分¶

新颖性: ⭐⭐⭐⭐ 首个综合的 VLRM 基准，12 项任务设计独特
实验充分度: ⭐⭐⭐⭐⭐ 26 个模型的广泛评估，分小/中/大/闭源四组分析
写作质量: ⭐⭐⭐⭐ 任务设计阐述清晰，表格丰富
价值: ⭐⭐⭐⭐ 填补 VLRM 综合评估的空白，揭示了当前模型的关键弱点