Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following¶

会议: CVPR 2026
arXiv: 2511.21662
代码: https://multi-crit.github.io
领域: 多模态VLM
关键词: LMM-as-Judge, 多准则评估, benchmark, 偏好冲突, 评估可靠性

一句话总结¶

构建首个评估多模态 Judge 模型多准则遵循能力的基准 Multi-Crit，包含准则级人类标注和偏好冲突样本，配合 PAcc/TOS/CMR 三个新指标，全面评估 25 个 LMM 并揭示闭源最强模型在开放生成任务上仅 32.78% 的多准则一致性。

研究背景与动机¶

领域现状：LMM-as-a-Judge 范式被广泛用于自动评测和 RLHF 反馈。给定多模态 prompt、模型响应和预定义评估准则，Judge 模型输出偏好判断并附带文字理由。这一范式因可扩展性和灵活性被大量多模态 benchmark 采用，也有多项工作微调开源模型作为专用 Judge/Critic 来提供 AI 反馈。

现有痛点：现有多模态 Judge 基准（VL-Rewardbench、MM-RLHF Bench 等）仅提供单一总体偏好标签。这种粗粒度标注无法捕捉多维度评估的本质——两个回复会在不同准则间存在 trade-off，如一个回复简洁但有事实错误，另一个内容详尽但冗余。单一标签抹平了这些细节。

核心矛盾：Judge 模型的可靠性依赖两个要素：(1) 与人类判断一致；(2) 灵活遵循多样化的任务特定评估准则。现有工作关注前者但严重忽视后者。Judge 模型是否真正遵循了给定准则？面对准则间的偏好冲突时能否正确判断？这些关键问题未被系统研究。

本文目标 (1) 如何构建包含多准则人工标注和准则间偏好冲突的评估数据？(2) 如何系统度量 Judge 模型的多准则遵循能力？

切入角度：多准则评估 + 冲突检测——让人类标注者独立标注每个准则下的偏好，天然暴露不同准则间的偏好冲突。

核心 idea：构建带准则级人工标注的挑战性基准 Multi-Crit，设计 PAcc/TOS/CMR 三个新指标，系统评估 25 个模型在多准则遵循上的表现与瓶颈。

方法详解¶

整体框架¶

Multi-Crit 将传统的 pairwise preference 评估扩展为多准则形式。传统基准的数据格式为 \((q, l_a, l_b, y)\)，即一个 prompt 对应一个整体偏好标签 \(y\)。Multi-Crit 将其扩展为 \((q, l_a, l_b, \{(c_i, y_i)\}_{i=1}^{K_q})\)，其中每个 \(c_i\) 是一个评估准则，\(y_i\) 是该准则下的偏好标签。这使得同一对回复可以在不同准则下有不同的偏好方向，从而捕捉准则间的冲突。

基准构建流程：多来源 prompt 收集 → 多模型响应生成与配对 → 三阶段过滤保留挑战性样本 → 准则级人工标注（9 名 CS PhD，289 小时） → 偏好聚合与质量验证 → 最终数据集。

关键设计¶

数据构建管线（Data Curation Pipeline）：
- 功能：从多来源构建高质量、具有挑战性的多准则评估数据
- 核心思路：Prompt 来自 8 个数据集覆盖开放生成（ImageInWords、DOCCI、WildVision-Bench/-Battle）和可验证推理（MathVerse、MM-K12、EMMA-mini、VisualPuzzles）两大场景；用 11 个高性能 LMM（含 GPT-4o、Gemini-2.5-Flash 等闭源和 Qwen2.5-VL、InternVL3 等开源）生成候选回复；构建跨模型对（两个不同模型）和同模型对（同一模型温度采样 5 次，选余弦距离最大的对）两种配对方式，共产生 3,538 个回复对
- 设计动机：跨模型对捕捉模型间系统性差异，同模型对捕捉同一模型内的质量波动，两者互补保证评估全面性
三阶段挑战性过滤（Three-Stage Filtering）：
- 功能：从 3,538 对中筛选出 707 对真正具有细粒度准则差异的挑战性样本
- 核心思路：(1) 长度归一化——排除长度比超出 [0.7, 1.4] 的回复对，避免长度偏见；(2) 推理正确性过滤——对推理任务用 GPT-4o-mini 验证，仅保留双对或双错的样本（答案正确性本身是 trivial 信号）；(3) 集成难度过滤——用三个强 Judge（GPT-4o、Gemini-2.5-Flash、Claude-3.7-Sonnet）做初始整体评估，三者一致的丢弃，仅保留存在分歧的挑战性样本
- 设计动机：每一步都有针对性地去除"简单"样本——长度差异过大会导致 Judge 走捷径，答案本身就分对错的无需 Judge 评质量，强模型一致同意的说明差异太明显
准则设计（Criteria Design）：
- 功能：定义评估的多个维度，覆盖多模态判断的核心能力
- 核心思路：遵循三条原则——实用性（反映 Judge 常见使用场景）、特异性（准则间不重叠）、通用性（评估基本能力维度而非内容特定）。开放生成 5 准则：Completeness & Coverage、Visual Grounding & Details、Factuality / No Hallucination、Creativity & Expressiveness、Clarity & Coherence。可验证推理 5 准则：Visual Grounding、Logic Coherence & Consistency、Factuality / No Hallucination、Reflection & Exploration、Conciseness & Efficiency
- 设计动机：多轮迭代精炼自现有 MLLM-as-a-Judge 基准的准则总结，确保准则间互补不冗余
三个新评估指标（PAcc/TOS/CMR）：
- 功能：从不同维度度量 Judge 的多准则遵循能力
- PAcc (Pluralistic Adherence Accuracy)：\(\text{PAcc} = \frac{1}{|X|} \sum_{x \in X} \mathbb{I}[\bigwedge_{c \in C_x} \hat{y}_{x,c} = y_{x,c}]\)——所有准则都判断正确才算该 prompt 通过，衡量多准则一致遵循能力
- TOS (Trade-Off Sensitivity)：在存在准则冲突的样本上，Judge 是否至少能感知到不同准则应有不同偏好方向（只需存在一对冲突准则的预测方向不同即可），衡量灵活性而非精确度
- CMR (Conflict Matching Rate)：在冲突准则对上，Judge 是否不仅检测到冲突而且解析方向与人类一致，是最严格的指标
- 设计动机：PAcc 是整体性要求，TOS 检测 Judge 是否 criterion-agnostic（所有准则输出相同方向），CMR 细粒度检验冲突解析能力，三者从宽到严逐步刻画能力层次

标注流程与质量保证¶

标注团队为 9 名 CS PhD，均有多模态 AI 和 STEM 背景。先标注 20 个种子样本（10 开放 + 10 推理）进行小组讨论和校准，对齐理解后进入正式标注。每个样本分配 3 名标注者交叉验证，标注者每次只看一个准则，判定哪个回复更好（tie 限制在 10% 以下）并写简短理由。偏好聚合仅保留全体一致或两人一致且第三人为 tie 的样本；项目负责人人工审查文字理由，丢弃不一致或冗余的样本。最终标注耗时 289 小时，Cohen's \(\kappa\) 达到开放任务 0.718 和推理任务 0.805，属于 substantial agreement。

实验关键数据¶

主实验：开放生成任务（Open-Ended Split）¶

模型	PAcc(%)	CMR(%)	TOS(%)	准则均值(%)
o4-mini	32.78	43.11	64.56	69.67
Claude-3.7-Sonnet	31.77	42.32	64.08	67.37
GPT-4o	31.44	44.91	66.02	69.57
o3	31.10	42.71	62.62	69.16
GPT-5	29.77	38.52	62.62	68.51
InternVL3.5-38B（开源最佳）	30.43	33.73	64.08	65.10
InternVL3-78B	29.10	32.53	56.31	64.71
MiMo-VL-7B	29.10	39.52	65.53	63.37
Qwen2.5-VL-72B	28.43	35.53	60.68	63.84
R1-Reward-7B（微调最佳）	17.73	20.36	45.63	55.83
Qwen2.5-VL-7B	9.41	17.28	36.14	54.39

主实验：可验证推理任务（Reasoning Split）¶

模型	PAcc(%)	CMR(%)	TOS(%)	准则均值(%)
o4-mini	53.17	65.84	83.49	80.85
GPT-5	45.24	56.58	78.90	77.41
o3	44.44	62.28	82.57	77.86
GPT-4o	41.27	55.16	84.40	69.79
Gemini-2.5-Pro	41.27	52.33	75.93	73.06
InternVL3.5-38B（开源最佳）	37.30	47.69	75.23	69.82
MiMo-VL-7B	37.30	41.99	71.56	66.30
Qwen2.5-VL-72B	32.54	45.91	77.06	64.48
InternVL3-8B	26.98	39.50	66.06	66.22
R1-Reward-7B	19.05	24.56	62.39	54.50

消融实验：Critic 微调对各准则的影响（开放生成）¶

模型	Completeness	Grounding	Hallucination	Expressiveness	Clarity	Avg
Qwen2.5-VL-7B (base)	56.12	51.70	48.20	64.12	51.82	54.39
R1-Reward-7B	59.29	60.71	49.72	55.44	53.98	55.83
UnifiedReward-7B	57.96	52.23	52.49	57.51	55.68	55.17
LLaVA-Critic-R1-7B	55.31	57.59	46.96	63.73	55.11	55.74

所有 Qwen-based 微调 Judge 均在 Visual Grounding 准则上有一致提升（51.70→52.23~60.71），但其他准则提升不一致甚至下降。

关键发现¶

多准则判断极其困难：最强的 o4-mini 在开放生成上 PAcc 仅 32.78%，在推理上也仅 53.17%，表明即使 SOTA 模型也无法在所有准则上同时做出正确判断
开放任务比推理任务更难：所有模型在开放生成上的表现显著低于推理任务，反映开放任务的主观性和对细粒度视觉感知的更高要求
没有模型全面领先：o4-mini 在 Logic 和 Efficiency 上最强，但在 Hallucination 上被 o3 超越（84.21% vs 79.31%），在 Grounding 上被 Gemini-2.5-Pro 超越（79.01% vs 77.78%）
开源模型在冲突检测上差距更大：CMR 从闭源到开源下降约 9.4 点（开放任务）和 18.1 点（推理任务），远超准则级准确率的 4-11 点差距
Critic 微调仅提升 Visual Grounding：微调 Judge 在 Grounding 上一致改善，但在其他准则和冲突解析上提升有限甚至退步，因为训练信号是 holistic 偏好而非准则级
推理微调削弱 trade-off 识别：GRPO 微调模型虽然推理能力提升，但 TOS 和 CMR 反而下降，说明 holistic accuracy reward 不利于准则间冲突感知
Test-time scaling 效果有限：majority vote 对 o4-mini 有稳定提升（PAcc 32.78→37.12），但对其他模型效果不一致、方差大
闭源模型上限与人类一致性对齐：闭源模型最强准则准确率与 Cohen's \(\kappa\) 相关性 \(r=0.73, p=0.024\)，而开源模型仅 \(r=0.36, p=0.344\)

亮点与洞察¶

首个多准则多模态 Judge 基准，填补准则级评估空白，数据集中 68.9%（开放）和 86.5%（推理）的样本存在准则间偏好冲突
PAcc/TOS/CMR 三个指标形成从宽到严的能力评估层次，揭示了单一准则准确率无法反映的系统性缺陷
289 小时高质量人工标注（Cohen's \(\kappa\) 0.718/0.805），三阶段过滤确保样本具有细粒度准则差异
"Critic 微调仅提升 Grounding"这一发现对构建更好的 Judge 训练方法有重要指导意义——需要准则级训练信号而非 holistic 偏好
闭源模型上限与人类标注者一致性高度相关，暗示下一步挑战是超越人类水平的评估对齐

局限与展望¶

仅支持 pairwise comparison 模式，pointwise scoring 的多准则评估值得探索
准则设计仍较通用，领域特定准则（医疗、法律、代码）需进一步扩展
标注成本高（289 小时为 9 人共计），规模化扩展需要半自动标注管线
Tie 标注被限制在 10% 以下，可能丢失真正难以区分的边界样本
仅评估生成式 Judge，BT-style reward model 的多准则能力也应纳入研究
开源模型在所有指标上全面落后，亟需准则级 critic 训练数据和多准则 RLHF 方法

评分¶

新颖性: ⭐⭐⭐⭐ 首个多准则多模态 Judge 基准，PAcc/TOS/CMR 三指标体系设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 25 个模型全面评估，含微调 Judge、reasoning fine-tuning、test-time scaling、人类上限分析等丰富 ablation
写作质量: ⭐⭐⭐⭐ 结构清晰、数据详实、准则定义严谨
价值: ⭐⭐⭐⭐ 揭示了当前 Judge 系统的系统性不足，尤其是 Critic 微调仅提升 Grounding 的发现对下一步研究有重要指导意义