Lost in Translation: Do LVLM Judges Generalize Across Languages?¶

会议: ACL 2026 Findings
arXiv: 2604.19405
代码: https://github.com/tahmedge/mm-judgebench
领域: 多语言 / 模型评估
关键词: 多语言评估, LVLM评判, 奖励模型, 跨语言泛化, 视觉语言基准

一句话总结¶

本文提出 MM-JudgeBench，首个大规模多语言多模态评判模型基准（25 种语言、60K+ 偏好实例），评估 22 个 LVLM 发现当前 LVLM 评判器存在显著的跨语言性能差异——模型大小和架构不能预测多语言鲁棒性，即使最先进的评判器也表现不一致，突显了多语言多模态评估基准的必要性。

研究背景与动机¶

领域现状：自动评估器（奖励模型/LLM-as-Judge）在 LVLM 开发中扮演核心角色，从训练对齐到模型选择和基准测试。然而，现有评估几乎完全基于英语。

现有痛点：(1) VL-RewardBench 和 Multimodal RewardBench 仅覆盖英语；(2) 多语言扩展（如 M-RewardBench）仅限文本模态；(3) 没有现有基准能统一研究跨语言和跨模态的奖励模型行为。

核心矛盾：LVLM 评判器被期望在多语言多模态设定中使用，但其可靠性仅在英语上验证。同一模型在英语上表现优秀但在法语上可能选择错误答案。

本文目标：(1) 构建首个多语言多模态评判基准；(2) 大规模评估 22 个 LVLM 的跨语言评判一致性；(3) 揭示当前奖励建模的多语言局限。

切入角度：使用高质量翻译模型（Gemini-3-Pro）将 VL-RewardBench 和 OpenCQA 翻译到 24 种语言（加英语共 25 种），严格质量过滤后构建控制实验。

核心 idea：通过固定视觉输入仅变化语言来隔离跨语言评估效应，揭示 LVLM 评判器在语言维度上的脆弱性。

方法详解¶

整体框架¶

整体上是"先选翻译器、再造数据、最后多维评估"的流程，并顺带产出一份多语言训练集：(1) 翻译模型选择——对比 Gemini 系列的翻译质量（LaBSE 和 CometKiwi 指标），选择 Gemini-3-Pro；(2) 数据集构建——翻译 VL-RewardBench（视觉语言偏好判断）和 OpenCQA（图表问答判断）到 24 种语言，经质量过滤得到 60K+ 实例，构成评估基准 MM-JudgeBench；(3) 多维度评估——对 22 个 LVLM 做配对准确率、位置偏差、长度偏差分析；(4) 多语言训练集——把 MM-RewardBench 同样翻译到 24 种语言得到 100K+ 实例的 M-MM-RewardBench，供开源模型做领域适应微调。下面三个关键设计依次对应数据集构建、评估协议与训练集。

关键设计¶

1. MM-JudgeBench 数据集构建：固定视觉、只变语言，把"跨语言脆弱性"隔离出来

现有评判基准要么只有英语（VL-RewardBench、Multimodal RewardBench），要么扩展了多语言却丢掉了视觉模态（M-RewardBench），没人能同时盯住语言和模态两个维度。本文用两个互补子集补上这个空缺：M-VL-RewardBench 测通用视觉语言偏好，M-OpenCQA 测图表中心的视觉文本推理；每个提示把查询和两个候选答案一起翻译到目标语言，而图像保持不变。这样一来，同一道题在 25 种类型学差异巨大的语言（从阿拉伯语到越南语）下唯一变动的就是文字，评判器选错就只能归因于语言而非内容。

为了让构建在成本上可控，作者用一条提示一次性翻译全部 24 种语言，相比逐语言调用直接省下 24 倍 API 开销；质量上则用 LaBSE 和 CometKiwi 双指标卡 0.75 阈值，低于阈值的样本经人工回译复核后重翻或删除，最终留下 60K+ 高质量实例。

2. 多维度评估协议：不止看对不对，还要看模型为什么对

只看配对准确率（正确识别偏好响应的比例）会把系统性偏差藏起来——一个评判器可能"碰巧"选对，却始终偏爱排在前面或更长的答案，这种倾向在真实部署里会放大成稳定的误差。因此协议额外测两类偏差：位置偏差通过把每对答案正序、反序各呈现一次、比较两次准确率的差值来量化；长度偏差则看模型是否系统性地偏向更长但错误的答案。三个指标合在一起，才能区分"真懂"和"靠捷径蒙对"。

3. 多语言训练集 M-MM-RewardBench：给开源模型一条多语言适配的出路

实验发现开源评判器在非英语上掉得最狠，光做诊断不给解药并不够。作者顺手把 MM-RewardBench 也翻译到 24 种语言，得到 100K+ 偏好实例的训练集，并刻意与评估数据不重叠，专门用于对开源模型做领域适应微调。它的价值在实验里得到验证——多语言微调能显著拉回非英语上的评判性能。

损失函数 / 训练策略¶

评估为零样本提示，要求 LVLM 选择更好的答案并提供理由。领域适应微调使用标准 SFT 在 M-MM-RewardBench 上进行。评估指标为配对准确率。

实验关键数据¶

主实验¶

22 个 LVLM 在 MM-JudgeBench 上的平均准确率和方差

模型	平均准确率	方差	说明
GPT-5	81.3%	0.2	最稳定
Gemini-2.5-Flash	~78%	低	接近 GPT-5
Qwen3-VL-32B	~77%	低	开源最佳
Gemma-3-27B	~74%	中	部分语言下降明显
InternVL-3.5-8B	~70%	高	跨语言变异大
LLaVA-Critic-7B	~55%	高	专用评判模型但仅英语训练

消融实验¶

配置	效果	说明
英语评估	最高	所有模型在英语上最强
低资源语言（哈萨克语等）	下降最大	训练数据覆盖不足
效率优化变体	多语言崩溃	如 Gemini-Flash-Lite 英语强但多语言差
+ 推理增强	提升	要求提供理由改善评判
+ 多语言微调	显著提升	领域适应有效

关键发现¶

模型大小不能预测多语言鲁棒性——小模型 Qwen3-VL 在多语言上比许多更大模型更一致
效率优化变体（如 Flash-Lite）在英语上接近全尺寸版本，但多语言上严重退化
LLaVA-Critic（专门训练的评判模型）因仅在英语上训练，多语言表现极差
位置偏差和长度偏差在非英语语言中更严重
领域适应微调和推理增强评判都能改善多语言性能

亮点与洞察¶

揭示了 LVLM 评判器的多语言"盲区"——整体平均分掩盖了语言间的巨大差异
效率优化变体的多语言崩溃是重要的实用警告——降低成本可能以牺牲公平性为代价
训练集 M-MM-RewardBench 的发布为社区改善多语言评判提供了直接支持

局限与展望¶

翻译可能引入系统性偏差（所有翻译来自同一模型）
25 种语言仍未覆盖世界上多数语言
未分析翻译质量如何影响评估结果
未来需要原生多语言（非翻译）的评估数据

评分¶

新颖性: ⭐⭐⭐⭐ 填补了多语言多模态评判评估的空白
实验充分度: ⭐⭐⭐⭐⭐ 22 个模型、25 种语言、60K+ 实例
写作质量: ⭐⭐⭐⭐ 结构清晰，发现的实践含义阐述充分
价值: ⭐⭐⭐⭐⭐ 基准和训练集的发布对社区有持续价值