Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=zCYXhSy9UH
代码/数据: 待确认
领域: 多模态 / 视觉语言模型评测
关键词: 多语言, 多模态, VLM 评测, in-language 考试, 文化包容性, MCQA

一句话总结¶

KALEIDOSCOPE 通过全球开放科学协作，手工收集 18 种语言、14 个学科、共 20,911 道真实考试多选题（55% 需看图），构建出迄今最大的"原生语言（in-language）"多语言多模态 VLM 评测基准，揭示出当前 VLM 在低资源语言、多模态推理和 STEM 学科上的系统性短板。

研究背景与动机¶

领域现状：VLM 的能力评测长期被英语、西方中心的基准主导。文本侧的多语言评测近年虽有扩展，多模态基准也开始成型，但二者交叉处——既多语言又多模态的可靠评测——仍然稀缺。

现有痛点：最常见的"省事"做法是把英语基准翻译成其他语言，但这有两个根本缺陷：(1) 翻译无法承载文化语境与本地知识，反而把西方中心的假设固化进去；(2) 自动化数据管线会放大"翻译腔"（translationese）等噪声，污染评测信号。真正反映各地区文化与知识的"原生语言"基准始终缺位。

核心矛盾：前沿生成模型正快速向多模态、多语言扩张，宣称要表征一个更丰富多元的世界，但用来衡量它们的尺子却仍然单语、单文化——能力声明与评测覆盖之间存在系统性错位。

本文目标：构建一个大规模、原生语言、多模态、文化真实的考试型基准，像人类在世界各地参加考试那样去考 VLM，从而诊断模型在语言、模态、学科三个维度上的真实差距。

核心 idea：[原生语言 in-language 考试题] 不做翻译，而是直接从各国官方考试、题库、政府网站等公开渠道，由母语者与领域专家手工收集真实考题，保留原始语言与文化语境；[全球开放科学协作] 借助横跨 20 国、四大洲的开放科学社区贡献者来保证语言学与文化真实性；[图文绑定的 MCQA] 用 4 选 1 多选题这一贴近真实人类测试的统一格式，并要求 55% 的题目必须理解图像才能作答，从而把"视觉接地推理"作为核心考点。

方法详解¶

整体框架¶

KALEIDOSCOPE 不是一个模型而是一个"基准 + 评测协议"。其构建管线分三段：先由全球社区按统一规范收集真实考题，再经自动解析 + 人工精修的两阶段处理把 PDF/网页/扫描件转成结构化图文 JSON，最后通过三道人工质检关卡把关；评测端则对开放权重与闭源 VLM 分别设计 CoT / 直答两套协议，统一用准确率打分。

flowchart TD
    A[全球开放科学协作<br/>20国母语者+领域专家] --> B[收集真实考题<br/>官方考试/题库/政府网站<br/>标注 license 溯源]
    B --> C[阶段1: 自动解析<br/>PDF/Web 解析器 + Mathpix OCR + GPT-4o<br/>→ LaTeX/Markdown/JSON]
    C --> D[阶段2: 人工精修<br/>启发式规则 + Claude/GPT-4o<br/>对齐题干-图像-选项]
    D --> E[三段质检<br/>双标注员验收→脚本查重→双验证员终审]
    E --> F[KALEIDOSCOPE<br/>18语言/14学科/20,911题/55%多模态]
    F --> G[评测协议<br/>闭源: 零样本 CoT + ANSWER 标签<br/>开源: JSON 直答]

关键设计¶

1. 三大设计原则锚定数据：多模态、多语言、多样性 基准从一开始就用三条原则约束选题——多模态性要求图像处于核心地位（最终 11,459/20,911 题、即 55% 必须看图才能作答，且图像类型多样，涵盖图表、照片、地图、公式、表格等），并配上相当比例的纯文本题作为对照；多语言性聚焦中低资源语言（尼泊尔语、立陶宛语、孟加拉语、泰卢固语等）与高资源语言（英、西、葡、俄、法、德、阿拉伯、印地、荷兰语）并存，覆盖 8 大语系；多样性则跨越数学、社会学、医学乃至驾照考试等 14 个学科、6 大领域，并记录国别与教育层级（高中/大学入学/职业资格），保证后续可做细粒度聚类分析。各语言题量从尼泊尔语的 126 题到葡萄牙语/塞尔维亚语/波斯语的 2000 题不等。

2. 两阶段标注管线：自动解析 + 人工精修 收集到的考题源格式杂乱（PDF、网页、扫描图），处理分两步。第一步自动解析与抽取：可直接解析的文本走 PDF/Web 解析器，不可解析的走 OCR API（如 Mathpix）配合 GPT-4o 等 VLM，把文字与图像元素抽出并转成 LaTeX / Markdown / JSON 结构化输出。但自动解析常出现图文错位，于是第二步用启发式规则加高性能 LLM（Claude 3.5 Sonnet、GPT-4o）重构输出，确保题干、文本、选项正确对齐，再由人工核验图像是否绑定到对应题目、抽取的公式是否符合预期格式。每道题包含 17 个字段（源国别、语言、license、教育层级、类别、图像类型等），学科同时用英文与源语言标注。

3. 三段式人工质检 + 评测期失败模式回查 大规模国际协作最大的风险是质量参差，作者在管线里埋了三道人工关卡：收集阶段结束时两名独立标注员验收每份考卷（含 license 合规严审，仅双方都通过才入库）；标注后用验证脚本查 JSON 格式错误、重复与畸形字符串；合并入库前再由两名独立验证员做最终人工复审。质检还延伸到评测期——推理时若出现含糊答案、空响应或跨模型一致失败等可疑输出，会被标记人工复查，一旦确认有问题就回查并修正/移除整份考卷所在的题目，形成"评测反哺数据清洗"的闭环。

4. 开源/闭源分轨的评测协议 不同体量 VLM 的指令遵循与推理能力差异巨大，强行统一协议会失真。作者据此分轨：闭源模型用零样本 Chain-of-Thought，要求逐步推理后把最终答案放进 <ANSWER></ANSWER> 标签，且指令翻译成各评测语言做到完全 in-language；开源小模型在预实验中 CoT 收效有限，于是改用直答，强制输出 {'choice': ...} 的 JSON 结构以减少推理与格式错误，指令统一用英文。主指标为准确率，并额外报告"格式错误率"（F.E.，无效响应占比）与"有效答案准确率"（Valid Acc.，剔除无效响应后）以区分"答错"与"格式没遵守"。

实验关键数据¶

主实验表格（宏平均准确率 %，各语言等权）¶

模型	Overall Acc.	F.E.	Multimodal Acc.	Text-only Acc.
Claude 3.5 Sonnet	62.91	1.78	55.63	73.54
Gemini 1.5 Pro	62.10	1.62	55.01	72.35
GPT-4o	58.32	6.52	49.80	71.40
Qwen2.5-VL-72B	52.94	0.02	48.40	60.00
Qwen2.5-VL-32B	48.21	0.88	44.90	53.77
Qwen2.5-VL-7B	39.56	0.08	36.85	43.91
Aya-Vision-32B	39.27	1.05	35.74	44.73
Aya-Vision-8B	35.09	0.07	32.35	39.27
Qwen2.5-VL-3B	35.56	0.19	33.67	38.51
Molmo-7B-D	32.87	0.04	31.43	35.12
Pangea-7B	31.31	7.42	27.15	37.84

闭源模型领跑（Claude/Gemini ~62%），但即便最强模型 Overall 也仅 63%，离"做对人类考题"差距巨大；GPT-4o 受多模态高格式错误率（10.5%）拖累，剔除无效后 Valid Acc. 明显回升。开源阵营 Qwen2.5-VL-72B 最强（52.94%）。

消融/分项分析表格（按图像类型的有效准确率 %）¶

模型	Diagram	Figure	Graph	Map	Photo	Formula	Table	Text
Claude 3.5 Sonnet	62.9	50.5	74.2	80.1	77.8	52.1	75.0	85.2
Gemini 1.5 Pro	59.4	51.3	67.9	69.4	75.8	68.3	76.0	85.2
GPT-4o	59.6	48.2	68.4	78.8	81.5	64.4	76.5	86.2
Qwen2.5-VL-72B	51.1	43.9	59.4	66.1	70.5	48.7	61.5	86.0

模型在表格（76.5%）、照片（81.5%）上表现好，但在图示/示意图（diagram 62.9%）这类需要抽象视觉推理的类型上明显掉链子。

关键发现¶

模态差距：所有模型纯文本都显著优于多模态；模型越大差距越宽——GPT-4o 文本与多模态相差 21.6%，而小模型 Molmo 仅差 3.69%（开源小模型更"均衡"但整体低）。
学科差距：人文社科平均准确率 83.7%，STEM 仅 59.2%（各模型最佳分）。说明模型能识别视觉内容并检索相关知识，但缺乏 STEM 所需的推理链。
跨语言差距：高资源语言表现好，中低资源差；拉丁字母脚本语言普遍优于非拉丁脚本，暗示跨语言迁移在起作用。

亮点与洞察¶

"考试"作为评测范式：用世界各地真实考题（含驾照、职业资格、大学入学）来考 VLM，天然带有人类难度刻度、文化语境和图文绑定的推理需求，比图像描述类任务更能逼出模型短板。
in-language 而非 translation：坚持原生语言收集，直击翻译型多语言基准"西方中心固化 + 翻译腔污染"的两大顽疾，是方法论层面的关键立场。
三维诊断 + 17 字段元数据：模态 × 学科 × 语言三个正交维度，加上图像类型、教育层级等细粒度元数据，使基准不只是排行榜，更是可做失败归因的诊断工具。
评测反哺数据：把推理期的可疑输出回查机制并入质检闭环，是大规模众包基准里值得借鉴的质量工程实践。

局限与展望¶

MCQA 天花板：4 选 1 多选格式便于自动评分，但有随机猜测基线（25%）且无法考察开放式生成、长链推理与解释能力，对真实"理解"的刻画有限。
语言/题量不均衡：各语言题量从 126 到 2000 差异巨大，低资源语言（如尼泊尔语）样本稀少，其结论的统计可靠性弱于高资源语言。
依赖 LLM 参与构建：解析与精修阶段用了 GPT-4o/Claude，可能把这些模型的偏好或错误引入数据，对同族模型的评测公平性需谨慎。
静态基准与污染风险：考题多取自公开网络，存在被纳入预训练语料、随时间被"刷穿"的风险；需要持续更新与污染检测。
展望：可扩展到更多语系/学科、引入开放式作答与人类对照、并把诊断结果反哺到多语言多模态模型的训练数据配比上。

评分¶

新颖性: ⭐⭐⭐⭐ 不在模型创新而在评测范式——"原生语言真实考试 + 全球开放科学协作"填补了多语言×多模态交叉评测的真实空白，立场鲜明。
实验充分度: ⭐⭐⭐⭐ 覆盖闭源/开源 11 个模型、模态×学科×语言×图像类型多维拆解，诊断充分；唯低资源语言样本不均、缺开放式作答评测。
写作质量: ⭐⭐⭐⭐ 动机清晰、管线与质检流程交代细致，图表组织得当。
价值: ⭐⭐⭐⭐⭐ 作为迄今最大的多语言多模态考试基准，对推动文化包容性 VLM 评测有长期社区价值。