MINERVA-Cultural: A Benchmark for Cultural and Multilingual Long Video Reasoning¶
会议: CVPR 2026
arXiv: 2601.10649
代码: 即将公开
领域: 视频理解 / 多文化基准
关键词: 视频问答, 多文化理解, 多语言推理, 长视频, 证据图错误分析
一句话总结¶
提出 MINERVA-Cultural 基准,包含 18 个语种/地区的 2400 个人工标注视频推理问题,通过证据图(evidence graph)和迭代错误隔离策略揭示当前 SOTA Video-LLM 在文化视觉感知上的严重不足(最强模型 Gemini-2.5-Pro 仅 45.07% vs 人类 95.22%)。
研究背景与动机¶
-
领域现状:视频理解取得显著进展,长视频理解成为热点。EgoSchema、LongVideoBench、MLVU 等基准推动了模型发展。GPT-5、Gemini-2.5 等前沿模型在标准基准上表现强劲。
-
现有痛点:(a) 现有视频基准以西方内容和英语为主导,引入严重的评估偏差;(b) 跨文化基准如 ViMUL-Bench 依赖自动翻译,且视觉内容仍为西方概念;(c) 仅关注最终答案的正确性,忽略推理过程中的具体失败模式。
-
核心矛盾:模型在训练数据中欧美/英语内容占主导,导致对低资源语言和文化(如泰米尔语、泰卢固语)的理解严重不足。而简单的准确率指标无法揭示"模型到底在哪一步出了错"。
-
本文目标 (a) 构建真正由本地专家标注的多文化多语言视频推理基准;(b) 提供人工推理链作为诊断工具;(c) 开发细粒度错误分析方法定位模型失败原因。
-
切入角度:要求每个问题都必须具备"视觉文化理解"技能,将感知与文化紧密绑定。通过有向无环图(DAG)建模人工推理过程,迭代式地隔离和分类错误。
-
核心 idea:用 18 个地区本地专家全人工标注(非翻译)的长视频推理基准+证据图迭代分析方法,暴露并量化 Video-LLM 在文化视觉感知上的系统性不足。
方法详解¶
整体框架¶
MINERVA-Cultural 由两部分组成:(1) 基准数据集——540 个视频、2400 个问题,覆盖 18 个语种/地区,6 大文化领域,每个问题附带人工编写的多步推理链;(2) 诊断方法——将推理链转化为证据图(evidence graph),通过迭代错误隔离(iterative error isolation)精确定位模型失败环节。
关键设计¶
-
以文化为核心的数据标注流程 (Culture-Centric Curation):
- 功能:确保每个问题真正需要对视觉文化内容的深度理解才能回答
- 核心思路:四阶段流程——(1) 文化视频选择:本地审核员按文化分类法从 YouTube 筛选视频,必须是本地语言、含文化场景、时长超 1 分钟;(2) 难度校准:10% 样本先行标注,确保问题对 LLM 足够困难(不能单帧回答、不能仅靠音频、不能靠常识);(3) 正确性校准:独立审核员在不看答案的情况下回答问题,不一致则修正直到共识;(4) 最终标注+审计
- 设计动机:避免其他基准中"自动翻译+西方图像"的伪多文化问题。每个问题至少需要两种推理技能+必须具备视觉文化理解技能
-
证据图 (Evidence Graph):
- 功能:将非结构化的人工推理链形式化为有向无环图,用于精确定位模型推理失败环节
- 核心思路:用 LLM 将人工推理链分解为原子证据节点——包括视觉观察(带时间戳)、外部知识检索、逻辑推理。节点间建立前提依赖边(某个证据错误会阻止其后续推理)。平均每个问题需要 5.0 个原子证据,63% 的证据来自特定视频时间戳
- 设计动机:简单准确率无法区分"是看不见文化元素"还是"逻辑推理错误"。图结构可以捕捉因果依赖和时空关系
-
迭代错误隔离 (Iterative Error Isolation):
- 功能:穷举模型的所有失败模式,避免早期错误遮蔽后续失败
- 核心思路:三阶段循环——(1) 遍历:沿证据图比较模型推理与人工证据,遇到缺失证据即停止;(2) 错误标记:区分"分歧"(模型用了合理替代路径,仅 2%)和"错误"(按分类法标记:时间定位、空间定位、属性误识别、幻觉等);(3) 提示修正+重评估:给模型纠正提示,修剪已评估节点,重新评估未评估节点。循环直到所有节点都被评估(最多 5 次迭代即可解决 99.7%)
- 设计动机:单次错误分析只能发现首个错误,容易让后续推理错误被遮蔽。迭代方法额外发现了 22% 的错误(其中 78 个是推理错误,原本被感知错误遮蔽)
损失函数 / 训练策略¶
本文是基准论文,不涉及模型训练。评估使用 LLM Judge(Gemini-2.5-Flash),对开放式回答在 0-2 三级量表上评分。
实验关键数据¶
主实验¶
18 个地区的模型表现(准确率 %):
| 模型 | Aggregate | 最高地区 | 最低地区 |
|---|---|---|---|
| Qwen-2.5-VL | 12.75 | en-GB (25.70) | ta-IN (3.60) |
| Qwen-3-VL | 21.50 | en-GB (34.58) | te-IN (12.40) |
| Claude-Sonnet-4 | 23.36 | en-GB (29.91) | te-IN (14.40) |
| GPT-5-mini | 36.64 | ko-KR (51.90) | ta-IN (16.40) |
| GPT-5 | 42.20 | id-ID (56.34) | te-IN (23.60) |
| Gemini-2.5-Flash | 35.84 | de-DE (51.90) | ta-IN (20.00) |
| Gemini-2.5-Pro | 45.07 | ko-KR (64.29) | te-IN (28.00) |
| 人类基准 | 95.22 | it-IT (98.24) | de-DE (90.51) |
消融实验¶
| 分析维度 | 关键发现 |
|---|---|
| 音频 vs 纯视频 | 加入音频平均提升 4.32%(zh-TW +8.15%,id-ID +7.09%) |
| 思考预算 (token) | 128→2k token 准确率从 35.9% 升到 45.9%,之后饱和 |
| 帧数 (1→512) | 单调递增但增益递减,说明需要时序推理 |
| 错误类型分析 | 75% 错误归因于文化视觉感知(时间定位+空间定位+属性误识别+幻觉) |
关键发现¶
- 人机差距巨大:最强 Gemini-2.5-Pro(45.07%)与人类(95.22%)差距达 50 个百分点
- 文化差异极其显著:同一模型在韩语(ko-KR, 64.29%)和泰卢固语(te-IN, 28.00%)上的表现差距达 36 个百分点,暴露出严重的文化偏见
- 南印语言是重灾区:ta-IN (31.60%)、te-IN (28.00%)、mr-IN (38.72%) 均远低于英语地区
- 75% 的错误是文化视觉感知:不是推理能力不足,而是模型根本"看不见"或"看不懂"文化特定的视觉元素(服饰、仪式、标志等)
- 迭代错误分析至关重要:22% 的错误在首次分析中被遗漏,尤其是推理错误被感知错误遮蔽
- 低资源语言感知错误是高资源的 1.4 倍:ar-EG、ta-IN 的文化感知错误比 en-GB、ja-JP 等多 40%
亮点与洞察¶
- "文化理解是视觉感知问题"的重要发现:不是模型不会推理,而是模型看不见文化特定的视觉元素。这指出了改进方向——需要在预训练数据中增加文化多样性,而非仅提升推理能力
- 证据图+迭代错误隔离的诊断方法论:远超简单准确率的分析深度。这套方法可迁移到任何需要多步推理的基准(如数学推理、代码生成)
- 完全人工标注的高标准:每个问题由本地文化专家标注,经独立审核员校准,避免了翻译伪影。这是资源密集但对社区极有价值的贡献
局限与展望¶
- 规模有限:2400 个问题 / 18 个地区,每个地区约 130 个问题,可能不足以覆盖所有文化场景
- 评估依赖 LLM Judge:虽然使用多数投票缓解,但 LLM 评估本身可能对某些语言有偏见
- 未覆盖所有文化地区:非洲、南美部分地区、东南亚小语种未纳入
- 可改进方向:(a) 扩展到更多地区和语种;(b) 开发文化感知的视觉预训练数据策略;(c) 基于证据图的自动化诊断工具开源;(d) 探索在预训练数据中平衡文化分布的策略
相关工作与启发¶
- vs ViMUL-Bench: ViMUL-Bench 覆盖 14 个语种但混合使用了非文化视频+部分翻译标注,MINERVA-Cultural 完全用本地专家原语标注,且视频内容都是文化特定的
- vs MINERVA: MINERVA 提供推理链和错误分类,MINERVA-Cultural 在此基础上增加了多文化维度和证据图分析方法,诊断更精细
- vs LongVideoBench/MLVU: 这些基准关注通用视频理解,不涉及文化和多语言维度,MINERVA-Cultural 补充了这一空白
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模全人工多文化多语言视频推理基准,证据图分析方法新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 7 个模型、18 个地区、多维度分析(音频/帧数/思考预算/错误类型)、人类基准
- 写作质量: ⭐⭐⭐⭐⭐ 动机充分,标注流程描述详尽,分析深入且有洞察力
- 价值: ⭐⭐⭐⭐⭐ 暴露了 AI 系统的文化偏见,定义了模型改进的关键方向,对公平 AI 和全球化部署意义重大