GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents¶

会议: ACL 2026
arXiv: 2603.24329
代码: 项目主页
领域: 视频理解
关键词: 视频问答, 多视角理解, 游戏AI, 幻觉诊断, 多智能体感知

一句话总结¶

提出 GameplayQA，一个基于多人3D游戏视频的端到端基准框架，通过密集时间线标注（1.22标签/秒）和结构化干扰项分类学，系统评估多模态大模型在决策密集、多视角同步场景下的感知和推理能力，揭示前沿模型与人类表现仍有显著差距。

研究背景与动机¶

领域现状：多模态大模型（MLLMs）正被广泛部署为3D环境中自主智能体的感知骨干（如机器人、虚拟世界），这要求模型具备快速状态变化感知、动作归属识别和并发多智能体行为推理等能力。

现有痛点：当前视频理解基准存在三个关键不足——（1）缺乏具身性和智能体基础，多为慢节奏的被动观察视频，无法测试高频状态转换和密集决策场景；（2）不可诊断幻觉类型，只提供全局性能指标，无法细粒度定位模型失败原因（时序误判？对象捏造？角色混淆？）；（3）缺乏多视频理解评估，几乎全部聚焦于单一视角。

核心矛盾：智能体感知需要同时追踪自身状态（Self）、建模其他智能体行为（Other）、感知环境变化（World），但现有基准的标注和评估体系无法覆盖这种多层次、多视角的认知需求。

本文目标：构建一个端到端的基准框架，能够评估模型在决策密集3D环境中的感知基础能力，并提供可诊断的错误分析。

切入角度：利用多人3D游戏作为"认知沙箱"——状态和结果确定性高、决策节奏快，天然适合评估智能体感知。

核心idea：围绕 Self–Other–World 三元实体分解设计标注体系，结合组合式模板QA生成和结构化干扰项分类学，实现从基础感知到跨视频推理的多层次可诊断评估。

方法详解¶

整体框架¶

GameplayQA 框架包含五个阶段：（1）从9款多人3D游戏收集同步多视角视频；（2）按6种实体类型（SA/SS/OA/OS/WO/WE）进行密集多轨时间线标注，标注密度达1.22标签/秒；（3）生成包含负面标签的干扰项，用于诱导幻觉；（4）通过组合式模板算法从标注中生成QA对，初始产生40万候选对后降采样至4K，质量保证后得到2,365对；（5）支持模型评估和细粒度幻觉分析。

关键设计¶

Self–Other–World 三元实体标注体系：
- 功能：为3D多智能体环境中的感知提供结构化的标注框架
- 核心思路：将可观察事件沿两个轴分类——实体（Self/Other/World）和时间属性（动作/状态对应智能体，对象/事件对应环境），形成6种原语标签类型（SA/SS/OA/OS/WO/WE）。每种类型作为独立的标注轨道，轨道之间允许时间重叠，支持并发事件捕获
- 设计动机：直接对应多智能体强化学习中的三个核心需求——密集状态-动作追踪、其他智能体建模、环境感知，使评估结果具有明确的诊断意义
三层认知复杂度问题分类：
- 功能：渐进式地评估模型从基础感知到复杂推理的能力
- 核心思路：L1（单参考感知）测试基础动作/状态/对象识别；L2（时序推理）需要跨实体关联、时间定位、缺失识别、排序和意图推断；L3（跨视频理解）要求跨同步多视角的引用、排序和视角识别。共15个任务类别
- 设计动机：模拟智能体认知的渐进复杂度——从"看到了什么"到"什么时候发生"再到"不同视角看到的如何关联"
结构化干扰项分类学（Structured Distractor Taxonomy）：
- 功能：实现模型幻觉的可诊断分析
- 核心思路：将错误选项按其与正确答案的关系分类为：词汇干扰项（文本变体）、场景干扰项（未发生的合理事件）、时间干扰项（在查询时间窗外发生的事件）、角色干扰项（智能体归属互换）、跨视频干扰项（来自其他视角的事件）
- 设计动机：传统基准只能告诉"模型答错了"，而结构化干扰项能精确定位失败模式（时间定位错误 vs 角色混淆 vs 语义误解），为模型改进提供明确方向

质量保证¶

采用两阶段流程：首先通过语言先验过滤（blind filtering）去除不需要视觉理解就能回答的问题；然后对120道均匀采样的题目进行人工评估，约8%的问题被标记为有缺陷并移除。

实验关键数据¶

主实验¶

模型	总体	L1 单参考	L2 时序	L3 跨视频
人类	80.5	~84%	~77%	~89%
Gemini 2.5 Pro	71.3	~63%	~60%	~77%
GPT-5	67.0	~67%	~64%	~62%
Gemini 3 Flash	68.2	~64%	~62%	~63%
Qwen3 VL 235B	63.8	~67%	~62%	~49%
Claude 4.5 Sonnet	51.3	~62%	~51%	~42%

消融实验¶

配置	总体	L1	L2	L3
完整视频（基线）	62.7	67.2	61.9	60.6
无视频	29.4	36.0	29.1	24.2
随机单帧	41.7	52.9	40.9	33.7
打乱帧序	54.8	63.1	52.6	53.4

关键发现¶

所有模型准确率随认知层次上升持续下降：L1（61.2%）→ L2（56.0%）→ L3（49.4%），验证了三层分类的有效性
最难的两个任务：出现次数计数（OccCnt，36.5%）和跨视频排序（X-VOrd，38.8%），说明精确时间追踪是当前模型的根本弱点
其他智能体相关（OA: 54.0%, OS: 55.4%）比世界对象（WO: 62.0%）难约8个百分点
跨视频和时间干扰项导致最多错误，场景干扰项最容易——模型处理静态视觉输入优于时序和跨视频推理
快节奏射击游戏（CS2、Battlefield）错误率最高，慢节奏探索游戏更容易

亮点与洞察¶

诊断性极强：结构化干扰项分类学是本文最大亮点，将"模型答错了"转化为"模型为什么答错了"，为改进提供明确指引
框架设计而非静态数据集：不只是一个基准，而是包含标注协议、QA生成算法和错误分析的完整端到端管道，可扩展到新游戏和新领域
认知层级设计合理：L1→L2→L3 的渐进复杂度有效区分了不同能力维度，揭示模型在时序推理和多视角理解上的系统性弱点
多视角同步：首个在游戏领域提供同步多POV视频QA的基准，填补了多视频理解评估空白

局限与展望¶

数据规模较小：仅2,365道QA对和100个视频，相比一些大规模基准显得有限
游戏领域偏向：主要来自竞技类3D游戏，向其他领域（机器人、自动驾驶）的泛化需要验证
标注误差传播：自动生成标注后人工校验，仍有约8%的质量问题
未来方向：扩展到更多游戏类型和非游戏领域、引入开放式问答、增加模型的主动探索评估

评分¶

新颖性: ⭐⭐⭐⭐ Self-Other-World三元分解和结构化干扰项分类学设计新颖，填补多视角游戏视频QA空白
实验充分度: ⭐⭐⭐⭐ 覆盖15+个前沿模型，有消融实验和多维度错误分析，但数据规模偏小
写作质量: ⭐⭐⭐⭐⭐ 框架设计清晰，图表丰富，层次分明
价值: ⭐⭐⭐⭐ 为多智能体感知评估提供了实用的诊断工具，对具身AI和世界模型研究有启发