4D-Bench: Benchmarking Multi-Modal Large Language Models for 4D Object Understanding¶
会议: ICCV 2025
arXiv: 2503.17827
代码: https://4dbench.github.io/
领域: 视频理解 / 多模态
关键词: 4D 理解, MLLM 评测, 多视角时序推理, benchmark, 视觉问答
一句话总结¶
4D-Bench 是首个评估多模态大语言模型(MLLM)4D 物体理解能力的基准,包含 4D 物体问答和描述两大任务,揭示了即使 SOTA GPT-4o 也仅达 63% 准确率(人类基线 91%),暴露了当前 MLLM 在多视角时序推理上的显著不足。
研究背景与动机¶
4D 数字资产(动态 3D 物体)在数字孪生、增强现实、游戏等领域日益重要。随着 MLLM(如 GPT-4o、Qwen2-VL)在 2D 图像/视频理解上取得长足进步,一个自然的问题是:这些模型能否理解 4D 物体?
然而,当前存在一个关键空白:
无公开的 4D 语言理解基准:现有基准要么关注 2D 图像/视频(忽视多视角理解),要么关注静态 3D 场景(忽视时序动态)
4D 理解的独特挑战: - 多视角歧义:同一物体从不同视角观察呈现不同外观,需要综合多视角信息 - 时序演变:物体部件随时间运动,需要跟踪和推理 - 跨视角-时间的联合推理:如图 1 所示,机器人的右手在某些视角模糊、最终消失,回答问题需要选择正确视角、定位部件、追踪变化
反事实测试:4D-Bench 的合成物体可提供违反物理规律或常识的反事实数据(如 6 条腿的蜘蛛、球从洞中滚出),测试 MLLM 是否真正理解输入而非依赖记忆
核心 idea:将 4D 物体渲染为多视角视频,直接输入现有 MLLM 进行评测,无需建立新的 4D 理解模型。通过精心设计的评测任务暴露 MLLM 的具体短板。
方法详解¶
整体框架¶
4D-Bench 由两大任务组成: 1. 4D 物体问答(QA):751 个四选一问题,736 个 4D 物体 2. 4D 物体描述(Captioning):580 个 4D 物体,每个 5 条人工标注描述
关键设计¶
1. 数据收集与清洗¶
数据源自 Objaverse-XL 的动态 3D 物体,经过两阶段清洗:
- 运动分析:通过像素变化检测识别运动边界,提取有效视频段,确保只包含动态物体
- 视觉质量评估:人工标注数千张图像为高/低质量,微调 CLIP 图像编码器作为质量分类器,多视角投票过滤低质量物体
每个 4D 物体渲染 24 个视角的视频。
2. 问答任务设计(5 个子任务)¶
| 子任务 | 评测内容 | 独特挑战 |
|---|---|---|
| 外观(Appearance) | 视觉属性分析 | 合成/虚构物体偏离真实世界训练分布 |
| 动作(Action) | 细粒度运动检测 | 需多视角观察才能判断运动方向 |
| 计数(Object Counting) | 动态场景中精确计数 | 物体出现/消失 + 跨视角遮挡 |
| 空间关系(Spatial Relationship) | 跨视角空间配置理解 | 不同角度的空间关系不同 |
| 时序关系(Temporal Relationship) | 时间演变和顺序理解 | 需在时间和视角两个维度联合推理 |
3. 标注流程¶
QA 标注:采用混合方式 - 专业标注团队初始标注(保留率从 92% 降至 62.5%,凸显质量控制难度) - 后续用 GPT-4o/Qwen2-VL 生成候选 QA → Qwen2-VL 7B 初筛 → 纯文本盲测(Qwen2.5 + Llama 3.1,删去两者都能正确回答的) → 人工终审 - 最终保留 751 个高质量 QA 对
描述标注:纯人工标注,5 位专业标注员独立为每个物体写描述,审核员确保描述捕捉重要细节。
4. 评测设置¶
- 从 24 视角中均匀选取 \(K=3\) 个视角
- 每个视角采样 \(N=6\) 帧 → 输入为 \(3 \times 6 = 18\) 帧
- 描述任务使用 GPT-4o 作为评估器,分别给出 GPT-Appearance 和 GPT-Action 评分(0-5 分)
损失函数 / 训练策略¶
4D-Bench 是评测基准,不涉及模型训练。
实验关键数据¶
主实验¶
4D 物体问答准确率(%):
| 模型 | 计数 | 时序关系 | 动作 | 空间关系 | 外观 | 总体 |
|---|---|---|---|---|---|---|
| MiniGPT4-Video | 22.05 | 26.43 | 22.90 | 22.39 | 22.06 | 23.17 |
| Qwen2-VL 7B | 38.58 | 56.43 | 57.94 | 58.96 | 71.32 | 56.99 |
| LLaVA-Video 72B | 54.33 | 58.57 | 57.48 | 66.42 | 77.21 | 62.32 |
| GPT-4o | 44.09 | 59.29 | 63.55 | 69.40 | 77.21 | 62.98 |
| 所有模型平均 | 37.29 | 49.29 | 49.37 | 53.57 | 63.92 | 50.69 |
| 人类 | 88.98 | 89.29 | 94.39 | 91.04 | 89.71 | 91.08 |
GPT-4o 与人类基线差距近 28 个百分点。
消融实验(视角数和采样频率的影响)¶
| 设置变化 | 准确率变化(Gemini 1.5 Flash) |
|---|---|
| 1 视角 → 3 视角(固定 6 帧) | 41.3% → 53.7%(+12.4%) |
| 1 帧 → 6 帧(固定 3 视角) | 46.3% → 53.7%(+7.4%) |
| 3 视角 → 6 视角 | 53.7% → 下降(信息冗余) |
| 6 帧 → 9 帧 | 提升可忽略 |
结论:问题确实需要多视角+时序信息,但超过 3 视角/6 帧后信息冗余反而干扰模型。
描述任务 GPT-Eval 评分:
| 模型 | GPT-Appearance | GPT-Action | GPT-Eval |
|---|---|---|---|
| Qwen2-VL 72B | 3.324/5 | 2.791/5 | 3.057/5 |
| Gemini 1.5 Pro | 3.311/5 | 2.983/5 | 3.147/5 |
| GPT-4o | 3.507/5 | 3.258/5 | 3.382/5 |
| 人类 | 3.772/5 | 3.879/5 | 3.826/5 |
关键发现¶
- 计数是最难的任务:所有模型平均仅 37.29%(接近随机猜测 25%),需要跨视角信息整合来消除遮挡
- 外观理解 >> 动作理解:外观平均 63.92% vs 动作 49.37%,差距约 15%
- 开源 vs 闭源的差距在动作理解上更大:外观方面开源模型已接近闭源水平,但动作理解差距显著
- 反事实数据暴露模型的"记忆依赖":面对 6 条腿蜘蛛或物理违反场景,所有 MLLM 都给出错误答案,说明它们依赖世界知识而非真正理解视觉输入
- 鲁棒性良好:改变帧排列顺序(视角优先 vs 时间优先)或添加时间戳对结果影响微小
亮点与洞察¶
- 填补 4D-语言理解评测空白:在 3D(静态)和 2D 视频(单视角)之间开辟了全新的评测维度
- 反事实测试的巧妙设计:合成数据天然提供了超越真实世界的 OOD 评测,是 2D benchmark 无法做到的
- 数据质量把控严格:混合标注流程(人工+MLLM+盲测+终审)确保问题确实需要多视角时序推理
- 实用的评测发现:计数能力差 → 需要更好的跨视角对应关系建模;动作弱 → 需要更强的时序编码器
局限与展望¶
- 当前使用多视角视频拼接作为 4D 输入,而非原生 4D 表示(如点云序列、4D Gaussian Splatting)——受限于当前 MLLM 的输入模态
- 数据集规模相对有限(751 QA + 580 captioning),可能不足以支撑全面的统计结论
- 物体来自 Objaverse-XL,以合成为主,外观和运动可能与真实世界有分布差异
- 未评测专门的 3D/4D 理解模型(如 3D-LLM),仅评测了通用 2D MLLM
相关工作与启发¶
- MVBench [Li et al., 2024]:视频理解多任务 benchmark,但仅单视角
- ScanQA [Azuma et al., 2022]:3D 场景问答,但仅静态场景
- T3Bench [He et al., 2023]:评测 Text-to-3D 生成,关注生成质量而非理解
- 4DGS [Wu et al., 2024]:4D 高斯溅射,提供 4D 表示但缺少语言理解评测
- 启发:未来 MLLM 需要原生 4D 输入支持(而非多视角视频代理),以及更强的时序建模能力
评分¶
- 新颖性:⭐⭐⭐⭐⭐ — 首个 4D 物体理解 benchmark,问题定义开创性
- 技术深度:⭐⭐⭐ — 以评测为主,方法论贡献相对有限
- 实验充分度:⭐⭐⭐⭐⭐ — 14 个 MLLM、5 个子任务、多维分析(视角数/帧数/排列/反事实)
- 实用性:⭐⭐⭐⭐ — 为 MLLM 的 4D 理解能力提供了明确的改进方向