MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness¶

会议: NeurIPS 2025
arXiv: 2505.20426
代码: GitHub
领域: Multimodal VLM
关键词: 透视理解, 多模态大语言模型, benchmark, 空间推理, 几何感知

一句话总结¶

首个系统评估多模态大语言模型 (MLLMs) 透视理解能力的基准，包含10个任务、3个维度、2711张图像和5083个问答对，揭示了43个SOTA模型在透视推理和鲁棒性方面的显著不足。

领域现状: 透视理解是人类视觉认知的基础，从文艺复兴绘画到现代摄像机标定，透视投影广泛用于三维空间在二维平面上的表征。当前MLLMs在视觉问答、图像描述等高层任务上表现出色。

现有痛点: 现有基准（如MMBench、MVBench）很少评估模型的几何推理能力，尤其是透视理解——包括灭点识别、平行线汇聚推理、空间关系判断等基础视觉能力。

核心矛盾: MLLMs展现了类人的视觉感知能力，但其是否内化了透视几何先验知识完全未知。专用的透视方法依赖精确数学模型或特殊数据集，难以推广到通用任务。

本文目标: MLLMs是否真正理解透视？能否定位灭点、理解平行线汇聚、推理三维空间关系、并在视角变换下保持一致？

切入角度: 构建从低层感知到高层推理再到鲁棒性的层次化、系统性评估框架。

核心 idea: 设计覆盖感知-推理-鲁棒性三个维度的10类透视理解任务，系统揭示MLLMs的空间几何短板。

MMPerspective 基准由三个互补的层次化维度构成：透视感知 (P'Percep)、透视推理 (P'Reason) 和 透视鲁棒性 (P'Robust)，共包含10个任务。评估难度从低层视觉识别逐步递增到高层空间推断和变换一致性验证。

透视感知 (P'Percep): 评估模型检测和解释图像中显式透视线索的能力。
- 灭点感知 (VPP): 判断灭点位置或其是否存在于给定区域
- 关键线感知 (CLP): 从候选线中识别地平线
- 镜头畸变感知 (LDP): 区分图像中无曲线畸变的区域
- 视角感知 (VAP): 利用视觉线索推断视线方向（向上/向下/水平）
透视推理 (P'Reason): 测试模型整合多个空间线索进行几何推理的能力。
- 透视类型推理 (PTR): 分类图像的透视结构（一点/两点/三点/非线性透视）
- 线关系推理 (LRR): 判断3D空间中两条线是平行、垂直还是相交
- 透视变换检测 (PTS): 检测配对图像间的透视类型变化
- 灭点计数 (VPC): 估算场景中可识别灭点的数量
- 视野外推理 (OVR): 推断灭点不在图像中时所在的象限
透视鲁棒性 (P'Robust): 评估模型在保持透视不变的图像变换下的一致性。通过裁剪、翻转、遮挡等操作增强原始图像，测试模型是否给出一致的正确答案。采用两种指标：
- Binary P'Robust Score: 要求所有变换版本全部正确，\(\text{Binary-Robust}_{\mathcal{M}} = \frac{1}{|\mathcal{S}|}\sum \mathbb{1}[\bigwedge_{I \in V_s} \mathcal{M}(I,q) = a^*]\)
- Graded P'Robust Score: 计算每组变换中正确回答的比例平均值

模型	VPP	CLP	VAP	LDP	PTR	LRR	OVR	PTS	VPC	Overall	Graded Robust
InternVL2.5-8B	38.5	17.9	53.1	75.4	40.8	48.3	34.7	24.9	67.5	44.6	38.7
Qwen2.5-VL-7B	35.3	29.3	70.4	73.7	42.4	44.4	32.1	28.6	44.7	44.5	33.2
InternVL2.5-26B	41.7	35.0	55.6	81.8	65.5	46.4	43.5	34.3	46.5	50.0	52.9
Eagle-X4-8B	39.1	17.1	46.9	47.7	65.3	37.1	18.2	32.9	68.4	41.4	60.7
InternVL2.5-2B	47.4	22.8	13.0	65.3	62.2	31.8	16.6	30.0	50.0	37.7	59.1

分析维度	关键发现
模型规模	更大模型在推理任务上通常更好，但鲁棒性与规模无明确正相关
感知 vs 推理	模型在表层感知任务上表现尚可，但推理和鲁棒性任务上明显退化
开源 vs 闭源	GPT-4o等闭源模型总体领先，但仍远非完美
CoT Prompting	Chain-of-thought提示在部分任务上有帮助