GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra¶
会议: ICLR 2026
arXiv: 2506.08194
代码: 有
领域: 3D视觉
关键词: 几何推理, benchmark, 多面体, 视觉基础模型, VLM评估
一句话总结¶
提出 GIQ 基准数据集,包含 224 种合成和真实多面体,通过单目 3D 重建、对称性检测、心理旋转测试和零样本分类四项任务系统评估视觉基础模型的几何推理能力,揭示了当前模型在基本几何理解上的显著不足。
研究背景与动机¶
现代视觉模型在标准基准上表现出色,但越来越多的证据表明它们缺乏真正的 3D 几何理解:
VLM 在深度排序等空间问题上表现不佳
单目重建算法难以重建训练分布外的形状
现有 3D 评估数据集(如 Objaverse)缺乏精确的几何属性标注
多面体是理想的评估载体:明确的类别定义(柏拉图体、阿基米德体、Johnson 体等)、精确的对称群、从简单到复杂的层次化几何复杂度。
方法详解¶
整体框架¶
GIQ 是一个系统基准测试工作,包含四个评估维度:
- 单目 3D 重建:从单张图像恢复 3D 几何
- 3D 对称性检测:视觉编码器是否隐式捕获对称信息
- 心理旋转测试 (MRT):跨视角形状等价性判断
- 零样本多面体分类:前沿 VLM 对基本形状的识别
关键设计¶
(1)数据集构建
224 种独特多面体:
- 柏拉图立体 (5种):正四面体、正方体、正八面体、正十二面体、正二十面体
- 阿基米德体 (13种):正多边形面但非全等的凸多面体
- Catalan 体 (13种):阿基米德体的对偶体
- Johnson 体 (92种):面为正多边形但缺乏顶点均匀性
- 星形体 (48种)、Kepler-Poinsot 体 (4种)、复合体 (10种)、非凸均匀体 (53种)
合成图像:Mitsuba 物理渲染器,每形状 20 视点,256x256 真实图像:纸质模型,Nikon D3500 拍摄(6000x4000),室内外各约 20 张
(2)单目 3D 重建评估
测试 Shap-E、Stable Fast 3D、OpenLRM。发现即使在数百万 3D 资产上训练,连正方体的基本属性都无法可靠恢复。
(3)3D 对称性检测
12 种编码器(DINOv2, SigLIP, CLIP, DINO, MAE, VGGT, DUSt3R, MASt3R 等),线性/非线性探针检测中心点反射、4 重和 5 重旋转对称。加权 BCE 损失处理类别不平衡,5 折交叉验证。
(4)心理旋转测试
判断两张图片(合成 vs 真实)是否为同一多面体。用编码器嵌入差的绝对值 + 非线性探针分类。困难分割包含几何视觉相似的多面体对。42 人用户研究建立人类基线。
(5)零样本多面体分类
测试 Claude 3.7, Gemini 2.5 Pro, ChatGPT o3/o4-mini-high,以及 3D 原生模型 LLaVA-3D, ShapeLLM, PointBind。
损失函数 / 训练策略¶
- 对称性检测:加权 BCE,权重 w_c = (N - n_c) / n_c
- 心理旋转:标准分类损失
- 5 折交叉验证确保形状级泛化
实验关键数据¶
3D 对称性检测(合成训练 -> 真实测试)¶
| 编码器 | 中心点反射 | 4重旋转 | 5重旋转 |
|---|---|---|---|
| DINOv2 | 约85% | 约93% | 约80% |
| SigLIP | 约82% | 约88% | 约78% |
| MAE | 约65% | 约70% | 约60% |
心理旋转测试(困难分割,syn-wild)¶
| 模型 | 准确率 |
|---|---|
| SigLIP(非线性 probe) | 约69% |
| DINOv2 | 约67% |
| 人类平均 | 68.05% |
| 人类最佳 | 90% |
| 大多数模型 | <60% |
零样本分类¶
| 模型 | 柏拉图体 | 阿基米德体 | Catalan体 | Johnson体 | 非凸体 |
|---|---|---|---|---|---|
| ChatGPT o3 | 100% | 约50% | <20% | <20% | <20% |
| Gemini 2.5 Pro | 约80% | 约60% | <20% | <20% | <20% |
| Claude 3.7 | 约80% | 约40% | <20% | <20% | <20% |
| 3D 原生模型 | - | - | - | - | 未超越 2D VLM |
消融实验¶
- Chain-of-Thought 提示:收效甚微,模型常在中间步骤产生幻觉
- 多视图输入:仅对低对称性 Johnson 体有微弱提升
- 线性 vs 非线性 probe:对称性检测中两者性能相当
关键发现¶
- 重建失败:所有 SOTA 重建方法连正方体都无法可靠重建
- 对称性可探测:DINOv2 等编码器隐式捕获了 3D 对称信息(4重旋转高达 93%)
- 细粒度判别不足:困难心理旋转测试中大部分模型接近随机水平
- VLM 几何推理缺陷系统性:混淆凸/非凸、错误识别面类型、将复合体与星形体混淆
- 3D 原生模型不比 2D VLM 更好:即使给定精确点云也未能超越通用 VLM
- 人类优势明显:68% 的人类参与者超过最佳模型
亮点与洞察¶
- 多面体作为几何石蕊试纸:利用数学上完美定义的对象进行严格评估
- 隐式 vs 显式几何理解的分离:编码器能通过探针检测对称性,但显式推理任务上失败
- 人类基线的纳入:42 人用户研究提供有意义的比较锚点
- 揭示训练数据偏差:重建模型学到的是带噪声的表面先验而非数学精确性
局限与展望¶
- 仅评估多面体:与任意有机形状的推广关系需进一步研究
- 数据集规模有限:224 种形状,某些类别样本少
- 未提出改进方案:纯诊断性工作,未设计增强几何推理的训练方法
- 评估侧重零样本:未探索 few-shot 或微调场景
相关工作与启发¶
- Probing 3D Awareness(El Banani et al., 2024):GIQ 将 probe 扩展到对称性
- Mental Rotation Test(Shepard & Metzler, 1971):从认知科学借鉴的经典范式
- 启发:现有模型学到的是纹理和统计模式而非几何本质,未来需引入数学生成的几何数据
评分¶
- 新颖性:4/5 - 首个系统的多面体几何推理基准
- 技术深度:3/5 - 主要是评估工作,方法创新有限
- 实验完整度:5/5 - 四维度评估、多模型对比、人类基线
- 实用价值:4/5 - 为改进视觉模型的几何理解指明方向