Tri-Bench: Stress-Testing VLM Reliability on Spatial Reasoning under Camera Tilt and Object Interference¶

会议: AAAI 2026
arXiv: 2512.08860
代码: https://github.com/Amiton7/Tri-Bench
领域: 多模态VLM
关键词: 空间推理基准, 几何推理, 相机姿态鲁棒性, 多数类偏见, VLM可信度

一句话总结¶

Tri-Bench 是一个包含400张实拍三角形图像的紧凑基准，通过控制相机姿态（平面/倾斜）和物体干扰两个因素，系统测试了四个领先VLM的空间几何推理能力，发现模型默认依赖2D图像平面线索而非3D真实几何（即使提供了明确的参考框架提示），在非多数类形状上准确率降至接近0%。

研究背景与动机¶

领域现状¶

VLM已成为现实应用中不可或缺的组件，特别是在机器人导航、AR/VR测量工具、3D重建、AI辅助几何教学等场景中。可验证的几何推理是可信可控的智能体AI的关键组件。现有的空间推理基准要么关注绝对距离/角度估计，要么聚焦于抽象图表或场景中的问题求解，缺少对部署关键因素（如相机姿态不变性和物体干扰）的系统压力测试。

核心痛点¶

现有基准粒度不足：Mind the Gap、OmniSpatial等测试广泛的认知能力（心理旋转、空间导航），但不隔离基本几何测量的鲁棒性；MathBench、VisioMath测试数学题但使用干净的符号输入而非真实照片

缺乏对相机姿态变化的评估：真实部署中相机角度多变，但现有基准几乎不测试这一因素对推理的影响

缺乏对物体干扰的评估：真实场景中总有其他物体共存，它们是否影响VLM的几何推理未知

2D vs 3D推理的混淆：VLM看到的是2D投影图像，但应该推理3D真实几何。现有基准未区分这两者

本文切入角度¶

设计一个最小化、可控的诊断基准：使用最基本的闭合几何结构（三角形），在受控条件下系统隔离相机姿态和物体干扰对VLM空间推理的影响。关键创新在于提供明确的参考框架护栏（已知正方形边框），使得通过单应性变换（homography）可以恢复3D几何——从而测试VLM是否能利用这一信息。

方法详解¶

整体框架¶

Tri-Bench包含100个标注三角形，每个在4种条件下拍摄（2×2：平面/倾斜 × 有/无物体），共400张图像。每张图像中三角形位于1m×1m的正方形边框内，使用红/黄/蓝三色贴纸标记顶点A/B/C。通过6个几何推理任务评估VLM的能力。

关键设计¶

1. 数据集构建 (Dataset Composition)¶

功能：手工构建100个多样化三角形，在受控条件下拍摄
核心细节：
- 形状多样性：38个锐角、32个钝角、30个直角三角形；64个不等边、26个等腰、10个等边三角形
- 95个唯一形状 + 5个重复（用于扰动标签和位置验证）
- 四种拍摄条件：
- P0：平面拍摄，无物体
- P1：平面拍摄，有物体
- T0：倾斜拍摄，无物体
- T1：倾斜拍摄，有物体
- 10种日常物体：魔方、玻璃花瓶、电熨斗、书、水壶、苹果、化妆盒、塑料凳、15.6英寸笔记本电脑、中号枕头，每种物体与10个三角形配对
- 遮挡标注：25张图像有三角形边部分遮挡，1张有顶点完全遮挡
- 标注规则：等腰（最小成对相对边长比≤3%）、等边（所有成对相对边长比≤3%）、直角（存在角度与90°差≤2°）
设计动机：三角形是最基本的封闭几何结构，其推理同时涉及距离比较和角度推理——这是空间推理的核心能力

2. 2D-3D形状标签失配分析¶

功能：量化3D真实形状在2D投影后的类别变化
核心发现：
- 约27%的三角形在投影后边类型改变，34%角类型改变
- 等边三角形62.5%在投影后变为非等边，直角三角形约70%在投影后变为非直角
- 不等边三角形仅约7%发生类别变化
- 这意味着用2D投影答案vs 3D真实答案评估，可以揭示VLM是否在做3D推理
设计动机：如果VLM的回答与2D投影更一致而非3D真实值，说明模型在"看图说话"而非"理解3D"

3. 六项评估任务¶

分类任务：
- Q1：三角形ABC是等边、等腰还是不等边？
- Q2：三角形ABC是锐角、直角还是钝角？
连续估计任务：
- Q3：估计 \(AB/AC\) 的比值
- Q4：估计 \(|\angle ABC - \angle ACB|\)（角度差）
- Q5：估计 \(\frac{\max\{AB,BC,CA\}}{\min\{AB,BC,CA\}}\)（最长边/最短边）
- Q6：估计 \(\max\{|\angle A - \angle B|, |\angle B - \angle C|, |\angle C - \angle A|\}\)（最大角度差）
设计动机：
- Q1-Q2测试精确分类（需要精细比较）
- Q3-Q6测试相对推理（不给绝对距离/角度/坐标系，强制VLM使用定性和定量推理）
- 相对比较比绝对估计更能反映深层空间推理属性

4. 提示设计与护栏¶

功能：使用统一的零样本提示，包含明确的参考框架描述
关键设计：提示中明确描述了"浅棕色胶带正方形边框"——这个边框与三角形共面，VLM可以通过单应性变换恢复真实的3D几何
输出格式：严格JSON，6个预定义键，数值要求4位小数
所有模型使用完全相同的提示：确保公平对比
设计动机：护栏提示是测试"可验证性和可控性"的核心——如果VLM能遵循提示并利用参考框架，就应该能给出正确的3D答案

评估指标¶

统一使用准确率 \(\kappa_t = 1 - \varepsilon_t\)： - 分类任务（Q1/Q2）：完全匹配，错误=\(1-\mathbf{1}\{\hat{y}=y\}\) - 相对比值（Q3/Q5）：相对误差，\(\min(1, |\hat{y}-y|/y)\) - 归一化角度（Q4/Q6）：归一化绝对误差，\(\min(1, |\hat{y}-y|/180°)\)

实验关键数据¶

主实验 — 3D vs 2D准确率¶

模型	3D准确率(%)	2D准确率(%)	差值
Gemini 2.5 Pro	75.30	80.89	+5.59
Gemini 2.5 Flash	71.58	77.14	+5.56
GPT-5	64.32	65.04	+0.72
Qwen2.5-VL-32B	64.70	66.22	+1.52
平均	68.98	72.32	+3.34

精确分类任务的多数类偏见¶

模型	不等边(Q1)	等腰(Q1)	等边(Q1)	锐角(Q2)	钝角(Q2)	直角(Q2)
Gemini 2.5 Pro	99.61	2.88	0.00	78.29	88.28	0.00
Gemini 2.5 Flash	98.83	1.92	0.00	72.37	80.47	5.83
GPT-5	99.61	0.96	0.00	92.11	3.91	1.67
Qwen2.5-VL-32B	100.00	0.00	0.00	100.00	0.00	0.00
平均	99.51	1.44	0.00	85.69	43.16	1.88

相机倾斜和物体干扰的影响¶

条件	平均准确率(%)	说明
平面视角（P0/P1）	71.0	基准条件
倾斜视角（T0/T1）	66.9	下降约4.1%
无物体（P0/T0）	69.2	基准条件
有物体（P1/T1）	68.8	仅下降0.4%，可忽略

关键发现¶

VLM默认做2D推理而非3D推理：所有模型在2D投影答案上的准确率高于3D真实答案（平均+3.34%），Gemini系列差距最大（+5.5%），证明模型忽视了提示中的参考框架信息
等边三角形准确率为0.00%：所有四个模型在等边三角形分类上完全失败。等腰仅1.44%，直角仅1.88%。模型存在严重的多数类偏见——不等边占64%因此默认回答不等边
Qwen2.5-VL-32B表现出完全的默认行为：Q1全部预测不等边（100%），Q2全部预测锐角（100%），非多数类准确率全为0%
相机倾斜系统性降低性能：约4%的下降，Q2和Q5受影响最大（6-7%），说明VLM缺乏姿态不变性
物体干扰几乎无影响：有/无物体的准确率差异不到1%，说明VLM对这种场景杂乱相对鲁棒
相对比较比绝对分类容易：Q4/Q6（角度差异估计）比Q2（角度类型分类）容易得多

亮点与洞察¶

"最小诊断探针"的设计理念：不追求大规模、全面覆盖，而是通过最基本的几何结构（三角形）最大化诊断信息。400张图像的紧凑数据集就揭示了深刻的失败模式
护栏提示（guardrail prompt）的巧妙设计：正方形边框既是视觉参考也是数学工具（单应性变换），如果VLM能利用它就应该得到正确的3D答案——这构成了"可验证推理"的测试
2D vs 3D的区分具有根本性意义：通过同时计算两种ground truth的准确率，直接证明了VLM在做"表面推理"而非"深度理解"
多数类偏见的发现对VLM部署有警示意义：如果VLM在简单三角形分类上都无法超越多数类预测，那么在安全关键的几何推理任务中更不可信
"如果代理不能在简单三角形上做3D推理，就不能部署到安全关键的自主导航任务中"——这一论断对可信AI社区有重要警示价值

局限与展望¶

所有三角形与边框共面：真实3D场景中几何对象可能不与参考平面共面
单一图像评估：多视角几何推理是自然的扩展
倾斜仅作为二元因素：未系统测量不同倾斜角度与准确率退化的精确关系
单一固定提示：更高级的提示策略（CoT推理、多步引导）可能改善结果
多数类偏见可能源于训练数据分布：不等边和锐角三角形在现实中更常见，但作者未分析训练分布
仅限三角形：需要扩展到更复杂的多边形、曲线和曲面
缺乏开源模型的深入分析：Qwen是唯一的开源模型，且使用了fireworks.ai的API

评分¶

新颖性: ⭐⭐⭐⭐ （问题角度独特——从可信AI角度评估几何推理，2D/3D区分和护栏设计有创意）
实验充分度: ⭐⭐⭐⭐ （四个模型、六项任务、四种条件的全面交叉分析，但数据集规模较小）
写作质量: ⭐⭐⭐⭐⭐ （论证链条清晰，从问题到设计到发现环环相扣，结论有力）
价值: ⭐⭐⭐⭐ （对VLM可信部署的警示价值高，揭示了被忽视的根本性失败，但实际应用路径不够明确）