Tri-Bench: Stress-Testing VLM Reliability on Spatial Reasoning under Camera Tilt and Object Interference¶
会议: AAAI 2026
arXiv: 2512.08860
代码: https://github.com/Amiton7/Tri-Bench
领域: 多模态VLM
关键词: 空间推理基准, 几何推理, 相机姿态鲁棒性, 多数类偏见, VLM可信度
一句话总结¶
Tri-Bench 是一个包含400张实拍三角形图像的紧凑基准,通过控制相机姿态(平面/倾斜)和物体干扰两个因素,系统测试了四个领先VLM的空间几何推理能力,发现模型默认依赖2D图像平面线索而非3D真实几何(即使提供了明确的参考框架提示),在非多数类形状上准确率降至接近0%。
研究背景与动机¶
领域现状¶
VLM已成为现实应用中不可或缺的组件,特别是在机器人导航、AR/VR测量工具、3D重建、AI辅助几何教学等场景中。可验证的几何推理是可信可控的智能体AI的关键组件。现有的空间推理基准要么关注绝对距离/角度估计,要么聚焦于抽象图表或场景中的问题求解,缺少对部署关键因素(如相机姿态不变性和物体干扰)的系统压力测试。
核心痛点¶
现有基准粒度不足:Mind the Gap、OmniSpatial等测试广泛的认知能力(心理旋转、空间导航),但不隔离基本几何测量的鲁棒性;MathBench、VisioMath测试数学题但使用干净的符号输入而非真实照片
缺乏对相机姿态变化的评估:真实部署中相机角度多变,但现有基准几乎不测试这一因素对推理的影响
缺乏对物体干扰的评估:真实场景中总有其他物体共存,它们是否影响VLM的几何推理未知
2D vs 3D推理的混淆:VLM看到的是2D投影图像,但应该推理3D真实几何。现有基准未区分这两者
本文切入角度¶
设计一个最小化、可控的诊断基准:使用最基本的闭合几何结构(三角形),在受控条件下系统隔离相机姿态和物体干扰对VLM空间推理的影响。关键创新在于提供明确的参考框架护栏(已知正方形边框),使得通过单应性变换(homography)可以恢复3D几何——从而测试VLM是否能利用这一信息。
方法详解¶
整体框架¶
Tri-Bench包含100个标注三角形,每个在4种条件下拍摄(2×2:平面/倾斜 × 有/无物体),共400张图像。每张图像中三角形位于1m×1m的正方形边框内,使用红/黄/蓝三色贴纸标记顶点A/B/C。通过6个几何推理任务评估VLM的能力。
关键设计¶
1. 数据集构建 (Dataset Composition)¶
- 功能:手工构建100个多样化三角形,在受控条件下拍摄
- 核心细节:
- 形状多样性:38个锐角、32个钝角、30个直角三角形;64个不等边、26个等腰、10个等边三角形
- 95个唯一形状 + 5个重复(用于扰动标签和位置验证)
- 四种拍摄条件:
- P0:平面拍摄,无物体
- P1:平面拍摄,有物体
- T0:倾斜拍摄,无物体
- T1:倾斜拍摄,有物体
- 10种日常物体:魔方、玻璃花瓶、电熨斗、书、水壶、苹果、化妆盒、塑料凳、15.6英寸笔记本电脑、中号枕头,每种物体与10个三角形配对
- 遮挡标注:25张图像有三角形边部分遮挡,1张有顶点完全遮挡
- 标注规则:等腰(最小成对相对边长比≤3%)、等边(所有成对相对边长比≤3%)、直角(存在角度与90°差≤2°)
- 设计动机:三角形是最基本的封闭几何结构,其推理同时涉及距离比较和角度推理——这是空间推理的核心能力
2. 2D-3D形状标签失配分析¶
- 功能:量化3D真实形状在2D投影后的类别变化
- 核心发现:
- 约27%的三角形在投影后边类型改变,34%角类型改变
- 等边三角形62.5%在投影后变为非等边,直角三角形约70%在投影后变为非直角
- 不等边三角形仅约7%发生类别变化
- 这意味着用2D投影答案vs 3D真实答案评估,可以揭示VLM是否在做3D推理
- 设计动机:如果VLM的回答与2D投影更一致而非3D真实值,说明模型在"看图说话"而非"理解3D"
3. 六项评估任务¶
- 分类任务:
- Q1:三角形ABC是等边、等腰还是不等边?
- Q2:三角形ABC是锐角、直角还是钝角?
- 连续估计任务:
- Q3:估计 \(AB/AC\) 的比值
- Q4:估计 \(|\angle ABC - \angle ACB|\)(角度差)
- Q5:估计 \(\frac{\max\{AB,BC,CA\}}{\min\{AB,BC,CA\}}\)(最长边/最短边)
- Q6:估计 \(\max\{|\angle A - \angle B|, |\angle B - \angle C|, |\angle C - \angle A|\}\)(最大角度差)
- 设计动机:
- Q1-Q2测试精确分类(需要精细比较)
- Q3-Q6测试相对推理(不给绝对距离/角度/坐标系,强制VLM使用定性和定量推理)
- 相对比较比绝对估计更能反映深层空间推理属性
4. 提示设计与护栏¶
- 功能:使用统一的零样本提示,包含明确的参考框架描述
- 关键设计:提示中明确描述了"浅棕色胶带正方形边框"——这个边框与三角形共面,VLM可以通过单应性变换恢复真实的3D几何
- 输出格式:严格JSON,6个预定义键,数值要求4位小数
- 所有模型使用完全相同的提示:确保公平对比
- 设计动机:护栏提示是测试"可验证性和可控性"的核心——如果VLM能遵循提示并利用参考框架,就应该能给出正确的3D答案
评估指标¶
统一使用准确率 \(\kappa_t = 1 - \varepsilon_t\): - 分类任务(Q1/Q2):完全匹配,错误=\(1-\mathbf{1}\{\hat{y}=y\}\) - 相对比值(Q3/Q5):相对误差,\(\min(1, |\hat{y}-y|/y)\) - 归一化角度(Q4/Q6):归一化绝对误差,\(\min(1, |\hat{y}-y|/180°)\)
实验关键数据¶
主实验 — 3D vs 2D准确率¶
| 模型 | 3D准确率(%) | 2D准确率(%) | 差值 |
|---|---|---|---|
| Gemini 2.5 Pro | 75.30 | 80.89 | +5.59 |
| Gemini 2.5 Flash | 71.58 | 77.14 | +5.56 |
| GPT-5 | 64.32 | 65.04 | +0.72 |
| Qwen2.5-VL-32B | 64.70 | 66.22 | +1.52 |
| 平均 | 68.98 | 72.32 | +3.34 |
精确分类任务的多数类偏见¶
| 模型 | 不等边(Q1) | 等腰(Q1) | 等边(Q1) | 锐角(Q2) | 钝角(Q2) | 直角(Q2) |
|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | 99.61 | 2.88 | 0.00 | 78.29 | 88.28 | 0.00 |
| Gemini 2.5 Flash | 98.83 | 1.92 | 0.00 | 72.37 | 80.47 | 5.83 |
| GPT-5 | 99.61 | 0.96 | 0.00 | 92.11 | 3.91 | 1.67 |
| Qwen2.5-VL-32B | 100.00 | 0.00 | 0.00 | 100.00 | 0.00 | 0.00 |
| 平均 | 99.51 | 1.44 | 0.00 | 85.69 | 43.16 | 1.88 |
相机倾斜和物体干扰的影响¶
| 条件 | 平均准确率(%) | 说明 |
|---|---|---|
| 平面视角(P0/P1) | 71.0 | 基准条件 |
| 倾斜视角(T0/T1) | 66.9 | 下降约4.1% |
| 无物体(P0/T0) | 69.2 | 基准条件 |
| 有物体(P1/T1) | 68.8 | 仅下降0.4%,可忽略 |
关键发现¶
- VLM默认做2D推理而非3D推理:所有模型在2D投影答案上的准确率高于3D真实答案(平均+3.34%),Gemini系列差距最大(+5.5%),证明模型忽视了提示中的参考框架信息
- 等边三角形准确率为0.00%:所有四个模型在等边三角形分类上完全失败。等腰仅1.44%,直角仅1.88%。模型存在严重的多数类偏见——不等边占64%因此默认回答不等边
- Qwen2.5-VL-32B表现出完全的默认行为:Q1全部预测不等边(100%),Q2全部预测锐角(100%),非多数类准确率全为0%
- 相机倾斜系统性降低性能:约4%的下降,Q2和Q5受影响最大(6-7%),说明VLM缺乏姿态不变性
- 物体干扰几乎无影响:有/无物体的准确率差异不到1%,说明VLM对这种场景杂乱相对鲁棒
- 相对比较比绝对分类容易:Q4/Q6(角度差异估计)比Q2(角度类型分类)容易得多
亮点与洞察¶
- "最小诊断探针"的设计理念:不追求大规模、全面覆盖,而是通过最基本的几何结构(三角形)最大化诊断信息。400张图像的紧凑数据集就揭示了深刻的失败模式
- 护栏提示(guardrail prompt)的巧妙设计:正方形边框既是视觉参考也是数学工具(单应性变换),如果VLM能利用它就应该得到正确的3D答案——这构成了"可验证推理"的测试
- 2D vs 3D的区分具有根本性意义:通过同时计算两种ground truth的准确率,直接证明了VLM在做"表面推理"而非"深度理解"
- 多数类偏见的发现对VLM部署有警示意义:如果VLM在简单三角形分类上都无法超越多数类预测,那么在安全关键的几何推理任务中更不可信
- "如果代理不能在简单三角形上做3D推理,就不能部署到安全关键的自主导航任务中"——这一论断对可信AI社区有重要警示价值
局限与展望¶
- 所有三角形与边框共面:真实3D场景中几何对象可能不与参考平面共面
- 单一图像评估:多视角几何推理是自然的扩展
- 倾斜仅作为二元因素:未系统测量不同倾斜角度与准确率退化的精确关系
- 单一固定提示:更高级的提示策略(CoT推理、多步引导)可能改善结果
- 多数类偏见可能源于训练数据分布:不等边和锐角三角形在现实中更常见,但作者未分析训练分布
- 仅限三角形:需要扩展到更复杂的多边形、曲线和曲面
- 缺乏开源模型的深入分析:Qwen是唯一的开源模型,且使用了fireworks.ai的API
相关工作与启发¶
- DynaMath:通过引入数学问题的动态变体测试鲁棒性,Tri-Bench类似地控制拍摄条件来测试鲁棒性
- SpatialVLM:专注于提升VLM的空间推理能力,而Tri-Bench专注于评估这种能力的可靠性
- NeSyGeo / AutoGPS:神经符号框架用于几何推理,使用干净的符号输入,Tri-Bench补充了从噪声真实照片进行推理的维度
- 启发:VLM的"能力"和"可靠性"是两个完全不同的维度——高分不代表可信。即使整体准确率看起来不错(~70%),分类别分析就暴露了灾难性失败
评分¶
- 新颖性: ⭐⭐⭐⭐ (问题角度独特——从可信AI角度评估几何推理,2D/3D区分和护栏设计有创意)
- 实验充分度: ⭐⭐⭐⭐ (四个模型、六项任务、四种条件的全面交叉分析,但数据集规模较小)
- 写作质量: ⭐⭐⭐⭐⭐ (论证链条清晰,从问题到设计到发现环环相扣,结论有力)
- 价值: ⭐⭐⭐⭐ (对VLM可信部署的警示价值高,揭示了被忽视的根本性失败,但实际应用路径不够明确)