跳转至

Tri-Bench: Stress-Testing VLM Reliability on Spatial Reasoning under Camera Tilt and Object Interference

会议: AAAI 2026
arXiv: 2512.08860
代码: https://github.com/Amiton7/Tri-Bench
领域: 多模态VLM
关键词: 空间推理基准, 几何推理, 相机姿态鲁棒性, 多数类偏见, VLM可信度

一句话总结

Tri-Bench 是一个包含400张实拍三角形图像的紧凑基准,通过控制相机姿态(平面/倾斜)和物体干扰两个因素,系统测试了四个领先VLM的空间几何推理能力,发现模型默认依赖2D图像平面线索而非3D真实几何(即使提供了明确的参考框架提示),在非多数类形状上准确率降至接近0%。

研究背景与动机

领域现状

VLM已成为现实应用中不可或缺的组件,特别是在机器人导航、AR/VR测量工具、3D重建、AI辅助几何教学等场景中。可验证的几何推理是可信可控的智能体AI的关键组件。现有的空间推理基准要么关注绝对距离/角度估计,要么聚焦于抽象图表或场景中的问题求解,缺少对部署关键因素(如相机姿态不变性和物体干扰)的系统压力测试。

核心痛点

现有基准粒度不足:Mind the Gap、OmniSpatial等测试广泛的认知能力(心理旋转、空间导航),但不隔离基本几何测量的鲁棒性;MathBench、VisioMath测试数学题但使用干净的符号输入而非真实照片

缺乏对相机姿态变化的评估:真实部署中相机角度多变,但现有基准几乎不测试这一因素对推理的影响

缺乏对物体干扰的评估:真实场景中总有其他物体共存,它们是否影响VLM的几何推理未知

2D vs 3D推理的混淆:VLM看到的是2D投影图像,但应该推理3D真实几何。现有基准未区分这两者

本文切入角度

设计一个最小化、可控的诊断基准:使用最基本的闭合几何结构(三角形),在受控条件下系统隔离相机姿态和物体干扰对VLM空间推理的影响。关键创新在于提供明确的参考框架护栏(已知正方形边框),使得通过单应性变换(homography)可以恢复3D几何——从而测试VLM是否能利用这一信息。

方法详解

整体框架

Tri-Bench包含100个标注三角形,每个在4种条件下拍摄(2×2:平面/倾斜 × 有/无物体),共400张图像。每张图像中三角形位于1m×1m的正方形边框内,使用红/黄/蓝三色贴纸标记顶点A/B/C。通过6个几何推理任务评估VLM的能力。

关键设计

1. 数据集构建 (Dataset Composition)

  • 功能:手工构建100个多样化三角形,在受控条件下拍摄
  • 核心细节
    • 形状多样性:38个锐角、32个钝角、30个直角三角形;64个不等边、26个等腰、10个等边三角形
    • 95个唯一形状 + 5个重复(用于扰动标签和位置验证)
    • 四种拍摄条件
    • P0:平面拍摄,无物体
    • P1:平面拍摄,有物体
    • T0:倾斜拍摄,无物体
    • T1:倾斜拍摄,有物体
    • 10种日常物体:魔方、玻璃花瓶、电熨斗、书、水壶、苹果、化妆盒、塑料凳、15.6英寸笔记本电脑、中号枕头,每种物体与10个三角形配对
    • 遮挡标注:25张图像有三角形边部分遮挡,1张有顶点完全遮挡
    • 标注规则:等腰(最小成对相对边长比≤3%)、等边(所有成对相对边长比≤3%)、直角(存在角度与90°差≤2°)
  • 设计动机:三角形是最基本的封闭几何结构,其推理同时涉及距离比较和角度推理——这是空间推理的核心能力

2. 2D-3D形状标签失配分析

  • 功能:量化3D真实形状在2D投影后的类别变化
  • 核心发现
    • 约27%的三角形在投影后边类型改变,34%角类型改变
    • 等边三角形62.5%在投影后变为非等边,直角三角形约70%在投影后变为非直角
    • 不等边三角形仅约7%发生类别变化
    • 这意味着用2D投影答案vs 3D真实答案评估,可以揭示VLM是否在做3D推理
  • 设计动机:如果VLM的回答与2D投影更一致而非3D真实值,说明模型在"看图说话"而非"理解3D"

3. 六项评估任务

  • 分类任务
    • Q1:三角形ABC是等边、等腰还是不等边?
    • Q2:三角形ABC是锐角、直角还是钝角?
  • 连续估计任务
    • Q3:估计 \(AB/AC\) 的比值
    • Q4:估计 \(|\angle ABC - \angle ACB|\)(角度差)
    • Q5:估计 \(\frac{\max\{AB,BC,CA\}}{\min\{AB,BC,CA\}}\)(最长边/最短边)
    • Q6:估计 \(\max\{|\angle A - \angle B|, |\angle B - \angle C|, |\angle C - \angle A|\}\)(最大角度差)
  • 设计动机
    • Q1-Q2测试精确分类(需要精细比较)
    • Q3-Q6测试相对推理(不给绝对距离/角度/坐标系,强制VLM使用定性和定量推理)
    • 相对比较比绝对估计更能反映深层空间推理属性

4. 提示设计与护栏

  • 功能:使用统一的零样本提示,包含明确的参考框架描述
  • 关键设计:提示中明确描述了"浅棕色胶带正方形边框"——这个边框与三角形共面,VLM可以通过单应性变换恢复真实的3D几何
  • 输出格式:严格JSON,6个预定义键,数值要求4位小数
  • 所有模型使用完全相同的提示:确保公平对比
  • 设计动机:护栏提示是测试"可验证性和可控性"的核心——如果VLM能遵循提示并利用参考框架,就应该能给出正确的3D答案

评估指标

统一使用准确率 \(\kappa_t = 1 - \varepsilon_t\): - 分类任务(Q1/Q2):完全匹配,错误=\(1-\mathbf{1}\{\hat{y}=y\}\) - 相对比值(Q3/Q5):相对误差,\(\min(1, |\hat{y}-y|/y)\) - 归一化角度(Q4/Q6):归一化绝对误差,\(\min(1, |\hat{y}-y|/180°)\)

实验关键数据

主实验 — 3D vs 2D准确率

模型 3D准确率(%) 2D准确率(%) 差值
Gemini 2.5 Pro 75.30 80.89 +5.59
Gemini 2.5 Flash 71.58 77.14 +5.56
GPT-5 64.32 65.04 +0.72
Qwen2.5-VL-32B 64.70 66.22 +1.52
平均 68.98 72.32 +3.34

精确分类任务的多数类偏见

模型 不等边(Q1) 等腰(Q1) 等边(Q1) 锐角(Q2) 钝角(Q2) 直角(Q2)
Gemini 2.5 Pro 99.61 2.88 0.00 78.29 88.28 0.00
Gemini 2.5 Flash 98.83 1.92 0.00 72.37 80.47 5.83
GPT-5 99.61 0.96 0.00 92.11 3.91 1.67
Qwen2.5-VL-32B 100.00 0.00 0.00 100.00 0.00 0.00
平均 99.51 1.44 0.00 85.69 43.16 1.88

相机倾斜和物体干扰的影响

条件 平均准确率(%) 说明
平面视角(P0/P1) 71.0 基准条件
倾斜视角(T0/T1) 66.9 下降约4.1%
无物体(P0/T0) 69.2 基准条件
有物体(P1/T1) 68.8 仅下降0.4%,可忽略

关键发现

  1. VLM默认做2D推理而非3D推理:所有模型在2D投影答案上的准确率高于3D真实答案(平均+3.34%),Gemini系列差距最大(+5.5%),证明模型忽视了提示中的参考框架信息
  2. 等边三角形准确率为0.00%:所有四个模型在等边三角形分类上完全失败。等腰仅1.44%,直角仅1.88%。模型存在严重的多数类偏见——不等边占64%因此默认回答不等边
  3. Qwen2.5-VL-32B表现出完全的默认行为:Q1全部预测不等边(100%),Q2全部预测锐角(100%),非多数类准确率全为0%
  4. 相机倾斜系统性降低性能:约4%的下降,Q2和Q5受影响最大(6-7%),说明VLM缺乏姿态不变性
  5. 物体干扰几乎无影响:有/无物体的准确率差异不到1%,说明VLM对这种场景杂乱相对鲁棒
  6. 相对比较比绝对分类容易:Q4/Q6(角度差异估计)比Q2(角度类型分类)容易得多

亮点与洞察

  1. "最小诊断探针"的设计理念:不追求大规模、全面覆盖,而是通过最基本的几何结构(三角形)最大化诊断信息。400张图像的紧凑数据集就揭示了深刻的失败模式
  2. 护栏提示(guardrail prompt)的巧妙设计:正方形边框既是视觉参考也是数学工具(单应性变换),如果VLM能利用它就应该得到正确的3D答案——这构成了"可验证推理"的测试
  3. 2D vs 3D的区分具有根本性意义:通过同时计算两种ground truth的准确率,直接证明了VLM在做"表面推理"而非"深度理解"
  4. 多数类偏见的发现对VLM部署有警示意义:如果VLM在简单三角形分类上都无法超越多数类预测,那么在安全关键的几何推理任务中更不可信
  5. "如果代理不能在简单三角形上做3D推理,就不能部署到安全关键的自主导航任务中"——这一论断对可信AI社区有重要警示价值

局限与展望

  1. 所有三角形与边框共面:真实3D场景中几何对象可能不与参考平面共面
  2. 单一图像评估:多视角几何推理是自然的扩展
  3. 倾斜仅作为二元因素:未系统测量不同倾斜角度与准确率退化的精确关系
  4. 单一固定提示:更高级的提示策略(CoT推理、多步引导)可能改善结果
  5. 多数类偏见可能源于训练数据分布:不等边和锐角三角形在现实中更常见,但作者未分析训练分布
  6. 仅限三角形:需要扩展到更复杂的多边形、曲线和曲面
  7. 缺乏开源模型的深入分析:Qwen是唯一的开源模型,且使用了fireworks.ai的API

相关工作与启发

  • DynaMath:通过引入数学问题的动态变体测试鲁棒性,Tri-Bench类似地控制拍摄条件来测试鲁棒性
  • SpatialVLM:专注于提升VLM的空间推理能力,而Tri-Bench专注于评估这种能力的可靠性
  • NeSyGeo / AutoGPS:神经符号框架用于几何推理,使用干净的符号输入,Tri-Bench补充了从噪声真实照片进行推理的维度
  • 启发:VLM的"能力"和"可靠性"是两个完全不同的维度——高分不代表可信。即使整体准确率看起来不错(~70%),分类别分析就暴露了灾难性失败

评分

  • 新颖性: ⭐⭐⭐⭐ (问题角度独特——从可信AI角度评估几何推理,2D/3D区分和护栏设计有创意)
  • 实验充分度: ⭐⭐⭐⭐ (四个模型、六项任务、四种条件的全面交叉分析,但数据集规模较小)
  • 写作质量: ⭐⭐⭐⭐⭐ (论证链条清晰,从问题到设计到发现环环相扣,结论有力)
  • 价值: ⭐⭐⭐⭐ (对VLM可信部署的警示价值高,揭示了被忽视的根本性失败,但实际应用路径不够明确)