AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models¶

会议: CVPR 2026
arXiv: 2506.09082
代码: 项目主页
领域: 3D视觉
关键词: 视觉基础模型评估, 原子视觉能力, benchmark, VFM, 多模态评测

一句话总结¶

提出 AVA-Bench，首个将视觉基础模型（VFM）的能力解耦为 14 种原子视觉能力（AVA）的系统性评测基准，通过训练-测试分布对齐和单一能力隔离测试，精准定位 VFM 的强项与短板，并发现 0.5B 小模型即可保持与 7B 模型相当的 VFM 排名一致性。

研究背景与动机¶

1. 领域现状¶

视觉基础模型（VFM）如 DINOv2、CLIP、SAM、SigLIP 等在大规模数据上预训练后，已成为各类下游视觉任务的通用特征提取骨架。评估 VFM 的主流方法是将其与大语言模型（LLM）组合，在 VQA benchmark 上测试。

2. 痛点¶

现有评测协议存在两个关键盲区： - 数据分布不匹配：指令微调数据与 VQA 测试数据分布不一致，导致错误预测可能源于数据偏差而非 VFM 的视觉缺陷 - 多能力耦合：VQA 问题通常同时依赖多种视觉能力，模型答错时无法判断是所有能力都不行还是仅某一关键能力缺失

3. 核心矛盾¶

需要一种评测方法既能隔离单项视觉能力进行精确诊断，又能保证训练-测试分布的一致性，从而将 VFM 选型从"经验猜测"变为"工程化决策"。

4. 要解决什么¶

构建能精确定位 VFM 在各项基础视觉能力上表现的评测基准
消除数据不匹配和多能力耦合带来的评测误差
为下游任务的 VFM 选型提供可操作的依据

5. 切入角度¶

受组合式文本生成图像 benchmark 和 VQA 问题分析的启发，将复杂视觉推理分解为 14 种"原子视觉能力"（AVA），每种能力独立测试、独立训练，用 bounding box 等辅助手段隔离目标能力。

6. 核心 idea¶

Atomic Visual Ability (AVA) 解耦评测：定义 14 种不可再分的基础视觉能力，为每种能力构建分布一致的训练/测试集，通过 LLaVA-style 管线逐一微调和评测 VFM，生成 VFM 的"能力指纹"。

方法详解¶

整体框架¶

AVA-Bench 想回答一个被现有 VQA 评测糊住的问题：当一个 VFM 在某道题上答错，到底是它"看不见物体""数不准数量"还是"判不了深度"？它的做法是把"通用视觉能力"这个笼统的概念拆成 14 种相互独立的原子视觉能力（Atomic Visual Ability, AVA）——定位、计数、空间推理、方向识别、绝对/相对深度估计、颜色、纹理、物体识别、动作识别、情绪识别、OCR、场景识别、细粒度识别——然后给每一种能力单独造一套训练+测试数据，让 VFM 在每种能力上单独"考一科"。

整条流水线是：从 26 个不同领域的数据集里筛出约 218K 张图像-问题对，每一对都被设计成只考一种 AVA；接着把待测 VFM 接上一个固定的 LLM，按 LLaVA 式两阶段（先预训练 connector、再 LoRA 微调）在每个 AVA 上分别训练和测试；最后把 14 个分数汇成这个 VFM 的"能力指纹"，谁强在哪、弱在哪一目了然。整套方法的创新都集中在数据集构建这一环（下图 数据集构建 框里的三件事），后续的训练-评测沿用现成的 LLaVA 协议。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["26 个领域数据集<br/>Objects365 / LVIS / NYU-Depth / DIOR …"]
    subgraph BUILD["数据集构建（218K 图像-问题对，每对只考一种 AVA）"]
        direction TB
        B["原子能力隔离<br/>用 bounding box 剥掉无关能力"]
        C["训练-测试分布对齐<br/>按类别 / 答案 bin 做 80/20 同分布切分"]
        D["多源聚合与质量控制<br/>跨域采样 + 面积 / 单实例 / 答案 bin 过滤"]
    end
    A --> BUILD
    BUILD --> E["待测 VFM（冻结）+ 固定 LLM"]
    E --> F["LLaVA 式两阶段训练<br/>预训练 connector → LoRA 微调 connector+LLM"]
    F --> G["逐 AVA 在对应测试集上评测"]
    G --> H["14 个分数汇成 VFM 能力指纹"]

关键设计¶

1. 原子能力隔离：用 bounding box 把无关能力从题目里"剥掉"

传统 VQA 的题往往同时压着好几种能力——问"杯子在书的左边还是右边"，模型得先定位到杯子和书，再做空间推理，答错时根本分不清是哪一步崩的。AVA-Bench 的解法是给目标物体直接喂 bounding box：考空间推理时把两个物体的框都给出来，模型就只需要判左右；考绝对深度时给出框，模型只需估这个框的距离，不必再自己找物体。这样每道题就被压缩成只依赖单一 AVA，答错即可干净地归因到那一种能力。这一隔离的效果在消融里非常直观：加了 bounding box 后所有 VFM 在空间推理上几乎都满分且彼此拉不开差距，一旦撤掉框，成绩立刻分化、且排名高度跟各模型的定位能力相关——说明"空间推理题答不对"很多时候其实是"定位没做好"，而非空间推理本身不行。

2. 训练-测试分布对齐：把"数据偏差"这个混淆变量摁住

VFM 评测里一个隐蔽的坑是指令微调数据和测试数据分布不一致——模型答错可能只是因为没见过这类分布，而不是真的视觉能力差。AVA-Bench 对每个 AVA 都做严格的 80/20 切分，并且在每个物体类别、每个答案 bin 上都保持训练集和测试集同分布。这样一来，测出来的分数差异就能干净地归因到 VFM 的感知能力，而不是"训练时没见过"。

3. 多源聚合与质量控制：让单项能力的分数不被单一数据集带偏

每种 AVA 的样本都从多个不同领域的数据集里采（室内场景、遥感、野生动物等），避免某一个数据集的偏置主导整项能力的评测；同时在采样时平衡答案分布、控制样本量。在此之上还叠了一套过滤规则保证可考性：限定最小 bbox 面积（太小的框看不清）、单实例约束（一张图里目标类别只出现一次，否则"定位/计数"会有歧义）、计数任务的答案 bin 平衡（别让某个数量值刷屏）等。跨域聚合保证了泛化性，细粒度过滤保证了每道题确实只在考目标能力。

训练策略¶

每个 AVA 都独立走一遍 LLaVA 式两阶段训练：第一阶段冻结 VFM 和 LLM、只预训练中间的 connector；第二阶段 VFM 始终冻结，用 LoRA 微调 connector 和 LLM（LoRA 也起到防止小训练集上过拟合的作用）。每项能力的训练集规模约 6K–10K。一个对评测成本影响很大的发现是：把评测器里的 LLM 从 7B（Vicuna-1.5）换成 0.5B（Qwen2），得到的 VFM 排名与 7B 高度一致，而 GPU 开销约降到 1/8——这让大规模 VFM 横向对比从"跑不起"变得可行。

实验关键数据¶

主实验¶

表1：各 VFM 在 14 种 AVA 上的平均排名

VFM	预训练方式	平均排名	最强 AVA	最弱 AVA
SigLIP-1/2	语言监督(Sigmoid)	最优	多项领先	-
AIMv2	多模态自回归	次优	多项领先	-
InternVL-2.5	语言监督	中等偏上	-	-
CLIP	语言监督(对比)	中等	-	-
RADIO	多教师蒸馏	中等	综合稳定	-
DINOv2	自监督对比	中等偏下	方向识别、定位	OCR
SAM	分割监督	偏低	颜色识别	多项
MiDaS	深度监督	偏低	深度相关	多项

表2：0.5B vs 7B LLM 评测器的排名一致性

评测配置	LLM 规模	GPU 资源	VFM 排名一致性
Vicuna-1.5 7B	7B	基线(1×)	基准排名
Qwen2 0.5B	0.5B	~0.125×(8倍节省)	与 7B 高度一致

消融实验¶

Bounding Box 对空间推理的影响： - 提供 GT bounding box：所有 VFM 在空间推理上表现几乎完美且一致 - 不提供 bounding box：模型表现大幅分化，排名与其定位能力高度相关（MiDaS、SAM 明显下降） - 结论：复合任务上的失败往往归因于某一关键 AVA 的不足，而非全面的视觉能力缺陷

定位能力按物体大小分组分析： - 大物体（0.3-0.5 归一化面积）：所有 VFM 差异极小 - 小物体：性能差异急剧放大，MiDaS、SAM 明显落后 - 结论：聚合指标可能掩盖细粒度的性能差异

关键发现¶

语言监督是通用视觉能力的关键：SigLIP-1/2 和 AIMv2 在平均排名上一致最优，凸显了语言监督对提升通用视觉能力的核心作用
视觉中心任务上 SSL 可比肩语言监督：DINOv2 在定位、绝对深度估计、方向识别等视觉中心 AVA 上与语言监督模型持平甚至更优
OCR 强烈依赖语言对齐：非语言对齐的 VFM 在 OCR 上表现显著落后
低/中层 AVA 普遍表现良好：所有 VFM 在纹理、相对深度、物体识别上均表现出色，说明 VQA 失败通常源于特定关键 AVA 的缺陷而非全面的视觉无能
每个 VFM 至少有一项专长：即使整体排名较低的模型（如 SAM 擅长颜色、DINOv2 擅长方向）也有突出的单项能力

亮点与洞察¶

评测范式创新：首次系统地将 VFM 评估从"整体 VQA 得分"转变为"原子能力指纹"，实现了对 VFM 能力的精准诊断
实用工程价值：能力指纹直接指导 VFM 在特定下游任务的选型，将"经验猜测"变为"工程化决策"
效率突破：0.5B LLM 可替代 7B 进行 VFM 排名，大幅降低评测成本，使大规模对比分析变得实际可行
Platonic Representation Hypothesis 的部分验证：低/中层 AVA 上不同训练方式的 VFM 趋同，但高层 AVA 仍有显著分化
非语言对齐 VFM 的困境：connector 对齐过程会丢失关键视觉信息（DINOv2 线性探测精度从 66.3% 暴跌至 25.67%），揭示了跨模态对齐的根本挑战

局限与展望¶

AVA 覆盖范围：14 种 AVA 未必穷尽所有基础视觉能力，如三维几何理解、光照估计、材质识别等未被覆盖
能力组合评测缺失：仅评测单项 AVA，未探索多 AVA 组合时的交互效应和性能退化模式
评测管线的局限：LLaVA-style 管线本身对非语言对齐 VFM 可能不公平，connector 对齐过程的信息损失问题尚未解决
静态图像限制：所有 AVA 基于静态图像，缺少视频理解、时序推理等动态视觉能力的评估
数据集规模与多样性：部分 AVA 训练集仅 6-8K，可能不足以充分发挥某些 VFM 的潜力

评分¶

⭐⭐⭐⭐ 系统性强、实验扎实的 Benchmark 论文，14 种 AVA 的定义和数据构建非常细致，0.5B 替代 7B 的发现具有很强的实践价值，但缺乏能力组合评测和动态视觉能力覆盖。