跳转至

RealBirdID: Benchmarking Bird Species Identification in the Era of MLLMs

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/cvl-umass/RealBirdID
领域: 多模态VLM
关键词: 细粒度识别, 拒答(abstention), 鸟类基准, 分类法层级, MLLM 校准

一句话总结

RealBirdID 是一个面向「答得出就给物种、答不出就给理由」的细粒度鸟类识别基准:它从 iNaturalist 真实争议样本里挖出 3.4k 张「不可答」图片(标注上「需要叫声 / 角度遮挡 / 画质太差」三类拒答理由)配上同属的「可答」样本,并配套三套指标,结果发现 GPT-5、Gemini-2.5 Pro 等顶尖 MLLM 在物种级准确率不足 13%、几乎无法区分可答与不可答、即使拒答理由也大多给错。

研究背景与动机

领域现状:鸟类一直是细粒度视觉识别(FGVR)的标尺,CUB-200、NABirds、iNaturalist 等数据集推动了 part/attribute/分类法层级建模;近两年 MLLM + 开放词表 prompting 又把零样本分类拉了上来,似乎细粒度识别在大模型时代已经被「解决」得差不多。

现有痛点:但这些 benchmark 几乎都只含「可答」(answerable、in-schema)样本——每张图都有一个标准物种答案。现实部署里大量图片根本无法从单张图判物种:关键线索可能是非视觉的(需要叫声)、或被遮挡 / 角度 / 低分辨率掩盖。在「必须选一个答案」的逼问下,模型会自信地瞎猜乃至幻觉,这在医疗、法律等场景是危险的。

核心矛盾:现有评测只奖励「自信作答」,却从不考察「该闭嘴时能不能闭嘴、而且说得出为什么闭嘴」。文本任务里拒答(abstention)已有 SQuAD2.0、AbstentionBench 等,但它们判的是「问题本身不可答」;而本文要的是问题(prompt)固定不变、模型必须仅凭视觉证据判断该不该拒答——这块在视觉多模态领域几乎空白。

本文目标:把问题拆成两个子能力同时考——(1) 给定一个属(genus)下的物种列表,能不能穷举式地认对物种;(2) 面对该属下真实的「不可答」样本,能不能拒答、并给出正确理由(叫声 / 角度遮挡 / 画质)。

切入角度:作者不去造合成的难样本,而是直接挖 iNaturalist 上社区专家真的吵起来、最终只能定到属一级的观测——这些自带「为什么定不到种」的人类讨论记录,是天然的「带理由的不可答」标签来源。

核心 idea:用「答物种 or 带证据拒答」重新定义细粒度识别任务,造一个分类法部分标注(叶子节点可能缺失真值)的基准,并设计能在层级树上评估「准确率 vs 拒答」权衡的指标,逼出当前 MLLM 在「知之为知之」上的真实短板。

方法详解

本文是 benchmark 论文,核心不是某个模型 pipeline,而是「任务定义 + 数据集怎么造 + 用什么指标量」。下面按这三块讲清楚;由于是纯数据集/评测协议、没有可串的网络模块,不画框架图。

整体框架

RealBirdID 的评测闭环是:对每个属,准备一对子集——可答集 A(该属下穷举采样的物种图,有物种真值)与不可答集 UA(社区只能定到属、并标了拒答理由的图)。被测模型对一张图输出「物种预测 + 不确定度」或「自由文本回答」;评测端通过扫描不确定度阈值,把预测在「叶子物种 → 中间属节点(=拒答)」之间滑动,画出三类权衡曲线并取曲线下面积作为汇总指标。最终在 248 个属、3442 个物种、35138 张图(A 31885 + UA 3253)的规模上,对 CLIP 系编码器与 MLLM 一起打分。

整个数据集只作 validation 资源、不切 train/val/test,定位是「衡量进展的标尺」而非训练集。

关键设计

1. 任务重定义:答物种或带证据拒答,且 prompt 固定

本文把任务从「图→物种」改成「图→物种 或 拒答+理由」。和文本拒答基准(AbstentionBench、RGQA)最大的区别是:那些工作靠改写问题文本来制造「不可答」,而 RealBirdID 的 prompt 始终是语义等价的一句「What is the species of this bird?」,模型只能从视觉内容本身推断出「这图我答不了」。拒答理由被收敛成三类——需要叫声(Vocalization)、角度/遮挡(Angle/Occlusion)、画质太差(Quality)。这个设定的巧妙在于:它把「拒答能力」从「读懂问题措辞」中剥离出来,单独逼问视觉系统——你看着这张糊掉的、或必须听叫声才能分的鸟,知不知道该停手。

2. 用 iNaturalist 真实争议挖「带理由的不可答」样本

不可答样本不是人工合成,而是从 iNaturalist 的真实社区争议里挖出来。流程是:从 140 万张 verifiable 观测出发(故意不要求 Research Grade,因为要的就是物种级别上真有分歧的样本),先用 YOLOv3 过滤「有没有鸟」、MANIQA 过滤画质,得到约 41 万张;再保留「至少有属级预测、≥2 位贡献者」的观测,剔除死鸟/蛋/羽毛;然后用手写正则 + 轻量启发式解析评论与鉴定历史里的歧义信号(分布/范围歧义、性别/生命阶段二态、换羽磨损、视角不足、杂交/逃逸、分类学不确定、画质低),把每个匹配映射到一个临时拒答理由 schema,得到 5300 个「不可答」候选;最后由懂鸟的专家用 Birds of the World 工具核验「叫声 / 角度遮挡 / 画质」三类失败、剔除太难判或讨论本身有误的,迭代精修文本解析,最终落到 3.4k 张带理由的不可答样本。这一设计让「不可答」既真实又自带人类可对照的理由标签——这是后面能评「拒答理由对不对」的前提。

可答集则反过来:对每个不可答观测所属的属,用 iNaturalist Taxon API 穷举该属下全部后代物种并采 Research Grade 图(每种最多 200 张),自然得到长尾分布;同时用 SINR 地理-物种模型,把经纬度映射成该地点的物种出现概率向量,给每个不可答样本生成「最可能的候选物种清单」,供后续「用 range map 缩小候选」实验使用。

3. 三套层级感知指标 + 编码器的概率聚合(TreeGT)

数据集的「部分不可答」(很多图压根没有物种级真值)让普通准确率失效,作者配了三套扫阈值取面积的指标:

  • Metric 1 — 拒答权衡 UA/A:在某阈值下分别统计模型在 A 集和 UA 集上的拒答比例,扫阈值得到「UA 被拒答率 vs A 被拒答率」曲线,理想模型应「UA 全拒、A 全不拒」(曲线贴左上角),取曲线下面积为 UA/A。
  • Metric 2 — 分类性能 IG:借 DARTS 的「准确率 vs 信息增益」曲线——把物种概率向上聚合得到属级、纲级等各层预测,每个预测同时记其「对错」与「信息增益(=分类法深度,物种比属信息量大)」;扫阈值得到「越往深预测、准确率越低」的权衡曲线,面积即 IG。它避免奖励那种「啥都拒答」的退化模型。
  • Metric 3 — 校准 AUC:固定一个拒答比例,看 A 集的物种/属准确率、UA 集的属准确率,扫阈值取 AUC,衡量「丢掉高熵样本后准确率是否随之上升」的校准性。

另外,CLIP 这类编码器本身没有拒答类,作者指出一个关键坑:直接把「属名」当一个文本 prompt 拼进物种列表(Flat List)来当拒答类,效果极差(HM≈0);改用层级方法 TreeGT 的概率聚合——把某属下所有子物种的 softmax 概率求和当作该属概率(如「Crows and Ravens」属概率 = 其下 53 个物种概率之和),才能把编码器纳入同一套层级指标公平比较。对 MLLM 则用 nlg2choice 先生成自由文本、再约束解码抽出最终答案与拒答理由,并检索式地构造物种概率向量再聚合到属级。

实验关键数据

评测覆盖 CLIP / MetaCLIP / WildCLIP / SigLIP / BioCLIP 等编码器,与 InternVL3-8B、Qwen2.5-VL-7B、Gemma-3-12B、Llama-3.2-11B-Vision、Gemini-2.5 Pro、GPT-5 等 MLLM。

主实验:分类性能与拒答权衡(Metric 2 IG / Metric 1 UA/A)

模型 IG(分类性能↑) UA/A(拒答权衡↑)
BioCLIP 68.9 49.6
MetaCLIP-L/14 66.0 42.5
SigLIP-so400m 53.7 53.2
CLIP-L/14 62.0 48.1
Gemini-2.5 Pro 57.7 46.2
GPT-5 56.4 44.1
Qwen2.5-VL-7B 54.2 41.7
Gemma-3-12B 46.3 39.2

关键观察:分类最强的 BioCLIP(IG 68.9)在拒答权衡上反而输给 SigLIP(53.2);编码器内部分类准确率与拒答能力无显著正相关(皮尔逊 r=0.60),且同训练家族里增大模型/数据只涨 IG、不涨 UA/A——说明拒答行为由与标准识别不同的因素主导。

物种/属级准确率与校准(Metric 3,节选)

模型 可答-物种 Acc 可答-属 Acc 不可答-属 Acc
BioCLIP 17.0 57.0 57.6
MetaCLIP-L/14 11.8 56.1 63.6
GPT-5 10.4 45.6 58.6
Gemini-2.5 Pro 12.7 52.8 60.1
Qwen2.5-VL-7B 6.7 40.6 52.6
InternVL3-8B 1.5 16.7 34.7

物种级 3442 类准确率普遍只有 3.7–17%,连最强的 GPT-5 / Gemini 也 ≤13%;MLLM 整体落后于专用编码器(最强 MLLM Gemini IG 57.7 vs BioCLIP 68.9)。

拒答理由是否给对(Tab.4 / Fig.8)

真值理由 Qwen2.5-VL Llama-3.2V InternVL3 Gemma-3
画质 quality 0.158 0.086 0.279 0.041
角度/遮挡 0.144 0.080 0.291 0.052
需要叫声 0.098 0.077 0.278 0.044

表中为「无论给什么理由,模型在该真值问题下选择拒答的概率」,整体都很低。混淆矩阵显示一个系统性偏差:模型几乎都把失败甩锅给「画质」,Qwen2.5-VL 对真·画质问题 100% 标对,但 42.4% 的「角度/遮挡」被错标成画质;而「需要叫声」几乎无任何模型会预测——视觉训练偏置让 MLLM 根本不把「缺音频线索」当作拒答信号。

关键发现

  • 会拒答 ≠ 拒答得好:拒答能力与分类准确率解耦,单纯把 FGVR 准确率刷上去无助于可靠拒答,需要显式的拒答感知目标。
  • 拒答率极度脆弱:对 15 种语义等价的指令改写,InternVL3 的拒答率标准差高达 σ=10.10(可在 3%–23% 间乱跳);Gemma-3 则几乎从不拒答(1–2%)。不明说「可以拒答」时,MLLM 默认几乎不拒答。
  • range map 帮分类不帮拒答:加入地理范围信息把平均 IG 从 57.2→88.1(属级 AUC 近乎完美),但对拒答权衡只有轻微影响(45.8→47.7),且对 MLLM 的拒答反而变差

亮点与洞察

  • 拒答标签来自人类真实争议:不造合成难样本,而是挖 iNaturalist 上社区吵到只能定到属、并自带「为什么定不到种」讨论的观测——这是「带理由的不可答」最干净的来源,可迁移到任何有专家协作标注平台的领域(植物、菌类、医学影像会诊)。
  • prompt 固定、只能视觉拒答:把拒答能力从「读懂措辞」里剥出来单独考,揭示了一个少有人测的盲区——模型仅凭视觉证据知不知道该闭嘴。
  • 层级部分标注 + 信息增益指标:用「准确率 vs 分类法深度」的权衡,优雅解决了「很多图根本没有叶子真值」的评测困境,对任何带 taxonomy 的识别任务都可复用。
  • 「缺叫声」盲点:MLLM 系统性地不把「需要听声音」当拒答理由,直指视觉训练数据缺乏音频依赖型失败的暴露——这是一个具体且可改的训练缺口。

局限与展望

  • 数据集只作 validation、无训练集,无法直接驱动「训练出会拒答的模型」;如何把这套理由标签变成可训练监督是开放问题。
  • 多图观测里更清晰的鸟常出现在后续帧,本文只取首图、留下多帧处理为 future work,可能低估了部分「角度/遮挡」样本的可答性。
  • 不可答理由被压成三类(叫声/角度遮挡/画质),而解析阶段其实涉及更多歧义类型(换羽、杂交、性别二态等),三类之外的细粒度拒答原因被合并/丢弃。
  • 拒答判定依赖 nlg2choice 的约束解码与正则解析,文本解析本身可能引入噪声;评测对自由文本回答的「等价判定」也存在主观性。

相关工作与启发

  • vs AbstentionBench / SelfAware(文本拒答):它们考的是「问题不可答」、靠问题文本触发拒答;RealBirdID 把证据搬到图像里、prompt 固定,逼模型纯视觉判断该不该拒答。
  • vs RGQA(视觉拒答):RGQA 配对人工标注的不可答问题、仍偏「检测不可答的文本」;本文强调「需要视觉信息才能拒答」,且语义等价 prompt 下考拒答的鲁棒性。
  • vs 层级分类方法(Snæbjarnarson、Tan 等):它们假设分类树每个节点都有真值标签;RealBirdID 的 taxonomy 是部分标注的(叶子可能缺失),现有大多数层级指标不适用,因而引入 DARTS/TreeGT 的概率聚合与信息增益评测。
  • vs CUB-200 / NABirds / iNat19-Birds:这些基准全是可答样本(UA=0),RealBirdID 是首个把 3253 张带理由不可答样本与可答集成对、并把物种数推到 3442 的细粒度鸟类拒答基准。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个「prompt 固定、纯视觉拒答 + 带人类理由标签」的细粒度识别基准,定义了一个被忽视的能力维度
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 9+ 编码器与 6 个 MLLM,三套指标 + range map / 指令鲁棒性 / 理由混淆矩阵多角度剖析
  • 写作质量: ⭐⭐⭐⭐ 任务动机与发现讲得清楚,但指标定义(IG/UA/A/AUC)密集,初读需反复对照图表
  • 价值: ⭐⭐⭐⭐⭐ 直指 MLLM「该闭嘴时不闭嘴、闭嘴也说错理由」的安全短板,为拒答感知识别立了可量化标靶