RealBirdID: Benchmarking Bird Species Identification in the Era of MLLMs¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/cvl-umass/RealBirdID
领域: 多模态VLM
关键词: 细粒度识别, 拒答(abstention), 鸟类基准, 分类法层级, MLLM 校准

一句话总结¶

RealBirdID 是一个面向「答得出就给物种、答不出就给理由」的细粒度鸟类识别基准：它从 iNaturalist 真实争议样本里挖出 3.4k 张「不可答」图片（标注上「需要叫声 / 角度遮挡 / 画质太差」三类拒答理由）配上同属的「可答」样本，并配套三套指标，结果发现 GPT-5、Gemini-2.5 Pro 等顶尖 MLLM 在物种级准确率不足 13%、几乎无法区分可答与不可答、即使拒答理由也大多给错。

研究背景与动机¶

领域现状：鸟类一直是细粒度视觉识别（FGVR）的标尺，CUB-200、NABirds、iNaturalist 等数据集推动了 part/attribute/分类法层级建模；近两年 MLLM + 开放词表 prompting 又把零样本分类拉了上来，似乎细粒度识别在大模型时代已经被「解决」得差不多。

现有痛点：但这些 benchmark 几乎都只含「可答」（answerable、in-schema）样本——每张图都有一个标准物种答案。现实部署里大量图片根本无法从单张图判物种：关键线索可能是非视觉的（需要叫声）、或被遮挡 / 角度 / 低分辨率掩盖。在「必须选一个答案」的逼问下，模型会自信地瞎猜乃至幻觉，这在医疗、法律等场景是危险的。

核心矛盾：现有评测只奖励「自信作答」，却从不考察「该闭嘴时能不能闭嘴、而且说得出为什么闭嘴」。文本任务里拒答（abstention）已有 SQuAD2.0、AbstentionBench 等，但它们判的是「问题本身不可答」；而本文要的是问题（prompt）固定不变、模型必须仅凭视觉证据判断该不该拒答——这块在视觉多模态领域几乎空白。

本文目标：把问题拆成两个子能力同时考——(1) 给定一个属（genus）下的物种列表，能不能穷举式地认对物种；(2) 面对该属下真实的「不可答」样本，能不能拒答、并给出正确理由（叫声 / 角度遮挡 / 画质）。

切入角度：作者不去造合成的难样本，而是直接挖 iNaturalist 上社区专家真的吵起来、最终只能定到属一级的观测——这些自带「为什么定不到种」的人类讨论记录，是天然的「带理由的不可答」标签来源。

核心 idea：用「答物种 or 带证据拒答」重新定义细粒度识别任务，造一个分类法部分标注（叶子节点可能缺失真值）的基准，并设计能在层级树上评估「准确率 vs 拒答」权衡的指标，逼出当前 MLLM 在「知之为知之」上的真实短板。

方法详解¶

本文是 benchmark 论文，核心不是某个模型 pipeline，而是「任务定义 + 数据集怎么造 + 用什么指标量」。下面按这三块讲清楚；由于是纯数据集/评测协议、没有可串的网络模块，不画框架图。

整体框架¶

RealBirdID 的评测闭环是：对每个属，准备一对子集——可答集 A（该属下穷举采样的物种图，有物种真值）与不可答集 UA（社区只能定到属、并标了拒答理由的图）。被测模型对一张图输出「物种预测 + 不确定度」或「自由文本回答」；评测端通过扫描不确定度阈值，把预测在「叶子物种 → 中间属节点（=拒答）」之间滑动，画出三类权衡曲线并取曲线下面积作为汇总指标。最终在 248 个属、3442 个物种、35138 张图（A 31885 + UA 3253）的规模上，对 CLIP 系编码器与 MLLM 一起打分。

整个数据集只作 validation 资源、不切 train/val/test，定位是「衡量进展的标尺」而非训练集。

关键设计¶

1. 任务重定义：答物种或带证据拒答，且 prompt 固定

本文把任务从「图→物种」改成「图→物种或拒答+理由」。和文本拒答基准（AbstentionBench、RGQA）最大的区别是：那些工作靠改写问题文本来制造「不可答」，而 RealBirdID 的 prompt 始终是语义等价的一句「What is the species of this bird?」，模型只能从视觉内容本身推断出「这图我答不了」。拒答理由被收敛成三类——需要叫声（Vocalization）、角度/遮挡（Angle/Occlusion）、画质太差（Quality）。这个设定的巧妙在于：它把「拒答能力」从「读懂问题措辞」中剥离出来，单独逼问视觉系统——你看着这张糊掉的、或必须听叫声才能分的鸟，知不知道该停手。

2. 用 iNaturalist 真实争议挖「带理由的不可答」样本

不可答样本不是人工合成，而是从 iNaturalist 的真实社区争议里挖出来。流程是：从 140 万张 verifiable 观测出发（故意不要求 Research Grade，因为要的就是物种级别上真有分歧的样本），先用 YOLOv3 过滤「有没有鸟」、MANIQA 过滤画质，得到约 41 万张；再保留「至少有属级预测、≥2 位贡献者」的观测，剔除死鸟/蛋/羽毛；然后用手写正则 + 轻量启发式解析评论与鉴定历史里的歧义信号（分布/范围歧义、性别/生命阶段二态、换羽磨损、视角不足、杂交/逃逸、分类学不确定、画质低），把每个匹配映射到一个临时拒答理由 schema，得到 5300 个「不可答」候选；最后由懂鸟的专家用 Birds of the World 工具核验「叫声 / 角度遮挡 / 画质」三类失败、剔除太难判或讨论本身有误的，迭代精修文本解析，最终落到 3.4k 张带理由的不可答样本。这一设计让「不可答」既真实又自带人类可对照的理由标签——这是后面能评「拒答理由对不对」的前提。

可答集则反过来：对每个不可答观测所属的属，用 iNaturalist Taxon API 穷举该属下全部后代物种并采 Research Grade 图（每种最多 200 张），自然得到长尾分布；同时用 SINR 地理-物种模型，把经纬度映射成该地点的物种出现概率向量，给每个不可答样本生成「最可能的候选物种清单」，供后续「用 range map 缩小候选」实验使用。

3. 三套层级感知指标 + 编码器的概率聚合（TreeGT）

数据集的「部分不可答」（很多图压根没有物种级真值）让普通准确率失效，作者配了三套扫阈值取面积的指标：

Metric 1 — 拒答权衡 UA/A：在某阈值下分别统计模型在 A 集和 UA 集上的拒答比例，扫阈值得到「UA 被拒答率 vs A 被拒答率」曲线，理想模型应「UA 全拒、A 全不拒」（曲线贴左上角），取曲线下面积为 UA/A。
Metric 2 — 分类性能 IG：借 DARTS 的「准确率 vs 信息增益」曲线——把物种概率向上聚合得到属级、纲级等各层预测，每个预测同时记其「对错」与「信息增益（=分类法深度，物种比属信息量大）」；扫阈值得到「越往深预测、准确率越低」的权衡曲线，面积即 IG。它避免奖励那种「啥都拒答」的退化模型。
Metric 3 — 校准 AUC：固定一个拒答比例，看 A 集的物种/属准确率、UA 集的属准确率，扫阈值取 AUC，衡量「丢掉高熵样本后准确率是否随之上升」的校准性。

另外，CLIP 这类编码器本身没有拒答类，作者指出一个关键坑：直接把「属名」当一个文本 prompt 拼进物种列表（Flat List）来当拒答类，效果极差（HM≈0）；改用层级方法 TreeGT 的概率聚合——把某属下所有子物种的 softmax 概率求和当作该属概率（如「Crows and Ravens」属概率 = 其下 53 个物种概率之和），才能把编码器纳入同一套层级指标公平比较。对 MLLM 则用 nlg2choice 先生成自由文本、再约束解码抽出最终答案与拒答理由，并检索式地构造物种概率向量再聚合到属级。

实验关键数据¶

评测覆盖 CLIP / MetaCLIP / WildCLIP / SigLIP / BioCLIP 等编码器，与 InternVL3-8B、Qwen2.5-VL-7B、Gemma-3-12B、Llama-3.2-11B-Vision、Gemini-2.5 Pro、GPT-5 等 MLLM。

主实验：分类性能与拒答权衡（Metric 2 IG / Metric 1 UA/A）¶

模型	IG（分类性能↑）	UA/A（拒答权衡↑）
BioCLIP	68.9	49.6
MetaCLIP-L/14	66.0	42.5
SigLIP-so400m	53.7	53.2
CLIP-L/14	62.0	48.1
Gemini-2.5 Pro	57.7	46.2
GPT-5	56.4	44.1
Qwen2.5-VL-7B	54.2	41.7
Gemma-3-12B	46.3	39.2

关键观察：分类最强的 BioCLIP（IG 68.9）在拒答权衡上反而输给 SigLIP（53.2）；编码器内部分类准确率与拒答能力无显著正相关（皮尔逊 r=0.60），且同训练家族里增大模型/数据只涨 IG、不涨 UA/A——说明拒答行为由与标准识别不同的因素主导。

物种/属级准确率与校准（Metric 3，节选）¶

模型	可答-物种 Acc	可答-属 Acc	不可答-属 Acc
BioCLIP	17.0	57.0	57.6
MetaCLIP-L/14	11.8	56.1	63.6
GPT-5	10.4	45.6	58.6
Gemini-2.5 Pro	12.7	52.8	60.1
Qwen2.5-VL-7B	6.7	40.6	52.6
InternVL3-8B	1.5	16.7	34.7

物种级 3442 类准确率普遍只有 3.7–17%，连最强的 GPT-5 / Gemini 也 ≤13%；MLLM 整体落后于专用编码器（最强 MLLM Gemini IG 57.7 vs BioCLIP 68.9）。

拒答理由是否给对（Tab.4 / Fig.8）¶

真值理由	Qwen2.5-VL	Llama-3.2V	InternVL3	Gemma-3
画质 quality	0.158	0.086	0.279	0.041
角度/遮挡	0.144	0.080	0.291	0.052
需要叫声	0.098	0.077	0.278	0.044

表中为「无论给什么理由，模型在该真值问题下选择拒答的概率」，整体都很低。混淆矩阵显示一个系统性偏差：模型几乎都把失败甩锅给「画质」，Qwen2.5-VL 对真·画质问题 100% 标对，但 42.4% 的「角度/遮挡」被错标成画质；而「需要叫声」几乎无任何模型会预测——视觉训练偏置让 MLLM 根本不把「缺音频线索」当作拒答信号。

关键发现¶

会拒答 ≠ 拒答得好：拒答能力与分类准确率解耦，单纯把 FGVR 准确率刷上去无助于可靠拒答，需要显式的拒答感知目标。
拒答率极度脆弱：对 15 种语义等价的指令改写，InternVL3 的拒答率标准差高达 σ=10.10（可在 3%–23% 间乱跳）；Gemma-3 则几乎从不拒答（1–2%）。不明说「可以拒答」时，MLLM 默认几乎不拒答。
range map 帮分类不帮拒答：加入地理范围信息把平均 IG 从 57.2→88.1（属级 AUC 近乎完美），但对拒答权衡只有轻微影响（45.8→47.7），且对 MLLM 的拒答反而变差。

亮点与洞察¶

拒答标签来自人类真实争议：不造合成难样本，而是挖 iNaturalist 上社区吵到只能定到属、并自带「为什么定不到种」讨论的观测——这是「带理由的不可答」最干净的来源，可迁移到任何有专家协作标注平台的领域（植物、菌类、医学影像会诊）。
prompt 固定、只能视觉拒答：把拒答能力从「读懂措辞」里剥出来单独考，揭示了一个少有人测的盲区——模型仅凭视觉证据知不知道该闭嘴。
层级部分标注 + 信息增益指标：用「准确率 vs 分类法深度」的权衡，优雅解决了「很多图根本没有叶子真值」的评测困境，对任何带 taxonomy 的识别任务都可复用。
「缺叫声」盲点：MLLM 系统性地不把「需要听声音」当拒答理由，直指视觉训练数据缺乏音频依赖型失败的暴露——这是一个具体且可改的训练缺口。

局限与展望¶

数据集只作 validation、无训练集，无法直接驱动「训练出会拒答的模型」；如何把这套理由标签变成可训练监督是开放问题。
多图观测里更清晰的鸟常出现在后续帧，本文只取首图、留下多帧处理为 future work，可能低估了部分「角度/遮挡」样本的可答性。
不可答理由被压成三类（叫声/角度遮挡/画质），而解析阶段其实涉及更多歧义类型（换羽、杂交、性别二态等），三类之外的细粒度拒答原因被合并/丢弃。
拒答判定依赖 nlg2choice 的约束解码与正则解析，文本解析本身可能引入噪声；评测对自由文本回答的「等价判定」也存在主观性。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个「prompt 固定、纯视觉拒答 + 带人类理由标签」的细粒度识别基准，定义了一个被忽视的能力维度
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 9+ 编码器与 6 个 MLLM，三套指标 + range map / 指令鲁棒性 / 理由混淆矩阵多角度剖析
写作质量: ⭐⭐⭐⭐ 任务动机与发现讲得清楚，但指标定义（IG/UA/A/AUC）密集，初读需反复对照图表
价值: ⭐⭐⭐⭐⭐ 直指 MLLM「该闭嘴时不闭嘴、闭嘴也说错理由」的安全短板，为拒答感知识别立了可量化标靶