Benchmarking Open-ended Segmentation¶
会议: ICLR2026
OpenReview: QSmwRnw8GP
代码: https://github.com/BCV-Uniandes/open-ended_segmentation_benchmark
领域: 语义分割 / 开放式识别 / 评测基准
关键词: 开放式分割, 评测协议, 词法对齐, 全景分割, 对比学习
一句话总结¶
针对"开放式分割"里模型生成自由文本描述、却被嵌入相似度强行映射回固定词表的评测漏洞,本文用基于词法关系(精确/同义/下义/部分)的映射函数 + 曲线下面积式的 LAC 协议把评测准确率从偏离人类 37.7% 拉到与人类判断对齐 90%+,并顺手训出第一个带对比损失的开放式分割 MLLM(OPAL),在开放式全景分割上刷到新 SOTA。
研究背景与动机¶
领域现状:视觉识别一路从图像级标签走到像素级,再从闭集走到开放词表(open-vocabulary)——后者允许测试时识别训练没见过的类别,但词表仍是预先给定的有限集合,评测本质还是"在给定标签里选对的那个"。更激进的一步是开放式分割(open-ended segmentation):模型不再从候选标签里挑,而是直接对每个视觉区域生成自由文本描述(如同一只狗可以叫 "yellow dog"、"golden retriever" 或 "a dog's tail")。
现有痛点:自由文本一对多、措辞/粒度/结构都能变,但要算 PQ/mIoU/AP 这类标准识别指标,就必须先把这段自由描述映射回测试集的固定类别词表。主流做法(沿用自 Zhang et al. 2020)是用 Sentence-BERT 嵌入相似度:把描述编码成向量,找词表里余弦相似度最高的类别,然后当作模型"输出了这个类别"来评分。
核心矛盾:这种"强制选择"映射有两个硬伤。一是强制单选——哪怕词表里没有任何类别真正贴合描述,也得硬塞一个,导致系统性误判;二是继承嵌入模型的偏置——映射准不准取决于 Sentence-BERT 的训练分布,而非模型真实的视觉理解。作者在 Cityscapes 上做系统性人工核验,发现 Sentence-BERT 的映射与人类判断偏离高达 37.7%,在 "stuff"(无定形区域,如天空、道路)上尤其糟。换句话说,现有 leaderboard 上的开放式分割排名很可能是被一个有缺陷的评测函数扭曲过的。
本文目标:(1) 量化证明嵌入相似度映射偏离人类;(2) 设计一个更贴合人类判断、可复现、可标准化的映射 + 评测协议,并重新 benchmark 已有 SOTA;(3) 探索能不能用对比学习把开放式分割模型本身做得更好。
核心 idea:把"描述→类别"的映射从单一的嵌入相似度,换成显式枚举的词法关系——一个类别对应一整套合法词汇(精确词、同义词、下义词、部分词),用语言学层级而非黑箱向量来判定描述是否命中该类别。
方法详解¶
整体框架¶
论文有两条线:一条是评测侧(核心贡献,词法对齐映射 + LAC 协议),一条是方法侧(OPAL 模型)。
评测侧的流程是:先离线为测试词表里每个类别 \(c_i\) 构建一份"合法词汇表"——从大规模图文数据里挖出名词候选,用 LLM 判断每个名词和哪些类别语义相关,最终把这些名词按精确(exact)→ 同义(synonym)→ 下义(hyponym)→ 部分(meronym) 四个递进的词法层级归档到对应类别名下。评测时,对模型输出的一句自由描述,用句法标注提取主语、取单数形式,再去各层级的名词列表里查命中:命中真值类别就映射到真值,否则映射到关系最强的那个类别,全都不命中则归入背景类。在每个词法层级上都能算一个识别指标,把"词法层级"当横轴、指标值当纵轴画成曲线,就是 Lexical Alignment Curve (LAC),取曲线下面积作为综合分数。
方法侧的 OPAL 直接基于 Osprey 架构(CLIP 视觉编码器 + 视觉投影 + mask-aware 区域抽取器 + LoRA 微调的 LLaMA),唯一改动是在原本的生成损失之外并联一个对比损失,让区域视觉嵌入和文本描述在联合空间里对齐。这是一个评测基准 + 简洁方法的组合,不存在复杂的多阶段 pipeline,故不画框架图,用文字 + 公式讲清即可。
关键设计¶
1. 词法映射函数:用语言学关系替代嵌入相似度的"强制单选"
针对 Sentence-BERT 强制单选 + 继承嵌入偏置的痛点,作者把"描述属于哪个类别"重新定义成一个多对多的词法匹配问题。形式上,给定描述 \(T_i\) 和测试词表 \(\{C_i\}_{i=1}^N\),定义映射 \(f: T \rightarrow \{C_i\}_{i=1}^N\),把描述映射到所有与之存在词法关系的类别。词法关系分四级且累积:exact(字符串直接相等)⊂ synonym(同义换词,如 puppy/pooch 之于 dog)⊂ hyponym(下义/子类,如 golden retriever、maltese 之于 dog)⊂ meronym(部分/构件,如 tail、paw、snout 之于 dog)。这套设计同时满足三条贴合人类判断的性质:语义精确(没有合法词法关系就不强行归类,可以归背景,避免硬塞)、灵活(一个类别能对应多条描述)、词法邻近(一条描述可在不同粒度上与多个类别相关,给层级化分类留空间)。相比 Sentence-BERT 把一切交给一个黑箱相似度,这里每一条命中都能追溯到一个明确的语言学关系,因此能在"恰好字符串相等"的最简单情形也不出错——而实验显示 Sentence-BERT 连 exact 级都会判错。
单选启发式:当一条描述同时与多个类别有词法关系时,优先映射到真值类别(若真值在其合法词汇内),否则取关系最强的那个;都没有则归背景。作者专门验证了这条启发式不会人为抬高指标——在各词法层级与人工标注的对齐度依然稳定。
2. 合法词汇表的构建:图文挖名词 + LLM 关联
词法映射要好用,前提是每个类别的"合法词汇表"够全够准。作者从大规模图文对数据里挖出一份包含复合名词的候选名词表,再用一个 LLM(prompt 见原文附录 A)判断每个名词与哪些类别语义关联,最终编出每个类别 \(c_i\) 的词法关联名词清单。这一步把人工编纂同义/下义/部分词的繁重工作自动化了,也是整套协议能"标准化、可复现"而不像人工评测那样昂贵主观的关键。消融显示词表规模直接影响评测:名词越多,候选匹配越多,描述被误归背景的概率越低,全表相对 20% 子集 LAC 高约 6 个点。
3. Lexical Alignment Curve (LAC):把"描述精确度"摊成一条诊断曲线
单一标量分数无法区分"模型描述很精确"还是"模型只会说泛泛的上义词"。LAC 把评测沿语义维度(四个词法层级均匀排布)展开成曲线:x 轴是词法层级、y 轴是该层级下的识别指标(PQ/mIoU/AP 任意标准指标都兼容),曲线下面积即综合分。由于层级累积,所有方法都会随灵活度上升而提分,但曲线形状本身有诊断意义——例如非 MLLM 的开放词表方法从 synonym 到 hyponym 有明显跳变,说明它们倾向于输出更具体的语义概念;而 LAC 在低层级(exact/synonym)就高的模型,说明描述更精确。这让评测不只给一个排名,还能回答"这个模型的描述到底是精确、泛化还是含糊"。
4. OPAL:第一个带对比损失的开放式分割 MLLM
开放词表分割早已用对比学习把区域和文本对齐并取得强效果,但这套思路在开放式(生成式)分割里几乎没被探索。OPAL 在 Osprey 基础上,于标准生成损失之外并联一个对比损失,需要两次不同的前向:生成分支照旧把视觉 + mask 嵌入喂给 LLaMA 生成描述,鼓励流畅且贴合上下文的输出;对比分支只把文本描述放进 LLaMA prompt,在最后一层语言嵌入与 mask 嵌入之间做对比学习,把视觉区域和文本拉到同一联合空间。直觉是:纯生成损失只管"说得通顺",对比损失额外逼模型把区域和描述在表示层面对齐,从而生成更鲁棒。实证上对比损失不仅提分,还把输出方差砍掉近一半(见鲁棒性分析),代价是附录 B.3 报告的少量计算开销。
损失函数 / 训练策略¶
OPAL 联合优化两项互补损失:生成损失 \(\mathcal{L}_{gen}\)(视觉 + mask 嵌入条件下自由文本生成的标准语言建模目标)与对比损失 \(\mathcal{L}_{con}\)(区域 mask 嵌入与文本末位语言嵌入之间的对比对齐)。两者各需一次前向,LLaMA 用 LoRA 微调,视觉编码器为 CLIP。
实验关键数据¶
人工核验(评测协议有效性)¶
在 Cityscapes 验证集上对 2800 条区域级描述做两阶段人工标注(描述由 Osprey-7B 与 OPAL 共同生成以增加语言多样性),专挑 Sentence-BERT 与本文映射存在分歧的样本。第一阶段标注者分歧仅 2%,第二阶段独立重标后达到 100% 一致,说明任务对人来说清晰一致。
| 映射方法 | 与人类判断对齐(All) | "stuff" 类 | 分歧子集上恢复人类标签 |
|---|---|---|---|
| Sentence-BERT | ~60% | ~50% | 4.8% |
| 词法映射(本文) | >90% | 显著更高 | 84.4% |
在两个映射结果不同的高分歧子集上,本文映射 84.4% 命中人类标签,Sentence-BERT 仅 4.8%;即便在 exact 层级 Sentence-BERT 也会判错。meronym 层级本文与人类对齐仍达 74%。
主实验:重新 benchmark 开放式全景分割¶
用本文协议在 ADE20K 与 Cityscapes 验证集上重测,OPAL 在 PQ/mIoU/AP 三项任务全面领先:
| 方法 | ADE20K PQ | ADE20K mIoU | ADE20K AP | Cityscapes PQ | Cityscapes mIoU | Cityscapes AP |
|---|---|---|---|---|---|---|
| MasQCLIP | 38.6 | 34.2 | 26.7 | 43.8 | 45.6 | 23.4 |
| Baseline(MLLM 打标签 + MasQCLIP) | 42.9 | 39.8 | 28.5 | 46.9 | 53.7 | 28.8 |
| GPT4RoI-7B | 44.5 | 36.5 | 33.7 | 39.7 | 40.6 | 25.3 |
| Osprey-7B | 46.6 | 36.9 | 36.4 | 50.2 | 55.4 | 31.3 |
| OPAL (Ours) | 48.8 | 38.9 | 38.4 | 52.8 | 56.1 | 31.9 |
OPAL 在 ADE20K 上至少领先 2 个绝对点、Cityscapes 上至少 0.6 点;LAC 曲线在全部四个词法层级都压过所有对手。鲁棒性分析(变随机种子与生成超参)显示 OPAL 不仅均值更高,输出方差比 Osprey 低近 50%。
消融实验¶
| 配置 | 关键发现 |
|---|---|
| 词法映射换 LLM(GPT-4 vs Gemini) | 指标差异可忽略、方法排名不变,证明协议不过度依赖某个 LLM 的偏置 |
| 名词表覆盖率(20/40/60/80/100%) | LAC 随词表增大单调上升,全表比 20% 子集高约 6 点;词表越小越多描述被误归背景 |
| OPAL w/o 对比损失(≈Osprey) | 掉到 Osprey 水平,且输出方差约翻倍 |
关键发现¶
- 评测函数本身就是一个被忽视的混淆变量:换掉映射函数,整张 leaderboard 的相对关系都会变。
- 对比损失对开放式分割的主要增益不只是提分,更是降方差——把生成模型从"时好时坏"拉向稳定。
- 名词表覆盖率与评测分数强相关,提醒后续工作报告分数时必须固定词表构建方式,否则不可比。
亮点与洞察¶
- 把评测的"黑箱"拆成可解释的语言学层级:exact/synonym/hyponym/meronym 不仅更准,还自带诊断性——能看出一个模型是描述精确还是只会说上义词,这是单一标量指标给不了的。
- 指出并量化了一个被默认正确的评测假设:大家长期默认 Sentence-BERT 映射够用,本文用 37.7% 的人类偏离直接证伪,这种"先质疑度量再修度量"的工作对整个子领域的可信度很关键。
- 对比损失迁移到生成式分割:开放词表分割早就在用对比对齐,本文把它搬进 MLLM 生成式设定并验证"降方差"这一额外好处,思路可迁移到其他"区域↔文本"生成任务(如 region captioning、referring generation)。
局限与展望¶
- 词法映射依赖 WordNet 式的语言学关系 + LLM 关联名词表,对抽象、复合或文化相关的概念(很难界定同义/部分关系)可能力不从心;多语言场景未涉及。
- 评测分数对名词表覆盖率敏感(6 点 gap),意味着不同实现的词表会让结果不完全可比,协议要真正成为标准还需固定一份公开词表。
- OPAL 的创新点较轻(Osprey + 一项对比损失),绝对提升在 Cityscapes 上仅 0.6 点,主要价值在评测协议而非模型本身。
- 人工核验只在 Cityscapes(2800 条)上做,ADE20K 等更大词表数据集上映射质量的人类对齐度未同等规模验证。
相关工作与启发¶
- vs Sentence-BERT / CLIPScore 映射:它们用单一嵌入相似度做强制单选,继承嵌入偏置、在 stuff 上崩坏;本文用显式多对多词法关系,可解释、可归背景、与人类对齐 90%+。
- vs captioning 指标(BLEU/METEOR/CIDEr/SPICE):那些靠 n-gram 重叠或场景图相似,是为受限 caption 设计的,在开放式生成里与人类相关性差;LAC 直接针对"描述→类别"映射这一开放式分割特有环节。
- vs Osprey(本文基座):Osprey 用 mask 级视觉提示 + 纯生成损失;OPAL 并联对比损失,提升精度的同时把输出方差砍半。
- vs 人工评测:人工是金标准但昂贵、主观、难标准化;本文把人类判断"蒸馏"进一套自动化、可复现的词法协议。
评分¶
- 新颖性: ⭐⭐⭐⭐ 评测协议层面的创新扎实(量化证伪旧度量 + 词法层级 LAC),OPAL 模型创新偏轻
- 实验充分度: ⭐⭐⭐⭐ 两阶段人工核验 + 两数据集三任务重 benchmark + LLM/词表覆盖率消融,较完整;人工核验仅限 Cityscapes
- 写作质量: ⭐⭐⭐⭐ 动机与协议设计讲得清楚,图 1/2/3 把问题和方案可视化得很到位
- 价值: ⭐⭐⭐⭐ 修正了整个开放式分割子领域被默认正确的评测假设,提供可复现协议与代码,对后续公平比较有基础设施意义