Benchmarking Open-ended Segmentation¶

会议: ICLR2026
OpenReview: QSmwRnw8GP
代码: https://github.com/BCV-Uniandes/open-ended_segmentation_benchmark
领域: 语义分割 / 开放式识别 / 评测基准
关键词: 开放式分割, 评测协议, 词法对齐, 全景分割, 对比学习

一句话总结¶

针对"开放式分割"里模型生成自由文本描述、却被嵌入相似度强行映射回固定词表的评测漏洞，本文用基于词法关系（精确/同义/下义/部分）的映射函数 + 曲线下面积式的 LAC 协议把评测准确率从偏离人类 37.7% 拉到与人类判断对齐 90%+，并顺手训出第一个带对比损失的开放式分割 MLLM（OPAL），在开放式全景分割上刷到新 SOTA。

研究背景与动机¶

领域现状：视觉识别一路从图像级标签走到像素级，再从闭集走到开放词表（open-vocabulary）——后者允许测试时识别训练没见过的类别，但词表仍是预先给定的有限集合，评测本质还是"在给定标签里选对的那个"。更激进的一步是开放式分割（open-ended segmentation）：模型不再从候选标签里挑，而是直接对每个视觉区域生成自由文本描述（如同一只狗可以叫 "yellow dog"、"golden retriever" 或 "a dog's tail"）。

现有痛点：自由文本一对多、措辞/粒度/结构都能变，但要算 PQ/mIoU/AP 这类标准识别指标，就必须先把这段自由描述映射回测试集的固定类别词表。主流做法（沿用自 Zhang et al. 2020）是用 Sentence-BERT 嵌入相似度：把描述编码成向量，找词表里余弦相似度最高的类别，然后当作模型"输出了这个类别"来评分。

核心矛盾：这种"强制选择"映射有两个硬伤。一是强制单选——哪怕词表里没有任何类别真正贴合描述，也得硬塞一个，导致系统性误判；二是继承嵌入模型的偏置——映射准不准取决于 Sentence-BERT 的训练分布，而非模型真实的视觉理解。作者在 Cityscapes 上做系统性人工核验，发现 Sentence-BERT 的映射与人类判断偏离高达 37.7%，在 "stuff"（无定形区域，如天空、道路）上尤其糟。换句话说，现有 leaderboard 上的开放式分割排名很可能是被一个有缺陷的评测函数扭曲过的。

本文目标：(1) 量化证明嵌入相似度映射偏离人类；(2) 设计一个更贴合人类判断、可复现、可标准化的映射 + 评测协议，并重新 benchmark 已有 SOTA；(3) 探索能不能用对比学习把开放式分割模型本身做得更好。

核心 idea：把"描述→类别"的映射从单一的嵌入相似度，换成显式枚举的词法关系——一个类别对应一整套合法词汇（精确词、同义词、下义词、部分词），用语言学层级而非黑箱向量来判定描述是否命中该类别。

方法详解¶

整体框架¶

论文有两条线：一条是评测侧（核心贡献，词法对齐映射 + LAC 协议），一条是方法侧（OPAL 模型）。

评测侧的流程是：先离线为测试词表里每个类别 \(c_i\) 构建一份"合法词汇表"——从大规模图文数据里挖出名词候选，用 LLM 判断每个名词和哪些类别语义相关，最终把这些名词按精确（exact）→ 同义（synonym）→ 下义（hyponym）→ 部分（meronym） 四个递进的词法层级归档到对应类别名下。评测时，对模型输出的一句自由描述，用句法标注提取主语、取单数形式，再去各层级的名词列表里查命中：命中真值类别就映射到真值，否则映射到关系最强的那个类别，全都不命中则归入背景类。在每个词法层级上都能算一个识别指标，把"词法层级"当横轴、指标值当纵轴画成曲线，就是 Lexical Alignment Curve (LAC)，取曲线下面积作为综合分数。

方法侧的 OPAL 直接基于 Osprey 架构（CLIP 视觉编码器 + 视觉投影 + mask-aware 区域抽取器 + LoRA 微调的 LLaMA），唯一改动是在原本的生成损失之外并联一个对比损失，让区域视觉嵌入和文本描述在联合空间里对齐。这是一个评测基准 + 简洁方法的组合，不存在复杂的多阶段 pipeline，故不画框架图，用文字 + 公式讲清即可。

关键设计¶

1. 词法映射函数：用语言学关系替代嵌入相似度的"强制单选"

针对 Sentence-BERT 强制单选 + 继承嵌入偏置的痛点，作者把"描述属于哪个类别"重新定义成一个多对多的词法匹配问题。形式上，给定描述 \(T_i\) 和测试词表 \(\{C_i\}_{i=1}^N\)，定义映射 \(f: T \rightarrow \{C_i\}_{i=1}^N\)，把描述映射到所有与之存在词法关系的类别。词法关系分四级且累积：exact（字符串直接相等）⊂ synonym（同义换词，如 puppy/pooch 之于 dog）⊂ hyponym（下义/子类，如 golden retriever、maltese 之于 dog）⊂ meronym（部分/构件，如 tail、paw、snout 之于 dog）。这套设计同时满足三条贴合人类判断的性质：语义精确（没有合法词法关系就不强行归类，可以归背景，避免硬塞）、灵活（一个类别能对应多条描述）、词法邻近（一条描述可在不同粒度上与多个类别相关，给层级化分类留空间）。相比 Sentence-BERT 把一切交给一个黑箱相似度，这里每一条命中都能追溯到一个明确的语言学关系，因此能在"恰好字符串相等"的最简单情形也不出错——而实验显示 Sentence-BERT 连 exact 级都会判错。

单选启发式：当一条描述同时与多个类别有词法关系时，优先映射到真值类别（若真值在其合法词汇内），否则取关系最强的那个；都没有则归背景。作者专门验证了这条启发式不会人为抬高指标——在各词法层级与人工标注的对齐度依然稳定。

2. 合法词汇表的构建：图文挖名词 + LLM 关联

词法映射要好用，前提是每个类别的"合法词汇表"够全够准。作者从大规模图文对数据里挖出一份包含复合名词的候选名词表，再用一个 LLM（prompt 见原文附录 A）判断每个名词与哪些类别语义关联，最终编出每个类别 \(c_i\) 的词法关联名词清单。这一步把人工编纂同义/下义/部分词的繁重工作自动化了，也是整套协议能"标准化、可复现"而不像人工评测那样昂贵主观的关键。消融显示词表规模直接影响评测：名词越多，候选匹配越多，描述被误归背景的概率越低，全表相对 20% 子集 LAC 高约 6 个点。

3. Lexical Alignment Curve (LAC)：把"描述精确度"摊成一条诊断曲线

单一标量分数无法区分"模型描述很精确"还是"模型只会说泛泛的上义词"。LAC 把评测沿语义维度（四个词法层级均匀排布）展开成曲线：x 轴是词法层级、y 轴是该层级下的识别指标（PQ/mIoU/AP 任意标准指标都兼容），曲线下面积即综合分。由于层级累积，所有方法都会随灵活度上升而提分，但曲线形状本身有诊断意义——例如非 MLLM 的开放词表方法从 synonym 到 hyponym 有明显跳变，说明它们倾向于输出更具体的语义概念；而 LAC 在低层级（exact/synonym）就高的模型，说明描述更精确。这让评测不只给一个排名，还能回答"这个模型的描述到底是精确、泛化还是含糊"。

4. OPAL：第一个带对比损失的开放式分割 MLLM

开放词表分割早已用对比学习把区域和文本对齐并取得强效果，但这套思路在开放式（生成式）分割里几乎没被探索。OPAL 在 Osprey 基础上，于标准生成损失之外并联一个对比损失，需要两次不同的前向：生成分支照旧把视觉 + mask 嵌入喂给 LLaMA 生成描述，鼓励流畅且贴合上下文的输出；对比分支只把文本描述放进 LLaMA prompt，在最后一层语言嵌入与 mask 嵌入之间做对比学习，把视觉区域和文本拉到同一联合空间。直觉是：纯生成损失只管"说得通顺"，对比损失额外逼模型把区域和描述在表示层面对齐，从而生成更鲁棒。实证上对比损失不仅提分，还把输出方差砍掉近一半（见鲁棒性分析），代价是附录 B.3 报告的少量计算开销。

损失函数 / 训练策略¶

OPAL 联合优化两项互补损失：生成损失 \(\mathcal{L}_{gen}\)（视觉 + mask 嵌入条件下自由文本生成的标准语言建模目标）与对比损失 \(\mathcal{L}_{con}\)（区域 mask 嵌入与文本末位语言嵌入之间的对比对齐）。两者各需一次前向，LLaMA 用 LoRA 微调，视觉编码器为 CLIP。

实验关键数据¶

人工核验（评测协议有效性）¶

在 Cityscapes 验证集上对 2800 条区域级描述做两阶段人工标注（描述由 Osprey-7B 与 OPAL 共同生成以增加语言多样性），专挑 Sentence-BERT 与本文映射存在分歧的样本。第一阶段标注者分歧仅 2%，第二阶段独立重标后达到 100% 一致，说明任务对人来说清晰一致。

映射方法	与人类判断对齐（All）	"stuff" 类	分歧子集上恢复人类标签
Sentence-BERT	~60%	~50%	4.8%
词法映射（本文）	>90%	显著更高	84.4%

在两个映射结果不同的高分歧子集上，本文映射 84.4% 命中人类标签，Sentence-BERT 仅 4.8%；即便在 exact 层级 Sentence-BERT 也会判错。meronym 层级本文与人类对齐仍达 74%。

主实验：重新 benchmark 开放式全景分割¶

用本文协议在 ADE20K 与 Cityscapes 验证集上重测，OPAL 在 PQ/mIoU/AP 三项任务全面领先：

方法	ADE20K PQ	ADE20K mIoU	ADE20K AP	Cityscapes PQ	Cityscapes mIoU	Cityscapes AP
MasQCLIP	38.6	34.2	26.7	43.8	45.6	23.4
Baseline（MLLM 打标签 + MasQCLIP）	42.9	39.8	28.5	46.9	53.7	28.8
GPT4RoI-7B	44.5	36.5	33.7	39.7	40.6	25.3
Osprey-7B	46.6	36.9	36.4	50.2	55.4	31.3
OPAL (Ours)	48.8	38.9	38.4	52.8	56.1	31.9

OPAL 在 ADE20K 上至少领先 2 个绝对点、Cityscapes 上至少 0.6 点；LAC 曲线在全部四个词法层级都压过所有对手。鲁棒性分析（变随机种子与生成超参）显示 OPAL 不仅均值更高，输出方差比 Osprey 低近 50%。

消融实验¶

配置	关键发现
词法映射换 LLM（GPT-4 vs Gemini）	指标差异可忽略、方法排名不变，证明协议不过度依赖某个 LLM 的偏置
名词表覆盖率（20/40/60/80/100%）	LAC 随词表增大单调上升，全表比 20% 子集高约 6 点；词表越小越多描述被误归背景
OPAL w/o 对比损失（≈Osprey）	掉到 Osprey 水平，且输出方差约翻倍

关键发现¶

评测函数本身就是一个被忽视的混淆变量：换掉映射函数，整张 leaderboard 的相对关系都会变。
对比损失对开放式分割的主要增益不只是提分，更是降方差——把生成模型从"时好时坏"拉向稳定。
名词表覆盖率与评测分数强相关，提醒后续工作报告分数时必须固定词表构建方式，否则不可比。

亮点与洞察¶

把评测的"黑箱"拆成可解释的语言学层级：exact/synonym/hyponym/meronym 不仅更准，还自带诊断性——能看出一个模型是描述精确还是只会说上义词，这是单一标量指标给不了的。
指出并量化了一个被默认正确的评测假设：大家长期默认 Sentence-BERT 映射够用，本文用 37.7% 的人类偏离直接证伪，这种"先质疑度量再修度量"的工作对整个子领域的可信度很关键。
对比损失迁移到生成式分割：开放词表分割早就在用对比对齐，本文把它搬进 MLLM 生成式设定并验证"降方差"这一额外好处，思路可迁移到其他"区域↔文本"生成任务（如 region captioning、referring generation）。

局限与展望¶

词法映射依赖 WordNet 式的语言学关系 + LLM 关联名词表，对抽象、复合或文化相关的概念（很难界定同义/部分关系）可能力不从心；多语言场景未涉及。
评测分数对名词表覆盖率敏感（6 点 gap），意味着不同实现的词表会让结果不完全可比，协议要真正成为标准还需固定一份公开词表。
OPAL 的创新点较轻（Osprey + 一项对比损失），绝对提升在 Cityscapes 上仅 0.6 点，主要价值在评测协议而非模型本身。
人工核验只在 Cityscapes（2800 条）上做，ADE20K 等更大词表数据集上映射质量的人类对齐度未同等规模验证。

评分¶

新颖性: ⭐⭐⭐⭐ 评测协议层面的创新扎实（量化证伪旧度量 + 词法层级 LAC），OPAL 模型创新偏轻
实验充分度: ⭐⭐⭐⭐ 两阶段人工核验 + 两数据集三任务重 benchmark + LLM/词表覆盖率消融，较完整；人工核验仅限 Cityscapes
写作质量: ⭐⭐⭐⭐ 动机与协议设计讲得清楚，图 1/2/3 把问题和方案可视化得很到位
价值: ⭐⭐⭐⭐ 修正了整个开放式分割子领域被默认正确的评测假设，提供可复现协议与代码，对后续公平比较有基础设施意义