ROSE: Retrieval-Oriented Segmentation Enhancement¶

会议: CVPR 2026
arXiv: 2604.14147
代码: https://henghuiding.com/ROSE/ (项目主页)
领域: 分割 / 多模态VLM
关键词: 推理分割, 新兴实体, 检索增强生成, MLLM, 即插即用

一句话总结¶

针对基于多模态大模型（MLLM）的分割模型「认不出训练截止日期之后才出现的实体」这一硬伤，本文提出新任务 NEST（新兴实体分割）+ 自动数据引擎，并设计即插即用的 ROSE 框架——用互联网检索把文本答案和参考图实时灌进 MLLM 分割模型，在 NEST 上把 gIoU 比基于 Gemini-2.0 Flash 的强检索基线提升 19.2%。

研究背景与动机¶

领域现状：LISA、SESAME、READ 这类基于 MLLM 的分割模型，靠大模型的推理能力和世界知识做「推理分割」（reasoning segmentation）——给一句 "请分割 SpaceX 的创始人"，模型能在图里圈出对应的人，还自带零样本能力。

现有痛点：MLLM 训练成本极高（数据收集、清洗、训练都烧资源），没法频繁更新，于是都有一个「知识截止日期」。现实世界的知识却在飞速演化：截止 2023 的 LLaMA 3 根本不知道 2025 才发布的 iPhone 17 Pro Max 长什么样；LISA 虽然分别认识拜登和特朗普，却答不出「现任美国总统是谁」。结果是只要查询涉及新近出现的实体，分割就直接失败。

核心矛盾：MLLM 的知识是「冻结的快照」，而分割任务面对的是「持续演化的开放世界」——两者之间存在根本的时效性鸿沟。靠重训练去追这个鸿沟既慢又贵，不现实。

本文目标：让 MLLM 分割模型能处理两类它本来搞不定的实体——(i) 新颖实体（novel）：完全没在训练数据里出现过（如 iPhone 17 Pro Max、小米 SU7）；(ii) 新兴实体（emerging）：知识库里有这个概念但随时间演变、需要当下上下文才能正确指认（如「现任美国总统」）。

切入角度：既然重训练不可行，那就借鉴 RAG（检索增强生成）的思路——推理时从互联网实时检索最新信息，把外部知识「即插即用」地接进任意 MLLM 分割模型，而不动模型本身。但分割是多模态任务，单纯检索文本答案不够：新颖实体连「长什么样」都得从网络图片补。

核心 idea：用「互联网多模态检索」把缺失的知识补到 MLLM 分割模型的输入端——文本侧补答案+背景知识（治新兴实体），视觉侧补参考图原型（治新颖实体），并用一个轻量门控决定何时才真的去检索。

方法详解¶

整体框架¶

ROSE 的目标是把原模型受限于训练知识空间 \(K\) 的分割能力，扩展到 \(S = K \cup E\)（\(E\) 为外部知识库）。给定输入图像 \(x_{img}\) 和用户查询 \(x_{query}\)，流程是：先由 WebSense 判断这条查询到底要不要联网（省算力/省延迟）；若需要，IRAG（互联网检索增强生成）模块用图文输入去网上检索，产出确定的文本答案 \(\hat{A}\) 和相关参考图 \(\hat{x}_{img}\)；接着 TPE（文本提示增强器）把 \(\hat{A}\) 加上背景知识 \(K_{ext}\) 拼成增强提示 \(P=f(x_{query}, \hat{A}, K_{ext})\)，喂给 MLLM 分割模型先出一版结果；VPE（视觉提示增强器）再用 \(\hat{x}_{img}\) 提取的原型特征去校验/纠正这版结果。最终由底层 MLLM 分割模型（如 LISA）输出掩码。整套东西不改原模型权重，是「即插即用」的外挂。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["用户输入<br/>图像 + 查询"] --> B["WebSense<br/>两级门控判断要不要检索"]
    B -->|无需检索| F["MLLM 分割模型<br/>(LISA / SESAME / READ)"]
    B -->|需要检索| C["IRAG<br/>图文检索定位答案 Â + 参考图"]
    C --> D["TPE<br/>Â + 背景知识 K_ext → 增强提示 P"]
    D --> F
    C --> E["VPE<br/>参考图原型 f_s 校验并纠正"]
    F --> E
    E --> G["输出掩码"]

关键设计¶

1. IRAG：用图文联合检索把「答案候选」压缩成唯一答案

文本检索单独用会有个致命问题：一个问题的答案往往不唯一（检索回来一堆候选 \(\{A_j\}_{j=1}^m\)），到底图里画的是哪个说不准。IRAG 基于 LangChain 实现，先用 LLM 把 \(x_{query}\) 改写成优化过的搜索词 \(q\)，检索网页内容并切成块 \(\{C_i\}_{i=1}^n\)，向量化 \(E(C_i)\in\mathbb{R}^d\) 存进向量库 \(D=\{(E(C_i),C_i)\}\)，再用 map-reduce + 专用提示抽取最相关信息、汇总成答案候选摘要 \(\{A_j\}\)。关键的「消歧」一步靠图像：用 Google Cloud Vision（而非 MLLM——因为 MLLM 恰恰认不出新颖实体）从 \(x_{img}\) 抽出图中实体 \(\{E_k\}_{k=1}^l\)，拿候选答案和图中实体做匹配确定唯一答案 \(\hat{A}\)；若图里没匹配上，就取候选里置信度最高的。最后以 \(\hat{A}\) 为关键词再去网上抓参考图 \(\hat{x}_{img}\)。这一步同时产出「文本答案」和「视觉参考」，是后面 TPE/VPE 的共同输入源。

2. TPE：把检索到的答案织进提示词，治「新兴实体」

光有一个答案词不够，MLLM 还得「理解」这个目标才能分割准。TPE 把三样东西融成一条增强提示 \(P=f(x_{query}, \hat{A}, K_{ext})\)：原始查询 \(x_{query}\)、IRAG 给出的答案 \(\hat{A}\)、以及以 \(\hat{A}\) 为搜索词再抓回来的目标介绍/背景知识 \(K_{ext}\)。这样提示既有明确指向（告诉模型要找谁）又有丰富语境（告诉模型这个目标是什么），让 MLLM 把「检索到的新知识」和「原始指令」对齐。消融显示它主要提升新兴实体——这类实体模型本来沾点边，补上当下信息和背景就能认对。

3. VPE：用网络参考图的原型特征校验并纠正，治「新颖实体」

新兴实体靠文字能救，但完全没见过的新颖实体光给文字描述 MLLM 还是抓瞎——它脑子里没有这个东西的视觉概念。VPE 走「先验证、不行再纠正」的路子：把 IRAG 抓回的参考图 \(\hat{x}_{img}\) 聚类、只留最大簇，提 CLIP 特征得到原型 \(f_s\)；再对 MLLM 当前分割出的前景区域提 CLIP 特征，和 \(f_s\) 算相似度——相似度低就说明 MLLM 认错了。此时启动纠正：用目标检测器在 \(x_{img}\) 里框出候选实体 \(\{E_i\}_{i=1}^n\)，逐个裁剪提 CLIP 特征 \(f_i\) 与原型 \(f_s\) 比相似度，选最高的那个；若超过置信阈值 \(\tau\) 就认定为目标，把它的边界框喂进 SAM 的 mask decoder 生成高质量掩码 \(\hat{M}\)。这一步把「视觉原型匹配 + 检测框 + SAM」串起来，绕开了 MLLM 对新颖实体的认知盲区。消融里 VPE 对新颖实体 cIoU 提升高达 +24.5%，是治新颖实体的主力。

4. WebSense：两级门控决定「要不要真去联网」

不是每条查询都需要联网——很多用内部知识就能答，无脑全检索会徒增算力和延迟。WebSense 采用两级决策：第一级是轻量规则过滤器，用预定义启发式（如时效敏感词规则）快速筛；对那些模糊或语义复杂、规则判不准的查询，第二级再上一个 LLM 做深层语义分析、判定是否需要检索。这让检索只在真有必要时触发，是 ROSE「资源感知」的关键。（注：消融实验里为保证每条样本都需检索，会主动关掉 WebSense。）

一个完整示例¶

以图中问题「2025 年 5 月 9 日哪位 MLB 球员为道奇队打出关键的三分本垒打？请分割他」为例：① WebSense 检测到「2025-05-09」这种时效词，判定需联网；② IRAG 改写搜索词检索新闻，map-reduce 汇总出候选球员名单，再用 Google Cloud Vision 识别图中多个人物、与候选匹配，锁定唯一答案 \(\hat{A}\)=该球员；③ TPE 把答案+该球员背景介绍拼成提示，LISA 据此先分割；④ VPE 用该球员的网络参考图原型校验 LISA 的前景——若 LISA 圈错了人（相似度低），就用检测框逐人比对原型、选中正确球员的框送进 SAM 出最终掩码。对照实验里 LISA 单独会分错人，ROSE 则能圈对。

实验关键数据¶

实现细节：基础语言模型用 Llama-3-8B（知识截止 2023-12，确保对 NEST 无知识泄漏），原型特征用 CLIP-ViT-L/32，检测器用 YOLOv8，掩码用 SAM；单张 A6000 48G 评测。评测指标 gIoU、cIoU（标准分割指标）+ Acc.（评 RAG 的问答能力）。NEST 数据集含 1,548 条评测样本，每图平均 2.7 个有效实体、1.6 个不同问题。

主实验：NEST 数据集¶

方法	RAG	Acc.	Novel gIoU	Emerging gIoU	Overall gIoU	Overall cIoU
LISA-7B（原模型）	✗	-	38.4	56.5	48.7	39.3
Grounded-SAM	✗	-	39.0	53.8	47.4	36.7
LISA-7B + GPT-4o mini Search	✓	68.1	35.4	67.0	53.5	49.0
LISA-7B + Gemini-2.0 Flash Search	✓	69.6	35.2	67.8	53.8	49.3
LISA-7B + ROSE（本文）	✓	73.4	67.0	77.5	73.0	68.6
READ-7B + ROSE（本文）	✓	74.2	67.1	76.0	72.2	68.3

关键对比：商用检索基线（两阶段：先让 GPT-4o/Gemini 联网答题，再把答案塞进 "Please segment {answer}" 给分割模型）在新兴实体上能涨到 ~67 gIoU，但在新颖实体上几乎原地踏步（35 左右）——因为它只给了文字答案，分割模型仍不知道新东西长啥样。ROSE 把新颖实体直接拉到 67.0，整体 gIoU 比最强的 Gemini 基线高 73.0 vs 53.8（+19.2%），印证了「视觉补全」的必要性。

混合数据集 NEST+（泛化性）¶

方法	NEST gIoU	ReasonSeg gIoU	RefSeg gIoU	Overall gIoU
LISA-7B	51.1	42.5	54.9	50.9
LISA-7B + ROSE	75.3	42.2	54.4	67.6
READ-7B + ROSE	71.6	50.3	64.7	67.9

把 NEST 和 ReasonSeg、RefCOCO/+/g 混在一起评测：ROSE 在 NEST 分项大幅提升的同时，ReasonSeg 和 RefSeg 上几乎不掉点（得益于 WebSense 对这类无需检索的传统任务直接跳过检索），说明外挂不破坏原能力。

消融实验（NEST，LISA-7B 基线，关掉 WebSense）¶

配置	Novel gIoU	Novel cIoU	Emerging gIoU	Overall gIoU	Overall cIoU
LISA-7B	38.4	28.5	56.5	48.7	39.3
+ IRAG only	40.4	30.9	67.1	55.7	49.1
+ IRAG + TPE	41.3	31.6	73.3	59.6	51.8
+ IRAG + VPE	64.9	61.7	71.7	68.7	63.8
+ Full（IRAG+TPE+VPE）	68.6	—	79.4	74.7	70.1

关键发现¶

VPE 是分水岭：只加 IRAG+VPE，新颖实体 gIoU 从 40.4 飙到 64.9（cIoU +24.5%），整体 gIoU +13.0%——证明新颖实体的瓶颈是「没有视觉概念」，文字怎么描述都不够，必须给视觉原型。
TPE 专治新兴实体：IRAG→IRAG+TPE 让新兴实体 gIoU +6.2%、cIoU +4.5%，对新颖实体几乎无改善——两个增强器分工明确，恰好对应两类实体的不同缺口。
IRAG 是地基：单加 IRAG 整体 gIoU 就 +7.0%，但新颖实体几乎不动（38.4→40.4）——光检索文本答案救不了「没见过」的实体，呼应了为何还要 VPE。

亮点与洞察¶

「文本治新兴、视觉治新颖」的二分诊断：把 MLLM 分割失败拆成两类缺口（缺当下信息 vs 缺视觉概念），并用 TPE/VPE 分别对症，消融数据干净地验证了这个分工——这是全文最清晰的「啊哈」点。
用 Google Cloud Vision 而非 MLLM 做图像实体抽取：作者明确指出 MLLM 恰恰认不出新颖实体，所以消歧环节故意绕开 MLLM 用专用视觉 API——一个很务实的「不要让有病的人当医生」式设计。
VPE 的「验证-纠正」二段式：先用原型相似度判断 MLLM 有没有翻车，翻车了才启动「检测框+SAM」纠正，避免对本来就对的样本瞎改，可迁移到任何「外挂校验」场景。
自动数据引擎对抗数据泄漏：用 Google Trends + 时间窗去持续抓最新图文新闻自动造评测集，而非建固定数据集（固定集迟早被未来 MLLM 吃进训练、造成泄漏）——这个「持续滚动的 benchmark」思路对评测时效性任务很有启发。
即插即用：ROSE 同样能挂到 LISA / SESAME / READ 三个不同底座上且都大涨，说明它是真正模型无关的外挂而非针对某一模型调参。

局限性 / 可改进方向¶

强依赖外部服务链路：IRAG 依赖搜索引擎、Google Cloud Vision、LangChain，VPE 依赖 CLIP/YOLOv8/SAM——整条链路任一环检索失败或网络抖动都会拖累结果，且推理延迟和成本远高于纯本地模型，作者主要靠 WebSense 缓解但未给端到端延迟数据。
消歧的脆弱点：IRAG 的答案唯一化靠「候选答案 ↔ 图中实体」匹配，当图里没匹配上时退化为「取置信度最高候选」，对答案本就多义或检索噪声大的查询可能选错；VPE 的纠正也强依赖目标检测器能否把正确实体框出来。
评测范围偏窄：NEST 主要聚焦人物和产品（Google Trends 天然偏体育/娱乐/政治），抽象概念、场景级新兴实体未覆盖；阈值 \(\tau\)、聚类等超参的敏感性正文未充分分析。
改进方向：把「检索-消歧-纠正」做成可端到端学习/可反馈的闭环，而非当前各模块串行的工程拼装；引入对检索置信度的不确定性估计来决定是否触发 VPE 纠正。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 提出 NEST 新任务 + 自动滚动 benchmark + 首个把多模态互联网检索接进 MLLM 分割的即插即用框架，问题和方法都新。
实验充分度: ⭐⭐⭐⭐ 三个底座 + 两数据集 + 干净的逐模块消融，但缺延迟/成本量化和超参敏感性分析。
写作质量: ⭐⭐⭐⭐ 动机清晰、模块分工讲得明白，唯消融表 Full 行排版疑似错位。
价值: ⭐⭐⭐⭐⭐ 直击 MLLM 分割「知识冻结」的现实痛点，即插即用、可挂任意底座，对需要时效感知的感知系统有实用价值。