跳转至

VIRTUE: Visual-Interactive Text-Image Universal Embedder

会议: ICLR 2026
arXiv: 2510.00523
代码: GitHub
领域: 图像分割(多模态嵌入/视觉交互)
关键词: visual prompt, embedding model, SAM2, VLM, visual-interactive, retrieval

一句话总结

提出 VIRTUE,将分割模型 SAM2 与 VLM 结合构建视觉交互式通用嵌入器,支持用户通过点/框/掩码指定兴趣区域产生实体级+全局级联合嵌入,并构建百万级 SCaR 基准评估视觉交互检索能力,在 36 个 MMEB 任务(+3.1%-8.5%)和 5 个 SCaR 任务(+15.2%-20.3%)上均达到 SOTA。

研究背景与动机

嵌入模型的交互局限:现有 VLM 嵌入模型(VLM2Vec/GME/LamRA)仅支持文本指令交互,缺乏视觉交互能力(点/框/掩码等 visual prompt)

视觉提示的价值:在生成模型中已广泛使用(SAM、GroundingDINO),但嵌入模型尚未探索。视觉提示可提供精确空间定位用于细粒度理解

裁剪的不足:直觉的 ROI 裁剪方案会丢失全局场景上下文——"桌上的沙拉叉"裁剪后失去"桌"的信息,导致在需要组合推理的检索中失败

同一图像不同实体需求:同一图像中的狗和猫需要不同嵌入,但整体嵌入无法区分

缺乏评估基准:没有评估视觉交互嵌入能力的公开基准

方法详解

整体框架

VIRTUE 要解决的是嵌入模型"只能听文字、不能看圈选"的问题:让用户用点/框/掩码圈出感兴趣的实体,模型给出既认得这个实体、又记得整张图场景的嵌入。整体怎么转——一张图配上视觉提示先进分割模型 SAM2(点/框/掩码若用户没给,就自动均匀采点替代),SAM2 输出实体级的分割特征,经一个分割-语言连接器投影成分割嵌入 \(H_s\);与此并行,整张图进 VLM(Qwen2-VL)的视觉编码器得到全局视觉嵌入 \(H_v\),指令文本进文本嵌入层得到 \(H_t\)。三路嵌入拼成 \([H_s, H_v, H_t]\) 一起送进 LLM,取最后一个 token 的 hidden state 作为联合嵌入,用 InfoNCE 做对比学习。这样实体级的精确定位和整图的场景上下文都不丢。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IMG["输入图像 + 指令文本"]
    PROMPT["视觉提示<br/>点 / 框 / 掩码"]
    PROMPT -->|"用户未给提示"| SAMPLE["均匀采样 N 个点"]
    PROMPT -->|"用户给了提示"| SEG
    SAMPLE --> SEG
    subgraph FUSE["三路嵌入融合"]
        direction TB
        SEG["SAM2<br/>prompt + image encoder → mask decoder<br/>64×64 特征图 Fs"]
        CONN["分割-语言连接器<br/>Conv2D 压 token + MLP 投影 → Hs"]
        VENC["VLM 视觉编码器 → Hv"]
        TENC["文本嵌入层 → Ht"]
        SEG --> CONN
    end
    IMG --> VENC
    IMG --> TENC
    CONN --> CAT["拼接 [Hs, Hv, Ht]"]
    VENC --> CAT
    TENC --> CAT
    CAT --> LLM["LLM → 取末 token hidden state"]
    LLM --> EMB["联合嵌入(InfoNCE 对比学习)"]

关键设计

1. 三路嵌入融合:让实体级信号与全局上下文共存

现有 VLM 嵌入模型只能吃文本指令,圈出局部 ROI 的直觉做法是裁剪图像,但裁掉"桌上的沙拉叉"也就裁掉了"桌",组合检索随之失败。VIRTUE 改用三路并行:分割嵌入 \(H_s\) 由 SAM2 的 prompt encoder 处理视觉提示、image encoder 处理整图,再由 mask decoder 生成 \(64\times64\) 特征图 \(F_s = f(E_p(P), E_i(I))\),最后过分割-语言连接器(Conv2D 压成若干 token、MLP 投影到 LLM 维度 \(d\)),编码"这个实体是什么";视觉嵌入 \(H_v\) 来自 VLM 的 vision encoder,保留整图全局上下文;文本嵌入 \(H_t\) 由 LLM 文本嵌入层处理指令。三者拼接成 \([H_s, H_v, H_t]\) 一起进 LLM,使同一张图里的狗和猫能因为不同的视觉提示而得到不同嵌入,又不必牺牲背景信息——这正是裁剪方案做不到的。

2. 无视觉提示时的自动采样:让交互模型在传统任务上也不掉队

大量 MMEB 检索任务并不提供视觉提示,若分割分支闲置就浪费了实体级能力。VIRTUE 在没有用户提示时均匀采样 \(N\) 个点作为替代输入喂给 SAM2 的 prompt encoder,借助其自动分割能力提取多实体级特征图。这相当于把 SAM2 当成一个结构化先验,即便在非交互场景也能给出实体级线索,因此在传统 MMEB 任务上仍带来 3.1%–8.5% 的提升,而不是只在交互任务上才有用。

3. SCaR 基准:补上视觉交互检索的评测空白

视觉交互嵌入此前没有公开基准,难以衡量"圈出实体后能否检索到对应描述"。SCaR(Segmentation-and-Scene Caption Retrieval)的任务设定是:给定图像加一个 ROI 边界框作为查询,检索描述该实体在全局场景中的标题,数据取自 RefCOCO+/RefCOCOg/VisualGenome/COCO-Stuff/ADE20K 五个数据集(先统一转成 COCO 格式、每图最多取 5 个对象),规模为 957K 训练 + 47K 评估样本。难点在干扰项质量——对每个样本,GPT-4V 按"对象、关系、场景"三种元素之一替换标题生成 9 个干扰项(而非随机负样本),再经启发式规则 + GPT-4V 验证 + 人工审查的多阶段过滤,确保负样本既贴近又确实错误,避免检索任务被廉价负样本拉低区分度。

损失函数 / 训练策略

拼接后的 \([H_s, H_v, H_t]\) 过 LLM 取最后 token 的 hidden state,做 InfoNCE 对比学习。为控制成本,SAM2 与 vision encoder 全程冻结,只训练 LoRA(rank=8)和从头初始化的分割-语言连接器,在 20 个 MMEB 训练集上以 batch size 1024 训练。

实验关键数据

MMEB Overall (36 tasks)

模型 参数 IND OOD Overall
VLM2Vec-2B 2B 60.7 57.3 59.7
VIRTUE-2B 2B 69.7 58.8 64.8
VLM2Vec-7B 7B 71.4 58.1 65.5
UniME-7B 7B 68.4 57.9 66.6
VIRTUE-7B 7B 74.4 61.4 68.6

SCaR (5 visual-interactive tasks)

模型 RefCOCOg RefCOCO+ COCO-Stuff VG ADE20K
VLM2Vec-7B 56.2 52.1 45.3 42.8 38.1
VIRTUE-7B 75.1 70.8 62.5 59.4 55.9

消融实验

配置 MMEB Overall SCaR Avg 说明
无分割嵌入 65.5 52.1 VLM2Vec 基线
+ 裁剪 ROI 65.8 54.3 裁剪帮助有限
+ 全SAM2特征 67.1 63.2 实体级信息有效
+ 完整 VIRTUE 68.6 68.2 最佳

关键发现

  • 分割嵌入在非交互场景下(均匀采样点)也提供实体级信息增益
  • 即使在传统 MMEB 任务(无视觉提示)上也有 3.1%-8.5% 提升
  • SAM2 作为结构化先验比裁剪更精确地捕捉实体语义(避免包含背景、跨实体等问题)

亮点与洞察

  • 新交互范式:首次将视觉提示(点/框/掩码)引入嵌入模型,定义了全新问题空间
  • SCaR 基准:百万级数据 + GPT-4V 生成高质量干扰项 + 多阶段过滤,是可靠的评估工具
  • 兼顾通用性:无视觉提示时自动采样点策略保证了在传统任务上的竞争力
  • 实用性强:SAM2 冻结 + LoRA 微调,训练成本可控

局限与展望

  • SAM2 增加推理计算开销(额外的分割前向传播)
  • SCaR 仅评估 I2T 检索,未覆盖 I2I 视觉交互场景
  • 均匀采样点的自动策略可能不是最优的实体发现方式(可考虑自动目标检测驱动)
  • 分割-语言连接器需从头训练,增加了训练复杂度

相关工作与启发

  • VLM2Vec/GME/LamRA:VLM 嵌入模型基线,仅支持文本交互
  • CLIP/SigLIP/OpenCLIP:双塔嵌入模型,全局匹配无区域感知
  • SAM2:作为实体级特征提取器被引入嵌入学习

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 视觉交互嵌入 = 全新问题定义 + 新基准
  • 实验充分度: ⭐⭐⭐⭐⭐ 36+5 任务 + 大量消融 + 两种规模模型
  • 写作质量: ⭐⭐⭐⭐ 清晰系统,基准构建过程透明
  • 价值: ⭐⭐⭐⭐⭐ 开辟视觉交互嵌入新方向 + 高质量基准