跳转至

Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

会议: CVPR 2026
arXiv: 2602.19615
代码: 无
领域: 多模态VLM
关键词: 稀有物体识别, 视觉token增强, 多模态类嵌入, 即插即用, VLM鲁棒性

一句话总结

提出一种高效的即插即用模块,通过学习多模态类嵌入来增强 VLM 对稀有物体的识别和推理能力:在视觉端用 cross-attention 适配器精化视觉 token,在文本端注入物体检测提示,无需微调 VLM 即可在 CODA-LM 上获得 72.8→75.4 的显著提升。

研究背景与动机

领域现状:VLM 在通用视觉理解上表现出色,但在涉及稀有/罕见物体的推理任务上表现明显下降。

现有痛点: - VLM 在中间解码层对稀有物体区域的注意力权重显著低于常见物体 - 引入更强视觉编码器或全模型微调的方法计算成本高,且不针对物体级别优化 - 检索增强学习(RAL)需要大规模外部数据和 VLM 微调,可能遗忘原有能力

核心矛盾:稀有物体在预训练数据中出现频率极低,导致 VLM 对其学到的视觉-语言对齐不充分;但现有改进方法不是针对物体级别设计的,且需要昂贵的全模型微调。

本文目标:在不微调 VLM 的前提下,高效提升 VLM 对稀有物体的感知和推理能力。

切入角度:通过注意力可视化发现 VLM 在解码中间层对稀有物体关注不足,因此需要从两个方面补救——增强视觉 token(让稀有物体更"显眼")和丰富文本提示(引导注意力到目标区域)。

核心idea:学习融合视觉基础模型特征和同义词增强文本描述的多模态类嵌入,用它既作为视觉 token 精化锚点,又作为物体检测器生成文本提示。

方法详解

整体框架

三个阶段:(a) 学习多模态类嵌入(视觉+文本对齐)→ (b) 视觉 token 增强(cross-attention 适配器)→ (c) 文本提示注入(类嵌入作检测器→生成物体提示)。

关键设计

  1. 多模态类嵌入学习:

    • 自适应语义增强:用 LLM 为每个稀有类别生成同义词和描述性文本。数据量少的类获得更多文本变体(re-sampling),以缓解类别不平衡
    • 双分支特征提取:VFM(DINOv3)提取物体视觉特征 \(z_v\),CLIP 提取文本特征 \(z_t\),分别映射到 LLM 嵌入空间
    • 跨模态对齐\(\mathcal{L}_{align}\) 对比学习,拉近同类视觉-文本特征
    • 类嵌入优化\(\mathcal{L}_{class}\) 分类损失 + EMA 更新,使类嵌入成为视觉和文本的统一锚点
    • 初始化:从同类样本的平均视觉特征初始化(比随机初始化更稳定)
  2. 视觉 Token 增强(Cross-Attention 适配器):

    • 输入:冻结 VLM 的视觉 token \(V\) 和类嵌入 \(W\)
    • Cross-attention:\(V\) 为查询,\(W\) 为键值 → 精化后 \(\hat{V} = V + \mathcal{C}_{att}(V, W)\)
    • 仅在 VLM 第一解码层注入精化 token
    • 损失 = 重建损失 \(\mathcal{L}_{rec}\)(保持 \(\hat{V}\) 接近 \(V\) 的分布)+ 自回归损失 \(\mathcal{L}_{autoreg}\)
    • 设计动机:类嵌入携带稀有物体的判别性知识,通过交叉注意力注入到视觉 token 中
  3. 文本提示注入推理:

    • 用类嵌入 \(W\) 作为检测器:计算 VFM 视觉 token 与每个类嵌入的余弦相似度
    • 取 top-k 类别作为候选物体
    • 将候选物体名称注入文本提示:如"In this image, there might be objects such as: [bollard, debris, ...]"
    • 设计动机:文本提示可以显式引导 LLM 的注意力到相关物体

损失函数 / 训练策略

  • 阶段1:\(\mathcal{L}_{align} + \mathcal{L}_{class}\)(训练类嵌入和投影层,20 epochs)
  • 阶段2:\(\mathcal{L}_{adapter} = \mathcal{L}_{rec} + \mathcal{L}_{autoreg}\)(训练适配器,10 epochs)
  • VLM 全程冻结。单卡 RTX 4090 即可完成全部训练。

实验关键数据

主实验(CODA-LM GPT Score)

模型 Barrier↑ Cone↑ Vehicle↑ All↑
LLaVA-1.5-7B 39.3 54.5 48.9 46.5
LLaVA-1.5-7B + Ours 68.3 84.9 73.0 72.8
Qwen2.5-VL-7B 70.9 84.9 66.5 67.9
Qwen2.5-VL-7B + Ours 79.8 91.7 71.0 75.4
InternVL3-8B 59.7 73.3 66.9 65.4
InternVL3-8B + Ours 76.4 85.8 73.8 74.2

消融实验

配置 All↑ 说明
LLaVA-1.5-7B baseline 46.5 无任何增强
+ 仅文本提示 56.2 提示有效但不充分
+ 仅视觉增强 65.8 视觉增强贡献更大
+ 视觉增强 + 文本提示 72.8 双管齐下效果最优

关键发现

  • LLaVA-1.5-7B 提升 26.3 分(46.5→72.8),提升幅度惊人
  • 跨模型通用:LLaVA, Qwen2.5-VL, InternVL3 均有效
  • 视觉增强贡献 > 文本提示贡献,但两者互补
  • 仅需单卡 4090 和极少训练数据(CODA-LM 万级 QA 对)
  • 在 Barrier(护柱)类上提升最显著(39.3→68.3),正是典型的稀有物体

亮点与洞察

  • 多模态类嵌入的多用途性:同一组类嵌入既作为视觉精化锚点(cross-attention 的键值),又作为物体检测器(相似度匹配),一举两得
  • VLM 冻结的高效方案:只训练一个轻量 cross-attention 适配器和类嵌入,在严格不改变 VLM 参数的条件下实现大幅提升。这对于部署已有大模型的场景非常有价值
  • 注意力可视化分析:直接展示 VLM 中间层对稀有物体注意力不足的问题,为方法设计提供了清晰的动机

局限与展望

  • 需要预定义稀有类别集合,不能处理训练时完全未见过的新类别
  • 类嵌入数量受限于稀有类别数 C,超大规模类别场景需要调整
  • top-k 检测可能引入误检,生成错误的文本提示反而误导推理
  • 在 GeoBench-VLM(卫星图像)上效果弱于 CODA-LM,说明在极稀缺数据下仍有挑战

相关工作与启发

  • vs VLM 内部特征监督方法 (LLaVA-Grounding):它们通过 VFM 对齐全部视觉 token,不针对稀有物体;本文用类嵌入实现物体级精化,更加精准高效
  • vs 检索增强学习 (RAL):RAL 从外部大规模数据检索并微调 VLM,计算成本高且可能遗忘;本文无需大规模数据和 VLM 微调

评分

  • 新颖性: ⭐⭐⭐⭐ 多模态类嵌入的双重用途设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多模型验证+注意力可视化分析
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 对稀有物体理解的实用解决方案