Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models¶
会议: ICCV 2025
arXiv: 2508.00260
代码: 无
领域: 多模态VLM
关键词: 持续学习, 视觉-语言模型, Mixture-of-Experts, 视觉投影器, 指令感知
一句话总结¶
提出 MVP(Mixture of Visual Projectors),一种基于指令上下文的视觉投影器混合专家框架,通过专家推荐策略和专家剪枝机制,使生成式 VLM 在持续学习新视觉-语言任务时避免灾难性遗忘,同时保持对不同指令类型的响应能力,在分类/描述/问答等任务上全面超越现有方法。
研究背景与动机¶
生成式 VLM(如 InstructBLIP)在适应新任务时面临两个核心挑战:
灾难性遗忘:当模型在新任务上训练时,先前学到的知识会被覆盖。重新在所有数据上训练代价巨大,且预训练数据可能不可获取
指令忽视问题(关键洞察):现有持续学习方法(如 EProj、GMM)通过更新共享的视觉投影器来学习新任务。但当多个任务共享相似的指令模板时,投影器会过度适配这些相似指令,导致模型在面对不同类型的指令时"忽视"文本指令、仅依赖视觉输入生成回复。例如,在问答任务上训练后,给模型一张图片和分类指令,模型仍然会生成问答式的回复
作者发现问题的根源在于:共享视觉投影器无法根据不同指令上下文调整视觉信息的翻译方式。一个投影器只能将视觉特征翻译成一种"语言"给 LLM,而不同任务需要不同的翻译方式。
方法详解¶
整体框架¶
MVP 由三个核心组件构成: 1. 混合视觉投影器(MoE):多个投影器专家 + 路由器 2. 专家推荐策略:基于任务语义相似度推荐复用哪些专家 3. 专家剪枝机制:移除冗余激活的专家以防止负迁移
在推理时,通过自适应知识聚合(AKA)平衡 MoE 输出和预训练投影器输出。
关键设计¶
- 混合视觉投影器(Mixture of Visual Projectors)
引入 \(N_E\) 个投影器专家 \(\{\mathcal{E}_j\}\) 和一个路由器 \(\mathcal{R}\),路由器根据图像特征和指令嵌入共同决定激活哪些专家:
$W = \text{Softmax}(\text{Top-}K(\mathcal{R}(\mathbf{x}_{i,\text{img}}^t, \mathbf{x}_{i,\text{text}}^t)))$
聚合输出与预训练投影器的输出做平均:
$\tilde{\mathbf{x}}_{i,\text{img}}^t = \frac{1}{K+1}\left(\mathcal{V}(\mathbf{x}_{i,\text{img}}^t) + \sum_{j=1}^{N_E} w_j \mathcal{E}_j(\mathbf{x}_{i,\text{img}}^t)\right)$
设计动机:通过将路由条件化在指令嵌入上,不同类型的指令(分类/描述/问答)会激活不同的专家组合,从而实现指令感知的视觉翻译。保留预训练投影器的贡献确保零样本能力不丢失。
- 专家推荐策略(Expert Recommendation)
计算新任务与所有先前任务之间的语义相似度,基于视觉和文本两个维度:
$s^{t'} = \alpha \cdot \sigma(s_{\text{img}}^{t'}) + (1-\alpha) \cdot \sigma(s_{\text{text}}^{t'})$
使用对比分布损失鼓励路由器复用与相似旧任务关联的专家,同时通过激活偏差减少(Activation Bias Reduction)抑制高频使用的专家:
$\mathcal{L}_{bias} = \frac{1}{2}\left(1 + \frac{\langle \bar{L}^{1:t-1}, L^t \rangle}{\|\bar{L}^{1:t-1}\|_2 \cdot \|L^t\|_2}\right)$
设计动机:一方面利用旧任务的相关知识加速新任务学习,另一方面避免所有任务只使用少数几个专家,确保学习容量。
- 专家剪枝(Expert Pruning)
训练完每个任务后,学习一个稀疏向量 \(E^t\),最小化剪枝前后输出的差异同时约束激活的专家数量:
$\min_{E^t} \left\|\sum_{j=1}^{N_E}(w_j - e_j^t)\mathcal{E}_j(x_{i,\text{img}}^t)\right\|_F + \|\mathcal{M}^{1:t-1} + E^t\|_1$
将 \(E^t\) 阈值化为二值掩码 \(\mathcal{M}^t\),然后用合成数据微调路由器以适应剪枝后的专家配置。
设计动机:持续学习过程中,某些专家可能被冗余地累积激活。剪枝后重新初始化这些专家为预训练权重,为后续任务保留学习容量,同时减少负迁移风险。
损失函数 / 训练策略¶
总损失函数: $\(\mathcal{L} = \mathcal{L}_{ce} + \lambda_{rec}\mathcal{L}_{rec} + \lambda_{bias}\mathcal{L}_{bias}\)$
实现细节: - LLM:Vicuna-7B 或 LLaMa-2-7B - 视觉编码器:ViT-g/14 + Q-Former(同 InstructBLIP) - 专家数 \(N_E=20\),每次激活 \(K=2\) 个 - 语义评分权重 \(\alpha=0.3\),损失权重 \(\lambda_{rec}=\lambda_{bias}=1\) - 数据集:ImageNet-R(10子集×20类,分类)+ Flickr-30K(4子集,描述)+ COCO-QA(4子集,问答),共 18 个顺序任务 - 优化器:Adam(β1=0.9, β2=0.999),NVIDIA RTX 3090 GPU
实验关键数据¶
主实验¶
18 个顺序任务学习后的 Last 指标(Vicuna 版本):
| 方法 | 分类 T1-T3 | 分类 T7-T10 | 描述(动物) | 描述(车辆) | QA(对象) | QA(颜色) |
|---|---|---|---|---|---|---|
| Zero-Shot | 67.79 | 62.87 | 77.08 | 73.43 | 68.52 | 62.62 |
| LwF | 4.38 | 5.83 | 70.16 | 68.60 | 70.69 | 76.46 |
| EWC | 5.61 | 5.83 | 67.00 | 66.47 | 65.72 | 73.69 |
| GMM | 1.33 | 1.62 | 62.96 | 64.70 | 42.29 | 45.11 |
| MoEAdapter | 70.01 | 65.55 | 76.53 | 73.92 | 66.76 | 41.53 |
| MVP | 82.81 | 87.52 | 79.60 | 77.79 | 79.26 | 80.30 |
MVP 在所有任务上均优于零样本基线,而竞争方法(LwF、EWC、GMM)在分类任务上几乎完全遗忘。
LLaMa-2 版本 Last 平均性能差异(vs Zero-Shot):
| 方法 | 分类 Δ | 描述 Δ | QA Δ |
|---|---|---|---|
| LwF | +10.92 | +1.22 | -5.52 |
| MoEAdapter | +2.09 | -0.03 | -1.05 |
| MVP | +20.78 | +2.82 | +7.15 |
消融实验¶
| 配置 | 分类 Avg | 描述 Avg | QA Avg | 说明 |
|---|---|---|---|---|
| MVP 完整方法 | 85.87 (+21.46) | 77.75 (+2.75) | 76.34 (+24.72) | 最佳 |
| w/o AKA | 85.53 | 76.70 | 76.17 | 自适应聚合贡献稳定 |
| w/o AKA, Prune | 85.92 | 71.55 (-3.45) | 75.54 | 剪枝防止描述遗忘 |
| w/o AKA, Prune, \(\mathcal{L}_{bias}\) | 3.31 (-61.10) | 70.70 | 73.99 | 偏差减少对分类至关重要 |
| w/o 所有(共享投影器) | 1.49 (-62.92) | 63.10 (-11.90) | 60.15 (+8.53) | 严重遗忘 |
\(\mathcal{L}_{bias}\) 是最关键的组件——移除后分类从 85.92% 暴跌至 3.31%,因为没有偏差减少,路由器将所有样本集中到少数专家上。
关键发现¶
- 指令忽视的严重性:LwF、EWC、GMM 在学完问答任务后,分类准确率降至 ~5%,因为共享投影器被最后一个任务的指令模式覆盖
- 跨任务知识迁移:MVP 在学完分类后,描述任务性能略有提升,说明指令感知的翻译机制能利用分类知识辅助描述
- MoEAdapter 的局限:虽然也使用 MoE,但它冻结旧专家、无推荐机制,导致在描述和 QA 任务上表现不如 MVP
- 两种 VLM 上一致的优势:在 Vicuna 和 LLaMa-2 两种不同架构的 VLM 上,MVP 都展现出显著优势
亮点与洞察¶
- 问题定义精准:发现"指令忽视"这一被忽略的问题,并追溯到共享投影器的根本限制
- MoE 在持续学习中的新应用:不同于传统的冻结旧专家/扩展新专家策略,MVP 通过推荐和剪枝动态管理专家生命周期
- 自适应知识聚合的优雅性:推理时根据输入与已学任务的相似度来调节 MoE 分支的贡献权重,对未见任务自动退化为零样本模式
- 专家剪枝的必要性:消融实验清楚地展示了剪枝防止负迁移的效果——没有剪枝时描述任务下降 6.2%
局限与展望¶
- 实验使用的任务序列相对简单(分类→描述→问答),更复杂的任务混合/交错学习场景未验证
- 20 个专家的设置对于实际部署来说参数开销不小(虽然每次只激活 2 个)
- 专家推荐依赖存储各任务的平均嵌入,随着任务数量增长,存储和计算开销线性增加
- 仅在 7B 规模的 LLM 上测试,是否适用于更大或更小的模型未知
- 合成数据用于路由器微调可能引入分布偏差
- 任务边界假设(知道何时切换到新任务)在实际场景中可能不成立
相关工作与启发¶
本文桥接了 MoE 和 VLM 持续学习两个研究方向。与 MoEAdapter 相比,核心创新在于指令条件化的路由和基于语义相似度的专家推荐。与传统持续学习(LwF、EWC)相比,优势在于不需要知识蒸馏或参数重要性估计。专家剪枝机制可能对其他 MoE-based 持续学习场景也有借鉴意义。
评分¶
- 新颖性: ⭐⭐⭐⭐ 指令条件化的 MoE 视觉投影器是新颖的设计,推荐+剪枝机制有技术贡献
- 实验充分度: ⭐⭐⭐⭐ 两种 VLM、消融研究、时间步性能曲线、定性分析,但任务设置偏简单
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图示表达直观,但符号较多需要仔细阅读
- 价值: ⭐⭐⭐⭐ 对 VLM 持续学习是有意义的推进,但实际部署场景的验证不足