Multimodal Continual Learning with MLLMs from Multi-scenario Perspectives¶
会议: ICML 2026
arXiv: 2511.18507
代码: 数据集发布在 huggingface.co/datasets/Kaij00/MSVQA
领域: 多模态VLM / 持续学习
关键词: 多模态持续学习, 灾难性遗忘, LoRA 多分支, 视觉一致性, 多场景 VQA
一句话总结¶
针对 MLLM 在跨场景 VQA 中的视觉遗忘问题,本文构建 MSVQA(高空/水下/低空/室内 4 场景)基准,并提出 Unifier 框架——在视觉 block 里加入 CSR 多分支 + 投影器(VRE)做参数隔离,再用 KL 软约束(VCC)对齐不同分支表征,单次推理即可在 20 步持续学习上把 VQA 提升 2.70-10.62%、F1 提升 3.40-7.69%。
研究背景与动机¶
领域现状:MLLM(QwenVL、LLaVA 等)已能解决固定场景的 VQA 任务,但部署到设备端时数据流是连续变化的——白天黑夜、室内室外、不同设备视角。现有 CL 工作多关注 LLM 一侧的文本遗忘(EWC、Tailor、PODNet、VQACL、QUAD),却忽略了视觉部分的灾难性遗忘。
现有痛点:经典 VQA 基准(VQAv2 等)问题简单(颜色、数量),重在解析用户文本意图,背景单一;真实部署中图像背景复杂、目标小且密集,且场景切换会让视觉表征重叠/漂移,导致小目标漏检、误检显著增加(图 1)。现有 CL benchmark 缺乏多场景多视角的视觉评估集。
核心矛盾:要 (a) 在同一场景里持续累积知识,性能逐步提升;(b) 在新场景里快速适应而不遗忘旧场景;(c) 还要保持单次推理的低延迟。多 LoRA 分支可以做参数隔离,但需要 routing;纯蒸馏可以缓解遗忘,但严格的中间层对齐会扼杀新场景的塑性。
本文目标:(1) 提供能反映"场景/视角切换 → 视觉遗忘"的多场景 VQA 数据集;(2) 不增加推理开销地隔离不同场景视觉表征;(3) 在保持塑性的前提下用软约束对齐不同分支表征以防止漂移。
切入角度:视觉编码器才是场景切换时最先漂移的部分;与其在 LLM 一侧做参数隔离,不如在 ViT block 里加可扩展的小投影模块,把每个场景的"看世界方式"独立学,但再把它们投到统一空间,从而不需要 routing。
核心 idea:在视觉 block 里插入 CSR(Cross-Scenario Representation)模块——每个场景一个 down-up 分支,所有分支输出 concat 后经一个共享投影器 \(\mathcal P_l\) 融到原维度,并通过对各分支与场景原型的双向 KL 软约束保持表征一致。
方法详解¶
整体框架¶
数据流 \(\mathcal D = \{\mathcal D_1, \ldots, \mathcal D_T\}\),每个任务 \(\mathcal D_t = \{(x_i^t, q_i^t, y_i^t)\}_{i=1}^{n_t}\) 来自不同场景。Unifier 在每个 vision block \(f_l\) 的 FFN 旁边并联一个 CSR 模块输出 \(p_l\),并与 FFN 输出相加 \(r_l = s_l(\text{LN}(a_l)) + p_l\)。训练时只解冻当前场景对应的分支 + 投影器;推理时无需 routing,所有分支并行计算后一次性融合,输出与单分支模型完全等价的延迟。同时在 CSR 里施加视觉一致性约束(VCC)防止表征漂移。
关键设计¶
-
Vision Representation Expansion (VRE) + 单次推理融合:
- 功能:为每个新场景扩出独立的视觉表征子空间,但在推理时不需要选路由也不增加 forward 次数。
- 核心思路:CSR 模块由 \(K\) 个 down-up 分支 \(\varphi_l^k = \phi_{up}(o(\phi_{down}(\cdot)))\) 和一个共享投影器 \(\mathcal P_l \in \mathbb R^{K\times d_1 \to d_1}\) 组成;输出 \(p_l = \mathcal P_l(\varphi_l^1(a_l) \oplus \cdots \oplus \varphi_l^K(a_l))\)。每个分支负责一个场景的视觉特征,下采样维 \(d_2 \ll d_1\),所以总参数量增长温和。训练第 \(t\) 个场景时只更新 \(\varphi_l^t\) + \(\mathcal P_l\),其他 \(\varphi_l^{k\neq t}\) 冻结。推理时所有分支并行计算一次,concat 后过同一个投影器,单次 forward 完成。
- 设计动机:纯 LoRA 单分支会遗忘;多分支但需 routing 又会让 router 自己遗忘且增加推理次数;用一个共享投影器把多分支输出"组合成统一表征",等于做了隐式的注意力路由,既不需要训练 router,也不需要在推理时多次 forward。
-
Vision Consistency Constraint (VCC) 双通道软约束:
- 功能:防止学习新场景时其他分支表征被"间接污染",同时不像 \(\ell_2\) 距离那样把塑性卡死。
- 核心思路:对每个 batch 计算场景原型 \(\mu_l = \frac{1}{K}\sum_k \varphi_l^k(a_l)\),然后沿 feature 通道和 embedding 通道分别对每个分支表征求均值 \(\bar\varphi_l^{k,\text{fe}} \in \mathbb R^{d_1}\)、\(\bar\varphi_l^{k,\text{em}} \in \mathbb R^{\text{seq}}\),并用相对熵约束 \(\mathcal{L}_c^{l,k} = \text{KL}(\bar\varphi_l^{k,\text{fe}}/\tau \mid \bar\mu_l^{\text{fe}}/\tau) + \text{KL}(\bar\varphi_l^{k,\text{em}}/\tau \mid \bar\mu_l^{\text{em}}/\tau)\)。投影器输出 \(p_l\) 用类似 KL 对齐新旧模型 \(\mathcal L_p^l\)。汇总 \(\mathcal L_{vcc} = \frac{1}{L}\sum_l (\mathcal L_p^l + \sum_k \mathcal L_c^{l,k})\)。
- 设计动机:\(\ell_2\) 强约束会让模型在新场景下完全没法学到新的局部细节(塑性被压垮);相对熵 + 在通道维度求均值相当于"只惩罚全局分布漂移、允许局部细节自由重组",这是从知识蒸馏借鉴并适配到 CL 的关键转换。
-
CSR 仅插入视觉编码器:
- 功能:把容量花在最容易漂移的视觉部分,不动 LLM 主干,控制额外参数与训练成本。
- 核心思路:MLLM 一般由视觉编码器 + 投影对齐 + LLM 组成。论文实验表明,跨场景遗忘的主要发生地是视觉编码器(特征提取受场景影响最大),LLM 部分的语义解码对场景切换相对鲁棒。因此 CSR 只插入 vision block,每个新场景增加的可训参数仅为 \(K \cdot L \cdot 2d_1 d_2\) 量级。
- 设计动机:在 MLLM 上做 CL,如果在 LLM 主干上扩 LoRA 既贵又危险(容易冲击通用语言能力);把注意力放到视觉编码器一是问题对症,二是参数开销可控。
损失函数 / 训练策略¶
总损失 \(\mathcal L = \mathcal L_{\text{task}} + \lambda \mathcal L_{vcc}\);蒸馏温度 \(\tau\) 控制软约束强度;训练新场景时其他分支参数冻结,投影器 \(\mathcal P_l\) 共同更新;对比设置上和 QUAD 一样不存储图像,但可以保留文本问题作为 exemplar。
实验关键数据¶
主实验¶
MSVQA 4 场景(High altitude / Underwater / Low altitude / Indoor),评估指标 VQA score 和 F1,\(T=5\) 步与 \(T=20\) 步两种 CL 设置。
| Methods | High alt. VQA \(A_T\) | Underwater VQA \(A_T\) | Low alt. VQA \(A_T\) | Indoor VQA \(A_T\) |
|---|---|---|---|---|
| Zero-shot | 20.55 | 19.30 | 14.94 | 52.40 |
| Joint (上界) | 64.97 | 84.27 | 59.80 | 87.20 |
| Finetune | 30.09 | 74.98 | 32.27 | 51.40 |
| EWC | 31.70 | 76.14 | 35.27 | 55.00 |
| ER | 43.64 | 78.16 | 48.12 | 61.40 |
| PODNet | 52.95 | 79.38 | 52.87 | 81.20 |
| QUAD (前 SOTA) | 56.59 | 79.62 | – | – |
| Unifier (本文) | 显著超越 QUAD | 接近 Joint 上界 | 显著超越 | 接近 Joint 上界 |
20 步设置:相对 QUAD,last-step VQA +2.70 ~ +10.62%,F1 +3.40 ~ +7.69%。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Full Unifier | best | VRE + VCC + 双通道 KL |
| w/o VRE(单分支 LoRA) | 显著退化 | 无场景隔离,新旧场景互相覆盖 |
| 多分支但 routing 替代投影器 | router 自己遗忘 | 路由准确率随场景增加快速衰减 |
| w/o VCC | 旧场景漂移 | 新场景塑性好但旧场景退化 |
| VCC 用 \(\ell_2\) 而非 KL | 塑性差 | 新场景几乎学不到任何新内容 |
| VCC 仅 feature 通道 | 中间 | 双通道(fe + em)显著优于单通道 |
关键发现¶
- 视觉编码器是 MLLM 在跨场景 CL 中遗忘的"震中",把 CSR 只放在 vision block 已能解决大部分问题。
- KL 双通道软约束在塑性与稳定性之间取得了比 \(\ell_2\) 强约束更好的折中。
- 共享投影器 \(\mathcal P_l\) 替代显式 router 是简化推理路径的关键,不仅省 forward 次数还避免了 router 自己也要 CL 训练的鸡生蛋问题。
亮点与洞察¶
- 诊断准确:作者从图 1 的可视化(new model 学了新场景后旧场景出现严重 FP/FN)就锁定"视觉编码器漂移",这种"先证伪再设计"的研究范式值得学习。
- 多分支 + 投影器避免 routing:是优雅的工程权衡——既享受参数隔离的好处,又不需要训练一个 router;同样的思路完全可以迁移到任意多任务/多领域的 PEFT 场景。
- KL 双通道软约束:相比单一维度上的 \(\ell_2\),让 feature 和 sequence 两个维度都只惩罚全局分布漂移,给细节"重新组合"留了空间——这是 CL 中处理塑性-稳定性折中的有效新手法。
局限与展望¶
- 参数随场景数 \(K\) 线性增长(\(\varphi_l^k\) 各自独立);当 \(K\) 较大时投影器 \(\mathcal P_l \in \mathbb R^{K d_1 \to d_1}\) 也变大,long-horizon CL 不可持续。
- 实验只在 4 个场景上做 20 步评估,对真正"开放世界 + 数百场景"的设定外推性未知。
- MSVQA 的 4 个场景之间差异较大(高空/水下/低空/室内),如果换成视觉差异更小的子领域,VRE 的隔离收益可能减弱。
- 没有探讨 LLM 一侧的遗忘——例如新场景里出现了新词汇 / 新指令风格时,LLM 主干是否也需要类似机制?
相关工作与启发¶
- vs QUAD (Marouf 2025):QUAD 只保存历史问题文本 + 跨问题 attention 蒸馏,重点在 LLM 一侧;本文聚焦视觉漂移,正好互补,VQA 上显著超越 QUAD。
- vs PODNet / VQACL:传统 CL 的中间层蒸馏 / 样本不变特征思路,需要 image rehearsal;本文不存图像,靠分支隔离 + KL 软约束达到甚至超过它们。
- vs 动态架构方法(DER 等):DER 直接扩 backbone 不适合 MLLM 这种大模型;CSR 只在 vision block 加 down-up 分支,参数与计算可控。
- vs Multi-LoRA + router:本文用共享投影器替代显式 router,避免 router 自身的 CL 难题,是个一致更优的工程选择。
评分¶
- 新颖性: ⭐⭐⭐⭐ MLLM + 多场景 CL 的视觉一面被前人忽视,VRE + 投影器替 routing 是新颖组合。
- 实验充分度: ⭐⭐⭐⭐ 4 场景 × 5 步 / 20 步 + 多种 CL baseline 横评,但场景数偏少且无跨数据集验证。
- 写作质量: ⭐⭐⭐⭐ 动机图(图 1)和架构图(图 4)非常清晰;公式标号略多但可读。
- 价值: ⭐⭐⭐⭐ 提供数据集 + 框架对设备端 MLLM 部署是直接 useful;KL 双通道软约束有较强通用性。