Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models¶
会议: ICCV 2025
arXiv: 2411.12790
代码: 未提供
领域: 多模态VLM
关键词: 知识编辑, MLLM, 细粒度视觉编辑, 多模态分类器, FGVEdit
一句话总结¶
提出面向视觉的细粒度多模态知识编辑任务及 FGVEdit 基准,设计 MSCKE 框架通过多模态范围分类器融合视觉与文本信息,实现对图像中多个交互实体的精确知识更新,显著优于纯文本编辑方法。
研究背景与动机¶
知识编辑旨在高效、低成本地修正模型中的错误知识。随着多模态大语言模型(MLLM)的兴起,知识编辑也需要扩展到多模态场景。然而现有工作存在以下关键问题:
粗粒度编辑的局限:现有多模态知识编辑基准(MMEdit、KEBench、MIKE)将整张图像视为单个实体,编辑操作实际上只是简单的文本替换(如将"bird"替换为"kite"),不需要访问视觉模块,因此 LLM 编辑方法在这些设置下表现良好
忽视多实体交互:真实场景中一张图像通常包含多个交互实体,需要编辑与特定实体相关的知识而不影响其他实体
视觉信息的缺失:仅依赖文本语义无法捕捉同一图像中不同实体之间的细微关系
如图 1 所示,粗粒度编辑中更改"bird"为"kite"只需文本操作;而细粒度编辑需要在同一图像中精确定位目标实体(如其中一只风筝)并更新其关联知识,同时保持其他实体不受影响。
方法详解¶
问题形式化¶
给定预训练 MLLM \(f_\theta\),编辑样本表示为 \((i_e, t_e, y_e)\),其中 \(i_e\) 是包含多个实体的图像,\(t_e\) 是文本提示,\(y_e\) 是期望输出。知识编辑操作 \(\mathcal{E}\) 更新参数为 \(\theta_e = \mathcal{E}(\theta, i_e, t_e, y_e)\),使得 \(y_e = f_{\theta_e}(i_e, t_e)\)。
核心挑战在于细粒度编辑范围的定义:对于编辑样本存在一个由视觉和文本信息共同决定的编辑范围 \(S(i_e, t_e, y_e)\): - 范围内输入:需产生修正后的输出 - 范围外输入(同一图像但指向不同实体):需保持原始输出不变
MSCKE 框架¶
基于 SERAC 方法改进,MSCKE 包含四个核心组件:
- 多模态编辑记忆(Multimodal Edit Memory):存储编辑样本,不修改基础模型参数
- 多模态范围分类器(Multimodal Scope Classifier):评估输入与编辑样本的相关性
- 基础多模态模型 \(f_{\text{base}}\):参数冻结,处理范围外输入
- 反事实多模态模型 \(f_{\text{cfr}}\):可训练参数,处理范围内输入
推理时的决策逻辑:
其中 \(\rho\) 是多模态范围分类器计算的相似度得分。
多模态范围分类器¶
这是 MSCKE 的核心创新。与 SERAC 的纯文本分类器不同,该分类器融合视觉和文本两种模态信息:
特征提取与对齐:使用预训练 CLIP 模型,分别提取图像和文本特征并映射到统一空间:
特征融合:使用点积注意力(dot-product attention)融合视觉和文本特征:
相似度计算:
损失函数¶
分类器作为二元分类器训练,使用二元交叉熵损失:
其中 \(\rho_{\text{in}}^k\) 和 \(\rho_{\text{out}}^k\) 分别是范围内和范围外样本的相似度得分。
FGVEdit 基准构建¶
基于 VQAv2 构建,包含 11,112 个样本(训练:测试 = 3:1):
- Specificity 数据:利用 GPT-4o-mini 进行两阶段分类——先基于图像+文本判断逻辑蕴含关系,再仅基于文本过滤出"难"样本
- Locality 数据:使用 NQ 数据集(不相关问答对)
- Generality 数据:GPT-4o-mini 改写问题
评估指标¶
新提出的 Specificity 指标包含两个组成:
- \(M_{\text{in}}^v\):视觉范围内问题的正确回答率(应反映编辑后的知识)
- \(M_{\text{out}}^v\):视觉范围外问题的原始回答保持率(不应受编辑影响)
实验¶
主实验结果(BLIP-2 OPT / MiniGPT-4)¶
| 方法 | Reliability | Locality | Generality | Specificity |
|---|---|---|---|---|
| FT-LLM | 100.0/93.4 | 76.9/86.3 | 100.0/93.4 | 24.2/35.0 |
| IKE | 99.9/100.0 | 48.5/52.5 | 98.0/98.9 | 20.1/25.3 |
| SERAC | 93.1/99.5 | 99.9/100.0 | 96.8/92.9 | 31.9/37.9 |
| MEND | 97.0/94.9 | 98.6/98.6 | 96.4/94.8 | 65.9/67.4 |
| MSCKE | 99.1/99.5 | 100.0/100.0 | 98.6/93.0 | 61.6/57.2 |
| MSCKE-MEND | 97.4/97.1 | 100.0/100.0 | 96.5/96.7 | 68.4/72.0 |
关键发现: - 在传统指标上,各方法差异不大;但在关键的 Specificity 指标上,MSCKE(61.6)显著优于 SERAC(31.9),提升接近翻倍 - MSCKE-MEND 进一步将 Specificity 提升至 68.4/72.0
消融与分析¶
| 组件 | CLIP-ViT-B/32 | CLIP-ViT-L/14 |
|---|---|---|
| 拼接融合 | 63.70 | 63.80 |
| 交叉注意力 | 64.45 | 64.35 |
| 点积注意力 | 64.73 | 64.85 |
关键发现: - ViT-B/32 与 ViT-L/14 性能相当,说明轻量骨干已足够 - 点积注意力融合最优且计算开销最小
可迁移性实验¶
| 源 → 目标 | Specificity (迁移/重训) |
|---|---|
| BLIP-2 → BLIP-2 (MSCKE-MEND) | 68.35 / 68.38 |
| BLIP-2 → MiniGPT-4 (MSCKE) | 57.09 / 57.20 |
| BLIP-2 → MiniGPT-4 (MSCKE-MEND) | 72.16 / 71.98 |
分类器在不同模型间迁移后性能几乎无损,展现了优秀的模型无关性。
计算成本¶
| 组件 | 推理时间 | 模型大小 |
|---|---|---|
| 多模态分类器 | 36ms | 0.56G |
| 基础模型 | 121ms | 9.10G |
| 反事实模型 | 85ms | 4.22G |
分类器仅引入极小的额外开销(36ms / 0.56G)。
亮点与洞察¶
- 问题定义的贡献:首次明确提出"面向视觉的细粒度知识编辑"这一新任务,揭示了粗粒度编辑基准的不足
- 多模态范围判别:纯文本分类器在细粒度场景下失效(因为范围内外样本的文本高度相似),多模态分类器通过引入视觉信息才能正确区分
- 解耦设计的优势:分类器、基础模型和反事实模型完全解耦,支持灵活组合和迁移
- Specificity 指标:填补了现有评估体系中对同一图像内多实体编辑效果的评估空白
局限性¶
- Specificity 最高仅约 72%,仍有较大提升空间
- 依赖 CLIP 的对齐能力进行跨模态匹配,对 CLIP 难以区分的相似实体可能失效
- FGVEdit 基准基于 VQAv2 构建,场景多样性可能受原始数据集限制
- 编辑记忆随编辑样本增多线性增长,可能影响检索效率
相关工作¶
- LLM 知识编辑:参数保持方法(SERAC、IKE、MemPrompt)vs 参数修改方法(ROME、MEMIT、MEND)
- MLLM 知识编辑:MMEdit 首个多模态基准,KEBench 引入泛化性指标,MIKE 和 MC-MKE 探索细粒度但仍以文本为中心
- 基座模型:BLIP-2 OPT、MiniGPT-4 作为被编辑的 MLLM
评分¶
| 维度 | 分数 |
|---|---|
| 创新性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 总体推荐 | 7.5/10 |