跳转至

CAMU: Context Augmentation for Meme Understanding

会议: AAAI 2026
arXiv: 2504.17902
代码: 将公开
领域: 多模态VLM
关键词: 仇恨meme检测, 多模态融合, CLIP微调, 视觉grounding, caption生成

一句话总结

本文提出 CAMU 框架,通过视觉 grounding 增强的上下文 caption 生成、新颖的 caption 评分网络和 CLIP 文本编码器的参数高效 n-layer 微调,在 Hateful Memes 数据集上达到 0.807 准确率和 0.806 F1,与 55B 参数的 SOTA 方法持平但效率高得多。

研究背景与动机

领域现状:仇恨 meme 检测是多模态内容审核的核心任务。主流方法利用 CLIP 等视觉-语言模型的跨模态对齐能力,通过对比学习或投影层微调来判断 meme 是否含有仇恨内容。当前 SOTA 是 PALI-X-VPD,使用 55B 参数的大语言模型配合代码生成和链式推理达到 0.892 AUROC。

现有痛点:meme 的含义不是图像和文字的简单叠加,而是通过文化语境、讽刺和暗示产生的复杂融合。现有方法面临两个核心挑战:(1) "良性混淆者"问题——相同文字配不同图片可能变为仇恨/非仇恨,单模态特征无法可靠判断;(2) 简单的投影层微调(如 Hate-CLIPper)不足以捕获 meme 中的细微语义关系,而大模型方法计算开销过大无法实时部署。

核心矛盾:高性能需要深层语义理解但计算代价高,轻量方法无法充分利用 caption 增强的上下文信息。

本文目标:设计一个层次化的、可解释的框架,在保持高效的前提下通过多模态上下文增强实现高精度仇恨检测。

切入角度:观察到 meme 文字通常不描述图像而是与图像共同构成含义,因此需要先用视觉 grounding 理解图像内容,再生成上下文增强的 caption,最后通过精品 caption 选择驱动分类。

核心 idea:用视觉 grounding + LVLM 生成增强 caption,用 caption 评分网络选择最相关的 caption,然后只微调 CLIP 文本编码器最后 n 层进行高效分类。

方法详解

整体框架

CAMU 由三个层次化模块组成:(1) 视觉 grounding 上下文增强:用 RAM 做标签生成 + GroundingDINO 做开放词汇目标检测,将检测结果送入 LVLM(InternVL-2.5/Gemini)生成多个候选 caption;(2) Caption 评分与选择:新颖的前馈神经网络对候选 caption 评分,通过 Gumbel-Softmax 进行可微选择;(3) 参数高效 CLIP 微调:仅微调文本编码器最后 n 层,结合双向交叉注意力融合图像和 caption 特征进行分类。

关键设计

  1. 视觉 Grounding 上下文增强(Visually Grounded Context Augmentation):

    • 功能:为 meme 图像生成包含文化语境和视觉细节的增强 caption
    • 核心思路:先用 RAM 模型识别图像中的标签(如"女人"、"厨房"),再用 GroundingDINO 获取目标的边界框坐标。这些信息被送入 InternVL-2.5 或 Gemini-2.0-flash,在提示中要求 LVLM 结合原始 meme 文字和检测到的视觉元素生成描述性 caption,强调文化引用和潜在含义
    • 设计动机:LVLM 对 meme 这类含义微妙的图像仍会产生幻觉,视觉 grounding 帮助模型"看得更准",减少幻觉并捕获仇恨相关的细微视觉线索
  2. Caption 评分网络(Caption Scorer):

    • 功能:在多个候选 caption 中选择与仇恨检测最相关的一个
    • 核心思路:一个3层隐藏层的前馈网络,输入 CLIP 文本编码器的 caption 特征向量(d维),通过 GELU + LayerNorm + Dropout + Weight Normalization 逐层处理,输出标量评分。使用 Gumbel-Softmax 实现可微分的 caption 选择,并通过 hate relevance loss \(\mathcal{L}_{\text{rel}}\) 直接将 caption 评分与标签对齐——鼓励评分器对仇恨图片给仇恨相关 caption 更高分
    • 设计动机:不同 LVLM 生成的 caption 质量参差不齐,需要一个与下游任务联合优化的选择机制。传统方法依赖余弦相似度选择,但 caption scorer 能学习到"哪些 caption 对仇恨检测最有用"
  3. 参数高效 n-layer 文本编码器微调:

    • 功能:在有限训练数据(约 8.5K 样本)下高效适配 CLIP
    • 核心思路:仅微调文本编码器最后 n 层(n=1~4),保持图像编码器冻结。选出的最佳 caption 与图像特征投影到更高维空间后进行双向交叉注意力融合:图像增强 \(\mathbf{I}_{\text{enhanced}} = \mathbf{I}_p + \text{CrossAttn}(\mathbf{I}_p, \mathbf{T}_p, \mathbf{T}_p)\),文本增强类似。总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{cls}} + \lambda_1 \mathcal{L}_{\text{rel}} + \lambda_2 \mathcal{L}_{\text{cont}}\)
    • 设计动机:低资源场景下全量微调容易过拟合,n-layer 策略在参数效率和表达能力之间取得平衡

损失函数 / 训练策略

三个损失联合优化:分类损失 \(\mathcal{L}_{\text{cls}}\)(二元交叉熵)、仇恨相关性损失 \(\mathcal{L}_{\text{rel}}\)(直接对caption评分监督)、对比损失 \(\mathcal{L}_{\text{cont}}\)(CLIP 原始 InfoNCE loss)。实验发现去掉对比损失时效果最佳,说明 caption scorer 的信号比对比学习更精准。训练使用 batch size 64,梯度累积到 512,学习率 \(1e^{-4}\),30 epochs + early stopping。

实验关键数据

主实验

方法 AUROC Acc. F1 参数量
PALI-X-VPD (SOTA) 0.892 0.808 - 55B
CAMU (XLM-R-ViT-H, n=4, w/o cont) 0.849 0.807 0.806 ~1.1B
RGCL-HateCLIPper 0.867 0.788 - -
Hate-CLIPper 0.858 - - -
Gemini-2.0-flash (zero-shot) 0.743 0.741 0.756 -

消融实验

配置 AUROC Acc. F1
CLIP-XLM-R-ViT-H/14, n=4, \(\mathcal{L}_{\text{cls}}+\mathcal{L}_{\text{rel}}\) 0.849 0.807 0.806
CLIP-XLM-R-ViT-H/14, n=4, 全部三个loss 0.819 0.775 0.774
CLIP-ViT-L/14, n=4, 全部三个loss 0.812 0.753 0.752
CLIP-ViT-B/16, 全文本编码器 0.788 0.632 0.591
CLIP-ViT-L/14, 投影层微调 0.828 0.720 0.710

关键发现

  • 去掉对比损失 \(\mathcal{L}_{\text{cont}}\) 反而获得最佳性能,说明 caption scorer 的 hate relevance loss 比标准对比学习更有效
  • 增加微调层数持续提升性能:AUROC 从 n=1 的 0.795 提升到 n=4 的 0.819(CLIP-XLM-R-ViT-H/14)
  • 简单投影层微调不足以利用 caption 信息(AUROC 仅 0.828),深层文本编码器调整才能捕获细微语义
  • 在 MultiOFF 数据集上也达到最优 F1 (0.673),证明泛化能力

亮点与洞察

  • Caption scorer 与分类联合优化的设计非常精巧——它学习的不是"哪个caption最好"而是"哪个caption对判断仇恨最有用",这种任务驱动的选择比启发式规则更有效
  • 发现对比损失在此任务中是噪声源而非信号源,这对 CLIP 微调研究有普遍启示:标准 InfoNCE 在特定下游任务中可能是多余的
  • 视觉 grounding 作为"预理解"层的设计可迁移到其他需要理解复合语义的任务(如广告理解、讽刺检测)

局限与展望

  • 训练数据仅 8.5K 样本,扩大到 MMHS150K 等大规模数据集可能大幅提升性能
  • 当visual grounding层遗漏关键视觉元素(如图中难以识别的小物体)时,整个pipeline受限
  • 仅考虑两个候选 caption 来源,更多 LVLM 的 caption 集成可能进一步提升
  • 可以探索提取编码器中间层特征,不同层可能捕获不同的语言/语义细微差别

相关工作与启发

  • vs Hate-CLIPper: 仅用投影层微调进行跨模态交互,AUROC 0.858但无法深层理解meme语义。CAMU通过n-layer文本编码器微调和caption增强获得更高准确率
  • vs PALI-X-VPD: 55B参数用链式推理达到AUROC 0.892,但计算代价极高。CAMU以远小参数量实现相当的Accuracy和F1
  • vs RGCL-HateCLIPper: 通过检索增强对比学习提升性能,但依赖余弦相似度的局限性可能导致不稳定。CAMU的caption scorer提供更可靠的信号

评分

  • 新颖性: ⭐⭐⭐⭐ caption scorer + hate relevance loss 的联合优化设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 消融详尽,覆盖多种CLIP变体和loss组合,但数据集偏小
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验表格丰富
  • 价值: ⭐⭐⭐⭐ 对高效多模态内容审核有实际指导意义