CAMU: Context Augmentation for Meme Understanding¶

会议: AAAI 2026
arXiv: 2504.17902
代码: 将公开
领域: 多模态VLM
关键词: 仇恨meme检测, 多模态融合, CLIP微调, 视觉grounding, caption生成

一句话总结¶

本文提出 CAMU 框架，通过视觉 grounding 增强的上下文 caption 生成、新颖的 caption 评分网络和 CLIP 文本编码器的参数高效 n-layer 微调，在 Hateful Memes 数据集上达到 0.807 准确率和 0.806 F1，与 55B 参数的 SOTA 方法持平但效率高得多。

研究背景与动机¶

领域现状：仇恨 meme 检测是多模态内容审核的核心任务。主流方法利用 CLIP 等视觉-语言模型的跨模态对齐能力，通过对比学习或投影层微调来判断 meme 是否含有仇恨内容。当前 SOTA 是 PALI-X-VPD，使用 55B 参数的大语言模型配合代码生成和链式推理达到 0.892 AUROC。

现有痛点：meme 的含义不是图像和文字的简单叠加，而是通过文化语境、讽刺和暗示产生的复杂融合。现有方法面临两个核心挑战：(1) "良性混淆者"问题——相同文字配不同图片可能变为仇恨/非仇恨，单模态特征无法可靠判断；(2) 简单的投影层微调（如 Hate-CLIPper）不足以捕获 meme 中的细微语义关系，而大模型方法计算开销过大无法实时部署。

核心矛盾：高性能需要深层语义理解但计算代价高，轻量方法无法充分利用 caption 增强的上下文信息。

本文目标：设计一个层次化的、可解释的框架，在保持高效的前提下通过多模态上下文增强实现高精度仇恨检测。

切入角度：观察到 meme 文字通常不描述图像而是与图像共同构成含义，因此需要先用视觉 grounding 理解图像内容，再生成上下文增强的 caption，最后通过精品 caption 选择驱动分类。

核心 idea：用视觉 grounding + LVLM 生成增强 caption，用 caption 评分网络选择最相关的 caption，然后只微调 CLIP 文本编码器最后 n 层进行高效分类。

方法详解¶

整体框架¶

CAMU 由三个层次化模块组成：(1) 视觉 grounding 上下文增强：用 RAM 做标签生成 + GroundingDINO 做开放词汇目标检测，将检测结果送入 LVLM（InternVL-2.5/Gemini）生成多个候选 caption；(2) Caption 评分与选择：新颖的前馈神经网络对候选 caption 评分，通过 Gumbel-Softmax 进行可微选择；(3) 参数高效 CLIP 微调：仅微调文本编码器最后 n 层，结合双向交叉注意力融合图像和 caption 特征进行分类。

关键设计¶

视觉 Grounding 上下文增强（Visually Grounded Context Augmentation）:
- 功能：为 meme 图像生成包含文化语境和视觉细节的增强 caption
- 核心思路：先用 RAM 模型识别图像中的标签（如"女人"、"厨房"），再用 GroundingDINO 获取目标的边界框坐标。这些信息被送入 InternVL-2.5 或 Gemini-2.0-flash，在提示中要求 LVLM 结合原始 meme 文字和检测到的视觉元素生成描述性 caption，强调文化引用和潜在含义
- 设计动机：LVLM 对 meme 这类含义微妙的图像仍会产生幻觉，视觉 grounding 帮助模型"看得更准"，减少幻觉并捕获仇恨相关的细微视觉线索
Caption 评分网络（Caption Scorer）:
- 功能：在多个候选 caption 中选择与仇恨检测最相关的一个
- 核心思路：一个3层隐藏层的前馈网络，输入 CLIP 文本编码器的 caption 特征向量（d维），通过 GELU + LayerNorm + Dropout + Weight Normalization 逐层处理，输出标量评分。使用 Gumbel-Softmax 实现可微分的 caption 选择，并通过 hate relevance loss \(\mathcal{L}_{\text{rel}}\) 直接将 caption 评分与标签对齐——鼓励评分器对仇恨图片给仇恨相关 caption 更高分
- 设计动机：不同 LVLM 生成的 caption 质量参差不齐，需要一个与下游任务联合优化的选择机制。传统方法依赖余弦相似度选择，但 caption scorer 能学习到"哪些 caption 对仇恨检测最有用"
参数高效 n-layer 文本编码器微调:
- 功能：在有限训练数据（约 8.5K 样本）下高效适配 CLIP
- 核心思路：仅微调文本编码器最后 n 层（n=1~4），保持图像编码器冻结。选出的最佳 caption 与图像特征投影到更高维空间后进行双向交叉注意力融合：图像增强 \(\mathbf{I}_{\text{enhanced}} = \mathbf{I}_p + \text{CrossAttn}(\mathbf{I}_p, \mathbf{T}_p, \mathbf{T}_p)\)，文本增强类似。总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{cls}} + \lambda_1 \mathcal{L}_{\text{rel}} + \lambda_2 \mathcal{L}_{\text{cont}}\)
- 设计动机：低资源场景下全量微调容易过拟合，n-layer 策略在参数效率和表达能力之间取得平衡

损失函数 / 训练策略¶

三个损失联合优化：分类损失 \(\mathcal{L}_{\text{cls}}\)（二元交叉熵）、仇恨相关性损失 \(\mathcal{L}_{\text{rel}}\)（直接对caption评分监督）、对比损失 \(\mathcal{L}_{\text{cont}}\)（CLIP 原始 InfoNCE loss）。实验发现去掉对比损失时效果最佳，说明 caption scorer 的信号比对比学习更精准。训练使用 batch size 64，梯度累积到 512，学习率 \(1e^{-4}\)，30 epochs + early stopping。

实验关键数据¶

主实验¶

方法	AUROC	Acc.	F1	参数量
PALI-X-VPD (SOTA)	0.892	0.808	-	55B
CAMU (XLM-R-ViT-H, n=4, w/o cont)	0.849	0.807	0.806	~1.1B
RGCL-HateCLIPper	0.867	0.788	-	-
Hate-CLIPper	0.858	-	-	-
Gemini-2.0-flash (zero-shot)	0.743	0.741	0.756	-

消融实验¶

配置	AUROC	Acc.	F1
CLIP-XLM-R-ViT-H/14, n=4, \(\mathcal{L}_{\text{cls}}+\mathcal{L}_{\text{rel}}\)	0.849	0.807	0.806
CLIP-XLM-R-ViT-H/14, n=4, 全部三个loss	0.819	0.775	0.774
CLIP-ViT-L/14, n=4, 全部三个loss	0.812	0.753	0.752
CLIP-ViT-B/16, 全文本编码器	0.788	0.632	0.591
CLIP-ViT-L/14, 投影层微调	0.828	0.720	0.710

关键发现¶

去掉对比损失 \(\mathcal{L}_{\text{cont}}\) 反而获得最佳性能，说明 caption scorer 的 hate relevance loss 比标准对比学习更有效
增加微调层数持续提升性能：AUROC 从 n=1 的 0.795 提升到 n=4 的 0.819（CLIP-XLM-R-ViT-H/14）
简单投影层微调不足以利用 caption 信息（AUROC 仅 0.828），深层文本编码器调整才能捕获细微语义
在 MultiOFF 数据集上也达到最优 F1 (0.673)，证明泛化能力

亮点与洞察¶

Caption scorer 与分类联合优化的设计非常精巧——它学习的不是"哪个caption最好"而是"哪个caption对判断仇恨最有用"，这种任务驱动的选择比启发式规则更有效
发现对比损失在此任务中是噪声源而非信号源，这对 CLIP 微调研究有普遍启示：标准 InfoNCE 在特定下游任务中可能是多余的
视觉 grounding 作为"预理解"层的设计可迁移到其他需要理解复合语义的任务（如广告理解、讽刺检测）

局限与展望¶

训练数据仅 8.5K 样本，扩大到 MMHS150K 等大规模数据集可能大幅提升性能
当visual grounding层遗漏关键视觉元素（如图中难以识别的小物体）时，整个pipeline受限
仅考虑两个候选 caption 来源，更多 LVLM 的 caption 集成可能进一步提升
可以探索提取编码器中间层特征，不同层可能捕获不同的语言/语义细微差别

评分¶

新颖性: ⭐⭐⭐⭐ caption scorer + hate relevance loss 的联合优化设计新颖
实验充分度: ⭐⭐⭐⭐ 消融详尽，覆盖多种CLIP变体和loss组合，但数据集偏小
写作质量: ⭐⭐⭐⭐ 结构清晰，实验表格丰富
价值: ⭐⭐⭐⭐ 对高效多模态内容审核有实际指导意义