MIND: A Multi-agent Framework for Zero-shot Harmful Meme Detection¶

会议: ACL 2025
arXiv: 2507.06908
代码: https://github.com/destroy-lonely/MIND
领域: Agent / AI安全 / 多模态内容审核
关键词: 有害梗图检测、零样本、多智能体辩论、双向洞察推导、检索增强

一句话总结¶

提出 MIND 框架，通过相似样本检索、双向洞察推导和多智能体辩论三个阶段实现零样本有害梗图（meme）检测，无需标注数据即可在三个数据集上超越现有零样本方法，并在不同模型架构和规模上展现强泛化性。

研究背景与动机¶

领域现状：社交媒体上梗图（meme）数量激增，其中夹杂着大量传播仇恨、歧视和虚假信息的有害内容。梗图结合图像和文本的多模态特性使其检测更为困难。已有方法主要基于数据驱动的多模态模型，依赖大量标注数据进行训练。

现有痛点：有害梗图的核心挑战在于其快速演化——新事件不断催生新的梗图模板和表达方式。传统数据驱动方法面对新梗图时束手无策，因为快速收集和标注足够的训练数据非常困难。即使是少样本方法（few-shot ICL）也需要预先标注的示例，无法真正适应梗图的快速变化。

核心矛盾：有害梗图检测需要对新出现内容的即时响应能力，但监督学习方法天然滞后于内容演化——等到收集标注数据时，危害已经扩散。

本文目标：开发一个完全不依赖标注数据的零样本有害梗图检测框架，能够利用大规模多模态模型（LMM）的推理能力应对新出现的有害内容。

切入角度：尽管梗图不断演化，但往往保留着可识别的核心特征。例如 COVID-19 相关的白宫发布会梗图被多种方式修改重用，但核心场景元素不变。通过检索相似梗图并从中推导出有害性洞察，可以为新梗图的判断提供参考。

核心 idea：从未标注的参考集中检索相似梗图，通过双向洞察推导从类似样本中提取有害分析经验，再使用多智能体辩论机制整合洞察做出鲁棒判断。

方法详解¶

整体框架¶

MIND 包含三个阶段：(1) 相似样本检索（SSR）——从未标注参考集中检索与目标梗图最相似的 K 个样本；(2) 相关洞察推导（RID）——通过前向和后向两个方向从相似样本中提取有害性分析洞察；(3) 洞察增强推理（IAI）——多个辩论智能体基于推导的洞察进行讨论，由裁判智能体做最终判决。

关键设计¶

相似样本检索（Similar Sample Retrieval, SSR）:
- 功能：从未标注的参考集中找到与目标梗图内容最相关的样本
- 核心思路：对每个梗图 \(M = \{V, T\}\)，使用视觉编码器和文本编码器分别提取特征，按加权求和得到多模态嵌入 \(E = \lambda_v \cdot V_{enc}(V) + \lambda_t \cdot T_{enc}(T)\)。对参考集中所有样本计算余弦相似度，选取 Top-K 个最相似样本存入样本池
- 设计动机：相似梗图共享核心模式，精准的检索可以为后续分析提供高质量的参考上下文，比随机选取样本提供的信息量大得多
双向洞察推导（Relevant Insight Derivation, RID）:
- 功能：从检索到的相似样本中系统性地提取有害性分析经验
- 核心思路：采用两个方向的推导过程——前向推导（Forward Insight）：LMM 按检索顺序依次处理相似样本，前面样本的分析结果作为上下文传递给后面样本，形成递进的洞察；后向推导（Backward Insight）：在前向推导基础上，反向再过一遍样本，利用后面样本的洞察来补充和校正前面样本的分析。两个方向的洞察分别送入 IAI 阶段
- 设计动机：单向推导可能受顺序影响产生偏差——前面样本的分析可能误导后续判断。双向推导通过"回看"机制确保每个样本都能被充分分析，类似于 BiLSTM 从双向捕获信息的思路
洞察增强推理（Insight-Augmented Inference, IAI）:
- 功能：基于推导的洞察对目标梗图做出鲁棒的有害性判断
- 核心思路：设置辩论者智能体（LMM_debater）和裁判智能体（LMM_judge）。前向洞察和后向洞察分别输入不同的辩论者，每个辩论者结合洞察和目标梗图给出分析和预测。如果两个辩论者意见一致则直接采纳；如果意见冲突，由裁判智能体综合双方论据进行仲裁
- 设计动机：单个推理路径可能产生偏差或遗漏，多智能体辩论通过对立观点的碰撞能更全面地考虑有害性的各个方面

损失函数 / 训练策略¶

MIND 是完全无梯度的零样本框架，不涉及任何模型训练。所有模块直接使用预训练的 LMM（如 LLaVA-1.5-13B）进行推理。

实验关键数据¶

主实验（零样本有害梗图检测）¶

模型	HarM Acc/F1	FHM Acc/F1	MAMI Acc/F1
GPT-4o	62.07/60.29	63.20/63.15	73.50/73.49
Gemini-1.5-Flash	68.93/67.51	63.40/63.30	65.40/65.28
LLaVA-1.5-13B	57.91/50.45	53.60/53.01	55.30/55.52
LLaVA-1.6-34B	66.10/61.59	58.40/58.32	66.90/66.43
MIND (LLaVA-1.5-13B)	68.93/65.19	60.80/60.71	68.90/68.84

消融实验¶

配置	HarM F1	FHM F1	MAMI F1
完整 MIND	65.19	60.71	68.84
w/o SSR（随机选取）	60.92 (-4.27)	60.38 (-0.33)	66.38 (-2.46)
w/o RID（不做洞察推导）	51.93 (-13.26)	56.02 (-4.69)	56.51 (-12.33)
w/o RID_forward	63.46 (-1.73)	59.81 (-0.90)	66.60 (-2.24)
w/o RID_backward	62.28 (-2.91)	58.94 (-1.77)	67.98 (-0.86)
w/o IAI（无辩论机制）	60.97 (-4.22)	58.53 (-2.18)	68.10 (-0.74)

关键发现¶

去除洞察推导（RID）导致最大幅度的性能下降（HarM -13.26, MAMI -12.33），说明从相似样本中提取有害分析经验是框架的核心驱动力
相似样本检索（SSR）比随机选取平均高出 2-4 个F1点，验证了精准检索的价值
前向和后向推导各有所长——后向推导的去除在 HarM 和 FHM 上影响更大，前向推导的去除在 MAMI 上影响更大，双向互补
Top-K=3 是最佳检索数量，过多检索（K>5）引入噪声反而降低性能
MIND 将 LLaVA-1.5-13B 提升到超过 LLaVA-1.6-34B 的基线表现，甚至在 HarM 上超越 GPT-4o 4.9个 F1 点

亮点与洞察¶

双向洞察推导是本文最精妙的设计——类似 BiLSTM 的思路但应用在智能体推理中，通过前向后向两次遍历确保每个参考样本的信息被充分利用。这种设计简单但有效，可以迁移到其他需要从多个参考样本中提取信息的任务
无标注数据的零样本检测在有害内容审核中有极高的实用价值——新的有害内容出现时无需等待标注就能开始检测
多智能体辩论机制使最终判断更加鲁棒，通过对立观点的碰撞减少了单一模型的偏见

局限与展望¶

计算成本较高——每个梗图需要多轮 LMM 推理（前向+后向推导+辩论），实时部署面临延迟挑战
依赖参考集的质量和覆盖度——如果参考集不包含与目标梗图相似的样本，检索质量会下降
仅测试了二分类（有害/无害），对更细粒度的有害类型分类（如仇恨、歧视、暴力）尚未评估
检索使用的是固定的视觉+文本编码器加权融合，更灵活的多模态融合策略（如跨模态注意力）可能更好
未来可以考虑在线更新参考集，使系统能随时间演化适应新的梗图模式

评分¶

新颖性: ⭐⭐⭐⭐ 双向洞察推导+多智能体辩论的组合有新意，但各组件的思路中规中矩
实验充分度: ⭐⭐⭐⭐ 三数据集、多模型规模、详细消融，但缺少对参考集质量敏感性的分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰，案例分析有说服力
价值: ⭐⭐⭐⭐ 对零样本内容审核有实际意义，框架设计具有通用性