跳转至

All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction

会议: ACL 2026
arXiv: 2601.04567
代码: GitHub
领域: Multimodal Safety / Meme Detection
关键词: 有害梗图检测, 设计概念图, 攻击树, MLLM推理引导, 类型漂移

一句话总结

提出RepMD方法,通过构建设计概念图(DCG)——借鉴攻击树思想描述恶意用户设计有害梗图的步骤和逻辑——来引导MLLM检测不断变化的有害梗图,在GOAT-Bench上达81.1%准确率。

研究背景与动机

领域现状:互联网上有害梗图(harmful memes)持续演变,呈现类型漂移(新形式、新攻击对象)和时间演化(与时事紧密相关)两大特征,使得检测极其困难。

现有痛点:(1) 现有检测方法仅学习有害元素的组合,缺乏对隐含表达的理解——如通过突出人的配饰来暗示种族歧视;(2) 新出现的网络俚语(如GOAT, Stan)增加了检测难度;(3) MLLM虽有多模态理解能力但对这些隐含有害信息同样束手无策。

核心矛盾:有害梗图的视觉元素和表达方式不断变化,但其背后恶意用户的设计逻辑可能存在"不变原理"。如何从历史梗图中提取这些不变原理来指导新梗图的检测?

本文目标:定义一种可解释的结构来描述有害梗图的设计概念,并利用它引导MLLM进行检测。

切入角度:借鉴安全领域的攻击树(attack tree)思想,将梗图的设计意图建模为包含方法、目标和逻辑门的结构化图。

核心 idea:不同类型的有害梗图虽然表面不同,但可能共享相同的设计概念(如"将事实特化到特定群体以实现攻击"),这些概念可以跨类型迁移。

方法详解

整体框架

RepMD分三步:(1) 构建失败原因树——分析MLLM检测失败的历史梗图,归纳失败原因;(2) 从失败原因推导设计概念图(DCG)——描述恶意用户可能采取的设计步骤;(3) 对目标梗图检索DCG中相似的设计步骤,形成逐步引导帮助MLLM检测。

关键设计

  1. 失败原因树(Fail Reason Tree)构建:

    • 功能:系统分析MLLM在哪些梗图上失败以及为什么失败
    • 核心思路:对历史梗图用5个MLLM投票检测,取≥3个失败的作为难例。用Qwen3VL-235B分析失败原因并分类到7大类(文化、政治等),形成层级树结构。还包含prompt迭代优化环节
    • 设计动机:只关注MLLM真正无法检测的梗图,使设计概念专注于最具挑战性的案例
  2. 设计概念图(DCG):

    • 功能:以结构化方式描述恶意用户的设计逻辑
    • 核心思路:参考攻击树定义三级结构——Reproduction Method(恶意用户的设计步骤)、Logic Gate(AND/OR/NOT组合逻辑)、Reproduction Goal(设计目标,如"人群特化")。每个节点标记是否有害。从失败原因节点推导得到
    • 设计动机:攻击树在网络安全中成功建模了攻击者的逻辑链,同样适用于建模梗图设计者的思维模式
  3. SVD图剪枝和检索引导:

    • 功能:精简DCG并为目标梗图检索相关设计步骤
    • 核心思路:用SVD降维剪除DCG中冗余节点,保留核心设计模式。对目标梗图通过相似度检索DCG中最相关的设计步骤,形成逐步引导提示让MLLM沿设计逻辑推理
    • 设计动机:直接使用全部DCG信息会引入噪声,SVD剪枝在GNN中已证明有效

损失函数 / 训练策略

RepMD是无需训练的方法,完全基于MLLM的in-context learning能力。DCG的构建和检索都在推理时完成。

实验关键数据

主实验

方法 GOAT-Bench准确率 域外泛化 时序泛化
基线MLLM 大幅下降 下降
RepMD 81.1% 仅降2.1% 提升0.3%

消融实验

配置 关键指标 说明
无DCG 准确率显著下降 设计概念是核心贡献
无SVD剪枝 性能下降 剪枝去除噪声提升精度
人类评估 15-30秒/梗图 DCG有效辅助人类识别

关键发现

  • RepMD在域外泛化(新类型梗图)中仅损失2.1%准确率,在时序泛化(未来季度梗图)中甚至提升0.3%
  • 人类评估确认DCG的高可解释性——评估者能在15-30秒内利用DCG判断梗图是否有害
  • 不同类型的有害梗图确实共享设计概念,验证了"不变原理"的假设

亮点与洞察

  • 从安全领域借鉴攻击树思想来建模梗图设计意图,是创造性的跨领域迁移
  • "不变原理"假设得到实验验证——跨类型和跨时间的泛化性都很好
  • 方法不需要训练,完全利用MLLM的推理能力和DCG的引导

局限与展望

  • 当前DCG需要从失败案例中构建,冷启动时可能不够丰富
  • 仅在英文梗图上测试,不同文化/语言的梗图可能有不同的设计模式
  • SVD剪枝的参数选择可能需要针对不同领域调整
  • 未来可扩展到视频梗和多语言梗图

相关工作与启发

  • vs 传统有害内容检测: 不仅检测"是否有害",还解释"为什么有害"以及"怎么设计的"
  • vs 攻击树: 将安全分析方法创造性地迁移到社交媒体内容分析
  • vs LLM-based检测: 提供结构化的设计概念引导,比纯prompt更稳定

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 攻击树→设计概念图的跨领域创新非常独特
  • 实验充分度: ⭐⭐⭐⭐ 类型和时序两种泛化实验+人类评估
  • 写作质量: ⭐⭐⭐⭐ 形式化定义清晰,动机说明充分
  • 价值: ⭐⭐⭐⭐ 对有害内容检测有新范式的启示