Cultivating Forensic Reasoning for Generalizable Multimodal Manipulation Detection¶
会议: ACL2026
arXiv: 2603.01993
代码: https://github.com/YcZhangSing/REFORM
领域: 多模态取证 / AIGC检测
关键词: 多模态伪造检测, 取证推理, GRPO, 伪造定位, ROM数据集
一句话总结¶
这篇论文提出 REFORM,把多模态伪造检测从“直接拟合标签”改成“学习可验证的取证推理过程”,并通过 ROM 推理标注数据集、双解码器和 GRPO 训练,在 ROM、DGM4 与 MMFakeBench 上取得更强的跨域泛化和可解释检测结果。
研究背景与动机¶
领域现状:多模态媒体伪造已经从局部人脸编辑扩展到整张新闻图像、背景、标题和正文之间的复杂组合伪造。已有 DGM4 系列方法、知识增强方法和视觉语言模型方法通常把任务建模为检测、分类或定位,输入图文新闻,输出真假、伪造类型和区域。
现有痛点:主流方法大多依赖结果导向监督,只要求模型从训练样本映射到最终标签。这样做在闭集数据上有效,但容易让模型记住特定数据集里的统计伪影,例如某类生成模型的纹理、某个新闻域的语言分布或某种编辑模式,而不是学会“为什么这里不一致”。一旦测试域、生成器或伪造方式变化,检测器就容易失效。
核心矛盾:多模态取证真正需要的是可迁移的逻辑证据链,而训练信号却常常只有最终答案。标签监督能告诉模型“这是假”,但很少约束模型必须找到可信的视觉证据、文本证据以及二者之间的矛盾。
本文目标:作者希望同时解决三个子问题:构造覆盖面更广且带推理标注的基准;让模型显式生成取证理由并保持理由与答案一致;在 SFT 之后继续用强化学习约束推理链的格式、准确性、定位和一致性。
切入角度:论文的核心观察是,泛化能力不应只来自更大的视觉语言模型或更多外部知识,而应来自对“取证思维过程”的优化。只要训练目标能奖励正确、连贯且可定位的推理链,模型就更可能抓住跨域稳定的伪造逻辑。
核心 idea:用推理驱动优化代替单纯结果拟合,让检测器先学会解释伪造证据,再用一致性损失和 GRPO 将解释、分类和定位绑在一起。
方法详解¶
REFORM 的贡献由数据、结构和训练三部分组成。数据侧,作者构建 ROM,让模型不仅看到图文对和标签,还看到取证推理;结构侧,模型采用 Cognitive Priming Encoder 与 Reason-Answer Dual-Decoder;训练侧,先预热推理能力,再联合微调答案与理由,最后用 GRPO 做策略精炼。
整体框架¶
输入是一条多模态新闻样本,包括图像、文本提示和待判断的图文内容。模型先把图像编码成视觉 token,把问题或任务指令编码成文本 token,然后通过冻结的 Cognitive Priming Encoder 让一组可学习的 reason tokens 从视觉和文本上下文中抽取伪造线索。经过多模态编码后,模型并行接入两个解码器:Answer Decoder 负责输出真假、伪造类型和定位坐标,Reason Decoder 负责输出解释性取证推理。
训练流程分三阶段。第一阶段只训练推理分支,让 reason tokens 和 Reason Decoder 对齐蒸馏得到的取证理由。第二阶段解冻整体模型,同时生成理由和答案,并加入理由-答案一致性约束。第三阶段用 GRPO,让模型从多条候选推理中学习更符合格式、答案、定位和语义一致性的路径。
关键设计¶
-
ROM 推理增强数据集:
- 功能:为多模态伪造检测提供更广覆盖的场景级数据和推理监督。
- 核心思路:ROM 基于 MDSM 的人脸相关类别继续扩展,加入 BackgroundReplacement、FullGeneration 以及与 TextFabrication 组合的场景级伪造类别。数据规模为 704,456 个图文对,覆盖 5 个新闻域和 9 类伪造类别,并用 InternVL3.5-30B 蒸馏每个样本的文字推理说明。
- 设计动机:传统 DGM4 更偏人脸编辑,容易让模型学习局部伪影。ROM 把伪造范围扩展到整图生成和背景替换,并给出约 130 token 峰值长度的理由,比短答案提供更丰富的取证过程监督。
-
Cognitive Priming 与双解码器:
- 功能:把“找证据”和“给答案”拆成相关但不互相拖累的两个生成任务。
- 核心思路:Cognitive Priming Encoder 在冻结状态下处理 \(S_{inp}=[T_i;T_r;T_t]\),只保留更新后的 reason tokens \(\hat{T}_r\)。随后多模态编码器读取 \(S_p=[T_i;\hat{T}_r;T_t]\),Answer Decoder 输出结构化预测,Reason Decoder 输出取证解释。
- 设计动机:共享一个解码器可能造成答案生成与理由生成的梯度冲突。双解码器既能分别优化两类输出,也允许推理模式和快速答案模式切换;Fast Mode 可以跳过理由生成而保持预测不变。
-
三阶段推理驱动训练:
- 功能:让模型从“会说理由”逐步过渡到“理由支撑答案”,再到“主动探索更可靠的理由”。
- 核心思路:第一阶段使用理由语言建模损失 \(\mathcal{L}_{LM_r}\) 训练推理分支;第二阶段加入答案语言建模损失 \(\mathcal{L}_{LM_a}\) 和理由-答案一致性损失 \(\mathcal{L}_{RAC}=\max\{0,\eta-\cos(\mathbf{v}^R,\mathbf{v}^A)\}\),整体目标为 \(\mathcal{L}_{RJF}=\mathcal{L}_{LM_r}+\mathcal{L}_{LM_a}+\mathcal{L}_{RAC}\);第三阶段用 GRPO 和多维奖励约束格式、分类准确性、定位质量与一致性。
- 设计动机:SFT 只模仿标注,容易产生曝光偏差和自洽性不足。GRPO 让模型在候选理由之间比较,奖励能被验证器支持且与最终答案一致的推理链。
损失函数 / 训练策略¶
训练策略的重点不是增加一个简单分类头,而是把推理链纳入优化目标。Reasoning Warm-up 阶段冻结多模态编码器、答案解码器和 Cognitive Priming Encoder,只更新 reason tokens 与 Reason Decoder,使其重建取证理由。Joint Fine-Tuning 阶段同时优化理由和答案,并通过 \(\mathcal{L}_{RAC}\) 防止“理由说 A、答案判 B”的语义断裂。Policy Refinement 阶段使用 GRPO,Consistency Verifier 由 TinyBERT 和两个分类头构成,在预训练理由-标签对上达到超过 99% 分类准确率,用来判断生成理由是否能推出模型自己的伪造类型预测。
实验关键数据¶
主实验¶
| 数据集 / 设置 | 指标 | REFORM | 对比对象 | 结果解读 |
|---|---|---|---|---|
| ROM 跨域设置 | AVG ACC | 88.22 | AMD 85.92 / HAMMER 72.41 / MMD-Agent-34B 57.45 | 在新新闻域上明显优于特征对齐、传统检测和检索式 agent pipeline |
| ROM Guardian 测试域 | ACC / mAP / mIoU | 81.52 / 67.75 / 81.64 | 缓存表格给出 REFORM 具体值 | 说明推理监督在跨域域外测试中仍能维持较高检测和定位质量 |
| MMFakeBench 零样本二分类 | F1 | 74.9 | 多种 7B/13B LVLM baseline | 面对未见过的手工 PS 等类型,小模型仍能靠取证推理获得强零样本泛化 |
| DGM4 | ACC / AVG mAP | 76.65 / 65.72 | fine-tuned LVLMs 的 mAP 低于 47 | 在人脸中心的 DGM4 上也优于更专门的检测器,说明方法不是只服务 ROM |
| 效率 | 参数量 / 吞吐 | 376M / Fast Mode 13.17 pairs/s | FKA-Owl 6.7B,MMD-Agent 34B | 双解码器使解释模式和快速筛查模式可分离,参数量远小于大模型 agent |
消融实验¶
| 配置 | NYT ACC | NYT mAP | NYT mIoU | Guardian ACC | Guardian mAP | Guardian mIoU | 说明 |
|---|---|---|---|---|---|---|---|
| \(\mathcal{L}_{LM_a}\) | 84.88 | 66.16 | 75.98 | 72.18 | 45.86 | 78.72 | 只训练答案,仍是结果导向学习 |
| \(\mathcal{L}_{LM_a}+\mathcal{L}_{LM_r}\) | 87.76 | 73.01 | 77.68 | 74.74 | 53.65 | 79.59 | 加入理由监督后检测和定位同步提升 |
| + \(\mathcal{L}_{RAC}\) | 87.84 | 73.25 | 78.00 | 75.71 | 54.11 | 79.58 | 理由-答案一致性带来进一步增益 |
| + GRPO | 88.22 | 76.08 | 78.48 | 81.52 | 67.75 | 81.64 | 强化学习阶段贡献最大,尤其提升 Guardian mAP |
关键发现¶
- 推理分支不是装饰性解释。单独加入 \(\mathcal{L}_{LM_r}\) 就把 NYT ACC 从 84.88 提到 87.76,把 Guardian mAP 从 45.86 提到 53.65。
- GRPO 对跨域泛化尤其关键。完整模型在 Guardian 上从 SFT+RAC 的 75.71 ACC / 54.11 mAP 提升到 81.52 ACC / 67.75 mAP。
- 理由 token 长度存在甜点。缓存中写明 32 token 达到最优 ACC 88.22,过短会丢失细节,过长则可能增加生成负担。
- 教师质量不是唯一来源。把 InternVL3.5-30B 教师换成 Qwen2.5-VL-3B 后,Guardian 上仅下降 0.84 ACC、1.46 mAP 和 0.33 mIoU。
- 解释模式有成本。Explainable Mode 只有 1.03 pairs/s,而 Fast Mode 有 13.17 pairs/s;好在答案解码器不依赖生成理由,所以快速模式不损失预测精度。
亮点与洞察¶
- 最有价值的设计是把可解释性从“事后展示”变成“训练约束”。很多检测论文也能输出解释,但 REFORM 让理由在训练目标和 RL 奖励中持续发挥作用。
- ROM 的重要性不只是规模大,而是类别边界更接近真实伪造生态。背景替换、整图生成和文本篡改组合能迫使模型关注跨模态逻辑矛盾,而不是只盯人脸纹理。
- 双解码器是一个实用的工程折中。训练时保留解释监督,部署时可以选择 Fast Mode,这让“可解释”和“实时筛查”不再互相排斥。
- TinyBERT verifier 的使用很巧妙。它不直接替代主模型,而是给 GRPO 一个可计算的一致性信号,使理由生成不至于变成不可控的长文本奖励问题。
局限与展望¶
- 作者承认 REFORM 依赖蒸馏理由。虽然人工审计显示理由能召回 83.7% 视觉证据和 82.2% 文本证据,但理由本身没有被显式质量优化,教师幻觉或模板化解释仍可能传导给学生模型。
- 解释模式延迟较高。1.03 pairs/s 适合审计或复核,但不适合所有实时场景;未来可以研究非自回归理由生成、理由缓存或先筛查后解释的两阶段部署。
- ROM 有双重用途风险。论文选择不公开生成 pipeline、详细 prompts 和 prompt-response pairs,这是必要的伦理控制,但也会影响外部复现实验的完整性。
- 目前的取证理由主要是文本链路。未来可以考虑把理由和可视化证据、区域轨迹、反事实编辑结合起来,让解释更接近人类取证流程。
相关工作与启发¶
- vs HAMMER / HAMMER++: HAMMER 系列强调视觉和文本伪造特征对齐,以及多分支 transformer 检测与定位。REFORM 不只对齐特征,而是把取证推理链作为可优化对象,跨域 ACC 和 mAP 更强。
- vs FKA-Owl: FKA-Owl 用 LVLM 和伪造知识增强泛化,但本质仍偏知识增强检测。REFORM 的优势在于即使没有外部检索式 agent,也能通过推理训练内化更稳定的判断逻辑。
- vs AMD: AMD 引入 artifact tokens 和 Manipulation-Oriented Reasoning,是最接近本文的取证推理 baseline。REFORM 更进一步加入理由-答案一致性和 GRPO 策略精炼,实验中 ROM AVG ACC 达到 88.22,高于 AMD 的 85.92。
- vs MMD-Agent: MMD-Agent 用外部知识和多步骤 agent 分解检测任务,参数和推理开销更大。REFORM 用 376M 参数模型达到更强 ROM 跨域表现,提示“训练时学推理”可以替代一部分“测试时搭 agent”。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把多模态伪造检测明确改写为推理驱动优化,并用数据、结构、损失和 RL 奖励完整闭环。
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 ROM、MMFakeBench、DGM4、组件消融、效率、教师鲁棒性和理由可信度审计。
- 写作质量: ⭐⭐⭐⭐☆ 主线清楚,表格很全,但公式和表格抽取文本较密,部分附录细节读起来负担较重。
- 价值: ⭐⭐⭐⭐⭐ 对 AIGC 取证、可解释检测和小模型泛化都有直接启发,尤其适合后续做可验证推理监督。