跳转至

FakeXplain: AI-Generated Image Detection via Human-Aligned Grounded Reasoning

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=UcpTOa8OnG
代码: https://github.com/Gennadiyev/FakeXplain
领域: AIGC 检测 / 多模态可解释推理
关键词: AI生成图像检测, 视觉接地推理, MLLM, GRPO, 人类对齐标注, 伪影定位

一句话总结

通过构建带人工标注边界框与描述的 FakeXplained 数据集,并用 SFT + 渐进式 GRPO 微调 MLLM,让模型在检测 AI 生成图像的同时,给出"哪里假、为什么假"的空间接地、人类对齐的解释,做到 98.2% 检测准确率与 36.0% IoU。

研究背景与动机

  • 领域现状:AI 生成图像(GAN→Diffusion→DiT)已逼近真实照片,催生大量检测需求。主流方法把检测当作二分类,用 CNN / ViT 抽取判别特征。
  • 现有痛点:传统分类器是黑箱,只给"真/假"标签,既不说明依据,又对分布外(OoD)生成器泛化差;而 MLLM 虽有推理能力却容易幻觉——给出无空间接地的笼统理由,或编造不存在的伪影。
  • 核心矛盾:可解释性要求模型回答"where & why",但缺少区域级人工标注的高质量数据集——现有数据集(FakeBench、LOKI、So-Fake-Set 等)要么由 GPT-4V/4o 自动标注(弱接地、易幻觉),要么纯文本无区域定位,要么依赖外挂分割模块(SAM)而没用上 MLLM 自身的接地能力。
  • 本文目标:构建可信、可解释、可泛化的检测系统,既判真假,又空间定位伪影区域并给出人类对齐的自然语言解释。
  • 核心 idea数据驱动的人类对齐接地推理 —— 先用 23 名训练过的标注员为 8772 张 AI 生成图打上「边界框 + 描述 + 标签」的细粒度标注(FakeXplained 数据集),再用渐进式强化学习(SFT 冷启动 + pGRPO)把 MLLM 内在的接地能力对齐到人类标注,让解释由人工监督验证而非模型自由发挥。

方法详解

整体框架

方法分两大件:FakeXplained 数据集(图 2a)提供人类对齐的 (边界框, 描述, 标签) 监督信号;FakeXplainer 训练管线(图 2b)以 Qwen2.5-VL-Instruct 为底座,先 SFT 冷启动稳定结构化输出,再用渐进式 GRPO 以三种奖励(分类正确性、IoU 接地、格式合法性)对齐人类标注。推理时模型把推理写进 <think>、把图像级标签写进 <tag>、把最终判定写进 <verdict> 标记,输出结构化、可解析、带坐标的解释。

flowchart LR
    A[28个生成模型<br/>ImageNet/COCO提示] --> B[人工质检<br/>8772张高质量假图]
    B --> C[23名标注员<br/>边界框R+描述T+标签C]
    C --> D[FakeXplained数据集]
    D --> E[SFT冷启动<br/>结构化CoT格式]
    E --> F[渐进式GRPO<br/>R=ωG·RG+ωC·RC+ωF·RF]
    F --> G[FakeXplainer<br/>think/tag/verdict输出]

关键设计

1. FakeXplained 数据集:把"假在哪"变成可监督信号。 作者用 28 个跨架构(Diffusion / GAN / DiT / 自回归)的文生图模型,基于 1000 个 ImageNet 类别与 MS COCO 描述生成图像,人工筛掉无法识别的低质图后保留 8772 张。23 名经标准化培训的标注员对每张假图标出所有"看起来假"的区域——每个区域是一个元组 \((R_i, T_i)\)\(R_i\) 是矩形边界框、\(T_i\) 是异常描述(如"火烈鸟有三条腿""毛发呈金属质感"),平均每图 5.42 个 \((R_i, T_i)\) 对;同时打互相独立的图像级标签 \(C_i\)(纹理质量、属性正确性、可识别性等)。质量控制采用宽松的 IoU≥20% 与标签准确率≥1/3 阈值(在 5% 验证子集上对账参考标注),既保证标注保真度又容纳人类对边界的主观差异。真图不标注(因为没有合成缺陷)。

2. SFT 冷启动:先学会"怎么说"再学"说得准"。 直接上纯 RL 容易训练不稳,作者借鉴 DeepSeek-Math 先做 SFT。这一阶段微调 MLLM 视觉编码器、投影层、语言模型的全部线性层,重点教模型稳定产出带 <think> / <tag> / <verdict> 三段标记的结构化 Chain-of-Thought,让区域、标签、判定各归其位、可被正则解析。这一步本身对检测指标提升有限(32B 上 73.4%→89.3%),但为后续 RL 提供了格式稳定、不易崩的基座。

3. 三元奖励 + 渐进式 IoU 加权的 pGRPO:用课程学习避免"碎框刷分"。 RLHF 阶段用 GRPO,总奖励为三项加权和: $\(R = \omega_G(t)\,R_G + \omega_C R_C + \omega_F R_F\)$ 其中分类奖励 \(R_C\) 比对 <verdict> 里的判定与真值(对为 1);接地奖励用松弛 IoU \(R_G = \min(1,\ \eta\cdot \mathrm{IoU}(R(o), R_y))\)\(\eta=1.1\),容忍标注员对边界的轻微分歧);格式奖励 \(R_F\) 要求 think/tag/verdict 及框、描述都能被正则解析。关键巧思在于接地权重随训练线性递增: $\(\omega_G(t) = 0.5 + 0.5\cdot (t/T)\)$ 而 \(\omega_C=\omega_F=1.0\) 恒定。早期压低定位权重,避免模型为刷 IoU 输出大量"碎片化小框"(高分但无意义);这天然形成课程学习——先学好格式与分类,待技能稳定后再逐步加重定位,连续插值还能避免奖励尖峰、稳住训练。消融证实它优于固定权重方案(含定位优先的 \(\omega_G=1\))。

实验关键数据

底座 Qwen2.5-VL-Instruct,SFT/GRPO 各 3 epoch,\(\eta=1.1\),GRPO 采样数 \(G=4\),四折交叉验证。

主实验(检测准确率 + 定位 IoU)

类别 FakeXplainer Acc FakeXplainer IoU ObjectFormer Acc/IoU SegFormer Acc/IoU FakeVLM Acc
Diffusion 0.983 0.356 0.954 / 0.287 0.945 / 0.290 0.919
GAN 0.955 0.337 0.950 / 0.280 0.941 / 0.279 0.827
DiT 0.983 0.354 0.954 / 0.293 0.945 / 0.289 0.889
Others 0.978 0.348 0.953 / 0.369 0.944 / 0.287 0.870
Overall 0.982 0.360 0.954 / 0.299 0.945 / 0.289 0.828

检测准确率 98.2%、定位 IoU 36.0%,全面超越所有分割基线与分类基线。

不同底座 MLLM + 推理质量(Table 2,下划线为微调后)

指标 InternVL3-8B MiMo-VL-7B-RL Qwen2.5-VL-32B FakeShield LEGION
Acc. 0.584→0.928 0.515→0.920 0.734→0.982 0.801 0.583
IoU. 0.039→0.134 0.044→0.360 0.028 0.098
BLEU-2 0.061→0.232 0.083→0.249 0.080→0.267 0.004 0.072
ROUGE-L 0.059→0.225 0.076→0.239 0.076→0.251 0.003 0.055

管线对有/无原生接地能力的多种架构都有一致增益,证明模型无关性

OoD 泛化(Table 3,Acc)

数据集 FakeXplainer NPR DIRE FakeShield LEGION
FakeClue 0.852 0.833 0.727 0.550 0.172
Chameleon 0.843 0.794 0.752 0.587 0.197
GPT-Image-1 0.801 0.790 0.793 0.752 0.238
FaceForensics++ 0.864 0.861 0.850 0.773 0.395
MMFR-Dataset 0.874 0.569 0.624 0.710 0.193

五个 OoD 数据集上全面领先,验证接地推理带来的强泛化。

消融实验(Table 4)

配置 Acc IoU BLEU-2
3B / 7B / 32B 0.842 / 0.958 / 0.982 0.185 / 0.255 / 0.360 0.195 / 0.246 / 0.267
No-FT (32B) 0.734 0.044 0.080
SFT only 0.893 0.043 0.183
GRPO ωG=1 (固定) 0.937 0.265 0.257
GRPO ωG=0.5 (固定) 0.974 0.223 0.261
no-bbox / no-caption / no-tags 0.952 / 0.942 / 0.962 — / 0.265 / 0.358 0.164 / — / 0.243
label-only 0.937

关键发现

  • 模型尺寸:3B 连传统方法都打不过且无法定位;7B 已达 95.8% Acc,是性能/速度的平衡点;32B 最佳。
  • 两阶段缺一不可:No-FT 73.4% → SFT 89.3% → +GRPO 98.2%。
  • caption 对定位最关键:去掉描述使 IoU 掉 9.5%;去框/去描述各掉约 3.5% Acc;标签影响最小。
  • 渐进权重 > 固定权重:固定 \(\omega_G=1\) 虽定位优先反而 IoU 更低(后期训不动),证明渐进奖励整形的必要性。
  • 接近人类水平:1525 张非中性投票中,人类标注仅 52.9% 场合被偏好(近平手);与 LEGION/FakeShield 相比,FakeXplainer 被偏好率高达 99.75%。

亮点与洞察

  • 把"可解释"落到可监督:用真人区域级标注做监督,从根上压制 MLLM 的幻觉,让解释由人工验证而非模型自圆其说——这是与依赖 GPT 自动标注的数据集的本质区别。
  • 渐进式 IoU 加权是点睛之笔:发现"等权从头训会刷碎框"这一具体失败模式,并用线性课程优雅化解,是很接地气的工程洞见。
  • 不外挂分割模块:直接激活 MLLM 自身的接地能力输出坐标,比 FakeShield/LEGION 依赖 SAM 的方案更简洁、端到端。
  • 结构化标记输出(think/tag/verdict)让解释天然可解析、可评测,兼顾可读性与可验证性。

局限与展望

  • 依赖"人类可感知伪影":作者自己承认,对于完全逼真、没有可语义描述缺陷的合成图,这类方法从原理上失效——这是所有可解释 AIGI 检测器的共性局限,属于另一类检测问题。
  • 标注成本高:23 名标注员、人均培训、平均每图 5.42 框,规模化到更大数据集成本不低。
  • 底座/算力门槛:最佳结果来自 32B + 16×A100 的 GRPO,落地推理成本需权衡(论文给出 7B 折中方案)。
  • 生成器演进的军备竞赛:虽 OoD 泛化好,但面对未来缺陷更少的生成模型,接地伪影线索仍可能逐步失效。

相关工作与启发

  • AIGI 检测:从 CNN/ViT 二分类(Wang 2020, Ojha 2023)到细粒度/局部化检测(多分支、局部内在维度、Grad-CAM),本文补上"区域级人工接地 + 自然语言解释"的空白。
  • 可解释检测数据集:FakeBench(GPT-4V 初标 + 人工精修、纯文本)、LOKI、So-Fake-Set 等,本文 FakeXplained 以全人工区域标注 + 公开发布区别于它们。
  • 可解释检测方法:AIGI-Holmes(NPR+MLLM)、FakeShield、LEGION(依赖 SAM 外挂分割),本文用 MLLM 内在接地能力替代外挂模块。
  • RL 微调推理型 MLLM:借鉴 DeepSeek-Math 的 SFT→GRPO 范式,并把 IoU 作为结构化奖励引入视觉接地任务,呼应"结构化奖励显著改善多模态对齐"的趋势。
  • 启发:在任何"需要可信解释"的视觉判别任务(医学影像、缺陷检测、内容审核),都可借鉴"人工区域标注 + 渐进式接地奖励"的范式,把模型解释钉死在人类可验证的证据上。

评分

  • 新颖性: ⭐⭐⭐⭐ —— 首个把全人工区域级标注、MLLM 内在接地、渐进式 IoU 奖励三者拼成端到端可解释检测管线;单项技术(GRPO、IoU 奖励)非首创,但组合与"碎框"失败模式的渐进式解法有清晰洞见。
  • 实验充分度: ⭐⭐⭐⭐⭐ —— 28 生成器主实验 + 5 个 OoD 数据集 + 多底座泛化 + 完整消融(尺寸/阶段/数据组件/奖励权重)+ 1525 票人类偏好研究,覆盖全面、对照充分。
  • 写作质量: ⭐⭐⭐⭐ —— 动机—痛点—方法逻辑清晰,图 2/3/4/5 信息量大;标记格式与奖励定义交代明确,仅大量表格密度偏高。
  • 价值: ⭐⭐⭐⭐ —— 数据集 + 代码开源,对可信媒体认证、内容审核有直接落地价值;"接地推理优于黑箱分类"的结论对方向选择有指导意义。