FakeXplain: AI-Generated Image Detection via Human-Aligned Grounded Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=UcpTOa8OnG
代码: https://github.com/Gennadiyev/FakeXplain
领域: AIGC 检测 / 多模态可解释推理
关键词: AI生成图像检测, 视觉接地推理, MLLM, GRPO, 人类对齐标注, 伪影定位

一句话总结¶

通过构建带人工标注边界框与描述的 FakeXplained 数据集，并用 SFT + 渐进式 GRPO 微调 MLLM，让模型在检测 AI 生成图像的同时，给出"哪里假、为什么假"的空间接地、人类对齐的解释，做到 98.2% 检测准确率与 36.0% IoU。

研究背景与动机¶

领域现状：AI 生成图像（GAN→Diffusion→DiT）已逼近真实照片，催生大量检测需求。主流方法把检测当作二分类，用 CNN / ViT 抽取判别特征。
现有痛点：传统分类器是黑箱，只给"真/假"标签，既不说明依据，又对分布外（OoD）生成器泛化差；而 MLLM 虽有推理能力却容易幻觉——给出无空间接地的笼统理由，或编造不存在的伪影。
核心矛盾：可解释性要求模型回答"where & why"，但缺少区域级人工标注的高质量数据集——现有数据集（FakeBench、LOKI、So-Fake-Set 等）要么由 GPT-4V/4o 自动标注（弱接地、易幻觉），要么纯文本无区域定位，要么依赖外挂分割模块（SAM）而没用上 MLLM 自身的接地能力。
本文目标：构建可信、可解释、可泛化的检测系统，既判真假，又空间定位伪影区域并给出人类对齐的自然语言解释。
核心 idea：数据驱动的人类对齐接地推理 —— 先用 23 名训练过的标注员为 8772 张 AI 生成图打上「边界框 + 描述 + 标签」的细粒度标注（FakeXplained 数据集），再用渐进式强化学习（SFT 冷启动 + pGRPO）把 MLLM 内在的接地能力对齐到人类标注，让解释由人工监督验证而非模型自由发挥。

方法详解¶

整体框架¶

方法分两大件：FakeXplained 数据集（图 2a）提供人类对齐的 (边界框, 描述, 标签) 监督信号；FakeXplainer 训练管线（图 2b）以 Qwen2.5-VL-Instruct 为底座，先 SFT 冷启动稳定结构化输出，再用渐进式 GRPO 以三种奖励（分类正确性、IoU 接地、格式合法性）对齐人类标注。推理时模型把推理写进 <think>、把图像级标签写进 <tag>、把最终判定写进 <verdict> 标记，输出结构化、可解析、带坐标的解释。

flowchart LR
    A[28个生成模型<br/>ImageNet/COCO提示] --> B[人工质检<br/>8772张高质量假图]
    B --> C[23名标注员<br/>边界框R+描述T+标签C]
    C --> D[FakeXplained数据集]
    D --> E[SFT冷启动<br/>结构化CoT格式]
    E --> F[渐进式GRPO<br/>R=ωG·RG+ωC·RC+ωF·RF]
    F --> G[FakeXplainer<br/>think/tag/verdict输出]

关键设计¶

1. FakeXplained 数据集：把"假在哪"变成可监督信号。 作者用 28 个跨架构（Diffusion / GAN / DiT / 自回归）的文生图模型，基于 1000 个 ImageNet 类别与 MS COCO 描述生成图像，人工筛掉无法识别的低质图后保留 8772 张。23 名经标准化培训的标注员对每张假图标出所有"看起来假"的区域——每个区域是一个元组 $(R_i, T_i)$，$R_i$ 是矩形边界框、$T_i$ 是异常描述（如"火烈鸟有三条腿""毛发呈金属质感"），平均每图 5.42 个 $(R_i, T_i)$ 对；同时打互相独立的图像级标签 $C_i$（纹理质量、属性正确性、可识别性等）。质量控制采用宽松的 IoU≥20% 与标签准确率≥1/3 阈值（在 5% 验证子集上对账参考标注），既保证标注保真度又容纳人类对边界的主观差异。真图不标注（因为没有合成缺陷）。

2. SFT 冷启动：先学会"怎么说"再学"说得准"。 直接上纯 RL 容易训练不稳，作者借鉴 DeepSeek-Math 先做 SFT。这一阶段微调 MLLM 视觉编码器、投影层、语言模型的全部线性层，重点教模型稳定产出带 <think> / <tag> / <verdict> 三段标记的结构化 Chain-of-Thought，让区域、标签、判定各归其位、可被正则解析。这一步本身对检测指标提升有限（32B 上 73.4%→89.3%），但为后续 RL 提供了格式稳定、不易崩的基座。

3. 三元奖励 + 渐进式 IoU 加权的 pGRPO：用课程学习避免"碎框刷分"。 RLHF 阶段用 GRPO，总奖励为三项加权和： $$R = \omega_G(t)\,R_G + \omega_C R_C + \omega_F R_F$$ 其中分类奖励 $R_C$ 比对 <verdict> 里的判定与真值（对为 1）；接地奖励用松弛 IoU $R_G = \min(1,\ \eta\cdot \mathrm{IoU}(R(o), R_y))$（$\eta=1.1$，容忍标注员对边界的轻微分歧）；格式奖励 $R_F$ 要求 think/tag/verdict 及框、描述都能被正则解析。关键巧思在于接地权重随训练线性递增： $$\omega_G(t) = 0.5 + 0.5\cdot (t/T)$$ 而 $\omega_C=\omega_F=1.0$ 恒定。早期压低定位权重，避免模型为刷 IoU 输出大量"碎片化小框"（高分但无意义）；这天然形成课程学习——先学好格式与分类，待技能稳定后再逐步加重定位，连续插值还能避免奖励尖峰、稳住训练。消融证实它优于固定权重方案（含定位优先的 $\omega_G=1$）。

实验关键数据¶

底座 Qwen2.5-VL-Instruct，SFT/GRPO 各 3 epoch，$\eta=1.1$，GRPO 采样数 $G=4$，四折交叉验证。

主实验（检测准确率 + 定位 IoU）¶

类别	FakeXplainer Acc	FakeXplainer IoU	ObjectFormer Acc/IoU	SegFormer Acc/IoU	FakeVLM Acc
Diffusion	0.983	0.356	0.954 / 0.287	0.945 / 0.290	0.919
GAN	0.955	0.337	0.950 / 0.280	0.941 / 0.279	0.827
DiT	0.983	0.354	0.954 / 0.293	0.945 / 0.289	0.889
Others	0.978	0.348	0.953 / 0.369	0.944 / 0.287	0.870
Overall	0.982	0.360	0.954 / 0.299	0.945 / 0.289	0.828

检测准确率 98.2%、定位 IoU 36.0%，全面超越所有分割基线与分类基线。

不同底座 MLLM + 推理质量（Table 2，下划线为微调后）¶

指标	InternVL3-8B	MiMo-VL-7B-RL	Qwen2.5-VL-32B	FakeShield	LEGION
Acc.	0.584→0.928	0.515→0.920	0.734→0.982	0.801	0.583
IoU.	0.039→0.134	—	0.044→0.360	0.028	0.098
BLEU-2	0.061→0.232	0.083→0.249	0.080→0.267	0.004	0.072
ROUGE-L	0.059→0.225	0.076→0.239	0.076→0.251	0.003	0.055

管线对有/无原生接地能力的多种架构都有一致增益，证明模型无关性。

OoD 泛化（Table 3，Acc）¶

数据集	FakeXplainer	NPR	DIRE	FakeShield	LEGION
FakeClue	0.852	0.833	0.727	0.550	0.172
Chameleon	0.843	0.794	0.752	0.587	0.197
GPT-Image-1	0.801	0.790	0.793	0.752	0.238
FaceForensics++	0.864	0.861	0.850	0.773	0.395
MMFR-Dataset	0.874	0.569	0.624	0.710	0.193

五个 OoD 数据集上全面领先，验证接地推理带来的强泛化。

消融实验（Table 4）¶

配置	Acc	IoU	BLEU-2
3B / 7B / 32B	0.842 / 0.958 / 0.982	0.185 / 0.255 / 0.360	0.195 / 0.246 / 0.267
No-FT (32B)	0.734	0.044	0.080
SFT only	0.893	0.043	0.183
GRPO ωG=1 (固定)	0.937	0.265	0.257
GRPO ωG=0.5 (固定)	0.974	0.223	0.261
no-bbox / no-caption / no-tags	0.952 / 0.942 / 0.962	— / 0.265 / 0.358	0.164 / — / 0.243
label-only	0.937	—	—

关键发现¶

模型尺寸：3B 连传统方法都打不过且无法定位；7B 已达 95.8% Acc，是性能/速度的平衡点；32B 最佳。
两阶段缺一不可：No-FT 73.4% → SFT 89.3% → +GRPO 98.2%。
caption 对定位最关键：去掉描述使 IoU 掉 9.5%；去框/去描述各掉约 3.5% Acc；标签影响最小。
渐进权重 > 固定权重：固定 $\omega_G=1$ 虽定位优先反而 IoU 更低（后期训不动），证明渐进奖励整形的必要性。
接近人类水平：1525 张非中性投票中，人类标注仅 52.9% 场合被偏好（近平手）；与 LEGION/FakeShield 相比，FakeXplainer 被偏好率高达 99.75%。

亮点与洞察¶

把"可解释"落到可监督：用真人区域级标注做监督，从根上压制 MLLM 的幻觉，让解释由人工验证而非模型自圆其说——这是与依赖 GPT 自动标注的数据集的本质区别。
渐进式 IoU 加权是点睛之笔：发现"等权从头训会刷碎框"这一具体失败模式，并用线性课程优雅化解，是很接地气的工程洞见。
不外挂分割模块：直接激活 MLLM 自身的接地能力输出坐标，比 FakeShield/LEGION 依赖 SAM 的方案更简洁、端到端。
结构化标记输出（think/tag/verdict）让解释天然可解析、可评测，兼顾可读性与可验证性。

局限与展望¶

依赖"人类可感知伪影"：作者自己承认，对于完全逼真、没有可语义描述缺陷的合成图，这类方法从原理上失效——这是所有可解释 AIGI 检测器的共性局限，属于另一类检测问题。
标注成本高：23 名标注员、人均培训、平均每图 5.42 框，规模化到更大数据集成本不低。
底座/算力门槛：最佳结果来自 32B + 16×A100 的 GRPO，落地推理成本需权衡（论文给出 7B 折中方案）。
生成器演进的军备竞赛：虽 OoD 泛化好，但面对未来缺陷更少的生成模型，接地伪影线索仍可能逐步失效。

评分¶

新颖性: ⭐⭐⭐⭐ —— 首个把全人工区域级标注、MLLM 内在接地、渐进式 IoU 奖励三者拼成端到端可解释检测管线；单项技术（GRPO、IoU 奖励）非首创，但组合与"碎框"失败模式的渐进式解法有清晰洞见。
实验充分度: ⭐⭐⭐⭐⭐ —— 28 生成器主实验 + 5 个 OoD 数据集 + 多底座泛化 + 完整消融（尺寸/阶段/数据组件/奖励权重）+ 1525 票人类偏好研究，覆盖全面、对照充分。
写作质量: ⭐⭐⭐⭐ —— 动机—痛点—方法逻辑清晰，图 2/3/4/5 信息量大；标记格式与奖励定义交代明确，仅大量表格密度偏高。
价值: ⭐⭐⭐⭐ —— 数据集 + 代码开源，对可信媒体认证、内容审核有直接落地价值；"接地推理优于黑箱分类"的结论对方向选择有指导意义。