Locate-Then-Examine: Grounded Region Reasoning Improves Detection of AI-Generated Images¶
会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: AIGC检测 / 多模态VLM
关键词: AI生成图像检测、区域定位、VLM取证推理、GRPO强化学习、可解释取证
一句话总结¶
LTE 让视觉语言模型先"全局扫描定位可疑区域"再"放大裁剪复核给出最终判定",把一次性分类升级为两阶段的区域接地(region-grounded)推理,并配套构建带框级标注与取证解释的 TRACE 数据集,在准确率、鲁棒性和可解释性上同时获得提升。
研究背景与动机¶
领域现状:AI 生成图像检测主流是分类式做法(CNNSpot、DIRE、NPR 等),在精选数据集上准确率很高。近年涌现的视觉语言模型(VLM)把检测重构成视觉问答或图像描述任务,能给出自然语言解释,提供语义级分析。
现有痛点:纯分类器决策过程不透明、跨生成器泛化差——在 A 架构生成图上训练的模型,遇到没见过的生成器就掉点。而 VLM 路线为了冲高准确率,往往外挂分割头或分类头(如 FakeShield 接 SAM、LEGION 在视觉编码器后接 MLP),反而把 VLM 退化成被动的特征提取器,浪费了它本身的常识推理能力。
核心矛盾:更根本的问题在于这些方法都只做"一次全局扫描"——视觉编码器把整张图压成有限的 token,注意力摊在全图上,那些决定性的细微取证线索(微小文字瑕疵、拼接缝、周期性纹理、高光边缘)在下采样和池化中被削弱。没有"回看局部、放大验证"的机制,高质量合成图上的判断就很不稳定,模型容易凭先验臆断而非像素证据下结论。
本文目标:给 VLM 装上"定位可疑区域 → 放大复核 → 修正判定"的能力,让每个决策都锚定到具体的局部视觉证据上。
切入角度:作者类比人类取证专家——先扫一眼全图提出假设,再拿"放大镜"盯着最可疑的几处细看。最具信息量的取证线索通常集中在小区域里,无论 VLM 还是人都需要聚焦、高分辨率的检视才能发现。
核心 idea:用"先定位再检视"(Locate-Then-Examine)的两次查询,把全局语义推理和局部高分辨率检视结合起来,让模型在全局不确定时主动回看最可能藏有决定性线索的区域。
方法详解¶
整体框架¶
LTE 是一个基于 VLM 的两阶段取证框架。输入一张待检图像 \(I\),输出"真/AI 生成"的最终判定 \(v_2\) 加上区域接地的解释 \(E_2\)。两阶段分别由对同一个 VLM 的两次查询实现:Query 1(全局扫描定位) 让模型通读全图,产出初步解释 \(E_1\)、一组可疑边界框 \(B=\{b_1,\dots,b_n\}\) 和初步判定 \(v_1\);Query 2(局部证据复核) 把每个可疑框裁剪出来 \(C_i=\mathrm{Crop}(I,b_i)\),连同原图一起喂回 VLM,让它对比全局上下文与局部细节,输出修正后的解释 \(E_2\) 和最终判定 \(v_2\)。
为了让 VLM 学会这种行为,作者构建了 TRACE 数据集(带框级标注 + 取证解释的 20,000 张图),并用"SFT 打底 + 两段 GRPO 强化"的两阶段训练把 Qwen-2.5-VL 调成 LTE 专家。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入图像 I"] --> B["全局扫描定位<br/>VLM 出初步解释 E1<br/>+ 可疑框 B + 初判 v1"]
B --> C["局部证据复核<br/>裁剪 Ci 连同原图回看<br/>对比全局↔局部"]
C --> D["TRACE 数据集监督<br/>(I,y,E,B) 框级标注+解释"]
D --> E["两阶段训练<br/>SFT 打底 + 双段 GRPO"]
C --> F["最终判定 v2 + 区域接地解释 E2"]
关键设计¶
1. 两阶段"定位—检视"取证推理:把一次性分类拆成两次查询
这是全文核心,直接针对"单次全局扫描削弱细微线索"的痛点。Query 1 用具备 grounding 能力的 VLM 全局分析,按固定顺序输出三样东西:初步解释 \(E_1\)、可疑框集合 \(B=\{b_1,\dots,b_n\}\)(每个 \(b_i=(x_1,y_1,x_2,y_2)\))、初步判定 \(v_1\in\{\text{real},\text{generated}\}\)。可疑区域聚焦两类目标:(i) 生成模型本身就难处理的区域,如人脸、手、动物的爪/姿态;(ii) 图像特有、难以复现的细节,如裁判球衣上的 logo、小字。Query 2 对每个 \(b_i\) 裁剪得到 \(C_i\),再把原图 \(I\) 与裁剪集合 \(\{C_i\}_{i=1}^n\) 一起输入,形成"双输入"对比机制,产出锚定具体证据的修正解释 \(E_2\) 和最终判定 \(v_2\)。裁剪 token 注入了细粒度视觉信息,就像取证专家用放大镜,让模型能在放大复核中纠正先前误判。实验证实 LTE 机制相比单轮变体额外带来 7B +3.6%、32B +5.8% 的准确率增益。
2. TRACE 数据集与跨 VLM 自动标注流水线:用两个专家模型互相把关
两阶段流水线需要真假图都有定位信息作监督,但 VLM 天生不会"先定位再检视"。作者设计 \((I,y,E,B)\) 元组的标注流水线:第一步 解释生成 用 GPT-4o 对已知标签的图产出聚焦具体视觉证据的取证解释;第二步 空间接地 用 Qwen-2.5-VL 从解释里抽取边界框,凑成 \((I,y,E,B)\)。裁剪 \(C\) 则由 \((I,B)\) 确定性导出。关键在于 数据净化(Data Purification):Qwen-2.5-VL 有时会给出覆盖 >50% 画面的大框(对应全局缺陷而非局部瑕疵),或退化成目标检测把整个主体框住。净化分两层——其一做"解释—区域一致性检查":GPT-4o 对每图生成两份独立解释算语义相似度,分歧大的丢弃;Qwen-2.5-VL 也对每图接地两次,框只在两次 IoU 重叠超过阈值时保留;解释提到某线索却没有任何框覆盖的样本剔除。这种跨 VLM 交叉验证削弱了单模型偏差。其二删掉面积超 50% 或框住整个主体的框。最终 TRACE 含 10,000 真 + 10,000 AI 图,99.5% 至少有一个框、平均每图 3.24 个框;真图等量取自 ImageNet/COCO,假图等量来自 GPT-Image-1 与 Gemini 2.5 Flash Image。
3. SFT + 双段 GRPO 的分阶段奖励设计:把"会定位"和"会判定"分开奖励
训练借鉴 DeepSeek-Math 的两阶段范式。SFT 阶段 全参数(视觉编码器、投影层、语言模块)微调,确立基础能力并教模型输出符合规定的结构化格式。强化学习阶段 用 GRPO(Group Relative Policy Optimization)分两段、对两次查询分别设计奖励。Query 1(生成假设)重格式合规与定位精度:格式奖励 \(R_F=1\) 当输出含合法 <verdict> 标签;定位奖励用 IoU,\(R_{IoU}=\frac{1}{|B|}\sum_i \max_j \mathrm{IoU}(b_i,\hat b_j)\),奖励空间对齐精准的框。Query 2(精炼假设)重判定正确与解释质量:分类奖励 \(R_C=\mathbb{1}[v_2=y]\);解释质量用 BLEU-2,\(R_{BLEU}=\mathrm{BLEU2}(E',E_{ref})\),鼓励生成贴合语境的解释。把奖励按两次查询拆开,是为了让"先把可疑区域找准"和"再把判定与解释做对"各司其职——消融显示去掉 BLEU 奖励后解释质量指标明显下滑,且把"Query 1 里判定正确就给奖励"会拖累最终判定(见消融表 Dual Verdict Reward 的 C-Acc 仅 0.473)。
实验关键数据¶
设置:基座为 Qwen-2.5-VL 的 7B 与 32B Instruct 变体,8×A100 训练;SFT 学习率 \(2\times10^{-5}\),GRPO 学习率 \(10^{-5}\)、组大小 \(G=4\),DeepSpeed ZeRO-3。自定义指标:Acc. 最终判定准确率;I-Acc. 初判(Query 1)准确率;C-Acc. 修正判定准确率(⚠️ 框级/修正环节准确率,以原文为准);C-Cases(%) 经复核后判定被改写的样本比例。
主实验¶
TRACE 测试集上 LTE 全面超越各类基线,32B 准确率 0.972、7B 也有 0.942;相比未训练的原始 VLM 基线提升超 30%。
| 方法 | Acc. ↑ | BLEU-2 ↑ | ROUGE-L ↑ | IoU ↑ | 说明 |
|---|---|---|---|---|---|
| LTE-32B | 0.972 | 0.211 | 0.327 | 0.359 | 完整两阶段 |
| LTE-7B | 0.942 | 0.209 | 0.291 | 0.316 | 小模型也强 |
| E+G-32B(单轮) | 0.914 | 0.149 | 0.295 | 0.254 | 有定位无复核 |
| E-32B(单轮,仅解释) | 0.869 | 0.153 | 0.315 | — | 无定位 |
| Base-32B(未训练) | 0.587 | 0.043 | 0.079 | — | 原始 VLM |
| FakeShield | 0.801 | 0.056 | 0.067 | 0.096 | 外挂 SAM |
| LEGION | 0.654 | 0.058 | 0.054 | 0.061 | 编码器+MLP |
跨域(OoD)泛化上,LTE 在 MMFR / SynthScars / FakeClue 三个外部基准上稳定领先(SynthScars 上 LEGION 因在其上训练故不算 OoD):
| 数据集 | LTE-32B Acc. | LTE-7B Acc. | FakeShield Acc. | LEGION Acc. |
|---|---|---|---|---|
| MMFR | 0.893 | 0.892 | 0.710 | 0.193 |
| SynthScars | 0.852 | 0.826 | 0.765 | 0.861* |
| FakeClue | 0.903 | 0.871 | 0.733 | 0.254 |
(*LEGION 在 SynthScars 上训练,非 OoD,不公平对比。)
消融实验¶
| 配置 | Acc. | C-Acc. | IoU | 说明 |
|---|---|---|---|---|
| LTE-32B(Full) | 0.972 | 0.956 | 0.359 | 完整模型 |
| SFT-32B(无 GRPO) | 0.715 | 0.584 | 0.105 | 去掉强化学习,崩盘 |
| No BLEU Reward-32B | 0.929 | 0.871 | 0.296 | 去掉解释奖励,解释质量与精度双降 |
| Dual Verdict Reward-32B | 0.944 | 0.473 | 0.260 | Query 1 也奖励判定 → 修正准确率塌陷 |
| Random Cropping-32B | 0.842 | 0.421 | — | 随机裁剪替代定位,C-Cases 飙到 19.6% |
| Largest 3 Bboxes-32B | 0.924 | 0.919 | — | 只取最大 3 框,逊于自适应定位 |
关键发现¶
- 去 GRPO 是最致命的:只做 SFT 的 32B 准确率从 0.972 暴跌到 0.715,说明强化学习阶段的分段奖励才是把"定位—检视"行为真正训出来的关键。
- 随机裁剪验证了"定位"的必要性:把可疑框换成随机裁剪后,被复核改写的样本比例(C-Cases)从 ~10% 飙到 19.6%、准确率掉到 0.842,证明 Query 1 的定位质量直接决定 Query 2 复核能否纠错。
- 框数与模型容量相关:训练后 LTE-32B 平均每图出 3.58 个框、7B 只出 1.95 个,大模型倾向更细粒度的多区域检视。论文还指出误分类率(misclassification)相比单轮分别下降 7B 38.2%、32B 67.4%。
亮点与洞察¶
- 把"用图思考"落到取证场景:不是再加一个分割/分类头,而是让 VLM 通过两次查询、裁剪回看,主动复核自己的假设——这套"reason and think with images"的范式可迁移到任何需要细粒度证据的视觉判别任务。
- 跨 VLM 互检的数据净化很实用:用 GPT-4o 出解释、Qwen 出框,再用"双次一致性 + IoU 重叠 + 解释—框覆盖"三道关卡过滤,是一套低成本造高质量接地标注的可复用配方。
- 奖励分段是关键 trick:把定位精度(IoU)放在 Query 1、判定+解释质量(分类 + BLEU)放在 Query 2,避免让一个奖励同时背两个目标——消融里 Dual Verdict Reward 让 C-Acc 塌到 0.473,反证了这一点。
局限与展望¶
- 框架依赖基座 VLM 的 grounding 能力,可疑框由模型自己产出,Query 1 定位失败会直接拖累 Query 2 复核(随机裁剪消融已显示这一脆弱性)。
- TRACE 的真假图来源较集中(真图 ImageNet/COCO,假图 GPT-Image-1 / Gemini),面对全新生成器或对抗后处理时的鲁棒性仍需更多验证。
- 两阶段两次查询 + 多框裁剪带来额外推理开销;解释质量用 BLEU 作奖励,可能偏向贴近参考文本的表述而非"最正确"的解释,是奖励设计的潜在偏差。
相关工作与启发¶
- vs FakeShield / LEGION:它们靠外挂模块(SAM 分割掩码 / 编码器后接 MLP)做定位,把 VLM 当被动特征提取器;LTE 用 VLM 自身的 grounding + 迭代复核做空间接地,TRACE 上准确率 0.972 vs FakeShield 0.801 / LEGION 0.654,且解释质量(BLEU/ROUGE)大幅领先。
- vs 单轮 VLM 检测(VQA / captioning 改写):单轮方法只做一次全局扫描,细微线索被下采样削弱;LTE 的两阶段复核在同一基座上额外加 3.6%~5.8% 准确率,验证"渐进式视觉推理"的价值。
- vs DeepSeek-Math(方法论来源):借用其 SFT + GRPO 两阶段范式,但把奖励扩展到取证特有的格式/IoU/分类/BLEU 四类,并按两次查询分段,是对该范式在多模态取证上的具体实例化。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把"先定位再检视"的人类取证直觉落成两阶段 VLM 推理 + 配套接地数据集,思路清晰但组件多为已有技术的巧妙组合。
- 实验充分度: ⭐⭐⭐⭐⭐ TRACE 内测 + 三个 OoD 基准 + 丰富消融(奖励、裁剪策略、框数),充分支撑各设计。
- 写作质量: ⭐⭐⭐⭐ 动机和流水线讲得清楚,部分自定义指标(C-Acc / C-Cases)定义需结合原文确认。
- 价值: ⭐⭐⭐⭐ 同时提升准确率、鲁棒性和可解释性,区域接地的解释对取证落地很有实用价值。