跳转至

Unveiling Perceptual Artifacts: A Fine-Grained Benchmark for Interpretable AI-Generated Image Detection

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Tk8ujiOgHM
代码: https://github.com/Coxy7/X-AIGD
领域: AIGC检测 / 可解释性 / 评测基准
关键词: AI生成图检测, 感知伪影, 像素级标注, 注意力对齐, 可解释性

一句话总结

针对现有 AI 生成图(AIGI)检测器只会输出"真/假"二分类、给不出依据的问题,本文构建了带像素级、三层七类伪影标注的成对真假图基准 X-AIGD,系统诊断出现有检测器"几乎不看感知伪影",并提出把分类注意力显式对齐到伪影区域的训练方法,在跨数据集泛化上明显涨点。

研究背景与动机

领域现状:AIGI 检测主流是把"真图 vs 生成图"当成二分类,靠手工或学到的低层指纹特征(上采样痕迹、频域特征等)做判断。近期一批工作开始借多模态大模型(MLLM)给检测结果生成文字解释,试图增加可解释性。

现有痛点:二分类检测器虽然在特定数据集上准确率高,但只给一个 0/1 标签、说不出"凭哪块伪影判它是假的",泛化也差、易被结构/内容扰动击穿。MLLM 路线的解释又多半是用 GPT-4o 等更强模型自动标注训练出来的,既不可靠也缺空间定位——它的文字解释和图像里真正出问题的区域对不上。少数提供人工定位标注的数据集(LOKI、SynthScars)则把"伪影定位"和"真假判定"当成两个割裂任务,且大多没有配对真图,伪影类别也粗。

核心矛盾:要评测"检测器到底有没有在看人类能理解的视觉证据",需要一个既有配对真假图(控制语义、排除"靠整体语义猜")、又有细粒度、定位到像素、分好类的伪影标注的基准——而这样的数据集此前不存在,导致可解释 AIGI 检测的研究一直被卡住。

本文目标:(1) 造一个能做细粒度可解释性评测的基准;(2) 用它诊断现有检测器是否、以及如何利用感知伪影;(3) 探索能真正把判定依据落到伪影上的训练方法。

切入角度:作者认为"感知伪影"是人类辨别假图最自然、也最可迁移的线索,于是把它系统化成一套三层级(低层失真 / 高层语义 / 认知层反事实)七类别的分类体系,并请人工逐像素勾画。有了这套 ground truth,就能定量回答"模型注意力和人类感知到的伪影对得齐不齐"。

核心 idea:先用细粒度伪影标注暴露"检测器其实没在看伪影"这一事实,再用一个注意力对齐损失把分类注意力直接拉到标注的伪影区域,从而同时提升可解释性与泛化。

方法详解

整体框架

本文不是一个单一模型,而是"建基准 → 诊断 → 改进"三段递进的研究:先收集成对真假图并做三层七类的像素级人工标注,得到 X-AIGD;在其上定义真假判定(AJ)与感知伪影检测(PAD)两个子任务,用它们诊断现有检测器,发现它们几乎不依赖伪影;进而探索把 PAD 当辅助任务(迁移/多任务),发现收益微弱;最后提出显式注意力对齐,把分类注意力直接约束到伪影区域。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实图 + caption"] --> B["成对真假图数据集<br/>13个生成器造52k假图,配对真图"]
    B --> C["三层七类伪影标注<br/>12人三轮像素级勾画"]
    C --> D["AJ + PAD 双任务评测协议"]
    D --> E["诊断:现有检测器几乎不看伪影<br/>PAD辅助任务收益微弱"]
    E --> F["注意力对齐损失<br/>把分类注意力拉到伪影区域"]
    F --> G["可解释性↑ + 跨数据集泛化↑"]

关键设计

1. 成对真假图 + 像素级伪影标注的数据集:让"看证据"变得可量化

要诊断检测器是否真的在看伪影,先得有一份"人类认为哪里是伪影"的可靠 ground truth,而且真假图必须语义对齐,才能排除模型"靠整体语义猜真假"的捷径。为此作者从 MSCOCO、LAION-Aesthetic、Conceptual Captions、SA-1B 四个数据集取真实图,抽取不同详略程度的 caption 当生成提示,用 13 个先进文生图模型(PixArt-α、FLUX.1-dev、SD 3.5 等,含 Civitai 社区微调的写实模型)配合提示工程压制非写实风格,得到 4,000 张真图 + 每个生成器 4,000 张共 52,000 张假图,与真图一一配对。标注上请 12 名标注者用像素级多边形 mask 勾画伪影并打类别,每图经 3 轮不同标注者叠加以提升完整性,剔除被判为低质/不真实的图,最终留下 3,035 个有效标注样本(测试集每个生成器 200 张、训练集取 5 个生成器子集)。标注质量由 3 名独立标注者按 {0, 0.5, 1} 打置信分复核,分布显示整体质量高(如表 1 所示,X-AIGD 是少数同时具备配对真图、像素 mask、类别标注的数据集)。

2. 三层七类感知伪影分类体系:把"假在哪"从模糊感觉变成结构化标签

以往数据集要么没分类、要么类别粗,无法支撑细粒度可解释性分析。本文把感知伪影组织成 3 个层级、7 个具体类别:低层失真(不自然纹理 Textures、扭曲的边缘与形状 Edges&Shapes、错乱符号 Symbols、颜色不一致 Color)刻画最基础的视觉异常;高层语义(Semantics)针对破坏物体完整性与逻辑排布的结构性错误;认知层反事实(违背常识 Commonsense、违背物理 Physics)涵盖那些需要现实世界知识才能识破的逻辑/物理矛盾(如不可能的物体关系、错误的反射)。这套自上而下的层级既覆盖一眼可见的失真,也覆盖深层语义不一致,从而能逐类别评估检测器在不同难度伪影上的能力——后续实验正是靠它揭示"模型擅长低层边缘/符号、却几乎抓不住认知层伪影"。

3. AJ / PAD 双任务协议与"检测器忽视伪影"的核心诊断:暴露真问题

X-AIGD 把可解释 AIGI 检测拆成两个子任务:真假判定 AJ 预测二值标签 \(y \in \{0,1\}\),用平衡准确率(真图准确率与假图准确率的均值)及 P/R/F1 评估;感知伪影检测 PAD 在判为假时检出每个伪影实例的区域 \(r_i\) 与类别 \(c_i \in C\)\(|C|=7\)),用 IoU 及像素级 PixP/PixR/PixF1 评估,并提出类别无关 PAD(把所有类别标注取并集成二值 mask)以兼容不感知类别的模型。基于这套协议,作者对现有端到端检测器(CNNSpot、UnivFD、FatFormer、DRCT、CoDE 等)做诊断:用 Grad-CAM / Relevance Map 把"假类"解释热图二值化(阈值 0.5)后与伪影 mask 比对,发现热图与人类感知对齐极弱;更反直觉的是,检测器准确率与图像保真度(NIQE、MDFS、伪影比例 PAR)几乎无相关——伪影更多(PAR>0)的假图并不比没明显伪影(PAR=0)的更容易被识别,说明它们基本没把伪影当线索。进一步把 PAD 当辅助任务(迁移学习 / 多任务),虽然能训出非平凡的伪影分割能力,但 AJ 提升至多边际,且分类热图仍高亮在分割未覆盖的背景区域,证明判定依据仍是不可解释特征。

4. 显式注意力对齐损失:把分类注意力直接拉到伪影区域

既然"附加 PAD 任务"不足以让模型真正看伪影,本文转向更直接的做法——直接正则化分类注意力的空间分布。对 ViT 类检测器,用 Gradient Attention Rollout 计算分类 logit 对所有 \(h\times w\) patch 的聚合注意力图 \(A_{cls}\in[0,1]^{h\times w}\);同时把像素级伪影标注下采样成 patch 级伪影图 \(A_{art}\in[0,1]^{h\times w}\)(每个 patch 取其内属于伪影的像素比例,真图则置零矩阵)。因为 \(A_{cls}\) 可微,便能把两张图的均方误差当辅助损失优化。但若把注意力限制在伪影区域,会妨碍模型学习良性区域里同样有用的特征,于是引入良性区域权重 \(\lambda\in[0,1]\) 调节对非伪影区惩罚的强度:

\[\mathcal{L}_{align}=\frac{1}{hw}\sum_{i=1}^{h}\sum_{j=1}^{w}W^{(i,j)}\big(A_{cls}^{(i,j)}-A_{art}^{(i,j)}\big)^2,\quad W^{(i,j)}=\begin{cases}1,& A_{art}^{(i,j)}>0\\ \lambda,& A_{art}^{(i,j)}=0\end{cases}\]

最终训练目标在标准二分类 BCE 上加权该项:\(\mathcal{L}=\mathcal{L}_{BCE}+\beta\,\mathcal{L}_{align}\)\(\beta>0\))。其效果是把注意力扩展到肢体、复杂结构与纹理等真正可解释的区域,并在跨数据集评测上明显涨点;而 \(\lambda\) 控制着"依赖伪影线索"与"保留低层指纹/全局特征"之间的权衡——中等 \(\lambda\)(如 0.4/0.6)能缩小精度远高于召回的失衡,泛化 F1 最佳。

实验关键数据

主实验

在 X-AIGD 上对比现有检测器与在本数据上训练的模型(AJ 用平衡准确率,类别无关 PAD 用 IoU/PixF1):

模型 AJ Acc AJ F1 PAD IoU PAD PixF1
CNNSpot 48.6 9.8 0.9 1.8
FatFormer 52.1 25.4 0.5 0.9
DRCT-ConvB(现有最佳) 82.5 81.0 9.0 16.6
CoDE 76.5 70.9 2.9 5.7
AJ-only(本数据训练) 89.3 90.2 / /
PAD-only / / 27.2 42.7
迁移学习(全微调) 89.9 92.5 / /
多任务学习 89.1 92.3 27.3 42.8

要点:现有检测器在类别无关 PAD 上 IoU 普遍 <10(最高 DRCT-ConvB 仅 9.0),印证"基本不看伪影";在本数据训练后 PAD IoU 跳到 27+,但把 PAD 当辅助任务对 AJ 的增益至多边际(多任务/全微调 F1 仅比 AJ-only 的 90.2 略高到 92+)。

注意力对齐在 4 个跨源数据集上的消融(AJ F1):

对齐方式 X-AIGD Synthbuster Chameleon CommFor
无对齐(β=0) 84.3 55.9 62.7 58.2
显著性对齐 86.4 60.7 58.3 59.7
伪影对齐(本文) 87.4 63.2 63.5 61.4

用伪影 mask 对齐全面优于不对齐基线,也优于把注意力对到显著性物体——说明涨点来自"对齐到伪影"而非"对齐到任何显著区域"。

消融实验

配置 关键指标 说明
完整(伪影对齐, 中等 λ) 跨集 F1 最高 兼顾伪影线索与其他有用特征
显著性 mask 替换伪影 mask 跨集 F1 普遍更低 对齐到显著物体≠对齐到伪影,增益消失
无对齐 β=0 基线 精度远高于召回,泛化弱
λ 增大(更重伪影) 召回下降、F1 走低 过度依赖难检的高层伪影反而拖累

按伪影类别看 PAD(表 3):模型在低层的 Edges&Shapes、Symbols 上 PixR 可达 50%+,但在认知层 Physics 上 PixR 近乎 0,高层语义也只能"把某些物体整体关联到结构错误"而难区分语义正确与否。

关键发现

  • 检测器准确率与图像保真度无显著相关:伪影更多的假图并不更容易被现有检测器识别,直接证伪了"它们靠伪影判真假"的假设。
  • PAD 当辅助任务收益边际:能训出分割能力,但分类热图仍高亮背景,判定依据并未真正迁移到伪影上——可解释性和准确性是两件事。
  • 难度随层级上升:低层失真(边缘/符号)可检,高层语义勉强,认知层反事实(常识/物理)几乎检不出,这是传统视觉模型缺乏推理能力的体现。
  • λ 存在甜区:中等 \(\lambda\)(0.4/0.6)平衡了"看伪影"与"看指纹/全局",把精度-召回失衡缩小,泛化最好。

亮点与洞察

  • 用配对真假图 + 像素标注把"可解释性"做成可量化命题:以往可解释 AIGI 检测多在图像级比文字,本文把评测落到"注意力 vs 伪影区域"的像素对齐,第一次能验证模型解释是否基于真实视觉证据。
  • 先证伪、再改进的研究范式很扎实:先用基准揭示"检测器不看伪影""PAD 辅助没用",再顺势引出注意力对齐,论证链条完整,结论可信。
  • 注意力对齐 + 良性区域权重 λ 的思路可迁移:把"人工定位的关键区域"作为注意力监督、并用一个权重平衡"只看关键区"与"保留其他线索",这套机制可搬到其他需要"判定要落到证据上"的检测/取证任务。
  • 三层七类伪影分类体系本身是可复用资产:从低层失真到认知层反事实的层级,给后续工作提供了统一的难度刻度与评测维度。

局限与展望

  • 认知层伪影(常识/物理违背)检测几乎失效,说明纯视觉模型缺乏推理能力,本文方法也未解决这一根本短板,未来或需引入 MLLM/世界知识。
  • 注意力对齐主要适用于 ViT 类(依赖 Attention Rollout),对 CNN/patch-based 检测器的迁移性未充分验证。
  • PAD 标注虽经三轮、置信分复核,但伪影感知主观性强,仍存在小比例有争议实例;高层/认知层类别的标注一致性可能更难保证。
  • 注意力对齐带来的 AJ 提升以 F1/泛化为主,单看 X-AIGD 内分布提升有限;λ 与 β 需按数据调参,缺乏自适应方案。

相关工作与启发

  • vs LOKI / SynthScars(带定位标注的基准): 它们提供人工 bbox/mask 定位,但把伪影检测与真假判定当割裂任务、且多无配对真图;本文提供配对真图 + 像素 mask + 七类标注,并显式研究两任务协同与"判定是否落到伪影"。
  • vs FakeBench / MMFR 等 MLLM 文字解释基准: 它们在图像级比文字解释,缺空间 grounding,无法核验解释是否基于真实证据;本文用像素级对齐把可解释性评测做实。
  • vs PAL4VST / SynArtifact 等感知伪影定位: 它们的伪影标注服务于"修图/调生成模型",只覆盖损害画质的特定伪影、且无真图;本文面向"作为检测线索的全谱伪影 + 可解释性分析"。

评分

  • 新颖性: ⭐⭐⭐⭐ 三层七类配对像素基准 + 注意力对齐,"先证伪再改进"的视角扎实,但单个组件均有前序。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 7 个现有检测器、迁移/多任务/对齐多设定、4 个跨源数据集与逐类别分析。
  • 写作质量: ⭐⭐⭐⭐ 逻辑递进清晰,发现表述直白;部分指标定义需翻附录。
  • 价值: ⭐⭐⭐⭐ 为可解释 AIGI 检测立了像素级评测标准,数据与代码开源,影响面广。