Dissect and Prune: Enhancing Robustness in AI-Generated Image Detection¶

会议: ICML 2026
arXiv: 2606.10309
代码: https://github.com/dahyedahye/dear
领域: AIGC检测 / 模型可解释性
关键词: AI生成图像检测, 预测不对称, 网络解剖, 特征剪枝, 鲁棒性

一句话总结¶

针对现有 AI 生成图像（AIGI）检测器"看起来准、其实只会把图判成真"的预测不对称问题，本文提出 DEAR：用 inpainting 图像当探针、按通道激活与生成区域的对齐度（RAD）做"解剖"，再把两端极值通道双侧剪掉、只重训线性分类头，让检测器丢掉脆弱的捷径特征，在未见生成器与后处理下显著更鲁棒。

研究背景与动机¶

领域现状：当下 AIGI 检测器（CNN 系、CLIP 系、ViT 系、频域系）在 benchmark 上动辄报出很高的 AUC / 准确率，一度让人觉得"AI 生成图像检测已经被解决了"。

现有痛点：作者把检测器拆开看，发现这种高分是被一种预测不对称（prediction asymmetry）撑起来的——模型对真实图像的识别近乎完美（R.Acc 很高），但对生成图像的敏感度（F.Acc）低得离谱。例如 Corvi 在原始 FLUX 图上 R.Acc 高达 99.9%，F.Acc 却只有 21.5%；NPR 在 JPEG/缩放等后处理后，平均 F.Acc 从 95.9% 暴跌到 12.2%，而 R.Acc 反而从 67.2% 升到 94.2%，整个退化成"无脑判真"的平凡分类器。聚合指标 AUC 把这种结构性偏置完全盖住了。

核心矛盾：根因是检测器依赖伪相关（spurious correlation）而非真正的生成痕迹。它学到的是两类脆弱捷径——一类是把数据集自带的偏置（如 WEBP/JPEG 压缩伪影、高频细节）当成"真实"的标志，另一类是过拟合到某个生成器特有的指纹（低秩痕迹、频谱偏置）。这些信号都不是图像内在的，后处理一扰动就被抹掉，检测器随即倒向"真"这一类。

本文目标：定位并剔除那些编码伪相关的具体特征通道，让检测器被迫依赖真正鲁棒的取证信号，从而同时缓解未见生成器泛化差和后处理崩溃两个问题。

切入角度：要"解剖"检测器，必须有一个能精确区分"激活在生成痕迹上"还是"激活在真实信号上"的 ground truth。作者发现 inpainting 图像是绝佳探针——它在一张真图里把一块掩码区域换成生成内容，于是同一张图里"生成像素"和"真实像素"被空间上明确分开，且掩码本身就是像素来源的精确标注。

核心 idea：借用 Network Dissection 的思路，用 inpainting 掩码量化每个通道对生成区域的对齐度，把对齐度在两端（极端偏生成 / 极端偏真实）的通道剪掉，只保留中间那批真正稳健的取证通道。

方法详解¶

整体框架¶

DEAR（DissEct And pRune）是一个施加在已训练好的检测器骨干上的特征选择框架，不重训骨干，只动最后的线性分类头。它分三步走：先用 SD-1.5 inpainting 造一批"真假像素共存"的诊断图像；再在骨干最后一层卷积（2048 通道）上，按通道激活在 inpaint 区域 vs 背景区域的均值差（RAD）做解剖，并实测验证 RAD 两端的通道恰恰对后处理最不鲁棒；最后按百分位阈值把两端通道双侧剪掉，在剪枝后的特征空间上重训线性分类器（骨干冻结），用原始训练集 + inpaint 诊断集联合优化。输入是检测器骨干，输出是一个对未见生成器和后处理都更稳的检测器。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实图像 + 已训练检测器骨干"] --> B["Inpainting诊断数据构建<br/>掩码区域换成生成内容"]
    B --> C["RAD通道解剖<br/>激活与生成区域对齐度"]
    C --> D["双侧剪枝 + 分类器精炼<br/>剪掉两端脆弱通道、冻骨干重训分类头"]
    D --> E["鲁棒检测器<br/>抗未见生成器与后处理"]

关键设计¶

1. Inpainting 诊断数据构建：把"真像素"和"生成像素"塞进同一张图当 ground truth

要解剖出"哪些通道在响应生成痕迹、哪些在蹭真实信号"，必须有一个空间上把两者分开、且来源已知的探针。普通的真图/假图无法做到这点——整张图要么全真要么全假，没法在像素级对齐。作者用 Stable Diffusion 1.5 的 inpainting 变体：对每张真图 \(\mathbf{x}_{\text{real}}\) 采一个随机位置的矩形二值掩码 \(\mathbf{M}\in\{0,1\}^{H\times W}\)，让模型在掩码区域内条件于周围真实上下文合成内容 \(\mathbf{x}_{\text{gen}}\)，最终图像为

\[\mathbf{x}_{\text{inpaint}}=\mathbf{M}\odot\mathbf{x}_{\text{gen}}+(1-\mathbf{M})\odot\mathbf{x}_{\text{real}}\]

为防止检测器钻"掩码边缘不连续"这种平凡捷径，合成前对掩码边缘做高斯模糊。关键收益是掩码 \(\mathbf{M}\) 已知，天然给出一个像素来源的精确空间参照，让 Network Dissection 可以直接落地。

2. RAD 通道解剖：用区域激活差把每个通道打到"偏生成↔偏真实"的连续谱上

有了 inpaint 图和掩码，作者要量化第 \(k\) 个通道到底偏向生成还是真实。借鉴 Chan-Vese 分割模型"分片常数"的假设，定义区域激活差（Regional Activation Discrepancy, RAD）：设 \(\mathbf{F}_k\in\mathbb{R}^{h\times w}\) 是骨干倒数第二层第 \(k\) 通道的激活图，\(\Omega_{\text{in}}=\{x:\mathbf{M}(x)=1\}\) 是 inpaint 区域、\(\Omega_{\text{bg}}\) 是背景，则

\[S_k=\mu_{\text{in}}^{(k)}-\mu_{\text{bg}}^{(k)},\quad \mu_{\text{in}}^{(k)}=\frac{\sum_{x\in\Omega_{\text{in}}}\mathbf{F}_k(x)}{|\Omega_{\text{in}}|},\ \mu_{\text{bg}}^{(k)}=\frac{\sum_{x\in\Omega_{\text{bg}}}\mathbf{F}_k(x)}{|\Omega_{\text{bg}}|}\]

按区域面积归一，所以 inpaint 区域占比大小不影响度量。直觉上 \(S_k\) 大正值=通道强烈响应生成区域、对生成痕迹敏感；大负值=偏好真实背景。作者在约 6400 张 inpaint 图上逐通道平均得到稳定排名。这一步真正点睛的发现是"对齐度能预测鲁棒性"：用 WEBP 压缩前后激活的 MSE 衡量每个通道的脆弱度，结果 RAD 分布两端的通道恰恰最不鲁棒——负端对应数据集压缩伪影这类捷径，正端对应过拟合的生成器指纹，两者都一压缩就被抹掉；而中段通道明显更稳。这条经验规律直接给剪枝提供了判据。

3. 双侧剪枝 + 分类器精炼：剪掉两端、冻骨干重训分类头

既然两端通道都脆弱，作者就做双侧剪枝：给定下/上分位 \(\alpha_{\text{low}},\alpha_{\text{high}}\)，按 RAD 经验分布算出阈值 \(\tau_{\text{low}},\tau_{\text{high}}\)，得到二值掩码

\[m_k=\mathbb{1}[\tau_{\text{low}}\le S_k\le\tau_{\text{high}}]\]

只保留处于鲁棒中段的通道，把负端（压缩伪影捷径）和正端（生成器特有噪声）都剪掉。剪枝以逐元素乘施加在全局池化前的特征张量 \(\tilde{\mathbf{F}}=\mathbf{m}\odot\mathbf{F}\) 上。由于剪枝只是在预训练表示上做特征选择，骨干参数 \(\theta\) 全程冻结，只重新初始化并重训最后的线性分类器 \(h_\phi\)。精炼时用原始训练集 \(\mathcal{D}_{\text{train}}\) + inpaint 诊断集 \(\mathcal{D}_{\text{inpaint}}\) 联合优化，让分类器既适配剪枝后的特征空间，又能从整图和局部 inpaint 区域两种粒度上学会识别内在生成痕迹。整套方法因此非常轻量——不碰骨干、只换分类头。

损失函数 / 训练策略¶

骨干冻结，仅在剪枝后的特征 \(\tilde{\mathbf{F}}\) 上重训线性分类头，监督来自原始真/假训练数据与 inpaint 诊断数据的联合集合；剪枝阈值由 RAD 分位 \(\alpha_{\text{low}},\alpha_{\text{high}}\) 控制，是方法的关键超参。完整流程见原文 Appendix E 的 Algorithm 1。

实验关键数据¶

主实验¶

评测覆盖 9 类生成器（SD、Midjourney、Kandinsky、Playground、PixArt、LCM、FLUX、Wuerstchen、aMUSEd）及 3 个 in-the-wild benchmark（Chameleon、WildRF、LOKI），并分原始 / 后处理两种设定。核心观察是现有检测器在 F.Acc（生成图识别率）上普遍崩塌，而 DEAR 主要把这块补回来、缓解不对称。下表摘取若干代表性检测器在原始设定下的对比（AUC / R.Acc / F.Acc，单位 %，数值取自原文表 1 节选）：

检测器	类型	FLUX AUC	FLUX R.Acc	FLUX F.Acc	备注
UFD	CLIP	21.5	95.1	0.1	未见生成器上几乎判不出假
C2P-CLIP	CLIP	49.9	93.0	8.0	F.Acc 极低，典型不对称
RINE	ViT	69.3	92.3	30.2	较强 baseline，F.Acc 仍偏低

可见即便是较强的 baseline，在未见生成器 FLUX 上 F.Acc 也只有 30% 量级，而 R.Acc 普遍 90%+——这正是预测不对称的直接证据，DEAR 的目标就是把 F.Acc 这一侧拉起来而不牺牲 R.Acc。

消融实验¶

作者验证了 RAD 两端通道与鲁棒性的关系，以及双侧剪枝相对单侧/不剪的增益（数值为定性趋势归纳）：

配置	关键现象	说明
完整 DEAR（双侧剪枝）	F.Acc 显著回升、不对称缓解	同时剪掉真/假两端捷径
仅剪正端 / 仅剪负端	只缓解一类伪相关	单侧无法同时治压缩偏置和生成器指纹
不剪枝（原检测器）	后处理下 F.Acc 崩塌	依赖脆弱捷径
更换 inpainter	结论稳定	诊断不依赖特定 inpainting 模型（Appendix D）

关键发现¶

RAD 两端 = 脆弱捷径：负端对应 WEBP/JPEG 压缩伪影这类"伪真实"信号，正端对应过拟合的生成器指纹，二者都对后处理极敏感；中段通道才是稳健取证信号。这是全文最核心的经验规律，也是剪枝判据的来源。
不对称是被聚合指标掩盖的结构性问题：AUC 高不代表能检出假图，R.Acc 和 F.Acc 必须分开看。
轻量：骨干冻结、只重训线性头，无需重新训练大模型即可显著提升鲁棒性。

亮点与洞察¶

诊断工具选得巧：用 inpainting 图把"真像素 / 生成像素"塞进同一张图、附带精确掩码，一举解决了"解剖检测器缺 ground truth"的难题——这是把可解释性工具（Network Dissection）迁到取证检测的关键桥梁。
"对齐度预测鲁棒性"是可迁移的观察：用激活随扰动的变化量（MSE）衡量通道脆弱度、并与语义对齐度关联，这套"先解剖再按脆弱度剪枝"的范式可推广到其他存在捷径学习的分类任务。
双侧剪枝对称地治两类伪相关：很多去捷径工作只盯"假"侧，本文指出"真"侧的压缩偏置同样致命，必须双侧一起剪。

局限与展望¶

诊断数据依赖 inpainting 模型生成，inpaint 区域的分布（矩形随机掩码）可能与真实生成痕迹的空间形态有差异；虽换 inpainter 结论稳定，但更复杂的局部编辑场景未充分覆盖。
剪枝阈值 \(\alpha_{\text{low}},\alpha_{\text{high}}\) 是关键超参，其在不同骨干/生成器上的最优取值与敏感性需更系统的分析。
方法在 ResNet-50 类 CNN 骨干上验证充分，对 CLIP/ViT 这类全局 token 表示的检测器，"通道对齐度"概念是否同样成立、如何定义区域激活，值得进一步探讨。

评分¶

新颖性: ⭐⭐⭐⭐ 把 Network Dissection + inpainting 探针迁到 AIGI 检测、提出 RAD 与双侧剪枝，视角新颖
实验充分度: ⭐⭐⭐⭐ 覆盖 9 类生成器 + 3 个 in-the-wild benchmark，原始/后处理双设定，含换 inpainter 消融
写作质量: ⭐⭐⭐⭐ "预测不对称→伪相关→对齐度预测鲁棒性→剪枝"逻辑链清晰
价值: ⭐⭐⭐⭐ 揭示并量化了被聚合指标掩盖的结构性偏置，方法轻量易落地