FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies¶

会议: NeurIPS 2025
arXiv: 2509.20890
代码: https://github.com/xigua7105/FerretNet
领域: 图像生成
关键词: 合成图像检测, 局部像素依赖, Markov随机场, 轻量网络, 跨模型泛化

一句话总结¶

基于马尔可夫随机场（MRF）理论，提出局部像素依赖（LPD）特征表示，通过中值滤波重建暴露生成图像的纹理不一致性，配合仅 1.1M 参数的轻量卷积网络 FerretNet，在仅用 4 类 ProGAN 数据训练的情况下，实现跨 22 个生成模型 97.1% 的平均检测准确率。

研究背景与动机¶

随着 VAE、GAN、LDM 等生成模型能力的提升，区分合成图像与真实图像变得越来越困难。现有检测方法面临两大挑战：

(1) 泛化能力不足: 许多方法依赖特定模型的伪影特征。频域方法（如 F3Net、FrePGAN）在已知模型上表现好但难以泛化到未见架构；DIRE 使用扩散重建检测但在 GAN 内容上效果差。

(2) 计算效率低: 基于大型预训练模型的方法（如 Ojha 用冻结 CLIP、FatFormer 适配 CLIP）参数量大、推理速度慢，难以在资源受限场景部署。

FerretNet 的核心洞察是：尽管不同生成模型架构各异，它们共享两个统一的伪影来源——潜变量分布偏移和解码过程平滑效应。这些伪影表现为局部像素依赖关系的破坏，可通过 MRF 框架统一建模。

方法详解¶

整体框架¶

FerretNet 流程分两步：(1) LPD 特征提取——用中值滤波重建图像，计算原始图像与重建图像的差值图；(2) 轻量分类——FerretNet 网络处理 LPD 特征图并输出真/假判断。两步合计仅 1.1M 参数。

关键设计¶

基于 MRF 的局部像素依赖（LPD）特征: 根据 MRF 假设，自然图像中每个像素的分布仅依赖其局部邻域。对于 \(n \times n\) 窗口，先将中心像素置零（zero-masking，防止生成像素污染中值计算），然后计算邻域中值作为重建值。LPD 特征图即原图与中值重建图的差值：\(\text{LPD} = I - I'\)。自然图像因局部统计一致性强，LPD 接近零；而生成图像在纹理边缘和颜色过渡区域的 LPD 呈现显著异常模式。这一设计的物理直觉是：真实图像的像素关联源于光学物理过程（光照、材质相互作用），生成模型难以完美复现这种底层统计关系。
Ferret Block 双路径架构: 网络核心是 4 个级联的 Ferret Block，每个 block 包含双路径并行结构：主路径使用 \(3\times3\) 空洞分组卷积（dilation=2），扩大感受野至有效 \(5\times5\)；辅路径使用标准 \(3\times3\) 分组卷积，捕捉细粒度局部模式。两路输出通过 \(1\times1\) 卷积融合。分组卷积+深度可分离设计大幅降低参数量，残差连接保证梯度稳定传播。整体设计哲学：在浅层网络中模拟深层网络的行为。
Zero-masking 中值滤波策略: 传统中值滤波在窗口大小为偶数时存在歧义，且中心像素参与计算会引入自相关。zero-masking 将中心像素置零后计算中值，确保 LPD 纯粹反映邻域预测能力而非自身信息。这个小设计对鲁棒性至关重要。

损失函数 / 训练策略¶

使用 BCEWithLogitsLoss（二值交叉熵）
Adam 优化器，lr=\(2 \times 10^{-4}\)，betas=(0.937, 0.999)，weight decay=\(5 \times 10^{-4}\)
从零训练 100 epochs，batch size 32
训练数据仅 4 类 ProGAN 生成图像（car, cat, chair, horse），配等量 LSUN 真实图像
数据增强：随机裁剪至 224×224，随机水平翻转
测试时中心裁剪至 256×256

实验关键数据¶

主实验¶

ForenSynths 测试集（8 个 GAN 模型），仅在 4 类 ProGAN 上训练：

方法	参数量	ProGAN	StyleGAN	StyleGAN2	BigGAN	Mean ACC/AP
Wang et al.	-	91.4/99.4	63.8/91.4	76.4/97.5	52.9/73.3	67.1/86.9
Ojha (CLIP-based)	~150M	99.7/100	89.0/98.7	83.9/98.4	90.5/99.1	89.1/98.3
FatFormer (CLIP-adapted)	~150M	99.9/100	97.2/99.8	98.8/99.9	99.5/100	98.4/99.7
NPR	-	99.8/100	96.3/99.8	97.3/100	87.5/94.5	92.5/96.1
FerretNet (1.1M)	1.1M	99.9/100	98.0/100	98.5/100	92.6/98.5	95.9/99.3

Diffusion-6-cls（6 个扩散模型变体）：

方法	Mean ACC/AP
FatFormer	95.0/98.8
SAFE	94.5/99.1
FerretNet	96.9/99.6

Synthetic-Pop（6 个最新高保真模型，包含 SDXL-Turbo、SD-3.5-Medium）：

方法	Openjourney	RealVisXL	SD-3.5-Medium	SDXL-Turbo	Mean
FreqNet	56.3/63.6	59.4/66.6	78.5/86.8	77.5/86.0	65.0/71.4
NPR	78.8/83.5	78.1/82.0	80.4/84.1	78.2/82.9	77.9/81.9
FatFormer	97.3/99.7	99.3/100	99.2/100	98.5/100	98.8/99.9
FerretNet	96.7/99.5	98.9/100	98.0/99.9	97.9/100	97.1/99.6

消融实验¶

吞吐量对比（RTX 4090，batch=128，Synthetic-Aesthetic 测试集）：

方法	参数量	吞吐量 (img/s)	Mean ACC
Ojha (CLIP)	~150M	较低	82.5
FatFormer	~150M	较低	93.1
FerretNet	1.1M	高	91.5

FerretNet 参数量仅为 CLIP-based 方法的约 1/136，在多数基准上性能接近或超过。

关键发现¶

LPD 特征具有优秀的跨模型泛化性——仅在 4 类 ProGAN 上训练，即可检测 VAE、GAN、LDM 等 22 种架构
在最新高保真扩散模型（SD 3.5、SDXL-Turbo、RealVisXL）上仍保持 >97% 准确率
FerretNet 的 1.1M 参数相比 FatFormer 等百万级参数的 CLIP-based 方法，推理效率显著更高
LPD 可视化图直观展示了自然图像和合成图像的差异：真实图纹理均匀一致，合成图在细节区域有清晰的结构性残差

亮点与洞察¶

统一理论视角: 从 MRF 理论出发，揭示所有生成模型的共性弱点——无法完美复现局部像素依赖关系，这是一个优雅且可解释的检测原理
极端轻量化: 1.1M 参数实现与百倍参数量的 CLIP-based 方法可比的性能，适合边缘部署
提出 Synthetic-Pop 新基准（6 个最新生成模型，6 万张图像），填补了对最新高保真模型评估的空白
中值滤波+差值这一"老技术"在新任务上焕发生机——提示我们不应忽视传统信号处理方法在深度学习时代的价值

局限与展望¶

在 BigGAN 类别上性能相对较弱（92.6% vs FatFormer 99.5%），可能因 BigGAN 的潜空间结构更规则
CO-SPY 使用了不同训练数据导致比较不完全公平
仅验证了图像级检测，未扩展到视频或局部篡改检测
LPD 的窗口大小 \(n\) 是固定超参，自适应窗口可能进一步提升性能
对高质量后处理（如 JPEG 压缩、社交媒体分享后的降质）的鲁棒性未充分评估

评分¶

⭐⭐⭐⭐ — 理论清晰（MRF→LPD），极致轻量（1.1M），跨 22 个模型泛化出色。在实际部署价值上非常突出。BigGAN 上的性能差距和后处理鲁棒性有待验证是主要不足。