Zero-shot Detection of AI-Generated Image via RAW-RGB Alignment¶

会议: CVPR 2026
论文: CVF Open Access
关键词: AI生成图像检测, 图像取证, 零样本, RAW信号, ISP流水线

一句话总结¶

作者重新定义「合成图像」为没有物理世界来源、直接在数字空间生成的图像，并提出只用真实 RAW–RGB 数据对自监督学习一种叫 alignment trace 的取证特征——它刻画「这张 RGB 能不能反推出一个合法 RAW 来源」，从而在不接触任何生成模型先验的情况下达到零样本 SOTA（聚类 NMI 0.964、相似度 AUC 0.925）。

研究背景与动机¶

领域现状：面对层出不穷的 GAN / 扩散模型，零样本/少样本伪造检测成为主流方向——不依赖某个具体生成器的指纹，而是去建模「真实图像应该长什么样」（统计微结构、颜色分布、无损编码可压缩性等），凡偏离这个流形的就判为合成。

现有痛点：作者发现一个尴尬现象（Observation I）——现有检测器会把经过物理重映射（如「打印+扫描」「屏摄」）的合成图像误判为真实。根因不是模型不够强，而是「合成」这个概念从来没被严格定义：一张 AI 生成的图被打印出来再扫描进电脑，它还算「合成」吗？

核心矛盾：以往所有方法的判据都停留在数字空间的痕迹（频谱、噪声残差、压缩痕迹），而这些痕迹一旦经过真实的光学采集就被洗掉了，所以物理重映射能轻易绕过检测。真伪的本质区别没有被抓住。

本文目标：先给出一个清晰定义——合成图像 = 在物理世界中没有前身、直接在数字空间被创造出来的图像；按此定义，被物理重映射过的合成图会「转正」成真实图（这也解释了为何它能逃检）。然后据此设计一个判据：检测真伪 = 判断图像有没有一个符合物理规律的物理世界来源。

切入角度：作者分析物理→数字的成像链路——真实场景的光强被相机传感器记录成 RAW 信号，再经相机内部 ISP（Image Signal Processor）转换成 RGB；而合成图是直接在数字空间生成的 RGB，底下根本没有 RAW / 光信号来源。作者用 RGB→RAW 重建做了验证（Observation II）：真实图像用 RAW 类方法重建时误差明显更大、且统计上可分，说明 RAW 信号确实是「物理来源」的强线索。

核心 idea：与其找合成图的指纹，不如验证真实图的「RAW 血统」——只用真实 RAW–RGB 数据对自监督地学一个RAW–RGB 共享对齐空间，让取证特征（alignment trace）刻画一张 RGB 是否兼容某个合法的 RAW→RGB 流水线；不兼容（KL 偏离）即判为合成。整个过程不需要任何生成模型 / 合成图先验。

方法详解¶

整体框架¶

方法的训练目标是：只喂真实 RAW 图，学出一个特征提取器 \(f\)，使它从任意 RGB 上抽出的 alignment trace \(F_j\) 只取决于把 RAW 转成 RGB 用的那条 ISP 流水线 \(P_j\)，而与图像内容 \(R_i\) 无关。这样在测试时，一张真实 RGB 总能对上某条已学过的流水线（trace 落在流形内），而合成 RGB 没有 RAW 来源、对不上任何合法流水线（trace 偏离流形，KL 散度 \(\ge\tau\)）。

整条管线分四块串起来：先用 ~\(10^9\) 条 ISP 流水线把真实 RAW 渲染成海量 RGB，定义出待学的 trace（Sec 3.1）；再从三个互补视角联合监督这个对齐空间——RGB 像素视角（RGB-Vision，SEA 注意力蒸馏，Sec 3.2）、RAW 拓扑视角（RAW-Graph，把 ISP 操作链编码成图，Sec 3.3）、RAW 像素视角（RAW-Vision，VAE 潜空间分布对齐，Sec 3.4）。三个视角的损失共同约束 trace，使它既懂 RAW→RGB 的结构逻辑、又懂 RAW 的统计特性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实 RAW 图 R"] --> B["数据生成与 trace 定义<br/>~10⁹ 条 ISP 流水线 Pⱼ 渲染成 RGB"]
    B --> C["RGB-Vision 分支：SEA 分层熵注意力<br/>从冻结 ViT 蒸馏出 trace Fⱼ"]
    B --> D["RAW-Graph 分支：ISP 操作链拓扑图对齐<br/>GNN 抽 Qⱼ，对比损失拉近 (Qⱼ,Fⱼ)"]
    B --> E["RAW-Vision 分支：VAE 潜空间分布对齐<br/>KL 约束 RAW 与 RGB 潜分布"]
    C --> F["RAW–RGB 共享对齐空间<br/>alignment trace"]
    D --> F
    E --> F
    F -->|"测试 RGB 的 KL 偏离 ≥ τ"| G["零样本判合成<br/>（聚类 / 相似度）"]

关键设计¶

1. 海量 ISP 流水线自监督 + alignment trace 定义：把「有没有 RAW 来源」变成可学的偏离度

痛点是以往判据停留在数字空间、且要靠合成图先验。作者反其道而行：只拿真实 RAW 数据集 \(R=\{R_i\}\)，配一个包含 ~\(10^9\) 条 RAW→RGB 流水线的集合 \(P=\{P_j\}\)，把每条流水线作用到每张 RAW 上得到 RGB 图 \(I_{i,j}=P_j(R_i)\)。每条 \(P_j\) 串起真实 ISP 的核心操作（去马赛克、白平衡、色彩校正、色调映射）外加后处理（压缩、缩放、模糊、加噪），且约束「必含去马赛克、白平衡/色调映射各至多一次、后处理至多 3 步」，从而组合出约 \(10^9\) 条互不相同的流水线——这就是无需任何生成器、纯靠真实数据的自监督训练语料。

在此之上定义可学特征提取器 \(f:\mathcal I\to\mathbb R^d\)，并要求抽出的 \(F_j=f(I_{i,j})\) 满足两条性质：内容不变性 \(f(P_j(R_i))=f(P_j(R_b))\)（同一流水线、不同内容应给同一 trace）与可区分性 \(f(P_j(R_i))\ne f(P_k(R_i))\)（不同流水线应给不同 trace）。这样 trace 就只编码「流水线身份」而非图像语义。测试时一张查询图 \(I_q\) 的判据是特征偏离（Def 3.1）：

\[\min_{I\in\mathcal I} D_{\mathrm{KL}}\big(f(I_q)\,\|\,f(I)\big)\ge\tau\]

即 \(I_q\) 的 trace 到所有已学流水线 trace 的最小 KL 散度超过阈值 \(\tau\)，说明它由一个未知/非标准的 RAW→RGB 过程产生——而合成图根本没有 RAW 来源，自然落在流形之外。

2. RGB-Vision 分支：SEA 分层熵注意力，从冻结大视觉模型里「过滤掉语义、留下物理痕迹」

直接从头训 \(f\) 容易过拟合、丢掉视觉先验。作者改为从一个冻结的大视觉模型 \(f_{\text{LVM}}\)（实验中 ViT 最佳）抽中间层 token 特征 \(H=(h_1,\dots,h_K)\)，再用 Stratified Entropy Attention（SEA）把它蒸馏成 trace：\(F_j=f_{\text{SEA}}(F^0_j, H)\)。SEA 的目的很明确——滤掉与内容语义相关的信息，聚焦与物理-数字转换相关的信号（区域平滑度、亮度）。它分三步：

熵分箱：对每个 token 对应的图像 patch \(\pi_k\) 算「物理熵」\(E_k=\tfrac12(\mathrm{Grad}(\pi_k)+\mathrm{LC}(\pi_k))\)，其中 \(\mathrm{Grad}\) 用 Sobel 梯度的标准差刻画局部平滑度异常、\(\mathrm{LC}\) 用 YCrCb/HSV 的亮度-色度联合熵刻画被破坏的亮-色相关性；按 \(E_k\) 把 \(K\) 个 token 均匀分到 \(B\) 个熵区间。
分层采样：每个熵箱里均匀取 \(M\) 个 token，保证各熵层级都有均衡覆盖、不让某一档物理一致性主导。
注意力融合：以锚特征 \(F^0_j\) 为 query 对采样 token 做注意力，权重里乘上 \((1-E_{\hat h})\) 放大不同熵 token 的贡献：

\[w_{b,m}=\frac{\exp\!\big((1-E_{\hat h_{b,m}})\,F^0_j\hat h_{b,m}^\top/\sqrt d\big)}{\sum_{b',m'}\exp\!\big((1-E_{\hat h_{b',m'}})\,F^0_j\hat h_{b',m'}^\top/\sqrt d\big)}\]

最终 \(F_j=\sum_{b,m}w_{b,m}\cdot\mathrm{Attn}(F^0_j,\hat h_{b,m},\hat h_{b,m})\)。相比标准交叉注意力，熵加权能更好地抓住 ISP 过程残留在 RGB 里的相机内参痕迹（消融里 SEA 比普通 cross-attn NMI 高 3.5%）。

3. RAW-Graph 分支：把 ISP 操作链编码成拓扑图，用对比损失对齐 trace

光有 RGB 视角还不够，作者想把「RAW→RGB 用了哪条流水线」这件结构性知识也注入对齐空间。与其用 RAW 像素硬对齐，不如复用数据生成阶段的操作链 \(P_j\)——但用文本描述操作链难以表达参数间的层级依赖（如白平衡必须在色调映射之前）。于是把 \(P_j\) 编码成有向拓扑图 \(Q_j=\{V,E,\omega\}\)：节点集 \(V\) 按操作类型分组（去马赛克 / 白平衡 / 色调映射 / 后处理），节点数 = 该操作的不同算法数（如 \(|V_{DM}|=4\) 表示 4 种去马赛克算法），用 one-hot 初始化；有向边 \(E\) 强制成像顺序（必从去马赛克出发→白平衡/色调映射各至多一个→后处理至多 3 个）；边权 \(\omega(e)\) 是归一化后的连续参数 \([\hat\theta_u;\hat\theta_v]\)。

GNN（GraphConv 消息传递 + 全局池化）把图映射成与 \(F_j\) 同维的图级特征 \(Q_j\)。再用 CLIP 式对称对比损失把成对的 \((Q_j,F_j)\) 在共享空间里拉近：

\[L_{\text{cx}}(Q,F)=-\frac1{|A|}\sum_{j\in A}\log\frac{\exp(Q_j\!\cdot\!F_j/\tau)}{\sum_{l\in A}\exp(Q_j\!\cdot\!F_l/\tau)},\quad L_{\text{RAW-Graph}}=\tfrac12\big(L_{\text{cx}}(Q,F)+L_{\text{cx}}(F,Q)\big)\]

消融显示「有向 + 带权」拓扑图（D+W）比无向图、比文本描述都好，且对比损失里 InfoNCE 优于 Triplet / Circle。

4. RAW-Vision 分支：VAE 潜空间分布对齐，避开像素级监督的缺陷

拓扑图是抽象的高层概念、可对应多张实例化 RGB，所以还需要从 RAW 的视觉/像素视角再约束一次。但传统 L1/L2 像素监督只看逐像素误差、抓不住高阶特征分布、对噪声和微小位移过敏。作者改为在潜空间做分布迁移：用预训练 VAE 编码器把 RAW 图 \(R_i\) 和它的 RGB 版 \(I_{i,j}\) 分别映射成高斯潜分布 \(\mathcal N(\mu_s,\sigma_s)\)、\(\mathcal N(\mu_t,\sigma_t)\)；再用 trace \(F_j\) 通过交叉注意力调制 RAW 的均值 \(\hat\mu_s=\mathrm{Attn}(\mu_s,F_j,F_j)\)（因为不同光谱信号对分布参数的相关性不同，简单点乘/相加抓不住），最后用 KL 散度把调制后的 RAW 潜分布拉向 RGB 潜分布：

\[L_{\text{RAW-Vision}}=\mathbb E\big[D_{\mathrm{KL}}(\mathcal N(\hat\mu_s,\sigma_s)\,\|\,\mathcal N(\mu_t,\sigma_t))\big]\]

损失函数 / 训练策略¶

总损失把拓扑与视觉两个 RAW 视角的对齐合并：\(L_{\text{total}}=\lambda_1 L_{\text{RAW-Graph}}+\lambda_2 L_{\text{RAW-Vision}}\)。训练只用 FiveK 数据集的 5000 张真实 RAW（Canon/NIKON 拍的 DNG，用 PyRAW/DCRAW 渲染成 RGB），全程不引入任何合成图或生成算法。使用阶段：零样本时直接对 trace 做聚类 / 相似度比较；少样本时仅用 ProGAN 合成数据微调这个已对齐好的特征空间。

实验关键数据¶

主实验¶

零样本聚类（micro，NMI 越高越好）与相似度（macro，AUC，0.5=随机）两个视角，以及少样本跨域检测（ForenSynths，AP）：

场景	指标	本文	第二名	提升
零样本·聚类（10 类 GAN/DM 平均）	NMI	0.964	MIB 0.742	+22.2%
零样本·相似度（10 类平均）	AUC	0.925	MIB 0.734	远超
少样本·跨域（ForenSynths 10 类平均，仅 ProGAN 训练）	AP	0.987	Effort 0.953	+3.4%

零样本聚类里，未为检测设计的 RAW 重建基线（R2LCM/ReRAW）只在 GAN-Star 上勉强可用、对扩散模型几乎失效（NMI 掉到 0.03–0.06）；ZED/FSD 在单类 GAN 上能到 0.96–0.99，但因为不考虑物理空间差异，跨多类后平均只有 0.544/0.596。本文凭对齐空间把平均 NMI 拉到 0.964，T-SNE 可视化里 DM-Dalle 的 KL 值达 29.4，远超对手的 6.8 / 1.2 / 0.3。

消融实验¶

三个分支各自的最优配置（末行为最终模型；Cluster/Similarity/Detection 分别用 NMI/AUC/AP）：

分支	关键变量	Cluster	Similarity	Detection	说明
RGB-Vision	ViT，可训，无 SEA (#5)	.867	.830	.909	全参可训会洗掉视觉先验
RGB-Vision	ViT，冻结，无 attn (#6)	.908	.882	.963	冻结后涨 4.1% NMI
RGB-Vision	ViT，冻结，标准 cross-attn (#7)	.929	.892	.969
RGB-Vision	ViT，冻结，SEA (#8)	.964	.925	.987	SEA 比 cross-attn +3.5% NMI
RAW-Graph	拓扑图无向 (#4)	.909	.882	.917	无向→构图不准
RAW-Graph	有向带权 D+W + Triplet (#6)	.892	.853	.924	Triplet 弱于 InfoNCE
RAW-Graph	D+W + InfoNCE (#8)	.964	.925	.987	有向带权 + InfoNCE 最佳
RAW-Vision	去掉该分支 (#1)	.828	.817	.896	缺视觉约束明显掉点
RAW-Vision	UNet+L2 (#2)	.912	.853	.908	像素级监督受限
RAW-Vision	VAE+KL+Attn (#6)	.964	.925	.987	SSIM 比 UNet+L2 高 14.5%

关键发现¶

冻结大视觉模型是关键：让 ViT 全参可训反而掉点（#5→#6 NMI +4.1%、AUC +5.2%），因为可训练会破坏大规模数据学到的通用先验；取证特征要「借」LVM 的视觉先验而不是改写它。
三视角缺一不可，但 RAW-Vision 最像「兜底」：去掉 RAW-Vision 分支（#1）三项指标全面下滑（聚类 0.964→0.828），因为拓扑图是抽象高层概念、能映射到多张实例 RGB，必须再用像素/视觉视角的双重约束把它锚定。
流水线覆盖面决定泛化：RAW-Graph 消融显示只有 ISP+后处理都覆盖时（All）才能充分模拟多样的 RAW→RGB 变换，trace 泛化才好。
物理重映射不再误判：本文按「物理来源」定义重新框定问题，从根上解释并解决了打印+扫描类合成图逃检的现象。

亮点与洞察¶

重新定义问题本身：与其卷检测器精度，作者先把「什么是合成图」讲清楚——物理世界有没有前身。这个定义层面的贡献比模型本身更有价值，给整个取证社区提了个新基准。
「验证真、而非识别假」的范式：只用真实 RAW–RGB 对自监督，完全不碰生成器先验，天然抗未知 GenAI——这正是零样本最该有的样子，可迁移到任何「开放世界异常检测」。
把工程流程当监督信号：把 ISP 操作链编码成带顺序约束、带参数权重的拓扑图，是个很妙的「领域知识图结构化」trick，比文本描述更能表达参数依赖，值得借鉴到其它有明确物理/工程流程的任务。
熵加权注意力（SEA）：用梯度熵 + 亮色联合熵衡量「物理一致性」并据此分层采样、加权，是一种把语义信息主动过滤掉、只留物理痕迹的思路，对其它需要「去内容化」的特征提取有启发。

局限与展望¶

依赖 RGB→RAW 可重建假设：判据建立在「真实图能反推合法 RAW、合成图不能」之上；若未来生成模型显式建模 RAW 成像链路（先生成 RAW 再过 ISP），这条护城河可能被攻破。
训练数据来源单一：仅用 FiveK 的 5000 张 Canon/NIKON RAW，相机型号/传感器多样性有限，对手机多摄、计算摄影（HDR 融合、夜景堆栈）等复杂 ISP 的泛化未充分验证。
物理重映射的「转正」是双刃剑：按定义被打印+扫描的合成图会被判为真——这在「检测 AI 生成」语境下其实是漏检，论文把它当作定义的自洽结果，但实际取证（如假新闻配图被翻拍）场景下仍可能被恶意利用。
少样本仍需先验：跨域最优结果（AP 0.987）依赖 ProGAN 微调，纯零样本相似度 AUC 0.925 虽强但离实用阈值仍有距离。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 重新定义「合成图像」并用 RAW 物理来源作判据，是范式级而非增量式创新。
实验充分度: ⭐⭐⭐⭐ 零样本/少样本双场景、三套指标、三分支消融都到位，但训练数据相机多样性偏窄。
写作质量: ⭐⭐⭐⭐ 从两个 Observation 推导动机的逻辑链清晰，三分支结构讲得明白；公式密集但成体系。
价值: ⭐⭐⭐⭐⭐ 给零样本伪造检测提供新基准与新思路，对整个图像取证社区有方向性意义。