Quality-Aware Calibration for AI-Generated Image Detection in the Wild¶

会议: CVPR 2026
arXiv: 2604.15027
代码: https://grip-unina.github.io/QuAD/ (有)
领域: AIGC检测 / 图像取证
关键词: AI生成图像检测, 近重复图像, 质量感知校准, IQA, 贝叶斯融合

一句话总结¶

针对同一张图在网络传播中产生的多个画质各异的"近重复版本"，本文提出 QuAD：用无参考 IQA 估计每个版本的画质，再用画质作条件对取证检测器的 logit 做高斯校准并加权融合，让低画质版本少说话、高画质版本多说话，平均把六个 SOTA 检测器的平衡准确率提升约 8 个百分点。

研究背景与动机¶

领域现状：现有 AI 生成图像检测器（取证检测器）几乎都假设输入是"一张干净的待检图"，在这张图上输出一个真/伪分数。为了对抗社交网络的压缩、缩放，主流的鲁棒性手段是训练时做 JPEG/blur 数据增强，或建模社交平台的噪声分布。

现有痛点：真实世界里同一张病毒式传播的图会在网上出现大量"近重复"（near-duplicate）版本——每次转发都可能重压缩、缩放、裁剪，画质越来越差，取证赖以判断的细微统计痕迹被一步步抹掉。结果是同一个检测器在同一张图的不同版本上给出截然不同的分数，到底该信哪个版本？

核心矛盾：一种自然想法（沿用前人 [16]）是"只信最早上传/最大尺寸的那张，因为它处理最少"。但作者指出这条路并不可靠：最早出现的不一定是真原图，时间戳会因转发延迟/篡改而失真，最大尺寸的图也可能是先被重度处理再上采样的；而很多更早的祖先版本可能已经从网上消失了。另一个极端——把所有版本的分数简单平均——同样会被那些被重度压缩的劣质副本带偏，反而增加不确定性。

本文目标：把问题从"单图检测"升级为"跨多个版本的联合推理"——在一组画质未知、来源混杂的近重复里，自动判断每个版本的分数有多可信，并据此融合出一个更可靠的最终判决。

切入角度：作者观察到 Fig.3 的关键事实——无参考 IQA（如 LoDa）估计出的画质，与图像经历的后处理强度高度相关（压缩、下采样、模糊越重，画质分越低）；同时 Fig.6 显示，劣化越重，检测器对真/伪的 logit 分布越重叠、越不可分。于是"画质"恰好是一个可观测的、与"分数可信度"挂钩的代理变量。

核心 idea：用画质作条件，把检测器的 logit 校准成"考虑了可信度的对数似然比"，再求和判决——低画质处真伪高斯分布几乎重叠，校准后贡献趋近 0；高画质处分布分得开，贡献大。这样既用上了全部版本的信息，又自动压低了不可靠副本的话语权。

方法详解¶

整体框架¶

QuAD（Quality-Aware calibration with near-Duplicates）是一个推理时的融合流程，不重新训练检测器。给定一张待查图，先从网上检索它的全部近重复版本 $X_1,\dots,X_N$；对每个版本同时跑两件事——一个现成的取证检测器输出 logit $l_i$（估计该版本真/伪的对数后验似然比），一个无参考 IQA 模块输出画质指数 $q_i$。核心环节是"质量感知校准"：用一组事先在开发集上拟合好的高斯模型，把原始 $l_i$ 转成校准后的 $\hat{l}_i$，这个校准值的绝对大小反映了在画质 $q_i$ 下真/伪分布的可分程度。最后把所有 $\hat{l}_i$ 相加，大于 0 判为伪。整条链路里唯一需要"学"的只有 8 个描述高斯均值/方差随画质线性变化的系数。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["查询图"] --> B["近重复检索<br/>从网上找回 N 个版本"]
    B --> C["取证检测器<br/>每版本输出 logit l_i"]
    B --> D["无参考 IQA<br/>每版本输出画质 q_i"]
    C --> E["质量感知高斯校准<br/>l_i,q_i → 校准 logit ^l_i"]
    D --> E
    E --> F["求和判决<br/>Σ ^l_i > 0 → 伪"]

关键设计¶

1. 近重复检索 + 双通道打分：把"一张图"变成"一组证据"

这是把单图检测改造成多版本推理的脚手架。对查询图，作者用 Google Cloud Vision API 在网上检索它的全部近重复实例，得到一组 $\{X_1,\dots,X_N\}$。每个实例并行送进两个通道：取证检测器给出 logit $l_i$，定义为 $l_i=\log\frac{P(y=1\mid X_i)}{P(y=0\mid X_i)}$（$y=1$ 为伪、$y=0$ 为真）；无参考 IQA 给出画质指数 $q_i$。注意这里的"质量"专指图像的劣化程度（被压/缩/裁了多少），不是生成内容的视觉逼真度，也不直接当作真伪指示器。最朴素的融合（naive）是在条件独立、等先验假设下直接对 logit 求和判决 $\sum_i l_i>0$——这正是贝叶斯地组合多份证据，但问题在于劣质副本的 $l_i$ 同样被无差别地加了进来。

2. 质量感知的高斯校准：用画质把 logit 重写成"考虑可信度的似然比"

这是全文的核心。痛点是 naive 求和把所有 logit 一视同仁，而劣化越重的版本（小 $q_i$）真/伪分布越重叠、$l_i$ 越不可信。作者的做法是：在画质条件下，分别为真、伪图建模 logit 的条件分布为高斯—— $$l_i\mid q_i,y=1\sim\mathcal{N}(\mu_1(q_i),\sigma_1^2(q_i)),\quad l_i\mid q_i,y=0\sim\mathcal{N}(\mu_0(q_i),\sigma_0^2(q_i))$$ 均值和方差都随画质变化。于是判决规则中的每一项不再是原始 $l_i$，而是这两个高斯的对数似然比，即校准后的 $\hat{l}_i$： $$\hat{l}_i=\frac{(l_i-\mu_0(q_i))^2}{2\sigma_0^2(q_i)}-\frac{(l_i-\mu_1(q_i))^2}{2\sigma_1^2(q_i)}+\log\frac{\sigma_0(q_i)}{\sigma_1(q_i)}$$ 最终判决是 $\sum_i\hat{l}_i>0$。这一步的妙处在于：$\hat{l}_i$ 的绝对值天然反映了在该画质点上两个高斯分得有多开——低画质处两高斯几乎重合，$\hat{l}_i$ 趋近 0，自动被"软屏蔽"；高画质处分得很开，$\hat{l}_i$ 大，主导融合结果。相比"只挑最高画质那张"（丢信息）或"全体平均"（被劣质副本带偏），它在用上全部版本的同时按可信度连续加权，是一种比硬选择/硬平均都更细腻的中间路线。

3. 画质的线性参数化 + 极大似然拟合：只学 8 个系数

要让上式可用，得知道 $\mu_j,\sigma_j$ 如何随画质 $q_i$ 变。作者假设最简单的线性关系： $$\mu_j(q_i)=a_j\cdot q_i+b_j,\quad \log\sigma_j^2(q_i)=\alpha_j\cdot q_i+\beta_j,\quad j\in\{0,1\}$$ （方差取对数线性以保正）。这样整个校准器只有 8 个系数 $(a_0,b_0,\alpha_0,\beta_0,a_1,b_1,\alpha_1,\beta_1)$，用极大似然在约 50% 的 AncesTree 数据上一次性估出，剩下一半留作评测。轻量到几乎不增加推理成本，且因为拟合关注的是"生成痕迹随画质的统计漂移"而非图像内容（数据集里真伪图语义对齐），所以在分布外的真实数据上也能迁移。

损失函数 / 训练策略¶

QuAD 本身不训练检测器，也不训练 IQA。唯一的"学习"是用极大似然策略在 AncesTree 开发集（约一半数据）上估计 8 个高斯系数；其余一半用于评测。检测器和 IQA 模块都是现成、冻结的，QuAD 作为一层即插即用的后处理校准/融合套在它们外面。

实验关键数据¶

主实验¶

评测指标为平衡准确率（balanced Accuracy，bAcc，越高越好）与负对数似然（NLL，越低越好，衡量置信度校准）。在 6 个 SOTA 检测器（DMID、CoDE、D3、B-Free、DRCT、CO-SPY）上对比多种聚合/排序基线。

AncesTree（受控在体数据集，六检测器平均）：

策略	用几张	bAcc↑	NLL↓
random（单张随机，实践常态）	1	70.7	0.97
naive（全部平均）	all	73.2	0.75
oracle L1（只用最高画质首层，理想上界）	L1	78.8	0.66
LoDa 排序取 top-10	10	77.6	0.66
QuAD（本文）	all	81.6	0.43

QuAD 不仅超过全体平均（+8.4 bAcc，NLL 0.75→0.43），还反超只能在受控环境下取到的 oracle 首层（78.8）。

ReWIND（真实病毒图，六检测器平均）：

策略	用几张	bAcc↑	NLL↓
naive（全部平均）	all	63.0	1.27
Date（按上传日期取最早，前人 [16] 思路）	1	67.3	1.29
LoDa top-10	10	66.0	1.13
QuAD（系数迁移自 AncesTree）	all	70.3	0.63
*QuAD（系数在 ReWIND 上 leave-one-out 重估）**	all	71.4	0.57

即使校准系数只在小规模、合成的 AncesTree 上拟合，迁移到完全未知劣化历史的真实病毒图上仍稳定领先（70.3 vs naive 63.0、Date 67.3），NLL 几乎腰斩。

消融实验¶

配置	bAcc↑	说明
QuAD + LoDa 校准	81.6	默认 IQA
QuAD + TReS 校准	81.5	换 IQA 几乎不变
QuAD + QCN 校准	81.4	换 IQA 几乎不变
按压缩质量因子(QF)排序 top-10	72.6	排序型基线，远逊于校准
按图像尺寸排序 top-20	71.1	最大尺寸≠最可信

关键发现¶

校准融合 > 硬排序选择：把全部版本校准后求和（81.6）明显优于任何"按某指标排序只取前 K 个"的策略，也优于受控环境才有的 oracle 首层（78.8）——证明丢弃信息（只选最优）不如按可信度软加权。
画质比尺寸/压缩因子更可靠：Fig.8 显示按图像尺寸、压缩质量因子排序都不可靠（最大的图可能是先重度处理再上采样的），而 IQA（尤其 LoDa）才是与可信度真正相关的排序量。
对 IQA 选择不敏感：LoDa/TReS/QCN 三种 IQA 给出的平均准确率 81.6/81.5/81.4 几乎一致，说明方法稳健性来自校准框架本身而非某个特定 IQA。
少量近重复也管用：Fig.8 右图显示，即便只能取回个位数的近重复，QuAD 仍优于朴素聚合，覆盖了"近重复稀少"的现实场景。
失败点：ReWIND 上唯独 CO-SPY 出现轻微下降，作者归因于 AncesTree 开发集不足以覆盖真实世界的全部劣化变异；在 ReWIND 上重估系数（QuAD*）即可进一步涨到 71.4。

亮点与洞察¶

把"该信哪张图"转成"按可信度加权所有图"：这是认知层面的转变——不再纠结于检索出最干净的原图（往往已不可得），而是承认所有版本都有用、只是可信度不同，用统计的方式连续加权。这种"软选择代替硬选择"的思路可迁移到任何"多来源证据可信度不均"的融合问题。
用可观测的画质做不可观测的可信度的代理：劣化历史不可知，但劣化结果（画质）可由现成 IQA 测出，且与检测器分布可分性强相关。这个"找一个可观测代理变量来校准黑盒分数"的范式很通用。
极致轻量、即插即用：整套校准只有 8 个线性系数、推理时零额外网络，套在任意冻结检测器外面就涨点，落地成本极低。
两个互补数据集填补空白：AncesTree（13.6 万张、退化树可控）用于大规模拟合分析，ReWIND（约 1 万张真实病毒近重复）用于贴近现实的评测——后者是首个从网上真实检索近重复版本的真伪混合数据集。

局限性 / 可改进方向¶

依赖近重复检索质量：作者承认整条链路建立在能检索到近重复之上；漏检、误检（把无关图当近重复）如何影响最终性能尚未系统分析，未来工作要研究过滤无关样本的策略。
高斯/线性假设较强：logit 条件分布建为高斯、均值方差对画质线性依赖，都是为可解可拟合做的简化；真实分布若严重偏离，校准会失准（CO-SPY 在 ReWIND 上的退化可能与此相关）。
条件独立与等先验假设：贝叶斯求和假设各近重复在标签下条件独立、真伪先验相等，实际网络转发链高度相关，作者也承认这"实践中不满足、只是让问题可解"。
未考虑对抗场景：恶意者可故意构造近重复来误导检测器，本文未涉及，列为未来方向；同时计划扩展到 AI 生成视频。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统处理"网络近重复多版本融合"的取证方法，把单图检测问题重构为可信度加权的多证据推理。
实验充分度: ⭐⭐⭐⭐⭐ 6 个 SOTA 检测器 × 多种排序基线 × 两个数据集（含 13.6 万合成 + 1 万真实），并验证对 IQA 选择不敏感、跨域迁移稳定。
写作质量: ⭐⭐⭐⭐ 动机层层递进、公式清晰，贝叶斯推导和高斯校准讲得透；图表略多需对照阅读。
价值: ⭐⭐⭐⭐⭐ 即插即用、零重训练就给现成检测器涨约 8 个点，直击事实核查/记者的真实痛点，且开源数据与代码。