跳转至

🔎 AIGC 检测

🔬 ICLR2026 · 30 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (10) · 💬 ACL2026 (17) · 🧪 ICML2026 (11) · 🤖 AAAI2026 (2) · 🧠 NeurIPS2025 (9) · 💬 ACL2025 (15)

🔥 高频主题: LLM ×5 · 对抗鲁棒 ×4 · 水印/隐写 ×2 · 扩散模型 ×2 · 推理 ×2

A Rich Knowledge Space for Scalable Deepfake Detection

这篇论文把 11 个深度伪造与真实人脸数据源整合成 360 万图像规模的 MMI-DD 数据集,并提出 SD2 用 CLIP 的层级视觉特征、细粒度伪造类型文本标签和 VLM 生成描述联合训练,使 deepfake 检测器在大规模异构数据上不再越训越退化,而是获得更强的跨域与 AIGC 泛化能力。

All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning

本文提出"所有 patch 都重要、用得越多越好(All Patches Matter, More Patches Better)"的检测原则,发现现有 AI 生成图像(AIGI)检测器存在"少数 patch 偏置(Few-Patch Bias)"——只盯着极少数 patch 做判断;据此设计 Panoptic Patch Learning(PPL)框架,用随机 patch 重建 + patch 级对比学习把判别能力摊平到全图所有 patch,在 GenImage、DRCT-2M、AIGCDetectBenchmark 和真实场景 Chameleon 上都把跨生成器泛化性和鲁棒性显著刷高(CLIP backbone 在 GenImage 上 mAcc 97.2%、std 仅 1.7)。

Attack-Resistant Watermarking for AIGC Image Forensics via Diffusion-based Semantic Deflection

本文提出 PAI——一个免训练、即插即用的扩散模型固有水印框架,通过"初始化嵌入 + 密钥引导的去噪轨迹偏转"把用户身份和图像内容深度语义纠缠,再用 DDIM 逆向得到的"初始化偏差"作为统一取证信号,一举支撑版权验证、攻击检测与语义级篡改定位三件事,在 12 种攻击下平均验证准确率达 98.43%,比 SOTA 高 37.25%。

Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection

这篇论文指出主流"度量法"机器生成文本(MGT)检测器的 token 级分数会被 LLM 采样随机性污染,于是用马尔可夫随机场(MRF)刻画"相邻 token 分数相似、句首 token 分数不稳定"这两条规律,再通过平均场近似把它实现成一个只有 2×2 参数、可直接叠在任意现有检测器上的轻量迭代组件,在几乎不增加开销的前提下把各类基线检测器的 AUROC 大幅拉高(如 DetectGPT 在 Essay 上从 44% 提到 92%)。

Calibrating Verbalized Confidence with Self-Generated Distractors

提出 DiNCo 方法,通过让 LLM 独立评估自动生成的干扰选项(合理但错误的替代答案)来暴露其"暗示性偏差",用干扰项上的总置信度进行归一化,并融合生成一致性与验证一致性两个互补维度,在短文本 QA 和长文本生成任务上显著改善置信度校准。

CLARC: C/C++ Benchmark for Robust Code Search

构建首个可编译的 C/C++ 代码检索基准 CLARC(6717 查询-代码对),自动化 pipeline 从 GitHub 提取代码并用 LLM+假设检验生成/验证查询;覆盖标准/匿名化/汇编/WebAssembly 四种检索场景,揭示现有代码嵌入模型过度依赖词汇特征(匿名化后 NDCG@10 从 0.89 降至 0.67)且在二进制级别检索上严重不足。

Data Provenance for Image Auto-Regressive Generation

不改动生成过程、也不需要水印,仅凭"图像自回归模型(IAR)生成的图像在码本量化空间留下的特征",本文用训练好的逆解码器 + QuantLoss/EncLoss 两个互补信号,对 VAR、RAR、LlamaGen、Infinity 等主流 IAR 实现近 100% TPR@1%FPR 的后验溯源检测。

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

通过 26 位专业作家对 8618 条表达的 close reading 标注,揭示 n-gram 新颖度不足以衡量文本创造力——约 91% 的高 n-gram 新颖表达并不被认为具有创造性,且开源 LLM 中高 n-gram 新颖度与低语用合理性负相关。

DMAP: A Distribution Map for Text

提出 DMAP(Distribution Map),一种将文本经由语言模型的 next-token 概率排序映射为 \([0,1]\) 区间上 i.i.d. 样本的数学框架,理论证明纯采样文本产生均匀分布,由此可用 \(\chi^2\) 检验验证生成参数、揭示概率曲率类检测器在纯采样下彻底失效的根本原因,并可视化后训练(SFT/RLHF)在下游模型中留下的统计指纹。

D&R: Recovery-based AI-Generated Text Detection via a Single Black-box LLM Call

D&R 把待测文本在标点切分的局部块内随机打乱(Within-Chunk Shuffling),只调用一次黑盒大模型去复原,然后测复原文本和原文的语义+结构相似度——AI 生成的文本更容易被"恢复"得几乎一模一样,人写的则更分散——用这个相似度差喂给轻量分类器即可判别,长文 AUROC 0.96、短文 0.87,且不需要概率访问、只花一次调用。

EditLens: Quantifying the Extent of AI Editing in Text

EditLens 不再把文本二分为"纯人写/纯 AI 生成",而是用轻量相似度指标(余弦距离、soft n-grams)作为中间监督,微调一个回归模型来连续地预测"这段文本被 AI 改了多少",在二分类(F1=95.6%)和三分类(macro-F1=90.4%)上都刷到 SOTA。

Enabling Your Forensic Detector Know How Well It Performs on Distorted Samples

提出 DACOM(失真感知置信度模型),让 AI 生成图像检测器能够输出样本级可信度分数,从而在失真严重时主动拒绝决策或将输入路由给更可靠的检测器,解决野外部署中检测器"哑巴式失败"问题。

Exploring Specular Reflection Inconsistency for Generalizable Face Forgery Detection

这篇论文从人脸成像的物理原理出发,指出 Phong 光照模型里的「镜面反射」分量参数最多、非线性最强、最难被伪造方法复刻,于是用 Retinex 纹理估计精确分离出镜面反射,再用两阶段跨注意力网络 SRI-Net 建模「镜面反射↔纹理↔直射光」三者之间的不一致,在传统 deepfake 和扩散生成 deepfake 上都拿到 SOTA。

FakeXplain: AI-Generated Image Detection via Human-Aligned Grounded Reasoning

通过构建带人工标注边界框与描述的 FakeXplained 数据集,并用 SFT + 渐进式 GRPO 微调 MLLM,让模型在检测 AI 生成图像的同时,给出"哪里假、为什么假"的空间接地、人类对齐的解释,做到 98.2% 检测准确率与 36.0% IoU。

HLD: Approximate Hierarchical Linguistic Distribution Modeling for LLM-Generated Text Detection

HLD 用 n-gram 在词、句法、语义三个语言学层级上分别估计人写文本(HWT)与机器文本(MGT)的分布,靠贝叶斯对数似然比把多层级差异喂给 XGBoost 做分类,既不依赖代理大模型逼近黑盒源模型的 token 分布,又比单层级方法更鲁棒,在 DetectRL 上刷到 SOTA。

HSIC Bottleneck for Cross-Generator and Domain-Incremental Synthetic Image Detection

针对合成图像检测器难以跨生成器泛化、又要随新生成范式不断扩展的问题,本文在 CLIP ViT 中间特征上加一个 HSIC 信息瓶颈损失,把"鉴真无关"的文图对齐语义压掉,并配套一个 HSIC 引导的回放采样策略 HGR,实现 diffusion↔GAN 互相迁移的同时增量适应 3DGS 渲染人脸。

Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review

构建了迄今最大的 AI 生成同行评审数据集(788,984 篇评审),系统评估了 18 种 AI 文本检测方法在同行评审场景下的表现,并提出了利用论文原文作为上下文的 Anchor 检测方法,在低误报率下大幅超越所有基线。

Learn-to-Distance: Distance Learning for Detecting LLM-Generated Text

本文用几何投影视角解释了"重写式"LLM 文本检测方法的有效性,并据此提出 L2D——不再用固定距离衡量原文与重写文本的差异,而是自适应地学习一个距离函数,在 100+ 个设定上相对最强 baseline 取得 41.5%~75.4% 的平均提升。

Learning From Dictionary: Enhancing Robustness of Machine-Generated Text Detection in Zero-Shot Language via Adversarial Training

针对机器生成文本(MGT)检测器在未见语言上鲁棒性骤降的问题,本文提出 TASTE 框架:用翻译词典对 MGT 做"码混(code-switching)"生成多语言对抗样本,配合一个梯度反转的语言判别器(LAAL 损失)逼检测器学习语言无关特征,仅靠单一语言标注 + 翻译词典就把零样本语言上的平均 F1 提到 0.773、平均攻击成功率压到 18.0%。

No Pixel Left Behind: A Detail-Preserving Architecture for Robust High-Resolution AI-Generated Image Detection

提出 HiDA-Net:用「全局缩略图 + 覆盖全图的原分辨率切片」双路输入,配合特征聚合、token 级伪造定位和 JPEG 质量因子估计三件套,做到"不漏掉任何一个像素",在高分辨率 AI 生成图像检测上大幅刷新 SOTA。

Omni-IML: Towards Unified Interpretable Image Manipulation Localization

本文提出 Omni-IML——第一个能用单个模型同时在自然图像、文档、人脸、场景文字四大篡改定位(IML)任务上达到 SOTA 的通用模型,靠"模态门控编码器 + 动态权重解码器 + 异常增强"三个样本自适应模块解决联合训练掉点问题,并配套构建 Omni-273k 数据集与可解释模块,用自然语言描述篡改痕迹。

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives

基于欧洲议会2009-2022年2225条高质量审议记录构建PoliCon基准,评估LLM在不同投票机制、权力结构和政治目标下起草共识决议的能力。结果显示前沿模型在简单多数任务表现尚可,但在2/3多数和安全议题上显著不足。

Preserving Forgery Artifacts: AI-Generated Video Detection at Native Scale

针对现有 AI 生成视频检测器普遍把输入帧缩放/裁剪到固定低分辨率(如 224×224)从而破坏关键伪造痕迹的问题,本文提出一套"原生尺度"检测框架——基于 Qwen2.5-VL 的视觉 Transformer 直接以任意原始分辨率和时长处理视频,并配套构建了覆盖 15 个生成器的 14 万级训练集和高真实度的 Magic Videos 评测基准,在多个 benchmark 上刷新 SOTA。

RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization

RelayFormer 把任意分辨率的图像/视频切成固定大小的子图,用一小撮 [GLR] 接力 token 在子图之间传递场景级的全局一致性线索,从而在不做插值、不堆全分辨率注意力的前提下,用同一套架构同时完成图像和视频的篡改区域定位,并在多个 benchmark 上拿到 SOTA 且 FLOPs 可随输入动态伸缩。

Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images

针对 AI 生成图像里那些"看着真、细想假"的语义级异常(违反物理、常识、解剖逻辑),本文把它形式化成一个"检测 + 解释 + 评分"的任务,用多智能体流水线 AnomAgent 加轻量人工校验造出 21.5K 图、十几万条结构化四元组标注的 AnomReason 基准,并提出语义匹配指标 SemAP/SemF1;在此微调出的 AnomReasonor-7B 在语义检测上超过所有开源 VLM、逼近 GPT-4o。

Spherical Watermark: Encryption-Free, Lossless Watermarking for Diffusion Models

本文提出 Spherical Watermark:一种免加密、无损的扩散模型水印框架,把二进制水印先经矩阵混合成高熵码、再通过"投影到单位球面 → 正交旋转 → 卡方半径缩放"精确还原成标准高斯噪声,作为扩散初始噪声注入图像;既不改模型权重、不存逐图密钥,又在保真度、溯源精度、计算效率和抗攻击鲁棒性上同时超过有损与无损基线。

Tell me Habibi, is it Real or Fake?

本文提出 ArEnAV——首个面向「阿拉伯语-英语句内语码转换(code-switching, CSW)」的大规模音视频深度伪造数据集(387k 视频、765+ 小时),用一条整合 4 个 TTS + 2 个唇形同步模型的生成流水线,把真实 YouTube 视频里说话内容做「内容驱动」的语义篡改,并系统证明现有 SOTA 检测/定位模型与人类在这种多语种、语码转换场景下几乎全部失效。

TSM-Bench: Detecting LLM-Generated Text in Real-World Wikipedia Editing Practices

作者指出现有机器生成文本(MGT)检测基准都用「写一篇关于机器学习的文章」这类自由生成的 prompt,而真实维基百科编辑其实是用 LLM 做摘要、续写、中立化改写这类受约束的任务特定生成——这种文本和人写文本更像,于是构建了覆盖 3 语言 / 4 任务 / 6 生成器 / 12 检测器、含 152,910 条平行文本的 TSM-Bench,证明所有 SOTA 检测器在任务特定数据上准确率比通用数据掉 10–40%,且存在「任务特定数据能泛化到通用数据、反之不行」的不对称。

Untraceable DeepFakes via Traceable Fingerprint Elimination

本文指出现有规避溯源的攻击都是"加性"的——只能遮挡却无法消除生成模型留在图像里的指纹,因而容易被对抗训练防住;作者转而提出"乘性攻击",用一个仅靠真实数据训练的对抗网络把指纹从根上抹掉,在 12 个生成模型、6 个溯源模型上取得 97.08% 的平均攻击成功率(ASR),即使面对防御仍超过 72.39%。

Unveiling Perceptual Artifacts: A Fine-Grained Benchmark for Interpretable AI-Generated Image Detection

针对现有 AI 生成图(AIGI)检测器只会输出"真/假"二分类、给不出依据的问题,本文构建了带像素级、三层七类伪影标注的成对真假图基准 X-AIGD,系统诊断出现有检测器"几乎不看感知伪影",并提出把分类注意力显式对齐到伪影区域的训练方法,在跨数据集泛化上明显涨点。